2012年4月18日水曜日

機械翻訳と茶色抜きのm&m's

昨日の続き。用語集がないことは、いったい何が問題なのか?

単に翻訳がし辛い(人間が訳すにしても、色々な固有名は難しい)というのはありますが、定訳の用語集がないということは、ウェブに掲載された情報と、実際のイベント会場やその周辺とで、同じものに対して異なる名前がつけられる可能性があるということです。

今回問題になったのはウェブの翻訳でしたが、これはお客さんを集めてくる導線の一つです。言ってみれば、ウェブの情報を見た人をどのように現場に連れてくるかという設計が抜け落ちているということですね。本当の問題はこちらで、機械翻訳をそのまま使ってしまったというのは、あくまで表に出てきた問題の一部に過ぎません。

用語集一つで大げさでしょうか。ヴァン・ヘイレンがライブハウスと締結した契約書の付帯事項には、「茶色の粒を抜いたm&m'sを準備すること」を要求する文言が入っていました。



ステージセットが巨大化し電力や安全面での配慮が不可欠となっており、契約書が長大なものになっていたため、きちんと全文読み込まれて対策がなされているかのチェックポイントとして使用されていたということです。そして、この一見つまらない項目が守られていないようなら、全面的に再点検をさせる。そうすると、どこかで問題が発見されたそうあ。もう少し詳しい話は、ここ(リンク)とか英文wikipedia(リンク)などで。

翻訳に戻ると、しばしば巨大なスタイルガイドを運用しているクライアントに遭遇することがあります。「本当に全部守るんですか」と尋ねると、「重要なポイント以外は全てをきちんと守る必要はない」という回答が来ることが経験的には多かったです。恐らくこれは茶色のm&m'sとして機能することを期待しているのではないかと思います。本当に全部守れという場合もありましたが。

「重要なポイント」がどこか分かるようなら信頼に足るし、そうでなければ要注意。分かりやすいですね。腕の良い翻訳者の方は、大抵はスタイルもいい具合に合わせてきます。とりわけ多言語プロジェクト回す際に、スタイルを守れているかという点は、茶色のm&m'sだと考えています。

この点は、機械翻訳の運用について考える際にも重要な点です。

機械翻訳があまり使えないというのに、何でGoogleを始めとした企業が開発と導入を進めてきたのかといえば、文法構造が近い言語同士では、それなりのアウトプット(読んで内容を把握できる程度の)ができるようになったからです。

従来の辞書と文法をベースとした機械翻訳(RbMT)とは別に、膨大な量の対訳集(正解の訳例)を統計的に解析して結果に反映する方式の機械翻訳(SMT)が、コンピュータの処理能力の向上とともに品質を上げてきました。

技術的に細かな点は割愛して、SMTの特徴はRbMTと比べて自然に読める文章が出力されるというものです。これはこれで進歩ですし、良いのですが、茶色のm&m'sの観点からすると、人間が読んだときに自然な文章が出力されている分、内容にマズいところがあるのではないかというセンサーが働かなくなる可能性があります(蛇足ながら、これはわたしが美文家を信用していない理由でもあったりします)。

過激派からは、人間の感覚を鈍らせるような機械じゃ補助にならないから捨てちまえ、というようなセリフが聞こえてくるような気がします。この点については、恐らくポストエディットが広まるうちに問題となってくると思うのですが、茶色いm&m'sはあるのでしょうかね。プロマネ視点ではそこが気になります。

2012年4月17日火曜日

機械翻訳、言語空間、翻訳のコモディティ化

こういうニュースがありました。

秋田→飽きた ナマハゲ→はげ頭病 「機械翻訳で…」誤訳多数 観光庁が東北観光博サイト閉鎖


ビジネス倫理的な部分で話にならないのは確かですが、ここに出てくる「IT企業」が観光庁に対して何を納品する契約になっていたのか。高品質の翻訳なのか、それとも自動翻訳機能のついた多言語ウェブサイト(あるいはシステム)なのかによって、話は違ってきます。わざわざこんな退屈なことを書いたのは、ここに出てくる「IT企業」と翻訳者では扱っている商材が異なるから。

そもそも、機械翻訳という言葉の理解が、業界内でもバラツキがあるというのが現状かと思います。こうした状況で外部に対して「正しい理解」を求めるのは難しいです。

で、機械翻訳の意味とはといえば、世の中的には人間の行なっている翻訳作業を代替する技術と理解されていると思います。業界内では、人間の行なっている翻訳作業の一部を代替する技術という認識が広まってきていると思います。

現在注目されている手法は、機械翻訳のアウトプットの結果を人間が修正して仕上げていくものです。言い方を変えると、機械と一緒に翻訳をしていく、あるいは機械翻訳の結果をインターリンガとして用いるという方法です。この場合の機械翻訳は、ひとつの技術というよりは、手技と機械の混成体です。
※そんなわけで、機械翻訳という名前自体が、誤解の元になりつつあるというのが現状です。それが有効となる文脈外で使われた結果でもって、「機械翻訳なんて使えないや」というのは、開発者の方にとっても不幸な結果を招きますし、将来役立てることのできる可能性を狭めてしまうので、どんなものかなと思います。しかし別の言葉がないものかと思うのですが、無いのですね。上述の、人間が修正して仕上げる工程はポストエディット(事後編集)と呼ばれていますが、これもまたより適切な名前が見つけられるべき言葉だと思います。
なぜそうなるかは、翻訳という行為の定義にも関わってくるところです。ある言語の情報を他の言語に移し替える際には、単語の用法や文法などのある程度定まった諸規則の他に、時代や文脈とともに変化する言葉や文体の流行り廃り、それらの選択基準を考慮する必要があります。

これらの総体を、プログラミングでいう名前空間のようなイメージで、とりあえず言語空間と呼びましょうか。ともかく、最終的にターゲット言語空間の「どこ」に落としこむかの判断は人間にしかできません。完全な機械翻訳は、今のところ存在しません。そういう人工知能でも開発できれば別でしょうが。

この探索を行う空間の広さ(狭さ)が翻訳の鍵であり、読み手にとっての解釈の余地の問題です。クリエイティブな文章というのはこの探索する空間が広い、あるいは空間そのものを拡張しているものだと思います。一方で、産業翻訳では文書の構造と、文節内での用語の定義やスタイルを決めることにより、探索する空間を限定しようとしています。ここまで来れば見当がつくと思いますが、機械翻訳がどのような内容のものに適しているのかといえば、この言語空間が限定されたものです。

問題になった東北の件などは、「秋田→あきた」という言い替えに特徴的なように、解釈の余地が広がる表現を用いているので、当然ながらブレが出やすいです。人間なら「あきたは秋田の書き下し」であると文脈から推察できますが、機械にはできません。担当した会社は用語集(というよりは定訳集でしょうね)を請求したのもこうした背景あってのことです。とはいえ、往々にしてこういう場合に用語集、無いものです。わたしもよく砂を噛みました。(これについては、こちらで)

個人的には、ここで述べているようなテクニカルな点を除いても、いずれどこかでこうした問題は起きるだろうなあと思っていました。短納期や低単価の案件に限らず、明らかに機械翻訳を使った成果物に出会ったことが何度もあり、チェックが甘ければ流出する可能性は十分にありました。

そもそも、翻訳は買い手が納品物に対する評価を適切にできない可能性が出てくることから(特に多言語を扱っている場合には)、レモン市場になりやすい特徴を持っています。全体としてそうなっていないのは、翻訳者をはじめとした関係者の職業倫理で支えられている部分が大きいと思います。ただ、それも色々な要因で崩れやすくなっていますし、そもそもが全員に期待するべきものでもありません。

とはいえ、それを嘆いていてもしょうがない。個人的には、翻訳(特に産業翻訳)はコモディティになりつつあるのだと思っています。その上で、市場の動きとしては、コモディティに対してはそれがもたらす機会よりもリスクに敏感になるものですので、ビジネスとしてやっていく上ではそこが鍵になるのだろうと思います。

2012年4月15日日曜日

TAUS Tokyo Exective Forumによせて

4/19-20と、TAUS Tokyo Executive Forumが開催されます(リンク)。

TAUSそのものは、Translation Automation User Societyの頭字をとっています。その名の通り、自動翻訳の活用や普及の促進をテーマとした組織です。この自動翻訳という表現は若干トリッキーなので注意が必要なのですが、似たような意味で使われている言葉として、機械翻訳があります。

TAUSはあくまで自動翻訳がメインで、機械翻訳ではありません。ここでの自動化と機械化の差とはなんでしょうか。わたしの考えでは、機械翻訳が人間の行なっている翻訳作業の一部を代替する技術であるのに対し、自動翻訳とは翻訳の前後の工程を含めたローカリゼーション工程全体の自動化するシステムです。(これらについては、もう少し詳しい話を別記事にする予定です)

この違いは、TAUSのウェブサイトにも掲載されている下記のロードマップにも表れています。MTの後ろにTranslation Automationがきていますね。


さて、TAUSには色々や個人が参加しており、大別すると下記の4つになると思います。
  • 翻訳発注を行う企業
  • 翻訳を受注する企業(翻訳会社)
  • 翻訳者
  • 機械翻訳の研究者
わたしの所属はこのうち2番目の翻訳会社です。それぞれに自動翻訳や機械翻訳に期待しているや関心を寄せている点は異なりますが、わたしの関心はといえば、機械翻訳や自動翻訳は破壊的技術となり得るのか、という点に集約されます。儲かるかどうかはひとまず棚上げしています。

機械翻訳について言えば、コールセンターにとってブラック・スワンとして機能した実績があります。具体的にはヘルプ情報をオンラインで提供している企業の例となりますが、そこではヘルプの情報が原語(英語)のドキュメントを機械翻訳で各国語訳したものと、そのなかで問い合わせの多いものについて人間が修正を行ったものが提供されています。そして、いつでも原語のリンク先に飛んでいけます。

これがもたらした結果は、コールセンターへの問い合わせの減少でした。10%単位で減ったと聞いています。当然ながらコールセンターの縮小に繋がりました。コールセンターの運営を請けていた会社にとっては青天の霹靂だったのではないかと思います。

コールセンターの事例は、翻訳の価値やROIを考える上で重要な例となります。ヘルプ情報に機械翻訳を使ったきっかけは、全ての情報を人力で翻訳している時間も費用も無かったのだと思いますが、結果としてコールセンターの費用という軸が加わったことで、"人力翻訳vs機械翻訳"の前に"ヘルプによる情報提供vsコールセンターによる情報提供"に土俵が変わりました。場合によっては、ここに”CGM的メディアによるユーザ同士での情報交換”が加わるかも知れません。

こうしたことは、ミクロの技術的な詳細からマクロな市場の話まで、俯瞰しながら行ったり来たりしないと考えがなかなか深まりません。GALAにせよ、今は亡きLISAにせよ、この手のカンファレンスが日本で開催されることはあまりないので、とてもありがたい機会です。