2012年4月18日水曜日

機械翻訳と茶色抜きのm&m's

昨日の続き。用語集がないことは、いったい何が問題なのか?

単に翻訳がし辛い(人間が訳すにしても、色々な固有名は難しい)というのはありますが、定訳の用語集がないということは、ウェブに掲載された情報と、実際のイベント会場やその周辺とで、同じものに対して異なる名前がつけられる可能性があるということです。

今回問題になったのはウェブの翻訳でしたが、これはお客さんを集めてくる導線の一つです。言ってみれば、ウェブの情報を見た人をどのように現場に連れてくるかという設計が抜け落ちているということですね。本当の問題はこちらで、機械翻訳をそのまま使ってしまったというのは、あくまで表に出てきた問題の一部に過ぎません。

用語集一つで大げさでしょうか。ヴァン・ヘイレンがライブハウスと締結した契約書の付帯事項には、「茶色の粒を抜いたm&m'sを準備すること」を要求する文言が入っていました。



ステージセットが巨大化し電力や安全面での配慮が不可欠となっており、契約書が長大なものになっていたため、きちんと全文読み込まれて対策がなされているかのチェックポイントとして使用されていたということです。そして、この一見つまらない項目が守られていないようなら、全面的に再点検をさせる。そうすると、どこかで問題が発見されたそうあ。もう少し詳しい話は、ここ(リンク)とか英文wikipedia(リンク)などで。

翻訳に戻ると、しばしば巨大なスタイルガイドを運用しているクライアントに遭遇することがあります。「本当に全部守るんですか」と尋ねると、「重要なポイント以外は全てをきちんと守る必要はない」という回答が来ることが経験的には多かったです。恐らくこれは茶色のm&m'sとして機能することを期待しているのではないかと思います。本当に全部守れという場合もありましたが。

「重要なポイント」がどこか分かるようなら信頼に足るし、そうでなければ要注意。分かりやすいですね。腕の良い翻訳者の方は、大抵はスタイルもいい具合に合わせてきます。とりわけ多言語プロジェクト回す際に、スタイルを守れているかという点は、茶色のm&m'sだと考えています。

この点は、機械翻訳の運用について考える際にも重要な点です。

機械翻訳があまり使えないというのに、何でGoogleを始めとした企業が開発と導入を進めてきたのかといえば、文法構造が近い言語同士では、それなりのアウトプット(読んで内容を把握できる程度の)ができるようになったからです。

従来の辞書と文法をベースとした機械翻訳(RbMT)とは別に、膨大な量の対訳集(正解の訳例)を統計的に解析して結果に反映する方式の機械翻訳(SMT)が、コンピュータの処理能力の向上とともに品質を上げてきました。

技術的に細かな点は割愛して、SMTの特徴はRbMTと比べて自然に読める文章が出力されるというものです。これはこれで進歩ですし、良いのですが、茶色のm&m'sの観点からすると、人間が読んだときに自然な文章が出力されている分、内容にマズいところがあるのではないかというセンサーが働かなくなる可能性があります(蛇足ながら、これはわたしが美文家を信用していない理由でもあったりします)。

過激派からは、人間の感覚を鈍らせるような機械じゃ補助にならないから捨てちまえ、というようなセリフが聞こえてくるような気がします。この点については、恐らくポストエディットが広まるうちに問題となってくると思うのですが、茶色いm&m'sはあるのでしょうかね。プロマネ視点ではそこが気になります。

0 件のコメント:

コメントを投稿