ゆずみそ手帖: 機械翻訳とハワイの雨

ニューヨーク・タイムズの今月初めに掲載された「Is Translation an Art or a Math Problem?（翻訳は芸術か数理問題か？）」という記事が、翻訳者のフォーラムでも話題になってました。

この記事によると、機械翻訳の始まりは、アメリカの諜報部の科学者が第二次大戦中のチューリングマシンによるエニグマコード解読について知り、ロシア語の論文を同じように機械で翻訳できないか、と思いついたのが最初なんだそうです。
ロシア語で書かれた文書が「キリル文字で暗号化された英語の文書なんだ！」という発想に立ったのだと。

しかし1950年代のコンピュータは非力すぎ、処理できる情報量が少なすぎたためにそんな「解読」には歯が立たなかった。

機械による翻訳を使いものになるレベルで実用化するには、その言語のコンテクストを判断できる専門家が必要、というのが常識だった時代が30年ほど続いた。

そして、1988年、IBMの音声認識技術の研究者が編み出した全く新しいアプローチが、原文の言葉の「意味」を「考える」のではなく、大量の原文と訳文のデータの中から「似たもの」を拾いだしてくるという方法。
現在のグーグル翻訳もスカイプ翻訳もこの延長にあるもの。

…という背景と、現在の人間翻訳者と機械翻訳研究者の見解を少しずつ紹介してます。

More than once I heard someone at the marathon refer to the fact that human translators are finicky and inconsistent and prone to complaint. Quality control is impossible. As one attendee explained to me, “If you show a translator an unidentified version of his own translation of a text from a year ago, he’ll look it over and tell you it’s terrible.”
＜「機械翻訳マラソン」（5月に開催された1週間のハッカソン）では、参加者が人間の翻訳者は気むずかしくて一貫性がない、と言っているのを一度ならず耳にした。人間の翻訳では品質管理は不可能に近いというのだ。ある参加者はこんなことを言っていた。

「翻訳者に、誰のものだかを隠してその人が1年前に翻訳した訳文を見せたら、こりゃひどい訳文だっていうに違いないよ」＞

翻訳に「正解」はない。だってその証拠に英語版の『ドン・キホーテ』は20種類もある。一人の翻訳者だって迷うのに、正確さを問題にして何になるだろうか、としたあとで、この記事の著者は、しかし、少なくとも人間翻訳者は「この文章の目的はなに？」と尋ねるだろう、と書いています。
「正解」の訳だけを探す機械にとっては、誰が何の目的で書いたかなどという問題はまったく意味のないこと。

The problem is that all texts have some purpose in mind, and what a good human translator does is pay attention to how the means serve the end — how the “style” exists in relationship to “the gist.” The oddity is that belief in the existence of an isolated “gist” often obscures the interests at the heart of translation.

＜問題は、すべてのテクストはそもそも目的を持って書かれているということだ。優れた翻訳者なら、手段が目的をどう達成するか、つまりその「スタイル」がその「要旨」とのどのような関連において必要なのか、ということに注意を払うものだ。＞

…と、この記事は結んでいます。

スタイルと要旨が関連しているのは当然で、だって言語は文化そのものだから、常に時代と場所と読む人、書く人によって揺らぎが出るものです。

本来、文学作品であればその「スタイル」と「要旨」は、分かちがたくからみあっているものです。

血を流すことなく内臓を取り出すことができないのと同様、文学作品から「要旨」だけを取り出したら、それはオリジナルとはまったく別の存在になってしまう。

文学作品の翻訳に訳した人のフィルターがかかるのは当然です。

同じ日本語内でだって、たとえば『源氏物語』の現代語訳がこんなにたくさんあるのはなぜかってことになる。正解があったら谷崎潤一郎だって3度も源氏物語を「翻訳」し直してない。

「スタイル」の方でいうと、たとえば広告や広報の文章やメディアの文章では、それぞれの企業やターゲット顧客や読者層によって語りかけるスタイルが違う。たとえば「日刊ゲンダイ」と「東洋経済」と「暮らしの手帖」と「CanCam」ではそれぞれの読者に合わせた異なる言葉の体系を持っています。

いってみれば、そのテクストを読む人びとが期待する場の「空気を読む」というのがスタイルの決定には必要。そしてその空気を読むには、そこで共有されている体験を漠然とでも理解していなければなりません。

書き手が出したい雰囲気と読み手が期待する形にはある程度の「正解ゾーン」があって、それをはみ出すと妙に居心地が悪くなって意味そのものが伝わらない。
重要なのは、「正解ゾーン」は読み手と書き手の期待が作るということです。

一対一の正解はないけど、常に時代や場所やいろいろな要素により揺れ動く正解ゾーンは確かにあるので、それをうまくたぐりよせるのが（人間）翻訳者の仕事。

人間翻訳者は、原文の「要旨」と「スタイル」をこれまでの経験という膨大な情報をもとに、ほとんど直感で理解しながら読み、それをまた経験をもとに、期待されるスタイルに直感的に当てはめていくわけですが、その理解に必要な情報量と処理プロセスがそっくり機械に置き換えられる日が、いつの日かやって来るのは間違いないのでしょう。

グーグル翻訳はたしかに現在の段階では人にとってかわるほどの技量は全然なくて、このニューヨーク・タイムスの記事へのコメントでも「役に立たないよ」みたいな発言が多かったけれど、グーグルやマイクロソフトが参照する訳文・原文ペアのデータが恐ろしい量で増え続け、それと同時に人工知能の学ぶ機能が飛躍していくのは目にみえているので、たぶん私が生きているうちにかなり精度の高い翻訳マシンが完成するだろうなと思います。

大量データの中から「意味を考えず似たものを拾ってくる」というのが現行の機械による翻訳だけれど、そのうち大量のデータから「コンテクストを拾う」「意味を理解する」ということも出来るようになることでしょう。

というか人間の思考プロセスも、細分化していけば「似たものに気づく」という単位の集積なのではないでしょうか。

人間の持つ直感的な理解というのが、何と何が関連しているか、ということの細かな積み重ねだとしたら、情報量が膨大で有機的にからみあっているからまだ機械で再現はできないけれど、いつかきっと解析または模倣されるに違いないわけで、その解析が可能になる日というのはつまり機械が「直感」といえるような思考プロセスを持つ日の一歩手前。

人工知能に言語の抽象的な思考力が備わる日には、スタイルを理解でき選べる翻訳マシンも可能となる、てことですよね。逆にそれまでは出来ないってことでもあるけど。

それで思うのだけど、完全に翻訳可能な文章、ほかの言語で置き換え可能な文章というのは、背景が画一的ってことなんですね。

たとえば、ジャワ島の密林に住む部族の先祖の言い伝えを現代英語にしたら、そのニュアンスや感情や意味合いはほとんど失われてしまう。

ハワイ語には雨の名前だけで何十種類もあるというのは良く言われることです。

きわめて予測しやすい、安定したマイクロ天候が多いハワイという土地では、たとえば「マノアの谷のこのへんに降る雨」というような、局地的な雨の名前がとても多いのだそうです。
（ハワイ大学の人が作った雨の名前リストがありました）

そういう雨を実際に肌に感じたことのない人の言葉に翻訳すれば、そこにある経験は決定的に失われて、もっと抽象的なものになる。

古代ハワイの人たちは「その場所に降る雨」を現代の私たちとはまったく違う受け取り方で感じ、見ていたのだと思います。

日本語だって、雨の名前はアメリカ英語よりずっと多いですよね。
こぬか雨、卯の花腐し、夕立、時雨。

『歳時記』にある言葉の多くは、もう解説なしじゃ現代の日本人には理解できなくなっている、立派な「死語」になっちゃってます。
「端居」とか「水飯」「振舞水」なんて、今じゃさっぱりわかりませんが、その時代の人には聞いただけで一定の情景と情緒を呼び起こす、きわめて喚起力の高い言葉だったわけです。

言葉は共通の体験に基づいたもので、情緒と論理がいっしょくたになっています。
きっとその両方のコンテクストの理解が、アートなんでしょう。

コンピュータのマニュアルやフランチャイズ店の経営方法や法律体系ならその多くが損なわれずに翻訳できるのは、それが資本主義社会とか技術とか司法という抽象世界への共通の理解と認識を前提としているからです。

これは今では当然のようだけど、考えてみれば、200年前には離れた地域に住む人がこれほど容易に相互の考えを理解し合えることはなかった。文化はもっとずっと多彩で多様で排他的で互いに相いれなかった。
「文明開化」が文化の中にブルドーザーのように平坦な場所を作って、共有の「文明」というコンテクスト、経済と科学技術のコンテクストができたから、翻訳可能な部分が広がってきた。
文明開化は同調圧力であって、それは今も進行中で、やっぱり文化はどうしようもなく全世界的にフラットになっていくしかないんだなあ、とあらためて思ってしまいました。

現時点のグーグル翻訳ですんなり通じる話は、フラットなのです、きっと。

「翻訳は数理問題かアートか」という問題の正解は「内容により、読み手により、どちらでもある」です。

その文章がどの程度のコンテクストを背後に持っているか
読み手と書き手がどの程度コンテクストを共有しているか

により、コンテクストが多ければ多いほど表に出てない情報（コンテクスト理解）を必要とし、スタイル解読と選んだスタイルでの表現という「複雑」な作業を要する「アート」の域に近くなる。

コンテクストが少なければ、またはコンテクストが両側で共有されていれば、考慮する必要のある情報量は減るから、より単純な作業になる。

「算数かアートか」というのは、結局のところ処理している情報量の差ではないのだろうか、という気がします。短い単純な数式なのか、高次な複雑な数式なのか。

そしてこれから発展してくる人工知能は、人々の記憶をもとにどんどん高次で複雑な翻訳をすることになる。

もう10年近く前になるのか、翻訳者のフォーラムで機械翻訳についてのトピックがあり、「私たちの仕事が機械翻訳にとって替わられる日には、ほかの多くの職業も同じ運命になっているはず」と、いささか楽観的な書き方で多くの人が納得していたのを思い出しますが、それが本当に現実として迫ってきた。カウントダウンになってきたなという感じがします。

あと20年くらいは人力翻訳が必要な時代が続いてほしいなと思うのは、楽観的すぎるのかもしれません。

「人工知能に奪われる仕事は何か」というような記事を毎日のように目にするようになりました。弁護士や医師といった仕事もそのうち置き換わるだろう、その前に中間管理職が大量に不要になるだろうといわれてます。

意外に思っているよりも早く、まずはセグメント化された高度な専門領域から、かなり精度の高い機械翻訳が完成しそうな気がします。

ゆずみそ手帖

2015/06/21

機械翻訳とハワイの雨

0 件のコメント:

コメントを投稿

フォロワー