ヨーロッパ言語とGoogle翻訳(その1)

ディープラーニング

今から4か月ほど前(2017年2月)になりますが、東京大学大学院、松尾豊先生の「人工知能の未来 ~ディープラーニングの先にあるもの~」という講演を聞きました。まずはそこでお聞きした話をご紹介させていただきます。

「地球上における生命の誕生は約38億年前だが、今から5億年ほど前に初めて眼を持つ生物が現れた。

それまでは、たまたまぶつかった生物同士が食い合いどちらかが勝ち残っていた。しかし、最初に眼を持った三葉虫という生物は当然他より強くなり、勝ち残っていった。そのうち食われる側も眼をもつ生物だけが生き残り、持たない生物は死に絶えていった。これにより眼を持つ生物の繁栄が始まった。

生物が眼を持つまでに33億年もの時間を費やしたが、眼を持ってからの5億年で生物は急速に進化を遂げることになる。

これとまったく同じことが現在、AIの世界で起きようとしている。その一つの表れが「Googleの猫」の話だ。

AIに何の情報も与えずに「ネコ」「イヌ」「オオカミ」の写真の中から「ネコの写真がどれかを選べ」と命ずる。

するとAIは、ビッグデータからネコの特徴を拾い、耳が垂れている動物の写真はイヌであり、ネコではないと判断する。

しかし、隣のオオカミの耳は、ネコにように立っている。人間はこればオオカミの顔であり、ネコではないとすぐにわかるわけだが、機械にそのような常識はない。

そこでAIは、さらにビッグデータの中から「ネコは目が丸い」「オオカミは目が細い」という特徴を拾い、結局左の写真がネコであると特定する。

このように「ディープラーニング革命」により、コンピュータができて以来、初めて「画像を認識」できるようになった。

それにより「運動の習熟」が始まり、ロボットや機械がより熟練した動きができるようになる。

それにより映像と文章の相互変換ができるようなり、「言語の意味の理解」がより深くできるようになる。

今後、ディープラーニングにより「眼を持った機械」が次々と誕生し、産業を変えていく可能性が高い。また、機械翻訳もこれから5年も経たぬうちにかなり急速に進歩していくだろう。」

ざっとこのような話であったと思います。

ヨーロッパ言語における語彙間の距離

さて、次にヨーロッパ言語における語彙間の距離、つまり語彙の違いの度合いを示した図をご紹介させていただきます。

(出典:Lexical Distance Among the Languages of Europe
この図の元の研究データは、K. Tyshchenko(1999)、Metatheory of Linguisticsのもので、ウクライナ語で公開されています。

それではこれから何回かに分けて、さまざまなヨーロッパ言語から英語および日本語への翻訳を「Google翻訳」を使って試してみようと思います。

なぜヨーロッパ言語なのかというと、「極東」に位置する日本と「極西」に位置する英国は世界で最も離れた言語を持つ国だと私は考えているので、まずは英語と近い存在にあるヨーロッパ諸語から試してみようと思うからです。

その際、ドイツ語、フランス語、スペイン語、ポルトガル語、イタリア語、ロシア語などのいわゆるヨーロッパの主要言語と英語との間では、すでにかなりな量のコーパスが蓄積されているだろうとの観測から、ここでは比較的マイナーなヨーロッパ言語に絞って試してみようと思います。

さて、まずは英語が属する「ゲルマン語派」の言語、スウェーデン語、デンマーク語、ノルウェー語の3言語を「Google翻訳」にかけてみたいと思います。


ゲルマン語派
<スウェーデン語 原文>
Kan ni bära väskorna till rummet?
(人間訳)
荷物を部屋まで運んでもらえますか?
(Google訳 日本語)
あなたは部屋に荷物を運ぶことができますか?
(Google訳 英語)
Can you carry the bags to the room?


<デンマーク語 原文>
Jeg har boet i Købenahvn siden sidste år.
(人間訳)
私は去年からコペンハーゲンに住んでいます。
(Google訳 日本語)
私は去年からコペンハーゲンに住んでいます。
(Google訳 英語)
I have lived in Copenhagen since last year.


<ノルウェー語 原文>
Jeg kan ikke snakke norsk godt.
(人間訳)
私はうまくノルウェー語を話せません。
(Google訳 日本語)
私はノルウェーをよく話すことはできません
(Google訳 英語)
I can not speak Norwegian well.


それぞれ簡単な文章であるとはいえ、英語はゲルマン語派に属する言語なので、同じゲルマン語派に属するこれらの3言語を英語にGoogle翻訳すると正しいもしくはちゃんと意味の通じる文章に訳しています。

日本語への翻訳に関して言えば、デンマーク語は正しく訳されています。ノルウェー語は「ノルウェー」を「ノルウェー語」に変えなければいけませんが、ほぼ問題ないでしょう。スウェーデン語は、話者の意図するところは十分わかってもらえるでしょう。

(この項続く)