TOPNetwork > 飛躍的に進化する自然言語処理について知る(上)

Network

飛躍的に進化する自然言語処理について知る(上)

2019/06/17

Martin Heller InfoWorld

 そのわけは、綴りの問題を例にとって説明すると分かりやすいかもしれない。スペイン語のような言語では、綴りは実に簡単で一定のルールに則っている。一方、英語圏ではない人が英語を学習すると、変則的な綴りや発音が多いことに気がつくだろう。例外だらけのルールを記述しなければならないとすると、小学校で教わる綴りの法則の覚え方「I before E except after C, or when sounding like A as in neighbor or weigh.(IはEの前、ただしCの後やエイと発音するときは除く)」のようなプログラムになってしまう。ちなみに「I before E」ルールはほとんどルールになっていないことが、言語学者Edward Carney氏によって指摘されている。Carney氏によると、この綴りの法則に当てはまる確率は4分の3で、言い換えれば4分の1もの例外が存在する。

 自然言語処理のコミュニティーは、1980年代後半から1990年代初頭にかけて、ルールを人手で定義することに見切りを付け、統計的推論と機械学習モデルを利用するようになった。多数のモデルと技法が試されたが、初期の限定的な利用から一般向けに拡大する中で、ほとんどのモデルと技法が消えていった。比較的うまくいったわずかな手法が、複数の分野に導入された。例えば、隠れマルコフモデルは、1970年代に音声認識に利用されると、その後、生命情報分野に採用され、特に1980年代から1990年代にタンパク質やDNA配列の解析に使われるようになった。

 フレーズベースの統計的機械翻訳モデルは、依然として言語の組合せごとに微調整する必要があり、また、教師あり学習のトレーニングに使用するコーパス(対訳データ)の質と量が翻訳の精度に大きく影響した。フランス語と英語の翻訳に関しては、1867年より英仏併記が定められているカナダ連邦議会の議事録が、教師あり学習に計り知れない成果をもたらし、貴重なコーパスとして現在に至る。欧州連合(EU)の議会議事録も多数の言語に対応しているが、カナダの議会議事録より年数が浅い。

翻訳:鈴木英子=ニューズフロント

↑ページ先頭へ