読者です 読者をやめる 読者になる 読者になる

文脈解析

文という単位で構造や意味を考え、解析をすることは世の中にプロダクトが出るまで発展を遂げてきた。一方で、文章単位で情報や意図を読み解くことは、われわれが通常何気なく行っていることである。この文章に対する解析はどのように行われるのだろうか。

結束性と一貫性

文脈という言葉は、端的にいうと文と文のつながり具合を指す言葉だ。本来的につながりを持ち、そのつながりは結束性と一貫性という2つの視点でとらえることができる。

・結束性:同じ、または関連する物事が文章に繰り返し出現することによるつながり

・一貫性:文章中の文や説が背景や根拠、例示など様々な意味関係を持ち整合していること

具体例でみると次の3つの例の通りだ。

①太郎は喉が渇いた。明日は建国記念日だ。

②太郎は喉が渇いた。そのため、太郎は水を飲んだ。

③太郎は喉が渇いた。彼は水を飲んだ。

上記を見ると明らかだが、①は結束性も一貫性もない。②は結束性と一貫性があり、それが同一の名詞や接続表現で明示されている。コンピュータが見ても十分に解析できるだろう。

③はどうだろう。結束性のつながりはあるのだが、同一の表現は省略され、代名詞や省略が用いられている。一貫性も同様に、冗長な接続表現がない、できるだけ簡潔な表現が行われる。

よって、このような場合に代名詞が何を指すか、何が省略されているか、文間にどのような関係が存在するかを明らかにしなければならない。このコンピュータ処理を文脈解析という。

照応・ゼロ照応解析

照応解析

上記③の「太郎」と「彼」のように、文章中の2つの表現が同一の物事を指し示す現象を共参照という。一方で、「彼」という代名詞は、その解釈のために他の表現を参照する必要がある。これを照応関係といい、「彼」を照応詞という。さらに、

④太郎は喉が渇いた。水を飲んだ。

という表現もあるだろう。これは照応詞自体が省略されており、この代名詞がほかの表現を参照することをゼロ照応という。日本語は特に省略した間接的な表現が多く、コンピュータ処理の観点からは難しい問題である。

さて、照応詞が「彼」であれば、先行詞は男性・単数であるという手がかりがある。「それ」の場合も、その述語との関係から、「それを食べた」であれば「食べる」のヲ格になりやすいものが先行詞であろうと推測できる。これらの手がかりがないときは、照応詞と先行詞候補との距離(何文/何語離れているか)や、構造的関係が手がかりとなる。例えば、照応詞の全文にあって、副助詞「は」を伴う名詞句は先行詞になりやすいなどの関係である。

これらは、形態素解析、構文解析と同様に、どのような手がかりをどのように統合するかという問題であり、注釈付与コーパスに基づく教師有学習で取り扱うことができる。

また、知識がなければ照応関係が解釈できない場合も少なくないが、例えば英語のテストセットとしては照応表現2000例を集めたWinograd Schema Challenge(WSC)と呼ばれるデータがある。

a. The trophy would not fit in the brown suitcase because it was too big.

b. The trophy would not fit in the brown suitcase because it was too small.

a.の場合は、itの先行詞はThe trophyであり、b.の場合はthe brown suitcaseである。つまり、この問題では、「入れ物にものを入れる場合には、入れ物が物よりも大きくなければならない」という知識をコンピュータが持たなければ判断ができない。このようなコンピュータによる知識獲得はまだ発展途上であり、今後更なる研究の進展が期待される。

ゼロ照応解析

ゼロ照応解析では、照応詞が存在しないため、代名詞や定名詞句があれば得られる先行詞に対する手がかりがない。さらに、そもそも文にゼロ代名詞が存在し、述語の項が省略されていることを知る必要がある。例えば、「彼が手を焼いている」という文章では、格フレームの利用でニ格が埋まっていないことが発見できるだろう。しかしながら、まだコーパスを元データとしてゼロ照応解析の精度は50%程度といわれ、更なる発展が必要である。

談話構造解析

文や節などの基本単位が意味関係を持ってつながり、文章を形成している。その基本単位を談話単位、つながりの構造を談話構造という。

RST

談話構造モデルとして知られるものに、RST(修辞構造理論)がある。RSTでは、談話単位の間に背景、根拠、詳細化、例示、対比など20程度の関係を考える。また、関係ごとに談話単位間に主従の関係があり、主となるものを核、従となるものを衛星とよぶ。

具体例を見てみよう。

①いよいよW杯がはじまる。

②今回の日本代表への期待はこれまで以上に大きい。

③海外のトップクラブで活躍する選手が多いからだ。

この3文では、①(背景)→②(核)←③(根拠)という関係性がわかるだろう。つんがりの強い談話単位から順に、関係と核を決め、その範囲をまとめて核をその代表とする。これを再帰的に繰り返すことにより、最終的に文章z船体の談話構造が求まる。

RSTによる談話構造が求まれば、その結果から文章の要約を作ることができる。核と衛星では核の方が重要と考えられるので(つまり上の例では②)、談話構造全体の核を中心として、より上位で関係を持つ談話単位を選択すればよい。

談話関係をタグとしてまとめたものにPenn Discourse Treebankがある。大きく、Temporal(時間)、Contigency(関係可能性)、Comparison(比較)、Expansion(展開)という4つの大きなタグが存在する。これらはWSJの約100万語のテキストにこれらの談話関係が与えられており、談話関係解析の研究が様々に行われている。しかし、まだ実用化に耐えられる精度は達成できていない状況である。

参考:自然言語処理(黒崎禎夫)