意味的距離をとらえる言語のベクトル化

荒瀬由紀
(大阪大学 大学院情報科学研究科 准教授)

2017年12月28日木曜日

EMNLP 2017で発表しました

研究助成により支援いただいている,本研究における基盤技術について, 9/7~9/11にコペンハーゲンで開催されたConference on Empirical Methods in Natural Language Processing (EMNLP) で発表してきました.

Yuki Arase and Jun'ichi Tsujii: Monolingual Phrase Alignment on Parse Forests, Proc. of Conference on Empirical Methods in Natural Language Processing (EMNLP 2017), pp. 1-11. [pdf][supplementary]

ブログでの報告までにずいぶん時間がたってしまいました...

EMNLPは自然言語処理分野の主要国際会議で,世界中からstate-of-the-artの研究成果が発表されます.
AIブームもあってか今年は過去最高の論文投稿があり,約26%の採択率だったようです.
今回は初日・最初のセッション・最初の発表者,という最初づくしという稀有な経験をすることができました.
発表の様子.発表はオンラインで配信されていました.
さて肝心の研究内容はというと,「文法的フレーズ」を単位とする「パラフレーズ」を抽出する技術を提案したものです.
まず「パラフレーズ」というのは,同じ意味をもつけれども,異なる単語や文法をもって記述されるフレーズや文のことです.
例えば
Relying on team spirit, expedition members defeated difficulties.
Members of the scientific team overcame challenges through teamwork.
の二つの文は,どちらも「科学技術チームがチームワークを発揮して困難を乗り越えた」という意味を表していますね.しかし使われている単語や文法は全然違います.
このようなものをパラフレーズといいます.

パラフレーズを収集することで,同じ意味を表す表現集を構築できます.
これを応用すると,例えばGoogle Homeに何かお願いをしたときに,あなたが発した言葉そのものをGoogle Homeが理解できなくても,表現集を参考にして,Google Homeが知っている別の表現に言い換えてあげることができます.
そうするとGoogle Homeはあなたのお願いを叶えることができるのですね.

上ではもう一つ,「文法的フレーズ」と言いました.
これまでの研究では,文レベルのパラフレーズを抽出する研究や,短い単語列からなるパラフレーズを抽出する研究はあったのですが,文法に従った,いわゆる人間が想像するようなフレーズを単位としたパラフレーズに関する研究はありませんでした.
私の研究では,文法に従ったフレーズを単位とするパラフレーズ抽出手法を提案した点が大きな特徴です.
文法的なフレーズであれば,先の例のように,ある表現とある表現をマッチングしようとしたときに,マッチングが簡単かつ正確になると期待できます.

現在,収集したパラフレーズを応用して,フレーズの意味を表すベクトル生成に取り組んでいます.
また成果があり次第報告させていただきます.





0 件のコメント:

コメントを投稿