意味的距離をとらえる言語のベクトル化

荒瀬由紀
(大阪大学 大学院情報科学研究科 准教授)

2018年3月29日木曜日

上林奨励賞を受賞しました

2017年度日本データベース学会 上林奨励賞 をいただき、授賞式に参加してきました。
上林奨励賞は、平成16年(2004年)に急逝された故 上林弥彦 日本データベース学会初代会長のご遺族からのご寄贈をもとに設立されたものであり,データベース,メディアコンテンツ,情報マネージメント,ソーシャルコンピューティングに関する研究や技術に対して国際的に優れた貢献を行った若手研究者に対して贈られます.

ひとえにこれまで導いていただいた先生方、共同研究者の皆様、一緒に研究に取り組んでくれたインターン・学生の皆さんのおかげです。
これからも、良い時は調子に乗らず、悪い時は腐らず、淡々と集中して研究を続けていけるよう努めていきたいと思います。

 
感謝のスピーチです。

2017年12月28日木曜日

母校の徳島県立海部高校で講演を行いました

私は徳島県立海南高校(現 海部高校)の出身なのですが,この度母校で講演をするチャンスをいただきました.
在学中,大変お世話になった進路担当の先生が今は校長先生をされていて,そのご縁で呼んでいただいたのです.

普段大学生向けの講義をしたり,オープンキャンパスで参加してくれる高校生と接する機会はありますが,高校生向けにじっくり講演するのは初めてで,どういう風に話をするのがいいのかとても悩みました.

講演タイトルは「コンピュータが人間の言葉を扱うために~自然言語処理技術の紹介~」.
私が取り組んでいる自然言語処理技術について,とても身近な技術であること,大学で学んだ先には最先端の技術を研究開発する道がつながっていることを,母校の後輩に感じてもらえるよう,何度も講演内容,スライドを見直しました.


本番では眠たくなっている学生さんもいましたが(笑),こちらをキラキラした目で見つめながら話を聞いてくれる学生さん,質疑応答で鋭い質問をくれた学生さんもいて,とてもやりがいのある講演でした.


母校に行くのは15年ぶり!
恩師の先生方と一緒にお酒を飲む機会を得られたのもとてもうれしかったです.

母校の校訓


実ははるか昔,甲子園で優勝しているのです!

JAGFoSに参加してきました

9/21~9/24に開催された日米独先端科学シンポジウム(JAGFoS)に参加するチャンスをいただきました.

今回,初の日本・ドイツ・アメリカの3国が集まっての実施で(過去は2国間でそれぞれ開催していたそうです),ドイツは Steigenberger Hotel Bad Neuenahr での開催でした.


ホームページでの説明
「先端科学(Frontiers of Science: FoS)シンポジウムは、次世代を担うリーダーの育成と世界をリードする人材を結ぶネットワーク形成を目的として、日本及び諸外国の新進気鋭の若手研究者を対象に、最先端の科学トピックについて分野横断的な議論を行う合宿形式の国際シンポジウムです。」
にある通り,生命科学から社会科学,自然科学の全分野が対象で,非常に幅広い分野の研究者が参加しています.


今回の講演でも,重力波の検出,「人はなぜ眠るのか?」を科学する睡眠に関する研究,環境にやさしい新たな電池の開発など,非常に興味深い講演ばかりでした.
異分野の聴衆にもとても分かりやすく解説していただいたおかげで,どのセッションもあっという間に終わってしまった印象です.
また質疑応答・ディスカッションの時間がとても長いのが特徴で,分野をまたいで様々な見地からなされる質問や,それから発展する議論に参加することはとてもエキサイティングでした.


個人的には,AIに対する他分野の方の希望や懸念を知れてとても勉強になりました.



写真はポスターセッションの様子です.
分野外の人に分かりやすく研究を紹介できるようになるにはまだまだ修行が必要です.

EMNLP 2017で発表しました

研究助成により支援いただいている,本研究における基盤技術について, 9/7~9/11にコペンハーゲンで開催されたConference on Empirical Methods in Natural Language Processing (EMNLP) で発表してきました.

Yuki Arase and Jun'ichi Tsujii: Monolingual Phrase Alignment on Parse Forests, Proc. of Conference on Empirical Methods in Natural Language Processing (EMNLP 2017), pp. 1-11. [pdf][supplementary]

ブログでの報告までにずいぶん時間がたってしまいました...

EMNLPは自然言語処理分野の主要国際会議で,世界中からstate-of-the-artの研究成果が発表されます.
AIブームもあってか今年は過去最高の論文投稿があり,約26%の採択率だったようです.
今回は初日・最初のセッション・最初の発表者,という最初づくしという稀有な経験をすることができました.
発表の様子.発表はオンラインで配信されていました.
さて肝心の研究内容はというと,「文法的フレーズ」を単位とする「パラフレーズ」を抽出する技術を提案したものです.
まず「パラフレーズ」というのは,同じ意味をもつけれども,異なる単語や文法をもって記述されるフレーズや文のことです.
例えば
Relying on team spirit, expedition members defeated difficulties.
Members of the scientific team overcame challenges through teamwork.
の二つの文は,どちらも「科学技術チームがチームワークを発揮して困難を乗り越えた」という意味を表していますね.しかし使われている単語や文法は全然違います.
このようなものをパラフレーズといいます.

パラフレーズを収集することで,同じ意味を表す表現集を構築できます.
これを応用すると,例えばGoogle Homeに何かお願いをしたときに,あなたが発した言葉そのものをGoogle Homeが理解できなくても,表現集を参考にして,Google Homeが知っている別の表現に言い換えてあげることができます.
そうするとGoogle Homeはあなたのお願いを叶えることができるのですね.

上ではもう一つ,「文法的フレーズ」と言いました.
これまでの研究では,文レベルのパラフレーズを抽出する研究や,短い単語列からなるパラフレーズを抽出する研究はあったのですが,文法に従った,いわゆる人間が想像するようなフレーズを単位としたパラフレーズに関する研究はありませんでした.
私の研究では,文法に従ったフレーズを単位とするパラフレーズ抽出手法を提案した点が大きな特徴です.
文法的なフレーズであれば,先の例のように,ある表現とある表現をマッチングしようとしたときに,マッチングが簡単かつ正確になると期待できます.

現在,収集したパラフレーズを応用して,フレーズの意味を表すベクトル生成に取り組んでいます.
また成果があり次第報告させていただきます.