ニュース

2021年3月31日

【金融スマートデータ研究センター研究報告書③】宮尾祐介教授 世界中にあふれるデータから意味を持つ情報を取り出す

 国立情報学研究所(NII)と三井住友DSアセットマネジメント(SMDAM)が共同で設立した、金融スマートデータ研究センターが2021年3月をもって、5年間にわたる共同研究を終了する。そこで、センターで自然言語処理の研究に参加した宮尾祐介教授(東大情報理工学系研究科)に話を聞いた。

本連載記事は国立情報学研究所金融スマートデータ研究センターの依頼を受けて作成されています。

(取材・中井健太)

 

──宮尾教授の専門分野について教えてください

 

 自然言語処理といって、日本語などの人間の言葉をコンピューターで処理するための理論、技術の研究です。

 

──センターに参加された経緯を教えてください

 

 NIIの喜連川優所長から、このような共同研究のプロジェクトがあるということで、声を掛けられました。株価などの金融関連情報だけでなく、ニュースやSNSなどの自然言語のデータを資産運用に活用する必要があるとのことでした。

 

 私は主に基礎研究を行っており、応用研究に深く携わったことがなかったため、業務に直結するところで実際に自分の研究がどのように応用されるのかを見るのも面白いと思い、参加しました。

 

──センターでの具体的な研究内容について教えてください

 

 私はセンターの設立時から研究に参加していました。実際にテーマを選定、研究を開始する前に、現場で投資に関わっている人がどのように情報を収集し、資産を運用しているのか現場を見ました。その中で、コンピューターで効率化できる部分を見つけ、研究に取り掛かりました。

 

 5年間で大きく三つのテーマに携わっており、一つ目は世の中で何が起きるかを正確に知るための研究でした。ある会社について、どのような出来事が起き、今後何が計画されているかを知りたい場合、その会社のウェブサイトを見れば全て分かる、というわけではありません。インターネットで情報を収集し、統合する必要があります。人間は文章を読めば、書いてある内容を理解することはできますが、大量の情報を時系列で整理するには時間や労力がかかります。それをコンピューターで自動化するための技術を研究していました。

 

 二つ目はSMDAMの研究員が研究していた、不祥事に関するニュースを自動的に判断する技術です。これは自分が研究するというよりは、アドバイザーのような形で関わっていました。

 

 三つ目は最後の2年くらいで進めた研究で、まだ道半ばですが、自然言語のテキストに、自分が着目したい情報が書かれているかを判断するための技術です。このような、自然言語の文章を分析してテーマごとに分類する技術を「テキスト分類」といい、機械学習で精度良く分類することができます。しかし、大量の学習データが必要になるのが難点でした。例えば、新型コロナウイルスの治療方法関連の記事をテキスト分類で集めようとすると、事前に何千件もの記事を、集めたいカテゴリのものかどうか人間が判断し、コンピューターに入力する必要がありました。この作業の労力を最小化しようとしたのが、三つ目の研究です。

 

 センター立ち上げ時から三つ目の研究のアイデアはあったのですが、実際に研究をするとなると困難が予想されたので、手を付けられていませんでした。しかし、一つ目の研究である程度成果が出たこともあり、挑戦することにしました。手法としては、事前学習済み言語モデルという、入力した自然言語テキストをベクトル表現に変換するような技術を利用しています。事前に膨大なテキストデータを入力することで、単語同士の意味の近さなどを判断し、必要な教師データの数を大幅に減らすことができます。この研究はまだ完成していませんが、順調に進行しており、論文の投稿準備などの段階に入っています。

 

──今回のセンターでの研究が、社会でどのような意味を持つとお考えですか

 

 今回は金融というテーマにフォーカスして研究しましたが、これから先、これまで以上に世の中にさまざまなデータがあふれてきます。しかし、データが存在するだけでは意味を持ちません。大量のデータの中から意味を取り出す技術が非常に重要になっていきます。

 

 今回の金融というテーマなら、最終的な目的は効果的な投資先の選択というところですが、それ以外にも社会のいろいろな場面で、有用なデータを取り出したいというニーズは高まっています。今回のコロナ禍でも、自然言語処理技術を活用して、治療法に関連する記事を抽出したり、水野貴之准教授(情報学研究所)のように、さまざまな社会データを基に、人々がどの程度外出自粛要請に応じていて、それが感染者数にどのように影響するか分析する、などの形で役立てられようとしています。

 

 今はいろいろなところにセンサーがあり、データはたくさんあるのですが、それが人間や社会にどのような意味を持つのかは自明ではありません。そのデータを、人間や社会にとっていかに意味のある情報とするか、その必要性や在り方を提示できていると思います。

 

──センターでの研究は、今後ご自身の研究活動にどのように生きるとお考えですか

 

 センターでの研究の内容自体は学術的なものでしたが、やっている研究がどのように実際の産業につながるかを見られたのは貴重な経験でした。もちろん、大学の研究者として学術的な研究を進める責務がありますが、それだけでなく、実際に技術を使う人がどういう課題を抱えているかというのを現場で見られたのは、今後の研究テーマを考える上でも役に立つと思います。

 

宮尾祐介(みやお・ゆうすけ)教授(情報理工学系研究科)
2001年東京大学大学院理学系研究科中途退学。博士(情報理工学)。情報学研究所教授などを経て、18年より現職。

タグから記事を検索


東京大学新聞社からのお知らせ


recruit

   
           
                             
TOPに戻る