最新ニュース

2023年9月3日

松尾研、日英2ヵ国語対応の大規模言語モデル公開

 松尾豊教授(東京大学大学院工学系研究科)研究室(松尾研)は8月18日、日英の2カ国語に対応した100億パラメータサイズの大規模言語モデル「Weblab-10B」を公開した。公開されたのは事前学習済みモデルと事後学習済みモデルの二つで、いずれも商用利用は不可。

 

 大規模言語モデルは、インターネットから収集したテキストデータを学習に用いている。テキストデータの多くは英語などの使用量が多い言語で構成され、日本語のデータを大量に収集することは限界があった。

 

 松尾研は、事前学習に日本語と英語のデータセットを使用し、事後学習には英語のデータを中心に学習させデータ量を拡張した。事後学習によって日本語の言語モデルの指標であるJGLUE評価値は上昇し、英語のデータを多く用いた事後学習の成果が日本語の学習に応用されたことが確認された。事後学習済みモデルのJGLUE評価値は国内最高水準。

 

 松尾研は今後、Weblab-10Bの大規模化を進めるほか、商用利用可のモデルの開発も検討するとしている。

タグから記事を検索


東京大学新聞社からのお知らせ


recruit

   
           
                             
TOPに戻る