大規模言語モデルからの知識抽出に基づく視覚スクリプトの創成
体系的番号 |
JPMJAX22AJ |
DOI |
https://doi.org/10.52926/JPMJAX22AJ |
研究代表者 |
八木 拓真 東京大学, 生産技術研究所, 特任研究員
|
研究期間 (年度) |
2022 – 2024
|
概要 | 動画像から場面に対応したスクリプト(典型的な事象系列)を予測するモデルを開発します。現行の動画像認識モデルは画像に見える事物の認識には優れていますが、その背後にある文脈を十分に扱えているとは言えません。本研究では、シーンから類推できるスクリプト知識を大量の文章で訓練された言語モデルより抽出することで、人が詳細な指示を与えずとも自らすべき行動を提案できるような「場を読める」AIの実現を目指します。
|
研究領域 | AI活用で挑む学問の革新と創成 |