画像・自然言語・コードの統合理解に基づくマルチモーダルモデル

研究課題

体系的番号	JPMJFR242S
研究代表者	高橋（斉藤) いつみ東北大学, 大学院情報科学研究科, 准教授
研究期間 (年度)	2025 – 2032 (予定)
概要	図表や論文・プレゼンテーション資料など視覚的に整った文書画像を表現するための中間的な要素としてPythonやLaTeX等のコードを導入し、自然言語・画像・コードを一体的に学習する新しい基盤モデルを構築します。コードという構造化されたシンボリックな情報と文書画像を明示的に結びつけることで、文書画像中の要素間の関係性等の意味情報の正確な理解や、高度な推論に基づく高品質な文書画像の生成を実現します。
研究領域	後藤パネル