画像・自然言語・コードの統合理解に基づくマルチモーダルモデル

研究課題

体系的番号	JPMJBY24E3
研究代表者	斉藤いつみ東京科学大学, 情報理工学院　情報工学系, 特任准教授
研究期間 (年度)	2025 – 2030 (予定)
概要	画像や自然言語など多様な入力を理解し、意味的・視覚的に構造化された図表や文書画像を生成する技術を確立します。LaTeXやPythonなどのコードを中間的に生成することで、画像のシンボリックな理解と高品質な図表・文書画像の効率的な生成を実現します。この技術により、論文執筆の自動化などAIによる複雑な情報の可視化を可能とし、視覚情報を活用した人間とAIの効果的なコミュニケーションを促進します。