実世界の環境に適応するオンライン学習技術の数理基盤

研究課題

体系的番号	JPMJPR2511
研究代表者	伊藤伸志東京大学, 大学院情報理工学系研究科, 准教授
研究期間 (年度)	2025 – 2028
概要	本研究では、バンディットアルゴリズムやオンライン強化学習を含むオンライン学習において、適用環境の前提が明確でない場合でも、自動的に適応し高い性能を発揮できる学習手法の開発を目指します。従来の確率的・敵対的といった環境モデルの区別に依存せず、複雑かつ高次元な構造をもつ意思決定問題や、中間的・非定常な環境にも対応可能な、理論的保証と実装効率を両立するオンライン学習基盤の構築を目指します。
研究領域	実世界知能システムの基盤創出