大規模言語モデルのミスアライメントに対するレッドチーミング基盤

研究課題

体系的番号	JPMJKP24C3
研究代表者	佐久間淳東京科学大学, 情報理工学院, 教授
研究期間 (年度)	2024 – 2029 (予定)
概要	本研究開発は、大規模生成モデルの生成コンテンツのミスアライメント（人間の期待や倫理観から外れた挙動）を検出し、これを軽減・抑制するためのセキュリティ技術基盤の構築を目的としています。大規模生成モデルの利用においては、その生成コンテンツに有害情報・偽情報・差別的内容が含まれていたり、その生成コンテンツによって機密漏えい、プライバシー侵害、著作権侵害などが発生したりする可能性があり、このようなミスアライメントへの対策が不可欠です。一般の開発者が外部から入手した大規模生成モデルをそのまま利用したり、これを手元のデータで改変して利用したりする状況では、このようなミスアライメントのリスクを独力で評価することは簡単ではありません。本研究開発では、生成モデルのこのようなミスアライメントに関するリスクの評価を支援するための技術基盤を提供し、ミスアライメントの抑制につなげます。
研究領域	「人工知能（AI）が浸透するデータ駆動型の経済社会に必要なAIセキュリティ技術の確立」に関する研究開発構想（個別研究型）