| 概要 | 本研究開発は、大規模生成モデルの生成コンテンツのミスアライメント(人間の期待や倫理観から外れた挙動)を検出し、これを軽減・抑制するためのセキュリティ技術基盤の構築を目的としています。大規模生成モデルの利用においては、その生成コンテンツに有害情報・偽情報・差別的内容が含まれていたり、その生成コンテンツによって機密漏えい、プライバシー侵害、著作権侵害などが発生したりする可能性があり、このようなミスアライメントへの対策が不可欠です。一般の開発者が外部から入手した大規模生成モデルをそのまま利用したり、これを手元のデータで改変して利用したりする状況では、このようなミスアライメントのリスクを独力で評価することは簡単ではありません。本研究開発では、生成モデルのこのようなミスアライメントに関するリスクの評価を支援するための技術基盤を提供し、ミスアライメントの抑制につなげます。
|