AIセーフティに関するレッドチーミング手法ガイドの「第1.10版」を公表、詳細解説書と成果物例も作成 AISI
AIセーフティ・インスティテュート(AISI)は3月31日、AIセーフティに関するレッドチーミング手法ガイドの「第1.10版」を公表しました。レッドチーミング手法について対象領域を広げるとともに、より実践的なガイドとなるよう改訂しました。初版(2024年9月)にはなかった詳細解説書(別紙)や、レッドチーミングを実施した成果物例(別添資料)が追加されました。
レッドチーミング(red-teaming)とは、AIセーフティ評価の手法の一つで、AISIでは「攻撃者がどのようにAIシステムを攻撃するかの観点で、AIセーフティへの対応体制および対策の有効性を確認する評価手法」と定義しています。弱点や対策の不備を発見し、それらを修正したり堅牢化したりすることでAIセーフティを維持または向上させることを目的としています。
改訂されたガイドでは、具体的な実施例を提供することでレッドチーミングを詳細に理解できるよう工夫されています。RAG(Retrieval-Augmented Generation、検索拡張生成)を実装したAIシステムに対してレッドチーミングを行い、その手順を解説するパートを設けました。具体的には、本編のほかに詳細解説書と成果物例が作成されました。
対象となるAIシステムも広げました。初版は大規模言語モデル(LLM)を構成要素とするものでしたが、改訂によってマルチモーダル基盤モデルまでを含めたAIシステムとしました。マルチモーダル基盤モデルとは、テキストのほかに画像や音声など複数のモダリティ(マルチモーダル)に対応したAIモデルのことです。ガイドの本編において代表的な攻撃手法を紹介しているトピックでは、マルチモーダルを悪用したプロンプトインジェクション攻撃や訓練データの汚染といった脅威について追記されました。例えばテキスト入力で禁止している用語を画像として認識させることで防御機構を回避できる可能性があると言及しています。
詳細解説書はレッドチーミングの実施ポイントなどを解説しています。レッドチーミングの実施工程は大きく、実施計画の策定と実施準備▽リスクシナリオや攻撃シナリオの作成と実施(攻撃計画・実施)▽結果のとりまとめと改善計画の策定――といったプロセスとなります。このうち、攻撃計画・実施には、高い専門性が求められるとされています。そのためRAGを用いたLLMシステムにレッドチーミングを実施し、その結果から得られた示唆を詳細解説書に盛り込むことで読み手の理解を促そうとしました。評価項目を詳細化し実施事項や実施イメージ、実施ポイントを実施工程のステップごとに記載しました。
成果物例は、最終報告書とレッドチーミング実施結果報告書、さらにエクセル形式でとりまとめた「リスクシナリオと攻撃シナリオの作成および攻撃シナリオの実施結果」(文書そのものはPDF)の3点が作成されました。