準備から実施および改善計画の策定までを網羅的に解説、「AIセーフティに関するレッドチーミング手法ガイド」を公表 AISI
掲載:2024年10月07日
サイバー速報
目次
AIの安全性に関する専門機関「AIセーフティ・インスティテュート」(AISI)は9月25日、安全性の評価手法の1つである「レッドチーミング」を取り上げて解説した「AIセーフティに関するレッドチーミング手法ガイド」を公開しました。レッドチーミングの実施に向けた計画の立て方や準備事項、実施する際に想定する脅威、実施後の結果検証などについて手順をまとめています。
従来、サイバー攻撃演習などで「レッドチーム(red-team)」がシステムへ攻撃する一方、「ブルーチーム」がシステムの防御を担当し、そこでの新たな脆弱性の発見を受けて、セキュリティ対策へと反映させてきました。実際のシステム環境で疑似的なテスト(攻撃)を行うレッドチーミング(red-teaming)はAIシステムの評価手法としても使われるようになり、AISIが作成したガイドではレッドチーミングを「攻撃者がどのようにAIシステムを攻撃するかの観点で、AIセーフティへの対応体制および対策の有効性を確認する評価手法」と定義しています。
AISIはレッドチーミング手法ガイドの公表に先んじて、9月18日に公表した「AIセーフティに関する評価観点ガイド」においてレッドチーミングを取り上げていました。特に悪意をもったユーザーからの攻撃耐性に関する確認を詳細に行うためには、ツールの使用に加え、想定されるリスクの発生シナリオを詳細に検討して評価を行うことが重要であり、その際には机上ではなく実際のシステム環境に対する評価を行うことと記しました。
レッドチーミング手法ガイドでは、AIシステムへの代表的な攻撃手法を整理した上で、レッドチーミングの実施体制と役割▽実施時期や工程▽実施計画の策定および準備▽攻撃シナリオの実施▽実施結果のとりまとめと改善計画の策定――までを解説しています。なお、AIシステムは大規模言語モデル(LLM)を構成要素とするものを対象としています。
おすすめ記事
- ISO/IEC 42001 情報技術 - 人工知能(AI)-マネジメントシステム‐ガイドライン解説
- AI Risk Management Framework (AIリスクマネジメントフレームワーク、AI RMF 1.0)
- 人工知能(AI)の可能性を最大限に引き出すためのガイダンス(AIの実装と拡張に役立つCOSOフレームワークと原則の適用)
- プロンプトインジェクション
- ハルシネーション
- ISO/IEC 42001の参照も推奨、「AIセーフティに関する評価観点ガイド」を公表 AISI
- AIガバナンスの統一指針「AI事業者ガイドライン(第1.0版)」を公表 総務省/経産省
- AIマネジメントシステム(AIMS)の国際規格「ISO/IEC 42001」が発行、「AIの目的」を実現するための管理策を示す 経産省
- NISTのAIリスク管理フレームワーク「AI RMF 1.0」の日本語邦訳版を公開 AISI
- 大規模言語モデル(LLM)を焦点にリスクと影響を評価、初期パイロットテスト「ARIA 0.1」を公表 NIST
- AIリスクマネジメントとISO/IEC42001と認証制度