準備から実施および改善計画の策定までを網羅的に解説、「AIセーフティに関するレッドチーミング手法ガイド」を公表 AISI

掲載:2024年10月07日

サイバー速報

         
目次

AIの安全性に関する専門機関「AIセーフティ・インスティテュート」(AISI)は9月25日、安全性の評価手法の1つである「レッドチーミング」を取り上げて解説した「AIセーフティに関するレッドチーミング手法ガイド」を公開しました。レッドチーミングの実施に向けた計画の立て方や準備事項、実施する際に想定する脅威、実施後の結果検証などについて手順をまとめています。

従来、サイバー攻撃演習などで「レッドチーム(red-team)」がシステムへ攻撃する一方、「ブルーチーム」がシステムの防御を担当し、そこでの新たな脆弱性の発見を受けて、セキュリティ対策へと反映させてきました。実際のシステム環境で疑似的なテスト(攻撃)を行うレッドチーミング(red-teaming)はAIシステムの評価手法としても使われるようになり、AISIが作成したガイドではレッドチーミングを「攻撃者がどのようにAIシステムを攻撃するかの観点で、AIセーフティへの対応体制および対策の有効性を確認する評価手法」と定義しています。

AISIはレッドチーミング手法ガイドの公表に先んじて、9月18日に公表した「AIセーフティに関する評価観点ガイド」においてレッドチーミングを取り上げていました。特に悪意をもったユーザーからの攻撃耐性に関する確認を詳細に行うためには、ツールの使用に加え、想定されるリスクの発生シナリオを詳細に検討して評価を行うことが重要であり、その際には机上ではなく実際のシステム環境に対する評価を行うことと記しました。

レッドチーミング手法ガイドでは、AIシステムへの代表的な攻撃手法を整理した上で、レッドチーミングの実施体制と役割▽実施時期や工程▽実施計画の策定および準備▽攻撃シナリオの実施▽実施結果のとりまとめと改善計画の策定――までを解説しています。なお、AIシステムは大規模言語モデル(LLM)を構成要素とするものを対象としています。