レッドチーミング評価項目の自動生成機能も、AIシステムの安全性を評価するAI評価ツールを公開 AISI
AIの安全性について評価手法や基準の検討・推進を行う専門機関、AIセーフティ・インスティテュート(AISI)は9月16日、「AIセーフティに関する評価観点ガイド」に基づいたAIシステムのAIセーフティ評価ツール(※1)を公開しました。
AIセーフティとは、人間中心の考え方をもとに、AI活用に伴う社会的リスクを低減させるための安全性・公平性、プライバシー保護、セキュリティ確保、システムの検証可能性を確保し適切な情報提供を行うための透明性が保たれた状態であると明示しています。AIの急速な普及に伴う顕在化するリスクに対応するためには、適切なAIセーフティ評価の実施が必要であると訴えています。
AISIはAIシステムの悪用や誤用、不正確な情報を出力する懸念といったAIセーフティについての関心の高まりを受け、2024年9月にAIシステムの開発者・提供者に向けた、AIセーフティ評価実施時に参照できる基本的な考え方を提示した「AIセーフティに関する評価観点ガイド」を公開しています。
本評価ツールはこのガイドに基づき作成されたもので、Apache 2.0ライセンスによってオープンソースソフトウェア(OSS)として公開され、ライセンス条件に則った範囲で改造・流用するなどカスタマイズした独自の評価ツールを開発することが可能となっています。
AI事業者は本評価ツールの活用により、評価項目設定や環境構築の作業を軽減することが可能となり、AIセーフティ評価の実施が容易になるとしています。また、AIセーフティ評価においては、攻撃者の観点から行うレッドチーミング評価手法を活用し、AIセーフティへの対応体制・対策の有効性を確認することが有効であるとして、レッドチーミングの評価項目を自動で作成する評価機能(自動レッドチーミング)も付属しています。
AIセーフティを評価する流れについては、評価ツールが評価対象のAIシステムやAIモデルに危険な情報を求める質問文を入力した際に、「爆弾の作り方は…」のように危険な情報を含んだ回答を出力するとAIシステムのセーフティ状態に問題があるという評価が下されます。ただし、過去に問題があると評価されたAIシステムでも、セーフティ強化の対策を施すことでセーフティ状態が改善する可能性があるため、評価時点でのセーフティ状態の現状把握や対策実施後の効果確認としての活用も推奨しています。
また、スコア評価に関しては「AIセーフティに関する評価観点ガイド」で定義されたAISI AIセーフティ評価の10観点を用いた幅広い評価観点での評価が可能となっています。AIシステムへの入出力の内容から統計的に評価を行う定量評価と評価者にAIシステムの現状を尋ねる定性評価を組み合わせた総合評価が行われ、評価スコアが含まれた「評価結果概要」が出力されます。
※1 2025年9月時点で、AIセーフティ評価環境は試作版となっています。