AIセーフティに関する専門機関であるAIセーフティ・インスティテュート(AISI)はこのほど、「AIシステムに対する既知の攻撃と影響」と題した文書を公表しました。AIシステムの利活用が急速に進む中、AIの特性(AIモデル自体が持つ脆弱性)を悪用した攻撃が次々と確認されているとして、AIシステムに対する攻撃を11種類に整理するとともに、その影響を図示しています。また、この文書で取り上げた内容を詳細に論じたものを学術論文としてサイト「arXiv(アーカイブ)」(査読前論文サーバー)に発表しています。
従来のサイバー攻撃に加え、AIシステム固有の新しい攻撃が生まれています。さらにはAIシステムへの攻撃は従来のサイバー攻撃よりも深刻な影響を及ぼす可能性があります。例えばAIシステムを搭載した自動運転が標的となり攻撃を受け、異常な出力が出た場合、人命に関わる事故につながるからです。
公表された文書では、AIシステムに対する攻撃について俯瞰して理解できるよう、関連性を視覚的にまとめ図示しています。AIシステムに対する代表的な攻撃手法を11種類に分類・整理したことで、レッドチーム演習といった実践的なリスク評価に活用できるとしています。
その11種類とは、モデル抽出攻撃▽学習データ情報収集攻撃▽モデルポイズニング攻撃▽データポイズニング攻撃▽回避攻撃▽スポンジ攻撃▽プロンプト窃盗攻撃▽プロンプトインジェクション攻撃▽コードインジェクション攻撃▽ファインチューニング攻撃▽ロウハンマー攻撃――です。
例えば、モデル抽出攻撃では攻撃者が大量のクエリー(入力データ)を送り、出力を観測することで攻撃対象のAIモデルを複製します。AIモデルに直接アクセスすることなく、APIなどを経由した出力のみを分析することでほぼ同等の性能を持つAIモデルを作ることを狙った攻撃です。
こうした攻撃による影響(被害)については、モデル漏えい▽学習データ漏えい▽アプリ情報漏えい▽入力情報漏えい▽内部データ漏えい▽モデル誤動作▽解釈機能誤動作▽セーフガード回避▽システム侵害▽内部データ毀損▽計算資源浪費――の11種類に整理されています。なお、攻撃と影響(被害)は1対1という関係性にあるわけではなく、一つの攻撃が複数の影響(被害)を引き起こすことが図示されています。
例えば、データポイズニング攻撃では、学習データの漏えいやモデル誤動作を引き起こすと説明されています。学習データセットに「敵対的サンプル」と呼ばれる特殊なデータを混入させ残りの学習データに関する情報を漏えいさせたり、運用時のモデル誤動作を発生させたりします。
このほか、攻撃ごとに攻撃が成立する条件(攻撃前提)なども示されています。