プロンプトインジェクション
掲載:2024年03月06日
用語集
「プロンプトインジェクション」とは、ChatGPTのような対話型AIに対して悪意を持ったプロンプト(指示・命令文)を入力し、本来の振る舞いから逸脱した回答を引き出す攻撃手法です。近年、対話型AIやそれを組み込んだツールが急速に普及する中で、新たなセキュリティ上の脅威として注目されています。
プロンプトインジェクションの手口と脅威
ChatGPTのような対話型AIは、ユーザーからのプロンプト(指示・命令文)に基づいて、学習した膨大なデータベースから最も適した回答を生成します。
対話型AIは、安全で倫理的な利用のために、個人情報や差別的な内容、違法行為などを含む不適切な回答を行わないよう制限がかけられています。プロンプトインジェクションは、これらの制限を回避または無効化するプロンプトを入力することで、本来意図しない回答を引き出す攻撃です。
例えば、AIに対して制約に縛られず何でも答える人物という役割を与え、その人物のフリをして回答するように指示します。その後の質問でうまく誘導すると、本来は回答が制限されるような内容でも、AIの答えを引き出すことが可能です。
また、対話型AIのAPIを組み込んで開発されたチャットボットツールなども、プロンプトインジェクション攻撃のリスクにさらされています。 こうしたツールは、事前に設定したプロンプトとユーザーが入力したプロンプトを組み合わせて、対話型AIを利用する仕組みです。ツール内部のプロンプトでは、開発者が意図した目的や用途以外の回答を返さないよう制御がかけられています。
しかし、プロンプトインジェクションによって制御を無効化された場合、本来の意図を逸脱した回答を引き出すことも可能です。さらに、ツール内に設定された非公開のプロンプトや、そこに書かれた機密情報などが流出するリスクもあります。
このように、プロンプトインジェクションは対話型AIから不適切な回答を引き出すだけでなく、それを悪用することでビジネスやセキュリティ上の脅威にもなり得る攻撃です。
プロンプトインジェクションの対策
自然言語を扱う対話型AIを狙ったプロンプトインジェクションには、従来のセキュリティ対策とは異なる難しさがあります。
例えば、ウェブサイトに不正なSQLを注入して情報を盗み出す「SQLインジェクション」の場合、攻撃のパターンが限定的です。そのため、入力値の検証(バリデーション)やSQLコマンドの無効化(エスケープ処理)などにより、大半の攻撃は防げます。
一方、対話型AIに使われる自然言語は多様で曖昧な表現が可能であり、固定されたパターンや構造はありません。また、プロンプトの意味は文脈によって変わることも、悪意あるプロンプトの正確な検知を難しくしている要因の一つです。
AIツールの開発者がとれる対策には、以下のようなものがあります。
- 入力データに特定の悪意ある内容が含まれていないかフィルタリングする
- 対話型AIが出力した回答に不適切な内容や機密情報が含まれないかフィルタリングする
- ユーザーの入力にプロンプトインジェクションの疑いがないかをプロンプトでチェックする
- 個人情報や機密性の高い情報を含むシステムには、対話型AIを組み込まない
プロンプトインジェクションの脅威は、対話型AIの普及とともに、ますます高まっていくことが予想されます。開発者は、防御技術の進化をキャッチアップし、適切な対策を講じていくことが重要です。
おすすめ記事
- AI Risk Management Framework (AIリスクマネジメントフレームワーク、AI RMF 1.0)
- 欧州AI法案
- セキュリティ・クリアランス
- AIマネジメントシステム(AIMS)の国際規格「ISO/IEC 42001」が発行、「AIの目的」を実現するための管理策を示す 経産省
- AI事業者ガイドライン案の意見公募や新組織「AIセーフティー・インスティチュート」の立ち上げ間近 政府
- 産学官の取り組み事例を紹介、「インターネット上の偽・誤情報対策に係るマルチステークホルダーによる取組集」を公開 総務省
- テキスト生成AI固有のリスクを特定、軽減策をまとめた「テキスト生成AI利活用におけるリスクへの対策ガイドブック」(α版)を公表 デジタル庁
- 「AIがもたらす科学技術・イノベーションの変革」を特集、令和6年版の科学技術・イノベーション白書を公開 文科省
- 大規模言語モデル(LLM)を焦点にリスクと影響を評価、初期パイロットテスト「ARIA 0.1」を公表 NIST
- 偽・誤情報などデジタル空間における情報流通の課題を議論、検討会がとりまとめ素案を公表 総務省
- 災害時の偽・誤情報への対応についても言及、令和6年版「情報通信白書」を公表 総務省
- 社内規則や体制整備に課題、「AI利用時のセキュリティ脅威・リスク調査 調査報告書」を公表 IPA
- 「生成AI時代のDX推進に必要な人材・スキルの考え方2024」を公表 経産省
- NISTのAIリスク管理フレームワーク「AI RMF 1.0」の日本語邦訳版を公開 AISI
- 偽・誤情報などデジタル空間における情報流通の課題解決に向けて検討会がとりまとめ案を公表、意見公募も実施 総務省
- 注目トピックは虚偽情報拡散の脅威とAIセキュリティ、「情報セキュリティ白書2024」を公表 IPA
- ネット上の偽・誤情報対策について国による制度的な対応を提言、有識者検討会がとりまとめ公表 総務省
- ISO/IEC 42001の参照も推奨、「AIセーフティに関する評価観点ガイド」を公表 AISI
- 準備から実施および改善計画の策定までを網羅的に解説、「AIセーフティに関するレッドチーミング手法ガイド」を公表 AISI
- AIリスクマネジメントとISO/IEC42001と認証制度