大規模言語モデル（LLM）を焦点にリスクと影響を評価、初期パイロットテスト「ARIA　0.1」を公表　NIST

デジタルリスク管理 AI

米国立標準技術研究所（NIST）はこのほど、AIシステムのリスクと影響を評価する手法の確立を目指す取り組み「Assessing Risks and Impacts of AI （ARIA）」の一環として、初期パイロットテスト「ARIA 0.1」の開始を発表しました。ARIA0.1では、大規模言語モデル（LLM）に関連するリスクと影響に焦点を当てます。

ARIAは、NISTから別に発行されているAIリスク管理フレームワーク（AI RMF）を補完することなどを目的とした評価プログラムです。AI RMFは、AIシステムのリスクを管理し、その信頼性を高めるためのガイドラインとベストプラクティスを提供するものです。ただ、具体的なリスク特定や分析手法については言及しておらず、その点を補うため新たな取り組みとして始まりました。

評価プログラムの活動第一弾となるARIA0.1では、AIシステムに対してシナリオを3つ用意し、3つの評価手法を用いてリスクと影響を評価するアプローチを紹介しています。

シナリオとはテストケースのことであり、（1）TV Spoilers（2）Meal Planner（3）Pathfinderの3つが紹介されています。まず、TV Spoilersはユーザーのリクエストに対してテレビドラマの内容を必要以上に漏らさないようにする能力を評価するものです。いわゆる"ネタバレ"をAIシステムがやってしまわないかを評価します。次にMeal Plannerは、食事プランをパーソナライズ化する能力について評価するものです。最後のPathfinderは、旅行計画の作成能力を評価するものです。このテストケースに対して3つの評価手法を用います。

評価手法は（1）モデルテスト（2）レッドチーミング（3）フィールドテストの3つです。これらはそれぞれ異なる目的を持っています。具体的には、モデルテストはAIシステムが期待通りの機能を果たすかどうかを確認するための評価手法です。レッドチーミングは、AIシステムがサイバー攻撃からどのように守るかを評価し、潜在的な脆弱性の発見を目的としています。さらに、フィールドテストは実際の使用環境でAIシステムがどのように機能し、どのような社会的影響を与えるかを評価します。

開始が発表された初期パイロットテスト「ARIA0.1」は、2024年の夏から秋ごろまで続けられる予定です。ARIA0.1のドキュメントは、NISTのホームページに公開されています。詳しくはNISTの公式ページをご覧ください。

参考情報

記事一覧

大規模言語モデル（LLM）を焦点にリスクと影響を評価、初期パイロットテスト「ARIA　0.1」を公表　NIST

参考情報

Related Articles おすすめの記事

Related Services 関連サービス

人気記事ランキング

カテゴリ

キーワード（タグ）

用語集

業種（タグ）

お問い合わせ

資料ダウンロード

お電話でのお問い合わせはこちらから

大規模言語モデル（LLM）を焦点にリスクと影響を評価、初期パイロットテスト「ARIA 0.1」を公表 NIST

参考情報

Related Articles おすすめの記事

Related Services 関連サービス

人気記事ランキング

カテゴリ

キーワード（タグ）

用語集

業種（タグ）

お問い合わせ

資料ダウンロード

お電話でのお問い合わせはこちらから

大規模言語モデル（LLM）を焦点にリスクと影響を評価、初期パイロットテスト「ARIA　0.1」を公表　NIST