記事の概要
人工知能(AI)開発企業のAnthropicが、大規模言語モデル(LLM)を利用した攻撃手法「メニーショット・ジェイルブレイキング」について調査結果を公表しました。
メニーショット・ジェイルブレイキングは、大量のテキストを使ってチャットAIの安全装置を突破する攻撃手法であり、AIが不適切な回答をする可能性が高まることが指摘されました。
この攻撃手法に対する対策として、プロンプトの分類や変更が有効であり、実験では成功率が低下することが確認されました。
Anthropicは競合企業の研究者にも情報を共有し、攻撃の緩和策を実装しています。
記事のポイント
詳しい記事の内容はこちらから(引用元)
ASCII.jp
生成AI「Claude」を開発するAnthropicは4月3日、大規模言語モデル(LLM)から問題のある回答を引き出す攻…
https://ascii.jp/elem/000/004/192/4192356/