記事の概要
この記事では、生成AIにおける「ジェイルブレーク」(不正利用)の成功率が、86%から4.4%に激減したことについて述べています。
ジェイルブレークとは、悪質なプロンプトに対応しないように設計された大規模言語モデル(LLM)のガードレールを回避することです。
米Anthropicの研究者グループは、新しい技術「憲法分類子」を開発し、これによりLLMへの入力と出力を同時に監視・制御しています。
この分類子は、無害なプロンプトと有害なプロンプトをリストアップし、それに基づいて入力と出力をチェックします。
これにより、不適切な応答を防ぎ、ジェイルブレークのリスクを大幅に減少させることができました。
この技術は、ジェイルブレークの新手法に迅速に対応できる柔軟性も持っています。
記事のポイント
詳しい記事の内容はこちらから(引用元)
日経クロステック(xTECH)
「Claude」の開発などで知られる米Anthropicの研究者グループは、ジェイルブレークを防ぐ新しい技術を発表した…
https://xtech.nikkei.com/atcl/nxt/column/18/00676/022700189/