記事の概要
Anthropicは、最新のAIセーフティーシステム「Constitutional Classifiers」を発表し、ジェイルブレイク(脱獄)攻撃を95%以上回避できることを報告しました。
このシステムは、同社のAIモデル「Claude」を無害化するための「Constitutional AI」を基にしており、AI同士が監視・改善を行う仕組みです。
テストでは、183人のレッドチームが2カ月間にわたり、3000時間以上を費やしてジェイルブレイクを試みましたが、成功者は現れず、報奨金は支払われませんでした。
しかし、初期のプロトタイプは無害なクエリーを過剰に拒否するため実用的ではなく、改良後のシステムでは大幅に攻撃を防げるようになりました。
これにより、AnthropicはAIの安全性向上に向けた重要な進展を示しました。
記事のポイント
詳しい記事の内容はこちらから(引用元)
ZDNET Japan
Anthropicは、最大約230万円の報奨金を用意して最新のAIセーフティーシステムをジェイルブレイク(脱獄)できるか…
https://japan.zdnet.com/article/35229055/