注目キーワード

Anthropic、新しいAIセーフティーシステムで95%のジェイルブレイクを回避 – ZDNET Japan

Anthropicが新たに導入した「Constitutional Classifiers」は、AIモデルの安全性を大幅に向上させ、95%のジェイルブレイクを回避しました。
この成果は、AIの信頼性向上やリスク管理に寄与し、社会におけるAI利用の安心感を高める可能性があるため、注目されます。

記事の概要

Anthropicは、最新のAIセーフティーシステム「Constitutional Classifiers」を発表し、ジェイルブレイク(脱獄)攻撃を95%以上回避できることを報告しました。
このシステムは、同社のAIモデル「Claude」を無害化するための「Constitutional AI」を基にしており、AI同士が監視・改善を行う仕組みです。
テストでは、183人のレッドチームが2カ月間にわたり、3000時間以上を費やしてジェイルブレイクを試みましたが、成功者は現れず、報奨金は支払われませんでした。
しかし、初期のプロトタイプは無害なクエリーを過剰に拒否するため実用的ではなく、改良後のシステムでは大幅に攻撃を防げるようになりました。
これにより、AnthropicはAIの安全性向上に向けた重要な進展を示しました。

記事のポイント

  1. セーフティーシステムの革新: Anthropicが新たに開発したAIセーフティーシステムが95%のジェイルブレイクを回避しました。
  2. 報奨金制度の導入: ジェイルブレイクの成功者に最大1万5000ドルの報奨金を提供することで、攻撃手法の検証を行いました。
  3. AIの自己改善機能: 新しい「Constitutional Classifiers」が、AIが自らの監視と改善を行う仕組みを実現しました。

詳しい記事の内容はこちらから(引用元)

ZDNET Japan

Anthropicは、最大約230万円の報奨金を用意して最新のAIセーフティーシステムをジェイルブレイク(脱獄)できるか…

Anthropic、新しいAIセーフティーシステムで95%のジェイルブレイクを回避 – ZDNET Japan
https://japan.zdnet.com/article/35229055/

 

最新情報をチェックしよう!
>ビジネスを飛躍させるAIキュレーションメディア「BizAIdea」

ビジネスを飛躍させるAIキュレーションメディア「BizAIdea」

国内外の最新AIに関する記事やサービスリリース情報を、どこよりも早くまとめてお届けします。
日々BizAIdeaに目を通すだけでAIの最新情報を手軽にキャッチアップでき、
AIの進化スピードをあなたのビジネスの強みに変えます。

SNSをフォローして頂くと、最新のAI記事を最速でお届けします!
X: https://twitter.com/BizAIdea
Facebook: https://www.facebook.com/people/Bizaidea/61554218505638/

CTR IMG