Anthropic、新しいAIセーフティーシステムで95％のジェイルブレイクを回避

Anthropicが新たに導入した「Constitutional Classifiers」は、AIモデルの安全性を大幅に向上させ、95％のジェイルブレイクを回避しました。
この成果は、AIの信頼性向上やリスク管理に寄与し、社会におけるAI利用の安心感を高める可能性があるため、注目されます。

記事の概要

Anthropicは、最新のAIセーフティーシステム「Constitutional Classifiers」を発表し、ジェイルブレイク（脱獄）攻撃を95％以上回避できることを報告しました。
このシステムは、同社のAIモデル「Claude」を無害化するための「Constitutional AI」を基にしており、AI同士が監視・改善を行う仕組みです。
テストでは、183人のレッドチームが2カ月間にわたり、3000時間以上を費やしてジェイルブレイクを試みましたが、成功者は現れず、報奨金は支払われませんでした。
しかし、初期のプロトタイプは無害なクエリーを過剰に拒否するため実用的ではなく、改良後のシステムでは大幅に攻撃を防げるようになりました。
これにより、AnthropicはAIの安全性向上に向けた重要な進展を示しました。

記事のポイント

セーフティーシステムの革新： Anthropicが新たに開発したAIセーフティーシステムが95％のジェイルブレイクを回避しました。
報奨金制度の導入：ジェイルブレイクの成功者に最大1万5000ドルの報奨金を提供することで、攻撃手法の検証を行いました。
AIの自己改善機能：新しい「Constitutional Classifiers」が、AIが自らの監視と改善を行う仕組みを実現しました。

詳しい記事の内容はこちらから（引用元）

ZDNET Japan

Anthropic、新しいAIセーフティーシステムで95％のジェイルブレイクを回避

Anthropicは、最大約230万円の報奨金を用意して最新のAIセーフティーシステムをジェイルブレイク（脱獄）できるか…

Anthropic、新しいAIセーフティーシステムで95％のジェイルブレイクを回避 – ZDNET Japan
https://japan.zdnet.com/article/35229055/

最新情報をチェックしよう！

フォローする

前の記事へ

AIガバナンスの体制　8割超が未整備・道半ば
次の記事へ

ASCII.jp：XのAI「Grok」Androidアプリがまもなく登場

AI記事キュレーションの最新記事8件

ビジネスを飛躍させるAIキュレーションメディア「BizAIdea」

国内外の最新AIに関する記事やサービスリリース情報を、どこよりも早くまとめてお届けします。
日々BizAIdeaに目を通すだけでAIの最新情報を手軽にキャッチアップでき、
AIの進化スピードをあなたのビジネスの強みに変えます。

SNSをフォローして頂くと、最新のAI記事を最速でお届けします！
X: https://twitter.com/BizAIdea
Facebook: https://www.facebook.com/people/Bizaidea/61554218505638/

Anthropic、新しいAIセーフティーシステムで95％のジェイルブレイクを回避 – ZDNET Japan

記事の概要

記事のポイント

詳しい記事の内容はこちらから（引用元）

AIガバナンスの体制　8割超が未整備・道半ば

ASCII.jp：XのAI「Grok」Androidアプリがまもなく登場

AI記事キュレーションの最新記事8件

ASCII.jp：AIを本格的に活用したアニメ『ツインズひなひま』が提示する、アニメとAIの今とこれから (1/4)

ASCII.jp：グーグル、検索結果をAIで分類する「Web Guide」公開

グーグル、検索結果をAIが整理する「Web Guide」 – Impress Watch

日本テラデータ、AIドリブン経営への早期転換をワンストップで支援するコンサルティング部門を新設 – ZDNET Japan

CAC identityがAIを活用したゲームキャラの表情生成サービス、CEDECで展示

カカクコム、「Google Workspace」と「Slack」に全面移行–AIフル活用を目指す – ZDNET Japan

IIJ鈴木会長がAIについて語ったキーワードを裏読みしてみた – ZDNET Japan

AIエージェントを悪用した破壊的コマンドの挿入、成功例が報告され物議 – ZDNET Japan

ビジネスを飛躍させるAIキュレーションメディア「BizAIdea」

Anthropic、新しいAIセーフティーシステムで95％のジェイルブレイクを回避 – ZDNET Japan

記事の概要

記事のポイント

詳しい記事の内容はこちらから（引用元）

AIガバナンスの体制 8割超が未整備・道半ば

ASCII.jp：XのAI「Grok」Androidアプリがまもなく登場

AI記事キュレーションの最新記事8件

ビジネスを飛躍させるAIキュレーションメディア「BizAIdea」

AIガバナンスの体制　8割超が未整備・道半ば