記事の概要
Anthropicは、AIモデルの安全リスクを可視化するオープンソースツール「Parallel Exploration Tool for Risky Interactions」(Petri)を公開しました。
このツールは、AIエージェントを使ってモデルとの対話をシミュレーションし、人間の利益に反する行動の可能性を評価することを目的としています。
過去の研究を基に、14の最先端AIモデルを111のシナリオで評価した結果、Claude Sonnet 4.5が最も安全とされ、Grok 4やGemini 2.5 Proは危険な行動が懸念されると報告されています。
Anthropicは、AIモデルの行動を分類し、行動のリスクを評価することの重要性を強調し、Petriを通じて研究者に新たなリスクの発見や安全対策の方向性を示す機会を提供することを期待しています。
AIの安全性に関する取り組みは、今後ますます重要になると考えられています。
記事のポイント
詳しい記事の内容はこちらから(引用元)
Anthropicは、AIモデルに潜む安全上のリスクを明らかにするためのオープンソースツールを公開した。しかし、それ以上…
https://japan.zdnet.com/article/35238940/
