記事の概要
Google DeepMindは、2023年10月7日にウェブブラウザーを操作できる新しいAIモデル「Gemini 2.5 Computer Use」の一般公開プレビューを発表しました。
このモデルは、ユーザーが自然言語で指示を出すと、ウェブページ上でクリックや入力、スクロールなどの作業を自動的に実行します。
操作の過程はテキストボックスで確認でき、慎重な判断が必要な場合はユーザーに確認を求める仕組みもあります。
また、反復的なループ機能を活用し、以前の操作履歴をもとに次の動作を判断します。
安全性にも配慮がなされており、望ましくない操作を防ぐ機能が搭載されています。
しかし、他のAIモデル同様に、論理的推論や因果関係の理解に限界があることも指摘されています。
この新モデルは、Googleの「Gemini API」や「Vertex AI」を通じて利用可能です。
記事のポイント
詳しい記事の内容はこちらから(引用元)
Google DeepMindは米国時間10月7日、人間のようにウェブブラウザーを操作できる新しいAIモデルを一般公開プ…
https://japan.zdnet.com/article/35239059/