記事の概要
パナソニックは、視覚言語モデル「LaViDa」を開発したことを発表しました。
このモデルは、画像や図表を含むデータを構造化し、生成AIの検索拡張生成(RAG)に貢献します。
従来の自己回帰モデルよりも高速にデータを生成できる拡散モデルを採用しており、複数のトークンを同時に生成することで、回答文の生成時間を短縮しています。
LaViDaは、報告書や現場写真、図表などの資料をAIエージェントが利用しやすい形に変換することを目指しており、特に画像としてしか認識できなかった図やグラフ内の情報をテキスト化することで、業務の自動化や効率化を促進します。
この技術により、工場オペレーション支援など、さまざまな分野でのAI活用が期待されています。
記事のポイント
詳しい記事の内容はこちらから(引用元)
ZDNET Japan
パナソニックR&Dカンパニー オブ アメリカとパナソニック ホールディングスは、データ効率化に貢献する新しい視覚言語モデ…
https://japan.zdnet.com/article/35241013/