記事の概要
Google DeepMindが発表した「Gemma 4 12B」は、ノートPCで動作するマルチモーダルAIモデルです。
このモデルは、16GBのVRAMまたはユニファイドメモリーを使用してローカル実行が可能で、開発者はHugging FaceやKaggleから事前学習済みモデルをダウンロードできます。
Gemma 4 12Bは、画像、音声、テキストを直接統合するアーキテクチャを採用し、従来のモデルと比べて低遅延での処理を実現しています。
特に、音声と画像の入力はLLMバックボーンに直接取り込まれ、効率的なデータ処理が行えます。
また、日常的なハードウェアでも高度なマルチモーダル機能を利用できるよう設計されています。
利用環境としては、LM StudioやGoogle AI Edgeアプリがあり、音声入力の文字起こしや翻訳のデモも行われています。
記事のポイント
詳しい記事の内容はこちらから(引用元)
Google DeepMindは3日、マルチモーダルAIモデル「Gemma 4 12B」を発表した。ノートPC上で動作す…
https://www.watch.impress.co.jp/docs/news/2114372.html