Google の言語モデル Gemini 1.5 登場：最大 100 万トークン処理で性能大幅向上 - アップルジン

Google 自社の言語モデル Gemini が発表されて約2ヶ月後、早速最初のアップグレードを迎えました。最近、Google は最新の言語モデル「Gemini 1.5」を正式にリリースし、Gemini 1.0 と比較して性能と機能が大幅に向上し、最大 100 万トークンを処理できるようになりました。これはより長く、より複雑なタスクに対応できることを意味します。

更に面白いコンテンツを観たい人は、Instagram @applealmondjp と Twitter X @Applealmond1 をフォローしてください！

Gemini 1.5 は性能が向上し、Ultra 1.0 版と遜色ない

Google は、Gemini 1.5 が「エキスパートの混合（Mixture of Experts / MoE）」アーキテクチャを採用していると説明しています。MoE は言語モデルを複数のエキスパートモジュールに分割し、各モジュールが特定のタスクを処理することに特化しています。ユーザーが命令を出すと、モデルは命令の内容に基づいて関連するエキスパートモジュールを起動し、一度に全体のモデルを使用することなく、処理性能と効率を向上させ、モデルの拡張性も効果的に向上させます。

現在、Google がリリースしたGemini 1.5の一般向けバージョンは、中級レベルの「Gemini 1.5 Pro」です。Gemini 1.5 Pro は非常に優れたパフォーマンスを示し、87% のベンチマークテストで Gemini 1.0 Pro を上回り、全体的な性能は以前の最高峰の Ultra 1.0 と同等です。

Gemini 1.5 は最大 100 万トークンを処理可能

Gemini 1.5 は、最大 100 万トークンを処理でき、前世代に比べて約 30 倍の向上を達成し、他の大型言語モデル（Gemini 1.0 は 32,000 トークン、GPT-4 Turbo は 128,000 トークン、Claude 2.1 は 200,000 トークン）を大きく上回ります。

これは、1 時間の動画、11 時間のオーディオ、3 万行以上のコード、または 70 万語以上のライブラリを一度に処理できることを意味します。さらに驚くべきことに、Google 内部では既に 1,000 万トークンを使用する Gemini 1.5 モデルのテストに成功しています。

処理能力に関して、Googleは3つのシナリオを示しています：

まず、大量の複雑な情報を処理する例として、Gemini 1.5 はアポロ 11 号の月面着陸ミッションの記録 PDF ファイル 402 ページを理解、推論し、識別することができます。このタスクには 326,914 トークンが必要です。

また、バスター・キートンが出演する 44 分間のサイレント映画を Gemini 1.5 に見せた場合、映画の各シーンでの人物、出来事、物体を正確に分析し、見逃されがちな細かいディテールについても推論することができます。このタスクには 696,417 トークンが必要です。

最後に、Gemini 1.5 に 10 万行以上のコードを処理させた場合、内容を分析し、修正提案を行い、異なるコードセクションの動作原理を説明することができます。このタスクには 816,767 トークンが必要です。

Gemini 1.5 は将来的に Gemini 1.0 を置き換え、誰もが利用できるようになりますが、標準版の Gemini 1.5 Pro は 12.8 万トークンのみをサポートし、有料バージョンでのみ 100 万トークンを使用できます。これは個々のニーズに依存します。

しかし、Google は将来的に標準版 Gemini 1.5 Pro を 100 万トークンまで拡張する計画もあると述べています。今後、Google がユーザーにどのような選択肢を提供するか楽しみです。

更に面白いコンテンツを観たい人は、Instagram @applealmondjp と Twitter X @Applealmond1 をフォローしてください！

関連記事