Google 自社の言語モデル Gemini が発表されて約2ヶ月後、早速最初のアップグレードを迎えました。最近、Google は最新の言語モデル「Gemini 1.5」を正式にリリースし、Gemini 1.0 と比較して性能と機能が大幅に向上し、最大 100 万トークンを処理できるようになりました。これはより長く、より複雑なタスクに対応できることを意味します。
更に面白いコンテンツを観たい人は、Instagram @applealmondjp と Twitter X @Applealmond1 をフォローしてください!
Gemini 1.5 は性能が向上し、Ultra 1.0 版と遜色ない
Google は、Gemini 1.5 が「エキスパートの混合(Mixture of Experts / MoE)」アーキテクチャを採用していると説明しています。MoE は言語モデルを複数のエキスパートモジュールに分割し、各モジュールが特定のタスクを処理することに特化しています。ユーザーが命令を出すと、モデルは命令の内容に基づいて関連するエキスパートモジュールを起動し、一度に全体のモデルを使用することなく、処理性能と効率を向上させ、モデルの拡張性も効果的に向上させます。
現在、Google がリリースしたGemini 1.5の一般向けバージョンは、中級レベルの「Gemini 1.5 Pro」です。Gemini 1.5 Pro は非常に優れたパフォーマンスを示し、87% のベンチマークテストで Gemini 1.0 Pro を上回り、全体的な性能は以前の最高峰の Ultra 1.0 と同等です。
Gemini 1.5 は最大 100 万トークンを処理可能
Gemini 1.5 は、最大 100 万トークンを処理でき、前世代に比べて約 30 倍の向上を達成し、他の大型言語モデル(Gemini 1.0 は 32,000 トークン、GPT-4 Turbo は 128,000 トークン、Claude 2.1 は 200,000 トークン)を大きく上回ります。
これは、1 時間の動画、11 時間のオーディオ、3 万行以上のコード、または 70 万語以上のライブラリを一度に処理できることを意味します。さらに驚くべきことに、Google 内部では既に 1,000 万トークンを使用する Gemini 1.5 モデルのテストに成功しています。
処理能力に関して、Googleは3つのシナリオを示しています:
まず、大量の複雑な情報を処理する例として、Gemini 1.5 はアポロ 11 号の月面着陸ミッションの記録 PDF ファイル 402 ページを理解、推論し、識別することができます。このタスクには 326,914 トークンが必要です。
また、バスター・キートンが出演する 44 分間のサイレント映画を Gemini 1.5 に見せた場合、映画の各シーンでの人物、出来事、物体を正確に分析し、見逃されがちな細かいディテールについても推論することができます。このタスクには 696,417 トークンが必要です。
最後に、Gemini 1.5 に 10 万行以上のコードを処理させた場合、内容を分析し、修正提案を行い、異なるコードセクションの動作原理を説明することができます。このタスクには 816,767 トークンが必要です。
Gemini 1.5 は将来的に Gemini 1.0 を置き換え、誰もが利用できるようになりますが、標準版の Gemini 1.5 Pro は 12.8 万トークンのみをサポートし、有料バージョンでのみ 100 万トークンを使用できます。これは個々のニーズに依存します。
しかし、Google は将来的に標準版 Gemini 1.5 Pro を 100 万トークンまで拡張する計画もあると述べています。今後、Google がユーザーにどのような選択肢を提供するか楽しみです。
更に面白いコンテンツを観たい人は、Instagram @applealmondjp と Twitter X @Applealmond1 をフォローしてください!
関連記事