北京時間7月10日、世界が注目するのを待つこと1時間、マスクはついにxAIの最新傑作、マスクが「世界で最も賢いAI」と呼ぶGrok 4の謎を公開した。マスクが「世界一賢いAI」と称したこのモデルは、発表されるやいなや主要ベンチマークテストで新記録を樹立し、「Human Last Exam」(HLE)で50%の精度を突破した初のAIモデルとなった。

算術スケール:前例のないトレーニング入力
Grok 4のトレーニングの規模は、xAIのAIインフラへの莫大な投資を反映したもので、前例のないレベルのコンピューティングパワーを割り当てている:
インフラ構成
ハードウェア構成 | 仕様 | 用途の割り当て |
---|---|---|
プレトレーニングクラスター | 100,000 H100 GPU | 基本モデルのトレーニング |
強化された学習クラスター | H100/A100ミックス 200,000枚 | RLの微調整と推論の最適化 |
総計算能力(TCP) | コロッサス・スーパーコンピューティング・センター | 全工程AIトレーニング |
トレーニング期間比率 | グロック2より100倍良い | ディープラーニングの反復 |
RL計算比率 | Grok 3より10倍向上 | 集中学習に特化 |
マスクは、xAIが事前学習とほぼ同程度の演算量を強化学習に投資していることを明らかにした。これは、業界では極めて珍しい「デュアルエンジン」主導のトレーニングアプローチである。チームはモデルを第一原理から考え、推論し、自己修正するように訓練し、これがGrokシリーズの推論能力の核心的な源となっている。

トレーニング・アーキテクチャの進化
グロック・ファミリーのトレーニング・パラダイムは大きな進化を遂げた:
モデルバージョン | 主な技術パラダイム | 計算リソースの割り当て | コア・ブレイクスルー |
---|---|---|---|
Grok 2 | 次のトークン予想 | 基本的な事前トレーニングが中心 | 規模拡大 |
グロック3 | 事前トレーニング+予備RL | トレーニング前の算数が10倍に | 推論スキルの導入 |
グロック4 | ネイティブ・ツール・フュージョン+大規模RL | RLの演算がさらに10倍向上 | 道具の使用とマルチインテリジェンス |

コア・テクノロジー・アーキテクチャ:ネイティブな統合のための革新的な設計
ツール統合トレーニングの仕組み
Grok 4の最大の技術革新は、従来の統合後のアプローチではなく、ツール使用機能をトレーニングプロセスに直接統合したことである:
技術的特徴 | 伝統的なプログラム | グロック4プログラム | パフォーマンス向上 |
---|---|---|---|
ツール呼び出しメソッド | ポストAPI統合 | ネイティブ・トレーニングの統合 | 効率を3~5倍高める |
ラーニングカーブ | 急な適応の時期 | 順調な成長 | より良い一貫性 |
スケーラビリティ | インターフェースによる制約 | シームレスな統合 | 複雑なツールチェーンのサポート |
推論の一貫性 | 故障しやすい | エンド・ツー・エンドの最適化 | エラー率低減 40% |
この設計により、Grok 4はトレーニング中に、単に外部APIを呼び出すのではなく、特定のツールをいつ、どのように、そしてなぜ使うのかを学ぶことができる。
マルチインテリジェンス・コラボレーション・システム
Grok 4 Heavyは、以下の技術仕様のマルチインテリジェンス並列動作モードを採用している:
コラボレーション・パラメーター | 技術仕様 | 作業メカニズム |
---|---|---|
並列知能の数 | 最大32 | 同じ問題の同時治療 |
推論の分岐戦略 | ディープサーチツリー | 各ブランチは独立して探索される |
共同検証メカニズム | 交差検証アルゴリズム | 諜報機関間のチェック |
最適解の選択 | 統合学習フュージョン | グローバル最適解生成 |
テスト中のエクステンションの計算 | 1倍から32倍まで調整可能 | タスクの複雑さに応じて動的に調整 |
この "博士課程の学生によるグループ作業チーム "は、個人の知能について40%の精度を50%以上にまで高めた。

モデル性能パラメーター
コア指標 | Grok 4の仕様 | 業界比較 |
---|---|---|
コンテキストの長さ | 256Kトークン | エンタープライズ・アプリケーション標準 |
APIバージョン番号 | Grok-4-0709 | 最新安定版 |
推理速度 | 75トークン/秒 | ビヨンド・クロード4 Opus(66トークン/秒) |
待ち時間の最適化 | エンド・ツー・エンドのハーフ化 | リアルタイムでの音声対話 |
並行処理 | マルチユーザーによる高い同時実行性をサポート | 商業化の準備 |
モデル時代 | 第7世代インフラ | xAIの最新技術スタック |


パフォーマンスのベンチマーク:インテリジェンスを全面的にリードする
学力と推理力
グロック4は、最も権威あるテストで好成績を収めることで、その「ポスドク・レベル」の知性を証明している:
テストカテゴリー | 具体的なベンチマーク | グロック4スコア | グロック4ヘビー | 人間の博士号レベルの比較 |
---|---|---|---|---|
総合科目 | HLE(ヒューマン・レガシー・エグザミネーション) | 38.6% | 44.4% | ほとんどの博士課程の学生を超える |
数学コンテスト | AIME25 | 100% | 100% | 満点レベル |
チーム数学 | HMMT25 | 96.7% | 96.7% | トップコンペティションレベル |
大学院生Q&A | ジーピーキューエー | 88.9% | 88.9% | 博士入学レベル |
数学オリンピック | USAMO25 | 61.9% | 61.9% | 国際大会レベル |
プログラミング・コンペティション | LCB(1月~5月) | 79.4% | 79.4% | プロフェッショナル・プログラマー・レベル |

AGIコア・コンピテンシー評価
グロック4は、一般的なAIという重要なテストでも優れていた:
AGIテスト項目 | グロック4のパフォーマンス | 技術的意義 | 競合他社との比較 |
---|---|---|---|
ARC-AGI-2 | 15.9% | 市販モデル初の10%突破 | ディープシークR1の12倍 |
ARC-AGI-1 | 66.7% | 既知のパターンを一般化する能力 | GPT-4を6ポイント近く上回る |
費用対効果比 | 最適 | 最も賢い単価 | 業界をリードする価格性能比 |

特別なテストシナリオ
多くのユニークなテストシナリオにおいて、Grok 4は従来のAIを凌駕する能力を実証した:
テストシナリオ | 具体的表現 | 技術的な意味合い |
---|---|---|
自販機ビジネステスト | 純資産は2位の2倍 | 長期的な経営意思決定能力 |
RKG創薬 | 10%を破った唯一のモデル | 生物医学的推論 |
複雑な物理モデリング | ブラックホール衝突のシミュレーションに成功 | 高度な科学計算スキル |

価格設定と商品化戦略
xAIはGrok 4のハイエンドポジショニング戦略を明確にしている:
サービスレベル | 月額料金 | 年会費価格 | コア機能の違い |
---|---|---|---|
スーパーグロック | $30 | $300 | シングル・インテリジェント・ボディ スタンダード・エディション |
スーパーグロック・ヘビー | $300 | $3,000 | マルチ・インテリジェンス・コラボレーション・エディション |
この価格戦略により、Grok 4は企業やプロフェッショナルユーザー向けのハイエンドAIサービスと位置づけられ、ヘビーバージョンの年間利用料は最大2万1500人民元となる。

アプリケーションの展望と産業統合
この音声アシスタントはテスラの最新ファームウェアに統合され、オプティマスロボットにはAI頭脳としてGrokが搭載される予定だ。xAIは今後数ヶ月のうちに、専用のプログラミングモデル、マルチモーダルエージェント、大規模ビデオ生成モデルを次々とリリースし、完全なAI製品マトリックスを構築する計画だ。
Grok4は、20万GPUクラスタの演算能力とネイティブ・ツール・フュージョンの技術革新により、AI競争で主導的地位を確立した。ベンチマーク、特に深い推論を必要とする複雑なタスクにおけるその圧倒的な性能は、「超人間的知性」への重要な一歩を示している。高価格であるため普及には限界があるが、Grok 4は、究極のAIパワーを求めるプロフェッショナル・ユーザーにとって、今日の市場で最も強力な選択肢を提供する。

GPT Plus、Claude Pro、Grok Superの公式有料専用アカウントを使用したい場合、トップアップの方法がわからない場合は、当社の専門チーム(wx: f15303420735)にお問い合わせください。