レポート
2026.06.19(金) 公開
セレブラスとは?GPUを超える「巨大チップ1枚」戦略の全貌 - WSE-3の技術と生成AI時代の立ち位置
目次
1. はじめに
生成AIの爆発的な普及により、AI半導体市場は歴史的な転換期を迎えています。ChatGPTやClaudeのような大規模言語モデルが日常的に使われる時代において、従来のGPUアーキテクチャの限界が顕在化しています。特に「推論」フェーズでは、通信遅延やメモリアクセスのボトルネックが深刻な課題です。
米カリフォルニア州のセレブラス・システムズ(Cerebras Systems)が提案する「ウェハースケール」アーキテクチャが、業界に衝撃を与え続けています。同社の第3世代チップ「WSE-3(Wafer Scale Engine-3)」は、300mmのシリコンウェハーを切り分けずに1枚のチップとして使用する、半導体製造の常識を覆す設計です。本記事では、セレブラスの技術的優位性、GPUとの根本的な違い、推論市場での実測パフォーマンス、競合技術との比較、そして2026年現在の市場展望を包括的に解説します。
2. セレブラスとは? — 「ウェハースケール」が切り拓く新時代
2.1 セレブラス社の概要と歴史
セレブラス・システムズは、2016年にアンドリュー・フェルドマン氏らによって創業されたAI半導体スタートアップです。「ウェハー全体を1つのチップとして使う」という野心的なビジョンを掲げ、2019年に初代WSE-1を発表して以来、着実に技術を進化させてきました。2024年3月に最新のWSE-3(5nmプロセス)を公開し、2025年には売上が10億ドルを突破。2026年第2四半期には米国市場でのIPOを実施し、AI推論市場のゲームチェンジャーとして確固たる地位を築いています。
主要顧客には、OpenAI(2025年に750MW規模の契約締結)、G42/Core42(UAE)、IBM、米国エネルギー省などが名を連ねます。
2.2 ウェハースケールエンジン(WSE)の基本
従来の半導体製造では、300mmウェハーから数十~数百個のチップを切り出すのが一般的です。NVIDIA H100は約826mm²のサイズで、1枚のウェハーから約60個製造できます。
セレブラスのWSE-3は、この常識を完全に覆します。300mmウェハーから切り出された21.5cm角(46,225mm²)のチップ1枚が、そのまま1つのプロセッサとして機能します。これは一般的なGPUの57倍の面積に相当します。WSE-3はTSMCの5nmプロセスで製造され、4兆個のトランジスタと90万個のAI最適化コアを搭載しています。
2.3 推論市場での戦略的ポジション
AI市場は「トレーニング(学習)」と「推論(インファレンス)」の2つのフェーズに分かれます。2026年現在、推論需要がトレーニングを上回る「インファレンス・インバージョン(推論逆転)」が現実のものとなっており、推論ワークロードでは、低レイテンシ、高スループット、コスト効率が最重要視されています。
セレブラスのWSE-3は、この推論市場に最適化されたアーキテクチャを持ちます。2025年に独立ベンチマーク機関から「世界最速の推論サービス」として認定されて以降も性能向上を続けており、従来のNVIDIA GPUクラスタと比較して圧倒的な優位性を保っています。
3. GPUとの決定的な違い — なぜ「巨大チップ1枚」なのか?
3.1 GPUクラスタの構造的限界
現代のAIワークロードは、複数のGPUを接続したクラスタで運用する必要があります。しかし、チップ間の通信は、チップ内部の通信と比べて数百倍から数千倍遅いという根本的な問題があります。NVIDIA H100の場合、チップ間接続(NVLink)の帯域幅は900GB/s程度ですが、チップ内部のメモリ帯域幅は3.35TB/sです。
さらに、モデルのパラメータを外部メモリ(HBM)に格納する必要があり、推論の度に外部メモリへアクセスするオーバーヘッドがレイテンシの主要因となります。
3.2 ウェハースケールの革新性
セレブラスのWSE-3は、これらの問題を根本から解決します。90万個のコアすべてが単一チップ上に配置され、専用の高速ファブリック(SwarmX)で直接接続されています。コア間通信はシングルクロックサイクルで完了します。
最も重要な革新は、44GBのSRAMをチップ上に搭載している点です。SRAMはHBMと比較して数十倍高速で、外部メモリアクセスのレイテンシが発生しません。多くのLLMは、全パラメータをこのオンチップメモリに格納できます。
3.3 設計思想の違い
GPUは小型の高性能チップを大量に並列接続する「並列化アプローチ」、WSEは単一の巨大チップにすべてを統合する「統合アプローチ」です。チップを大きくすること自体が目的ではなく、通信とメモリアクセスを根本的に改善することが真の目的です。
4. WSE-3の圧倒的な技術仕様
4.1 基本スペックと性能指標
主要スペック:
-
プロセスノード:TSMC 5nm
-
チップサイズ:46,225mm²(21.5cm角)
-
トランジスタ数:4兆個
-
AIコア数:900,000個
-
オンチップメモリ:44GB SRAM
-
ピークAI性能:125 PFLOPS (FP16)
-
メモリ帯域幅:21 PB/s(21,000 TB/s)
-
ファブリック帯域幅:214 Pb/s
-
外部メモリ:1.5TB、12TB、または1.2PBまで対応
-
最大パラメータ数:24兆パラメータのモデルに対応
4.2 NVIDIA H100との徹底比較
横スワイプで続きを御覧ください
特に注目すべきは、メモリ帯域幅21ペタバイト/秒(21,000テラバイト/秒)という数字です。この圧倒的な帯域幅により、大規模モデルのパラメータを瞬時に全コアへ配信できます。
単一のCS-3システム(WSE-3チップ1個搭載)は15Uラックマウント形式で、消費電力は約23kWです。クラスタ構成では最大2,048台のCS-3を接続でき、256エクサフロップスの性能を発揮します。SwarmX技術により単一の論理デバイスとして動作するため、プログラマーは分散処理を意識する必要がありません。
5. 製造の常識を覆す — 歩留まり93%を実現した設計哲学
5.1 超小型コア設計による欠陥耐性
半導体製造において、チップサイズと製造歩留まりは反比例の関係にあります。WSE-3の46,225mm²という面積は、H100の57倍です。通常の設計思想では、このサイズでの製造は事実上不可能とされていました。
セレブラスは、コアを極端に小さく設計することで、欠陥時の影響範囲を最小化しました。NVIDIA H100のSMコアが約6.2mm²なのに対し、Cerebras WSE-3のコアは約0.05mm²(124分の1)です。H100で1つのコアに欠陥が発生すると6.2mm²が無効になりますが、WSE-3では0.05mm²しか無効になりません。
WSE-3は90万個のコアを搭載しているため、最大70,000個のコアが無効化されても正常に動作するよう設計されています。これはH100の予備コア12個と比較すると、5,833倍の冗長性です。
5.2 動的ルーティング技術
各コアは複数の経路で他のコアと接続されており、特定の経路に欠陥があれば自動的に代替経路を使用します。製造時に各ウェハーの欠陥マップを作成し、テスト段階で欠陥コアを特定してファームウェアレベルで無効化し、迂回ルートを設定します。
結果として、WSE-3は93%のシリコン活用率を達成しており、H100の91.7%よりも高い数値です。46,225mm²という巨大サイズでありながら、実用的な歩留まりで量産できることを証明しました。
6. 推論市場での圧倒的パフォーマンス
6.1 実測ベンチマーク
セレブラスの推論性能は、独立した第三者機関によって継続的に検証されています。Artificial Analysis社が実施したベンチマークで、Cerebras Cloudは「世界最速の推論サービス」としての地位を確立しています。
実測結果の例:
-
Llama 3.1 8B:1,800トークン/秒(NVIDIA GPUクラスタ比で約20倍)
-
Llama 3.1 70B:450トークン/秒
-
GPT-OSS-120B:3,000トークン/秒(Core42との共同展開)
これらの数値は、実際のプロダクション環境で測定された実効スループットです。特筆すべきは、モデルサイズが大きくなってもスループットの低下が少ない点です。
6.2 コスト効率とクラウドサービス
Cerebras Cloud Inference APIの料金体系(2026年6月現在):
-
Llama 3.1 8B:$0.10 / 100万トークン
-
Llama 3.1 70B:$0.60 / 100万トークン
-
無料ティア:コミュニティサポート、レート制限あり
-
有料プラン:$10/月から、レート制限10倍緩和
NVIDIA GPUベースのクラウド推論サービスと比較すると、セレブラスは約1/5のコストで同等以上の性能を提供します。これは、1台のCS-3システムがH100数百台分の推論性能を持つためです。
7. AI半導体市場の全体像とポジショニング
7.1 2026年現在の市場動向
AI半導体市場は、2026年現在で約2,000億ドル規模に達しており、生成AIサービスの一般化により推論市場が急拡大しました。長らくトレーニング市場が主流でしたが、予測されていた「インファレンス・インバージョン」がついに現実のものとなっています。
NVIDIA(H100や最新のB200など)が汎用市場で依然として強固なシェアを持つものの、専用推論チップを開発する企業が急成長しています。Cerebrasをはじめ、Groq、SambaNova、Google(TPU)、AMD(MI355X)などが、それぞれの強みを活かして市場シェアを獲得しています。
7.2 競合技術との比較
横スワイプで続きを御覧ください
セレブラスの強みと弱み:
強みは、推論性能(世界最速クラス)、コスト効率(GPU比1/5)、運用シンプル化(15Uラック1台で完結)、メモリ優位性(44GB SRAM)です。弱みは、CUDAほど成熟していないエコシステム、オンプレミス導入時の初期コスト、AI推論に特化した汎用性の狭さです。
8. 導入シナリオと用途別推奨
エンタープライズ向け導入判断:
月間リクエスト数が1億回を超えるような大規模環境では、セレブラスのコスト優位性が顕著になります。ROI計算例(Llama 3.1 70B、月間1億リクエスト)では、GPUクラスタ構成と比較して、オンプレミスCS-3やCerebras Cloud APIを利用した方が大幅な運用コスト削減が見込めます。月間1,000万リクエスト以下の中規模運用であれば、Cerebras Cloud APIの直接利用が推奨されます。
開発者向けクイックスタート:
Cerebras Cloud APIの無料ティアから気軽に始めることができます。有料プラン(月額$10~)へアップグレードすることで、プロダクション環境にも耐えうるレート制限へと緩和されます。
用途別適性マトリクス:
横スワイプで続きを御覧ください
9. 今後の展望と技術的課題
2026年以降の市場動向:
推論市場がトレーニング市場を完全に上回り、エージェントAIの普及により「ミリ秒単位の応答」がインフラの標準要件となっています。セレブラスのIPOの成功は、このAI推論市場に対する投資家の強い期待を反映したものです。今後は電力効率と推論特化型チップへのシフトがさらに加速する見込みです。
技術的発展の方向性:
TSMC 3nmプロセスを採用した次世代「WSE-4(トランジスタ数6兆個以上、コア数120万個以上と予測)」へのロードマップ、24兆パラメータモデルのサポート、Qualcommとの提携を通じたエッジ推論環境とのシームレスな連携、各種主要AIフレームワークとの統合深化が進行しています。
克服すべき課題:
巨大なチップサイズに起因する製造コスト、23kWの消費電力を支える冷却システム、ソフトウェアエコシステムのさらなる成熟、そして地政学的リスク(TSMCへの依存)への対応が、今後の持続的成長の鍵となります。
10. よくある質問(FAQ)
Q1. GPUとセレブラスは何が根本的に違うのですか?
最大の違いは、チップの「規模」と「統合レベル」です。GPUは小型チップを数百台接続してクラスタを構成しますが、セレブラスのWSE-3はGPUの57倍の面積を持つ単一チップに90万個のコアを統合します。この設計により、遅延の原因となるチップ間通信が排除され、メモリアクセスが桁違いに高速化します。
Q2. なぜ「巨大チップ1枚」に意味があるのですか?
単に大きいことが目的ではなく、通信とメモリアクセスの根本的改善が真の目的です。全コアがオンチップファブリックで直接接続されることで、通信がナノ秒単位で完了します。また、44GBのオンチップSRAMにパラメータを格納することで外部アクセスを最小化し、結果としてGPUを凌駕する推論速度を実現しています。
Q3. ウェハーサイズのチップで製造歩留まりは問題ないのですか?
問題ありません。WSE-3は93%のシリコン活用率を達成しており、これはNVIDIA H100よりも高い効率です。秘密は超小型コア設計(H100の1/124のサイズ)にあり、最大70,000個が不良でも全体性能に影響しません。動的ルーティングにより欠陥コアを自動的に迂回します。
Q4. 個人開発者でも使えますか?料金は現実的ですか?
はい、十分に現実的です。Cerebras Cloudは無料ティアを提供しており、有料プランも月額$10からです。Llama 3.1 8Bモデルの推論は$0.10/100万トークンと非常に安価なため、個人プロジェクトからスタートアップのプロトタイプ開発まで幅広く利用されています。
11. まとめ
セレブラス・システムズのWSE-3は、AI半導体の歴史において革命的なマイルストーンです。300mmシリコンウェハーを1枚のチップとして使うという常識破りのアプローチは、生成AI時代の実用的課題に対する明確な解決策を提示しました。
分散処理モデルのGPUに対し、セレブラスは統合処理モデルを採用。44GBのオンチップSRAMと圧倒的なメモリ帯域幅により、推論速度でNVIDIA製GPUクラスタを凌駕する性能を実現しました。また、独自の超小型コア設計と動的ルーティングにより、巨大チップにおける製造上の歩留まり問題をもクリアしています。
2026年現在、AI市場は推論需要が急増する「インファレンス・インバージョン」の真っ只中にあります。IPOを果たし、OpenAIなどと大規模契約を結ぶセレブラスは、この市場変化の波を完全に捉えています。
エコシステムの構築や地政学的リスクなど課題は残るものの、AI推論インフラはすでに「汎用GPUの独占」から「用途別専用チップ」の時代へとパラダイムシフトを起こしています。セレブラスは、その新時代を牽引する中核企業として、今後もAI産業の進化を強力にサポートしていくでしょう。
12. 参考文献
Cerebras CS-3: the world's fastest and most scalable AI accelerator
AI Supercomputers - Condor Galaxy - Cerebras
100x Defect Tolerance: How Cerebras Solved the Yield Problem
2026: Fast Inference Finds its Groove - Cerebras
Developer tier Pricing - Cerebras
Report: AI chipmaker Cerebras Systems rekindles IPO plans, targeting early 2026 listing
Cerebras' New Inference Service May Lower Enterprise AI Costs - The AI Innovator
Cerebras CS-3 vs. Nvidia B200: 2024 AI Accelerators Compared
Comparing NVIDIA's B200 and H100: A deep dive into next-gen AI performance | Civo
Cerebras vs SambaNova vs Groq: AI Chip Comparison (2025) | IntuitionLabs
SambaNova vs. Groq: The AI Inference Face-Off
Why is OpenAI partnering with Cerebras? - Zach
Cerebras、4兆トランジスタの第3世代ウェーハスケールAIチップを開発 - セミコンポータル
Celebras、4兆トランジスタ搭載のAIチップ「WSE-3」 - PC Watch
進化し続けるWSE(Wafer Scale Engine)、大規模AIモデルのトレーニング性能とは――Cerebras社訪問2024【前編】 | gihyo.jp
AI Inference vs Training: Key Differences for 2026 - Kanerika
「ChatGPT導入・活用支援」はNOB DATAにご相談ください
ChatGPTの導入・活用に課題を感じていませんか?
NOB DATAでは、ChatGPT開発およびデータ分析・AI開発のプロフェッショナルが、多種多様な業界・課題解決に取り組んだ実績を踏まえ、ChatGPTの導入・活用を支援しています。社員向けのChatGPT研修も実施しており、お気軽にお問い合わせください。