史上最大のコンテキストウィンドウ、100万トークンの意味
OpenAIは2026年3月5日、最新フロンティアモデル「GPT-5.4」を正式公開した。最大の目玉は、API版で提供される100万トークンのコンテキストウィンドウだ。これはOpenAIが商用提供してきたモデルの中で最も大きく、前世代GPT-5.2の約10倍にあたる。長大な法律文書、企業の全財務諸表、数十万行のコードベース全体を1度のリクエストで処理できるようになった。
100万トークンとは日本語換算でおよそ100万文字前後に相当する。文庫本1冊がおおよそ10万字だとすれば、10冊分の情報を一度に取り込んで回答できる計算になる。これまでは「長い資料の要約」や「複数ドキュメントの横断検索」にRAGや分割処理が必要だったが、GPT-5.4ではそのアーキテクチャ的な必要性が大幅に低下する。
ただし、コンテキストが長くなるほど処理コストも増大する。100万トークンをフル活用するユースケースはまだ限られており、ほとんどの開発者は数万トークン以内の利用に留まるだろう。それでも「上限を意識しなくてよい」という安心感がシステム設計の自由度を広げることは確かだ。
ネイティブなコンピュータ操作——エージェント時代への本格参入
GPT-5.4のもう一つの大きな変化は、コンピュータ操作機能のネイティブ統合だ。OpenAIの「Codex」環境とAPIを通じて、GPT-5.4はスクリーンを「見て」、マウスを動かし、キーボードを叩き、アプリケーションをまたいで複雑なタスクを実行できる。これはClaudeのComputerUseやGeminiの同種機能と真正面から競合する位置づけとなる。
注目すべきは、これが「別途ツールを呼び出す」形ではなく、基盤モデル自体に組み込まれた能力として提供されている点だ。従来のコンピュータ操作APIは別モデルや追加コンポーネントを組み合わせて実現されていたが、GPT-5.4では単一のモデルが視覚的なコンテキストを理解しながら操作判断を行う。これにより遅延が減り、ツール呼び出しの複雑さが解消される。
コンピュータ操作ベンチマークOSWorld-VerifiedとWebArena Verifiedでは記録的なスコアを達成しており、実用的なエージェント利用における信頼性が前世代より大幅に向上している。企業の反復的なPC業務をエージェントに委譲する動きが、これで本格的に加速するとみられる。
事実精度の向上——「信頼できるモデル」への進化
OpenAIがGPT-5.4の発表で特に強調したのは、事実精度の改善だ。ユーザーが事実エラーとしてフラグを立てたプロンプトの評価セットを使ったテストでは、個々の主張が誤りである確率がGPT-5.2比で33%低下した。応答全体に何らかの誤りが含まれる確率も18%減少している。
この改善は単純なベンチマーク向上ではなく、実世界の利用データに基づく評価であることが重要だ。特に医療・法律・金融などの専門分野では、一つの事実誤りが重大な問題を引き起こしうる。GPT-5.4の精度向上は、これらのハイステークスな業務での活用可能性を直接高める。
一方で「33%減」というのは「ゼロになった」ではない。AIの事実誤りは依然として存在し、重要な業務では人間によるレビューが不可欠だ。ただ、誤り率が下がることで「AIが間違えたときに人間が気づく」という検証コストも低下する。精度と監視コストのバランスが変わることで、自動化できる業務の範囲が広がる。
Standard・Thinking・Pro——三つの顔を持つGPT-5.4
GPT-5.4はリリース時点から三つのバリアントとして提供される。「Standard」は通常の汎用利用向け、「Thinking」は内部的な推論ステップを経て回答の精度を高める推論特化版、「Pro」は最大性能を引き出すエンタープライズ向けだ。
Thinkingバリアントの存在は、OpenAIがAnthropicのClaudeやGoogle GeminiのThinkingモードと直接競合する意図を示している。複雑な数学問題、多段階推論、ソフトウェアのデバッグなど、「正確さ」が要求されるタスクでの競争は一段と激しくなる。
同月17日にはより小型の「GPT-5.4 mini」と「GPT-5.4 nano」も追加リリースされた。miniとnanoは高速・低コスト処理を必要とする大量リクエスト向けに設計されており、エッジ推論やモバイルアプリケーションへの統合が想定されている。フロンティアの能力を持ちながらコストを抑えたい開発者にとって、実質的な選択肢が一気に広がった。
競争環境の変化——モデルリリースが「週単位」になる時代
GPT-5.4のリリースはより大きな潮流の一部でもある。2026年3月はGPT-5.4に加え、Google Gemini 3.1 Ultra、Alibaba Qwen 3.5 Small、xAIのGrok 4.20など、複数のフロンティアモデルが一斉に登場した月として記録されるだろう。AI能力の進歩が「年単位」から「月単位」を経て、実質的に「週単位」になりつつある。
この加速がもたらすのは開発者にとっての豊かさであると同時に、継続的な意思決定の負荷でもある。どのモデルを選ぶか、いつアップグレードするか、新機能をいつ本番に取り込むかという判断が絶えず求められる。ベンチマークではなくユースケースに特化した評価体制を持つことが、組織にとってますます重要になる。
GPT-5.4は現時点での最前線を示す一枚の写真に過ぎない。しかしその内容——100万トークン、ネイティブPC操作、事実精度の向上——は、AIが「答えるツール」から「動くエージェント」へと転換するトレンドを明確に体現している。次のフロンティアがどこに来るのか、その問いへの答えは数週間後にはまた書き換えられているかもしれない。



