OpenAIが最新フラッグシップ「GPT-5.2」を公開。専門業務で人間の専門家を上回る新指標、ARC-AGI-2で過去最高。

2025年12月11日(木)の最新AIニュース、GPT-5.2の正式発表についてです。今回の最新AIニュース、ポイントは以下の通りです。

この記事のポイントは？

- GPT-5.2は「専門的な知識業務」と「長時間稼働するエージェント」を想定した最先端モデルシリーズ。ChatGPTは有料プランから順次提供、APIは本日より全開発者が利用可能。
- ベンチマーク：GDPvalで専門家水準に到達（難度の高い業務タスクの70.7%を専門家と同等以上）、ARC-AGI-2で52.9%（Proは54.2%）と新SOTA。
- モデル構成：Instant／Thinking／Proを展開。長文コンテキスト、ツール呼び出し、画像理解、コーディングで広範囲に強化。
- 価格：APIは100万トークンあたり入力$1.75・出力$14（gpt-5.2）。キャッシュ入力は90%引き。Proは入力$21・出力$168。ChatGPTのサブスク料金は据え置き。
- パートナー：学習・提供基盤はNVIDIA（H100/H200/GB200-NVL72）とMicrosoft Azureの大規模インフラ。

【GPT-5.2】発表概要と提供開始：ChatGPT・APIの提供状況と狙い
【GPT-5.2 ベンチマーク】GDPval・ARC-AGI・SWE-Benchでの主な数値
【GPT-5.2 長文コンテキスト】最大256k級で高精度の情報探索・統合
【GPT-5.2 Vision & ツール呼び出し】画像理解とエージェント性能の底上げ
【GPT-5.2 事実性】検索併用でエラー率低下、ChatGPT運用での実利
【GPT-5.2 価格】APIは入力$1.75／出力$14（100万トークン）から、キャッシュ入力は90%引き
【GPT-5.2 提供形態】Instant／Thinking／Pro：用途別の選び方
【GPT-5.2 パートナー】NVIDIA & Microsoftのインフラで学習と提供を加速
まとめ：GPT-5.2は“業務成果物品質×長時間エージェント”で実用域を拡張

【GPT-5.2】発表概要と提供開始：ChatGPT・APIの提供状況と狙い

参考：https://openai.com/ja-JP/index/introducing-gpt-5-2/

OpenAIは2025年12月11日(木)、フロンティアモデル「GPT-5.2」を発表しました。専門的な知識業務（プレゼン・スプレッドシート・コード・文書分析・短編動画などの成果物生成）と、長時間稼働するエージェント用途を主眼に設計されています。ChatGPTでは「Instant／Thinking／Pro」を有料プランから順次解放し、APIは同日より全開発者が利用可能となりました。

【GPT-5.2 ベンチマーク】GDPval・ARC-AGI・SWE-Benchでの主な数値

実務タスク評価のGDPvalでは、GPT-5.2 Thinkingが「難度の高い知識業務タスクの70.7%で専門家同等以上」、全体として人間の専門家レベルに到達しました。投資銀行アナリスト初級レベルの内部評価でも、平均スコアが59.1%→68.4%へと9.3ポイント改善し、スプレッドシートやスライドの体裁も向上しています。

抽象推論ではARC-AGI-2（Verified）でThinkingが52.9%、Proが54.2%と、思考系モデルの最高スコアを更新。SWE-Bench Pro（公開版）55.6%、SWE-bench Verified 80.0%と、ソフトウェア工学ベンチマークでも改善を確認できます。

【GPT-5.2 長文コンテキスト】最大256k級で高精度の情報探索・統合

長文コンテキスト評価（MRCRv2・GraphWalks・BrowseComp）において、GPT-5.2は4k〜256kレンジで大幅な精度向上を示しました。たとえばMRCRv2の「8 needles, 128k–256k」で77.0%（GPT-5.1は29.6%）と大差を記録。BrowseComp Long Context 128k/256kでも高い正答率を維持しており、広い文脈に散在する情報の針探しに強みを持ちます。

【GPT-5.2 Vision & ツール呼び出し】画像理解とエージェント性能の底上げ

Vision系では、科学図表推論（CharXiv reasoning）でツール無し82.1%、Python使用で88.7%と堅調。動画を含むMMMU系評価でも80%台を確保しています。さらにTau2-benchやMCP-Atlas、Toolathlon、BrowseCompといった「ツール使用」系ベンチマークで、Thinking/Proがいずれも前世代を上回り、長時間のエージェント運用での安定性と実用性能の強化が見て取れます。

【GPT-5.2 事実性】検索併用でエラー率低下、ChatGPT運用での実利

ChatGPTでの回答エラー無し率は、検索ありで93.9%、検索なしでも88.0%と改善。企業のナレッジ活用や外部情報の取り込みを前提とする運用で、誤答リスクの低減と検証プロセスの効率化が期待できます。

【GPT-5.2 価格】APIは入力$1.75／出力$14（100万トークン）から、キャッシュ入力は90%引き

API料金はgpt-5.2（chat-latest含む）で入力$1.75、出力$14／100万トークン。キャッシュ入力は90%割引です。上位のgpt-5.2-proは入力$21、出力$168。ChatGPTのサブスクリプションは据え置きで、トークン単価はgpt-5.1より高い一方、トークン効率向上により同品質出力の総コストは下がるケースが示されています。

【GPT-5.2 提供形態】Instant／Thinking／Pro：用途別の選び方

ChatGPTにはInstant／Thinking／Proの3ライン。Thinkingは専門業務向けの精緻な推論・成果物生成に最適で、Proはさらに推論設定を引き上げられる構成。複雑なスプレッドシートやスライドの自動生成など、エージェント的な長時間処理で効果を発揮します。APIは本日から一般提供です。

【GPT-5.2 パートナー】NVIDIA & Microsoftのインフラで学習と提供を加速

学習・提供インフラはNVIDIAのH100/H200/GB200-NVL72とAzureデータセンターを基盤に拡張。計算資源の確保により、新モデルの開発・提供スピードを高めています。

まとめ：GPT-5.2は“業務成果物品質×長時間エージェント”で実用域を拡張

GPT-5.2は、長文の情報探索、画像・動画理解、ツール連携を組み合わせた“複合タスク”で一貫性の高い成果物を返す設計に進化しました。専門業務での品質・速度・コストのバランス改善（GDPvalや投資銀評価）と、抽象推論のSOTA更新（ARC-AGI-2）が、日常業務から高度分析までの適用範囲を押し広げています。価格は上がったもののトークン効率の向上で総コスト低減の余地があり、ChatGPT/APIの両面で導入メリットが明確になっています。

※この記事の作成の一部にはAIが活用されています。より正確な情報収集のためにご自身でも調査し、情報の取捨選択をすることを推奨いたします。

出典：『https://openai.com/ja-JP/index/introducing-gpt-5-2/』