GPT‑5.5 は、Databricks の複雑なエンタープライズ向けエージェントタスクのベンチマークである OfficeQA Pro において、新たな SOTA(state of the art)を達成しました。

企業規模: エンタープライズ
地域: 北米
業界: テクノロジー
製品: Codex
50%
OfficeQA Pro ベンチマークでの精度(SOTA)
46%
GPT‑5.4 と比べた OfficeQA Pro ベンチマークでのエラー率削減
記事を聞く
このモデルが OfficeQA Pro で新たな SOTA を確立したことを受け、Databricks は GPT‑5.5 を顧客のエージェントワークフローへ展開しています。OfficeQA Pro は、同社が複雑なエンタープライズ文書タスク向けに設定しているベンチマークです。
OfficeQA Pro では、スキャン PDF、レガシー文書、長文コンテキスト文書を含むワークフローにおいて、モデルがどれだけうまく解析、検索、そして根拠に基づく推論を処理できるかを評価します。こうしたタスクは、本番環境のエージェント型システムが失敗しやすい要因となることが少なくありません。
エージェント・ハーネスのシナリオでは、GPT‑5.5 は GPT‑5.4 と比べてエラー率を 46% 削減し、OfficeQA Pro で初めて 50% を超える精度を達成したモデルとなりました。
「5.5 搭載の Codex は、今やあらゆるエージェントとモデルの中で最先端です。」
– Arnav Singhvi, Research Engineer
00:00
OfficeQA Pro における SOTA パフォーマンス
OfficeQA Pro には、スキャン済みまたはレガシーなエンタープライズ文書が数多く含まれており、解析時のわずかな抽出ミスであっても、その後のワークフロー全体に連鎖的な影響を及ぼす可能性があります。「数値や値を抽出できなければ、その後にエージェントがたどる軌跡全体が変わってしまいます」と Singhvi は説明しました。
Databricks は、GPT‑5.5 がとくにこうした解析中心のワークフローで大きな改善をもたらしたことを確認しました。「5.4 のような以前のモデルでは、数値をすべて正しく取得できませんでしたが、5.5 では古い文書やスキャン PDF の解析が大きく進化したようです」と Singhvi は述べています。
また同チームは、複数ステップのタスクをオーケストレーションする面でも改善を確認しました。「5.4 では、不要な検索の方向に逸れてしまい、非常に非効率な流れになることがありました」と Singhvi は語っています。
以前のモデルと比べて、GPT‑5.5 は関連するコンテキストの取得精度が高く、追加の監督なしでも複雑なワークフローを最後まで安定して完了できます。
GPT‑5.5 を本番ワークフローに導入する
Databricks は現在、AI Unity Gateway を通じて GPT‑5.5 を提供しており、顧客は AgentBricks と Agent Supervisor API を使って構築したワークフローでこのモデルを利用できます。こうしたシステムでは、GPT‑5.5 が解析、検索、実行を担う特化型エージェント間のオーケストレーションを担当します。
「多くのお客様が、AgentBricks と Agent Supervisor API を使って独自のエージェントワークフローを構築しているのを見ています」と Singhvi は述べています。「そうしたワークフローを GPT‑5.5 が監督できるのは、本当に刺激的です。」
「GPT-5.5 は、知的作業の補強において非常に優れています。私たちが知的作業を代わりに行う方法を、根本から変えるような飛躍です。」
— Arnav Singhvi, Research Engineer