GPT‑5.5 は OfficeQA Pro において新たな SOTA(state of the art、最先端水準)を樹立しました。これは Databricks が複雑な企業向けエージェントタスクに用いているベンチマークです。

企業規模:エンタープライズ
地域:北米
業界:テクノロジー
製品:Codex
50%
OfficeQA Pro ベンチマークでの精度(SOTA)
46%
GPT-5.4 と比べた OfficeQA Pro ベンチマークでのエラー率低下
記事を聴く
このモデルが OfficeQA Pro で新たな SOTA を達成したことを受け、Databricks は GPT‑5.5 を顧客のエージェントワークフローに導入しています。OfficeQA Pro は、同社が複雑な企業文書タスク向けに使っているベンチマークです。
OfficeQA Pro は、スキャンされた PDF、レガシー文書、長文コンテキスト文書を含むワークフローにおいて、モデルがどのように解析、検索、根拠に基づく推論を行うかを評価するためのものです。こうしたタスクは、実運用のエージェントシステムをしばしば破綻させます。
agent-harness のシナリオでは、GPT‑5.5 は GPT‑5.4 と比べてエラー率を 46% 削減し、OfficeQA Pro で精度 50% 超を達成した初のモデルとなりました。
「5.5 を搭載した Codex は、あらゆるエージェントとモデルの中で最先端です。」
– Arnav Singhvi、研究エンジニア
00:00
OfficeQA Pro での SOTA パフォーマンス
OfficeQA Pro には、スキャン文書やレガシーな企業文書が大量に含まれており、解析の段階でわずかな抽出ミスがあっただけでも、その後のワークフローで誤りが連鎖的に増幅される可能性があります。「ある数値や値を抽出できないだけで、その後のエージェントの進む軌跡全体が変わってしまうのです」と Singhvi は説明します。
Databricks は、こうした解析中心のワークフローにおいて GPT‑5.5 の改善が最も大きいことを確認しました。「5.4 のような初期のモデルでは、すべての数値を正しく解析しきれませんでしたが、5.5 では古い文書やスキャン PDF の解析に飛躍的な向上が見られるようです」と Singhvi は述べています。
チームはまた、複数ステップのタスクのオーケストレーション面でも改善を確認しました。「5.4 で見られたことのひとつは、不要な検索の遠回りをしてしまうことがあり、それが非常に非効率な軌跡につながっていた点です」と Singhvi は言います。
初期のモデルと比べて、GPT‑5.5 は関連コンテキストの取得や、追加の監督なしに複雑なワークフローを完了する能力において、より高い信頼性を示しています。
GPT‑5.5 を本番ワークフローに導入する
Databricks は現在、AI Unity Gateway を通じて GPT‑5.5 を提供しており、顧客は AgentBricks と Agent Supervisor API で構築したワークフローの中でこのモデルを利用できます。これらのシステムでは、GPT‑5.5 が専用エージェントをまたいで、解析、検索、実行をオーケストレーションします。
「多くの顧客が AgentBricks と Agent Supervisor API を使って、カスタムのエージェントワークフローを構築しています」と Singhvi は語ります。「そうしたワークフローを GPT‑5.5 に監督させられるのは、本当に魅力的です。」
「GPT-5.5 は知識労働の強化という点で非常に優れています。私たちの知的業務の進め方にとって、これは桁違いの変化です。」
— Arnav Singhvi、研究エンジニア