Databricks、GPT-5.5を企業エージェントワークフローに導入

GPT‑5.5 は OfficeQA Pro において新たな SOTA（state of the art、最先端水準）を樹立しました。これは Databricks が複雑な企業向けエージェントタスクに用いているベンチマークです。

営業に問い合わせる

画像 1：Databricks の顧客事例のメインビジュアル。

企業規模：エンタープライズ

地域：北米

業界：テクノロジー

製品：Codex

50%

OfficeQA Pro ベンチマークでの精度（SOTA）

46%

GPT-5.4 と比べた OfficeQA Pro ベンチマークでのエラー率低下

記事を聴く

音声 1

このモデルが OfficeQA Pro で新たな SOTA を達成したことを受け、Databricks は GPT‑5.5 を顧客のエージェントワークフローに導入しています。OfficeQA Pro は、同社が複雑な企業文書タスク向けに使っているベンチマークです。

OfficeQA Pro は、スキャンされた PDF、レガシー文書、長文コンテキスト文書を含むワークフローにおいて、モデルがどのように解析、検索、根拠に基づく推論を行うかを評価するためのものです。こうしたタスクは、実運用のエージェントシステムをしばしば破綻させます。

agent-harness のシナリオでは、GPT‑5.5 は GPT‑5.4 と比べてエラー率を 46% 削減し、OfficeQA Pro で精度 50% 超を達成した初のモデルとなりました。

「5.5 を搭載した Codex は、あらゆるエージェントとモデルの中で最先端です。」

– Arnav Singhvi、研究エンジニア

動画 1

00:00

OfficeQA Pro での SOTA パフォーマンス

OfficeQA Pro には、スキャン文書やレガシーな企業文書が大量に含まれており、解析の段階でわずかな抽出ミスがあっただけでも、その後のワークフローで誤りが連鎖的に増幅される可能性があります。「ある数値や値を抽出できないだけで、その後のエージェントの進む軌跡全体が変わってしまうのです」と Singhvi は説明します。

Databricks は、こうした解析中心のワークフローにおいて GPT‑5.5 の改善が最も大きいことを確認しました。「5.4 のような初期のモデルでは、すべての数値を正しく解析しきれませんでしたが、5.5 では古い文書やスキャン PDF の解析に飛躍的な向上が見られるようです」と Singhvi は述べています。

チームはまた、複数ステップのタスクのオーケストレーション面でも改善を確認しました。「5.4 で見られたことのひとつは、不要な検索の遠回りをしてしまうことがあり、それが非常に非効率な軌跡につながっていた点です」と Singhvi は言います。

初期のモデルと比べて、GPT‑5.5 は関連コンテキストの取得や、追加の監督なしに複雑なワークフローを完了する能力において、より高い信頼性を示しています。

GPT‑5.5 を本番ワークフローに導入する

Databricks は現在、AI Unity Gateway を通じて GPT‑5.5 を提供しており、顧客は AgentBricks と Agent Supervisor API で構築したワークフローの中でこのモデルを利用できます。これらのシステムでは、GPT‑5.5 が専用エージェントをまたいで、解析、検索、実行をオーケストレーションします。

「多くの顧客が AgentBricks と Agent Supervisor API を使って、カスタムのエージェントワークフローを構築しています」と Singhvi は語ります。「そうしたワークフローを GPT‑5.5 に監督させられるのは、本当に魅力的です。」

「GPT-5.5 は知識労働の強化という点で非常に優れています。私たちの知的業務の進め方にとって、これは桁違いの変化です。」

— Arnav Singhvi、研究エンジニア