Databricks 将 GPT-5.5 引入企业智能体工作流

GPT‑5.5 在 OfficeQA Pro 上创下了新的 SOTA（state of the art，最先进水平），这是 Databricks 用于复杂企业智能体任务的基准。

图片 1：Databricks 客户案例主视觉图。

公司规模：企业级

地区：北美

行业：技术

产品：Codex

50%

OfficeQA Pro 基准上的准确率（SOTA）

46%

相较 GPT-5.4，OfficeQA Pro 基准上的错误率降低

收听文章

在该模型在 OfficeQA Pro 上建立新的 SOTA 之后，Databricks 正在将 GPT‑5.5 提供给客户的智能体工作流。OfficeQA Pro 是该公司用于复杂企业文档任务的基准。

OfficeQA Pro 用于评估模型在涉及扫描 PDF、遗留文件和长上下文文档的工作流中，如何处理解析、检索和有依据的推理；这些任务经常会让生产环境中的智能体系统失效。

在 agent-harness 场景中，GPT‑5.5 相比 GPT‑5.4 将错误率降低了 46%，并且成为首个在 OfficeQA Pro 上准确率超过 50% 的模型。

“搭载 5.5 的 Codex 现在是在所有智能体和模型中最先进的。”

– Arnav Singhvi，研究工程师

00:00

OfficeQA Pro 上的 SOTA 表现

OfficeQA Pro 包含大量扫描件或遗留企业文档，在解析过程中哪怕很小的抽取错误，也可能在后续工作流中层层放大。“一旦你无法抽取某个数字或数值，这就会改变智能体后续处理的整个轨迹，”Singhvi 解释道。

Databricks 发现，GPT‑5.5 在这些以解析为主的工作流中提升最大。“像 5.4 这样的早期模型无法把所有数字都正确解析出来，但 5.5 在解析旧文档和扫描 PDF 方面似乎有了跃迁式提升，”Singhvi 说。

团队还观察到，它在多步骤任务的编排上也有所改进。“我们在 5.4 上看到的一件事是，它有时会进行一些不必要的检索绕路，这会导致非常低效的轨迹，”Singhvi 说。

与早期模型相比，GPT‑5.5 在检索相关上下文以及在无需额外监督的情况下完成复杂工作流方面更加可靠。

Databricks 现在通过 AI Unity Gateway 提供 GPT‑5.5，客户可以在使用 AgentBricks 和 Agent Supervisor API 构建的工作流中使用该模型。在这些系统中，GPT‑5.5 负责跨专用智能体进行解析、检索和执行的编排。

“我们会看到很多客户使用 AgentBricks 和 Agent Supervisor API 来构建定制智能体工作流，”Singhvi 说。“让 GPT‑5.5 来监督这些工作流真的很令人兴奋。”

“GPT-5.5 在知识提升方面表现非常出色。就为我们开展知识工作而言，这是一个量级上的变化。”

— Arnav Singhvi，研究工程师