从LLMs获取结构化输出

2025年底的共识是：想把 LLM 真正用到生产里，几乎绕不开“结构化输出”这一关。

方式	可靠性	实现难度	代表工具/技术	备注
纯提示词工程	★☆☆☆☆	低	写 “必须用 JSON 格式输出，不要多说一句话”	最简单，但最容易翻车
模型原生支持结构化输出	★★★☆☆	低	OpenAI structured outputs, Claude 的 tool use, Gemini 等	2024-2025年大模型厂商陆续都加了这个功能，比较推荐的入门方式
代码侧后处理 + 重试	★★★★☆	中	Instructor (Pydantic + 重试 + 修复)	目前 Python 社区最受欢迎的生产方案之一
约束解码 / 引导生成	★★★★★	高	Outlines, Guidance, jsonformer 等	最强保证，几乎不可能输出非法格式（靠有限状态机/grammar 强制）

Instructor 比较好理解，发现结果不符合规则，则重试，重试几次即可。

这里Outlines 就比较奇特了，从表格可以看到Outlines 比Instructor 优秀太多了，那么它是如何做到的呢？

在 LLM 每生成一个 token 前，就用有限状态机 + logits 屏蔽的方式，强制只允许生成符合 schema 的下一个 token。比如 JSON 要求下一个必须是 { 或 [，就直接把其他 token 的概率设为 0。

模型先正常算出所有 token 的 logits（原始分数，代表模型认为每个 token 有多大概率）。
Outlines 拿到当前生成进度（用有限状态机 FSM 表示），计算出此时此刻，哪些 token 是合法的（能让输出继续保持在 schema 轨道上）。
对所有不合法的 token，直接把它们的 logit 值设为 -∞（或者等效地概率设为 0）。
模型只能从剩下的合法 token 集合里采样/选下一个 token。

→ 所以模型永远不可能输出一个会让 JSON 崩掉的 token（比如在应该写 “ 的地方写 ,，或者在对象里突然写数字开头）。

可以看到 Outlines是和模型深度耦合的，所以只有支持 logits processor 的模型才能使用 Outlines。而很多闭源大模型不支持 logits processor。