Posted on: 2026-01-05Updated on: 2026-03-08

大模型排行榜

背景

现在市面上的大模型繁多，如何挑选合适的模型是一个繁重的工作，但是工作思路也简单，就是多个大模型对比一下效果，那么挑选哪些模型就是一个难题，之前参考是SuperCLUE，这个站点最大问题就是更新太慢，且没那么接地气。那么推荐几种挑选模型的路径。

1. LMSYS Chatbot Arena (LMArena.ai) – 最推荐（用户实际体验金标准）

网址：https://lmarena.ai/
为什么最合适？
- 这是目前最权威的众包盲测排行榜，基于数百万真实用户匿名一对一投票（Elo评分系统），反映模型在实际对话、推理、创意等多任务中的用户偏好。
- 完美覆盖主流闭源模型：包括最新版的 GPT-5.2、Gemini 3 Pro、Claude Opus 4.5/Sonnet、Grok 4 等，通常这些模型一发布就会快速上线测试。
- 当前（2026年初）趋势：Gemini 3 Pro 经常位居前列（Elo接近1500+），GPT-5.2 和 Claude Opus 4.5 紧追其后，Grok 在实时信息和特定任务中表现出色。
- 优势：最贴近“哪个模型用起来更好”的主观感受，还有子榜单（如编码、硬提示、多模态）。
建议直接访问查看最新实时排名，它更新最快、最透明。

2. Artificial Analysis – 最推荐（综合客观+成本对比）

网址：https://artificialanalysis.ai/leaderboards/models
为什么合适？
- 专门比较100+模型（包括所有主流闭源），维度全面：智力指数（Intelligence）、速度（tokens/s）、延迟、价格、上下文窗口等。
- 直接并排显示 GPT-5 系列、Gemini、Claude、Grok 的最新版本性能，适合看“性价比”和客观指标。
- 当前趋势：前沿模型如 Gemini 3、GPT-5.2、Claude 4.5 在智力榜单上轮流领先，同时能看到成本差异（例如 Gemini Flash 版更便宜高速）。
优势：图表直观，适合理性对比，不只看“谁最强”还看“谁最划算”。

3. Scale AI SEAL Leaderboards – 适合看专家级硬核能力

网址：https://scale.com/leaderboard
为什么合适？
- 专家驱动的高难度基准（如 SWE-Bench Pro 编码、Humanity’s Last Exam 推理、GPQA 等），专注前沿任务。
- 主流模型覆盖全面：Claude Opus 4.5 常在编码和多代理任务领先，Gemini 3 在多模态和挑战榜强势，GPT-5.2 在专业推理（如财经、法律）突出。
优势：更“硬核”、客观，适合看模型在极端任务上的差距。

总体情况

先去 LMSYS Arena 看用户投票排名（最反映日常使用），再去 Artificial Analysis 看详细指标和成本。当前没有单一模型全面碾压——Gemini 3 Pro 在整体偏好和多模态领先，Claude 擅长编码，GPT-5.2 均衡强，Grok 实时性好。

本文采用署名-非商业性使用-相同方式共享 4.0 国际许可协议，转载请注明出处。