背景
现在市面上的大模型繁多,如何挑选合适的模型是一个繁重的工作,但是工作思路也简单,就是多个大模型对比一下效果,那么挑选哪些模型就是一个难题,之前参考是SuperCLUE,这个站点最大问题就是更新太慢,且没那么接地气。那么推荐几种挑选模型的路径。
1. LMSYS Chatbot Arena (LMArena.ai) – 最推荐(用户实际体验金标准)
- 网址:https://lmarena.ai/
- 为什么最合适?
- 这是目前最权威的众包盲测排行榜,基于数百万真实用户匿名一对一投票(Elo评分系统),反映模型在实际对话、推理、创意等多任务中的用户偏好。
- 完美覆盖主流闭源模型:包括最新版的 GPT-5.2、Gemini 3 Pro、Claude Opus 4.5/Sonnet、Grok 4 等,通常这些模型一发布就会快速上线测试。
- 当前(2026年初)趋势:Gemini 3 Pro 经常位居前列(Elo接近1500+),GPT-5.2 和 Claude Opus 4.5 紧追其后,Grok 在实时信息和特定任务中表现出色。
- 优势:最贴近“哪个模型用起来更好”的主观感受,还有子榜单(如编码、硬提示、多模态)。
- 建议直接访问查看最新实时排名,它更新最快、最透明。
2. Artificial Analysis – 最推荐(综合客观+成本对比)
- 网址:https://artificialanalysis.ai/leaderboards/models
- 为什么合适?
- 专门比较100+模型(包括所有主流闭源),维度全面:智力指数(Intelligence)、速度(tokens/s)、延迟、价格、上下文窗口等。
- 直接并排显示 GPT-5 系列、Gemini、Claude、Grok 的最新版本性能,适合看“性价比”和客观指标。
- 当前趋势:前沿模型如 Gemini 3、GPT-5.2、Claude 4.5 在智力榜单上轮流领先,同时能看到成本差异(例如 Gemini Flash 版更便宜高速)。
- 优势:图表直观,适合理性对比,不只看“谁最强”还看“谁最划算”。
3. Scale AI SEAL Leaderboards – 适合看专家级硬核能力
- 网址:https://scale.com/leaderboard
- 为什么合适?
- 专家驱动的高难度基准(如 SWE-Bench Pro 编码、Humanity’s Last Exam 推理、GPQA 等),专注前沿任务。
- 主流模型覆盖全面:Claude Opus 4.5 常在编码和多代理任务领先,Gemini 3 在多模态和挑战榜强势,GPT-5.2 在专业推理(如财经、法律)突出。
- 优势:更“硬核”、客观,适合看模型在极端任务上的差距。
总体情况
先去 LMSYS Arena 看用户投票排名(最反映日常使用),再去 Artificial Analysis 看详细指标和成本。当前没有单一模型全面碾压——Gemini 3 Pro 在整体偏好和多模态领先,Claude 擅长编码,GPT-5.2 均衡强,Grok 实时性好。