大模型代码编程能力评测排行榜 - SWE-Bench / LiveCodeBench / SWE-Bench Pro【2026年6月更新】- 实时数据与场景解读

大模型代码编程能力评测排行榜 - SWE-Bench / LiveCodeBench / SWE-Bench Pro【2026年6月更新】- 实时数据与场景解读

代码能力参考综合排名目前没有一个被普遍认可的代码能力综合排行榜。SWE-bench、HumanEval 等静态基准可以衡量特定技能,但容易被针对性优化("刷榜")。为此我们选取了两个切入角度不同的人类偏好参考榜单并列展示:LMArena Coding Arena 通过匿名盲测评测通用编程能力(调试、算法实现、代码生成等);DesignArena Code Category 专注评测具有视觉呈现效果的前端代码生成(网站、UI 组件、游戏等),两者方法论相同但考察场景各异,结合参考效果最佳。