LMSYS Chatbot Arena

全球最权威的盲测榜单。目前 DeepSeek V4 在此榜单表现极为激进。它不仅有综合排名，还可以切换到 Coding 或 Hard Prompts 子榜单查看极端性能表现。

刚试了下LMSYSChatbotArena，居然能直接拿来对比这么多模型！我其实一直想找个地方试试不同AI写东西的效果，正好撞上这个。说实话，速度是真有点慢，我让它生成个文案的时候，愣是等了好一会儿才出结果。

不过质量倒是出乎意料的好，内容挺丰富的，不是那种敷衍的套话。

我试了几个不同的模型，在写创意故事和回答技术问题的时候，差别还挺明显的——有的更偏严谨，有的脑洞蛮大。

这个LMSYSChatbotArena好像是个盲测榜单，据说在圈子里挺权威的。

我看它不光有综合排名，还能切到Coding或者HardPrompts的子榜单去看极端情况下的表现。比如我试了下编程题，有些模型在复杂逻辑上确实会卡壳。

不过我没仔细研究每个子榜单，就是随便点着玩。

登录才能用这点有点烦，但也没办法，毕竟这种对还行在不收费，这点倒是让我松了口气。我用了大概半小时，感觉对于想对比不同AI能力的人来说，这地方挺有参考价值的。反正我自己用着还行，就是得耐心等它慢慢跑完。

相关内容