LMSYS Chatbot Arena
全球最权威的盲测榜单。目前 DeepSeek V4 在此榜单表现极为激进。它不仅有综合排名,还可以切换到 Coding 或 Hard Prompts 子榜单查看极端性能表现。
刚试了下LMSYSChatbotArena,居然能直接拿来对比这么多模型!我其实一直想找个地方试试不同AI写东西的效果,正好撞上这个。说实话,速度是真有点慢,我让它生成个文案的时候,愣是等了好一会儿才出结果。
不过质量倒是出乎意料的好,内容挺丰富的,不是那种敷衍的套话。
我试了几个不同的模型,在写创意故事和回答技术问题的时候,差别还挺明显的——有的更偏严谨,有的脑洞蛮大。
这个LMSYSChatbotArena好像是个盲测榜单,据说在圈子里挺权威的。
我看它不光有综合排名,还能切到Coding或者HardPrompts的子榜单去看极端情况下的表现。比如我试了下编程题,有些模型在复杂逻辑上确实会卡壳。
不过我没仔细研究每个子榜单,就是随便点着玩。
登录才能用这点有点烦,但也没办法,毕竟这种对还行在不收费,这点倒是让我松了口气。我用了大概半小时,感觉对于想对比不同AI能力的人来说,这地方挺有参考价值的。反正我自己用着还行,就是得耐心等它慢慢跑完。