说实话，我觉得这个WeirdML（“旨在解决需要仔细思考和真正理解才能解决的怪

怒喵李楠 2026-02-10 14:52:57

说实话，我觉得这个 WeirdML（“旨在解决需要仔细思考和真正理解才能解决的怪异且不寻常的机器学习任务”，封闭式基准测试）的测试结果和平时用的体感才更一致。

今年下半年很多开源模型刷榜。

但是用下来就是有点什么问题。

而在这个测试里，今年下半年闭源模型的进展迅速，而开源模型实际上停滞不前了。

这个和真正使用的体感是吻合的。

0 阅读：0

感谢大家的关注

作者最新文章

1

麻烦了同学们。。。长期以来西方主流经济学解释中国崛起的理由，是基于投资的生产规模

2

deepseek 对中国至关重要。deepseek v4 的表现可能会推动开源模

3

美国实际上经历了一场软件的“技术奇点”。而且，他们非常清楚这个千载难逢的机会，在

4

说实话，我觉得这个 WeirdML（“旨在解决需要仔细思考和真正理解才能解决的怪

5

三角洲威龙红皮我不抽了谢谢。。。男性皮肤，对比红狼，拉完了。。。我严重怀疑三角洲

6

加拿大出资数十亿美金建设了一个从加拿大安大略省和密歇根州的大桥。然后川皇说。。。

7

用科技行业的黑话说：LLM 的护城河，本质是智商（Intelligence）。“

8

三角洲的那个威龙皮肤。。。我能说。。。真的很难看吗？？？这是我第一个没啥兴趣的红

9

的确，现阶段，对于普通人，在国内，豆包+飞书可以无脑用着。同时关注一下阿里，防止

10

所有什么豆包元宝千问这些客户端的春节推广，都是瞎扯淡。。。超大规模神经网络的逻辑

热门分类

科技TOP

1

雷军明天早上8:00又要做直播！就是刚才，雷军在社交网络上给大家拜早年了，这

2

雷军确认第一代SU7停产小米SU7在4月份上新，提前做这么久的预热，雷总经常搞

3

华为第二代阔折叠机型曝光华为PuraX2终于要来了，华为这个产品其实挺有意

4

Seedance2.0暂停真人素材参考能力真的，看了、研究了Seedance.2

5

TikTok因应用程序的成瘾功能被指控违反欧盟规定TikTok、周五、被指控违反

6

OPPOFindX9Ultra正式入网工信部了，3月就要发布，这影像堆

7

好家伙，这才26年1月底，还有八个月才发布的iPhone18Pro的猛料就炸锅了

8

苹果这次出低价新机，看着是亲民，其实算盘打得挺明白。不是突然良心，是现在中端安卓

9

真我回OPPO，利好消费者，但…内容制作上太难了涉及一加的，全部一刀切。严格到什

10

「9小时订单破千万，一句话买零食日用品，结果服务器被挤崩～官方求放过：「大家慢慢

科技最新文章

1

雷军确认第一代SU7停产小米SU7在4月份上新，提前做这么久的预热，雷总经常搞

2

雷军确认第一代SU7停产犹记得当初SU7横空出世，真是卖疯了。24年3月底发布，

3

春节装X指南：六千块搞定万元折叠屏，亲戚看呆！家人们，春节走亲访友想低调炫富？

4

荣耀新一轮系统更新来了，快来看看有没有你的手机不得不说，现在的荣耀不仅听劝，

5

Seedance2.0暂停真人素材参考能力真的，看了、研究了Seedance.2

6

华为Mate80Pro、荣耀Magic8Pro怎么选？两款旗舰都很强，看完不

7

荣耀500Pro和Magic8ProAir怎么选？一次给你讲明白！

8

荣耀近期四款热门手机怎么选？看准需求直接冲，看完绝不踩坑！✅追求轻薄手感

9

大家可能都是想电池容量少掉一点，但我想让它多掉一点，因为我买了Ac计划，两年内掉

10

今天盘前Seedance2.0引发全网热议，带动ai应用、漫剧相关板块等集体大涨