找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 12|回复: 0

感觉大模型召回都已经不用测了?

[复制链接]

3

主题

0

回帖

9

积分

新手上路

积分
9
发表于 昨天 20:36 | 显示全部楼层 |阅读模式
感觉大模型召回都已经不用测了?


Fiction.LiveBench 作者刚在X上更新了最新的测试结果, 目前来看过年前后这一波大模型长上下文召回都很不错.

120K 长度来看, 最好的是 claude-opus-4.6, 达到了93.8%, 然后是 GLM-5 的85.7%, 以及 Kimi-K2.5 的78.1%, Qwen3.5-plus 的76.2. 不过 MiniMax-M2.5 则是40.6, 而且 MiniMax-M2.5 在8K就下降到60%以下了. 暂时不确定是什么问题.

我自己做的那个霍格沃茨测试新榜单几乎都毫无参考价值, 各个大模型训练语料都混入了非常多的哈利波特小说原文, 而且单次插桩目前来看召回效果都很好, 只有像 Fiction.LiveBench 这样的复杂召回测试能体现模型能力了.


#

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-2-22 10:26 , Processed in 0.136278 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表