找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 4|回复: 0

两年前,他们用2048个token的上下文,做了现在不敢想的事

[复制链接]

4

主题

1

回帖

24

积分

新手上路

积分
24
发表于 昨天 18:34 | 显示全部楼层 |阅读模式
【两年前,他们用2048个token的上下文,做了现在不敢想的事】


快速导读:LocalLLaMA社区的一次集体回忆,揭示了一个被主流叙事遮蔽的真相:今天你随手下载的本地模型,是一群人在条件极端匮乏的情况下,用近乎宗教热情驱动出来的。

---

有人在Reddit上发了一张梗图:左边是2024年的LocalLLaMA社区——肌肉虬结的大狗,喊着“如果Llama2跑不了,那是你Prompt写得不行”;右边是今天的LocalLLaMA——萎靡的小狗,喃喃自语“128K上下文居然快被我的System Prompt塞满了”。

底下的评论,像一场意外开始的追悼会。

有人说,他记得当年有人预言:本地模型追上GPT-4,至少要十年。结果Llama 3.1发布的那天,整个社区彻底炸了——就在两个月前,大家还在争Mixtral 8x7B算不算得上GPT-3级别。十年,变成了两个月。

有人说,他去年还因为笔记本跑Q4量化最多只能塞131072个token而感到难过。他顺带提了一下,一年前他还在为16384个token欢呼雀跃。

数字是这样的:那个年代,上下文是2048个token。不是128K,不是1M——是2048。放到今天,差不多就是这篇文章的长度。他们用这个长度去理解代码、写工具、搭RAG、尝试让模型记住你是谁。

然后GPT-J量化版出来了,6B参数,第一个能稳定输出连贯文字的开源模型。一群人把它微调成了Pygmalion——名字来自雕塑家爱上自己作品的希腊神话,用途你懂的。然后Llama泄露了,没人相信是真的,整整三天,大家以为是骗局,直到有人真的跑出了权重输出。

一个用户写道:“从第一次Llama泄露到现在,感觉过了几十年。”

这句话的荒诞之处在于:实际时间,大概就是两年多。

那个年代的人在干什么?他们在发明RoPE位置编码的扩展方式,在搞社区微调,在研究怎么让一个本来不会骂人的基座模型学会情绪表达,在把量化工具做到人人可用。有个叫TheBloke的人,把几乎所有开源模型都量化打包发布,让普通消费级显卡也能跑起来——他后来“消失”了一段时间,然后以另一个身份回来,社区里有人说“请让他复活”。

有人总结得很准:那时候推动创新的是两股力量——战争和色情。前者是竞争压力,后者是……一群用极端需求驱动极端工程能力的人。讽刺的是,正是他们贡献了最多的微调数据、硬件跑分报告和工具PR。

现在呢?一个用户的话让人很难反驳:“我们变成了一群雏鸟,每天等着看大厂今天会不会给我们投一条虫。”

Llama、Qwen、Gemma——这些名字每隔几周就会更新一次,社区讨论的重心从“我们能做什么”变成了“这个比上个好在哪里”。模型变好了,但主动权似乎不在同一个地方了。

如果你现在也在用本地模型,不管是为了隐私、为了省钱还是纯粹好玩——你用的那套基础设施,是一群人在两年前用2048个token的上下文、Q3量化的消费级显卡、和一腔现在看来近乎天真的使命感搭出来的。

他们当时真的以为自己能干掉OpenAI。

---

简评:

历史总是由后来者重新命名。那些人当年叫自己“先驱”,其实更接近探险队——背着错误的地图,用不够用的工具,在别人说不可能的时间线里,把事情做完了。2048个token的上下文,现在听起来像是笑话,但在那个笑话里,有人认真地工作过。

---

ref: reddit.com/r/LocalLLaMA/comments/1rgkc1b/back_in_my_day_localllama_were_the_pioneers




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-1 10:51 , Processed in 0.142744 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表