两年前，他们用2048个token的上下文，做了现在不敢想的事

zhengdejin

2026-02-28 18:34:30

【两年前，他们用2048个token的上下文，做了现在不敢想的事】

快速导读：LocalLLaMA社区的一次集体回忆，揭示了一个被主流叙事遮蔽的真相：今天你随手下载的本地模型，是一群人在条件极端匮乏的情况下，用近乎宗教热情驱动出来的。

---

有人在Reddit上发了一张梗图：左边是2024年的LocalLLaMA社区——肌肉虬结的大狗，喊着“如果Llama2跑不了，那是你Prompt写得不行”；右边是今天的LocalLLaMA——萎靡的小狗，喃喃自语“128K上下文居然快被我的System Prompt塞满了”。

底下的评论，像一场意外开始的追悼会。

有人说，他记得当年有人预言：本地模型追上GPT-4，至少要十年。结果Llama 3.1发布的那天，整个社区彻底炸了——就在两个月前，大家还在争Mixtral 8x7B算不算得上GPT-3级别。十年，变成了两个月。

有人说，他去年还因为笔记本跑Q4量化最多只能塞131072个token而感到难过。他顺带提了一下，一年前他还在为16384个token欢呼雀跃。

数字是这样的：那个年代，上下文是2048个token。不是128K，不是1M——是2048。放到今天，差不多就是这篇文章的长度。他们用这个长度去理解代码、写工具、搭RAG、尝试让模型记住你是谁。

然后GPT-J量化版出来了，6B参数，第一个能稳定输出连贯文字的开源模型。一群人把它微调成了Pygmalion——名字来自雕塑家爱上自己作品的希腊神话，用途你懂的。然后Llama泄露了，没人相信是真的，整整三天，大家以为是骗局，直到有人真的跑出了权重输出。

一个用户写道：“从第一次Llama泄露到现在，感觉过了几十年。”

这句话的荒诞之处在于：实际时间，大概就是两年多。

那个年代的人在干什么？他们在发明RoPE位置编码的扩展方式，在搞社区微调，在研究怎么让一个本来不会骂人的基座模型学会情绪表达，在把量化工具做到人人可用。有个叫TheBloke的人，把几乎所有开源模型都量化打包发布，让普通消费级显卡也能跑起来——他后来“消失”了一段时间，然后以另一个身份回来，社区里有人说“请让他复活”。

有人总结得很准：那时候推动创新的是两股力量——战争和色情。前者是竞争压力，后者是……一群用极端需求驱动极端工程能力的人。讽刺的是，正是他们贡献了最多的微调数据、硬件跑分报告和工具PR。

现在呢？一个用户的话让人很难反驳：“我们变成了一群雏鸟，每天等着看大厂今天会不会给我们投一条虫。”

Llama、Qwen、Gemma——这些名字每隔几周就会更新一次，社区讨论的重心从“我们能做什么”变成了“这个比上个好在哪里”。模型变好了，但主动权似乎不在同一个地方了。

如果你现在也在用本地模型，不管是为了隐私、为了省钱还是纯粹好玩——你用的那套基础设施，是一群人在两年前用2048个token的上下文、Q3量化的消费级显卡、和一腔现在看来近乎天真的使命感搭出来的。

他们当时真的以为自己能干掉OpenAI。

---

简评：

历史总是由后来者重新命名。那些人当年叫自己“先驱”，其实更接近探险队——背着错误的地图，用不够用的工具，在别人说不可能的时间线里，把事情做完了。2048个token的上下文，现在听起来像是笑话，但在那个笑话里，有人认真地工作过。

---

ref: reddit.com/r/LocalLLaMA/comments/1rgkc1b/back_in_my_day_localllama_were_the_pioneers

相关阅读