快速导读:LocalLLaMA社区的一次集体回忆,揭示了一个被主流叙事遮蔽的真相:今天你随手下载的本地模型,是一群人在条件极端匮乏的情况下,用近乎宗教热情驱动出来的。
---
有人在Reddit上发了一张梗图:左边是2024年的LocalLLaMA社区——肌肉虬结的大狗,喊着“如果Llama2跑不了,那是你Prompt写得不行”;右边是今天的LocalLLaMA——萎靡的小狗,喃喃自语“128K上下文居然快被我的System Prompt塞满了”。
底下的评论,像一场意外开始的追悼会。
有人说,他记得当年有人预言:本地模型追上GPT-4,至少要十年。结果Llama 3.1发布的那天,整个社区彻底炸了——就在两个月前,大家还在争Mixtral 8x7B算不算得上GPT-3级别。十年,变成了两个月。
有人说,他去年还因为笔记本跑Q4量化最多只能塞131072个token而感到难过。他顺带提了一下,一年前他还在为16384个token欢呼雀跃。
数字是这样的:那个年代,上下文是2048个token。不是128K,不是1M——是2048。放到今天,差不多就是这篇文章的长度。他们用这个长度去理解代码、写工具、搭RAG、尝试让模型记住你是谁。
然后GPT-J量化版出来了,6B参数,第一个能稳定输出连贯文字的开源模型。一群人把它微调成了Pygmalion——名字来自雕塑家爱上自己作品的希腊神话,用途你懂的。然后Llama泄露了,没人相信是真的,整整三天,大家以为是骗局,直到有人真的跑出了权重输出。
一个用户写道:“从第一次Llama泄露到现在,感觉过了几十年。”
这句话的荒诞之处在于:实际时间,大概就是两年多。
那个年代的人在干什么?他们在发明RoPE位置编码的扩展方式,在搞社区微调,在研究怎么让一个本来不会骂人的基座模型学会情绪表达,在把量化工具做到人人可用。有个叫TheBloke的人,把几乎所有开源模型都量化打包发布,让普通消费级显卡也能跑起来——他后来“消失”了一段时间,然后以另一个身份回来,社区里有人说“请让他复活”。
有人总结得很准:那时候推动创新的是两股力量——战争和色情。前者是竞争压力,后者是……一群用极端需求驱动极端工程能力的人。讽刺的是,正是他们贡献了最多的微调数据、硬件跑分报告和工具PR。
现在呢?一个用户的话让人很难反驳:“我们变成了一群雏鸟,每天等着看大厂今天会不会给我们投一条虫。”
Llama、Qwen、Gemma——这些名字每隔几周就会更新一次,社区讨论的重心从“我们能做什么”变成了“这个比上个好在哪里”。模型变好了,但主动权似乎不在同一个地方了。
如果你现在也在用本地模型,不管是为了隐私、为了省钱还是纯粹好玩——你用的那套基础设施,是一群人在两年前用2048个token的上下文、Q3量化的消费级显卡、和一腔现在看来近乎天真的使命感搭出来的。
他们当时真的以为自己能干掉OpenAI。
---
简评:
历史总是由后来者重新命名。那些人当年叫自己“先驱”,其实更接近探险队——背着错误的地图,用不够用的工具,在别人说不可能的时间线里,把事情做完了。2048个token的上下文,现在听起来像是笑话,但在那个笑话里,有人认真地工作过。
---
ref: reddit.com/r/LocalLLaMA/comments/1rgkc1b/back_in_my_day_localllama_were_the_pioneers