别瞎试了:群论证明,AI的位置编码已被数学锁死

【别瞎试了:群论证明,AI的位置编码已被数学锁死】

大模型研究员总想发明新的位置编码来超越RoPE,但Jane Street这篇硬核研究直接给这个领域盖了棺:别折腾了,好用的通道早就被数学锁死了。

注意力机制天然是瞎子,分不清词的先后。要给它加位置感,还要满足平移不变和连续性,这在数学上会被死死卡在“单参数群”的结构里。简单说,所有位置变换在底层只有矩阵指数这一种形式。

沿着这个线索推导,数学只给出两种可能:如果矩阵能对角化,你得到的就是RoPE这种像时钟指针一样的旋转,或者衰减;如果矩阵不能对角化,就会产生类似滑行冰壶的多项式增长,这刚好对应了ALiBi这种靠扣分工作的长文本算法。

这带来了一个极具美感的结论:AI的进化看似是工程师玄学试错的产物,最后却总能撞在严丝合缝的数学定理上。终点线早就画好了。

blog.janestreet.com/using-group-theory-to-explore-positional-encodings-attention/



分类