传统数据挖掘更像是“人的智慧”。研究者通过精巧的算法设计去发现数据中的规律。算法结构往往很优雅、很轻巧,很多经典算法都体现了很强的数学和算法设计能力。数据通常只需要做一些常规预处理,真正的核心在算法本身。
而大模型更像是“数据的智慧”。模型结构往往并不复杂,但参数规模巨大,通过海量数据训练,自动学习特征表示。过去机器学习很依赖人工特征工程,而现在很多特征是模型自己从数据中学出来的。
简单总结一下两种范式:
传统数据挖掘:人类设计规则 → 算法发现模式 → 数据规模相对较小
大模型时代:海量数据 → 表示学习 → 模型自动形成能力
所以在 NLP和CV 这些高维感知数据上,大模型几乎改变了一切。但在纯表格数据、聚类、关联分析、回归预测这些典型数据挖掘问题上,很多时候仍然是传统方法更稳、更高效。
##