《AI 工程:大模型应用开发实战》中文版出版了——翻译一本 AI 工程的书,我把翻译本身也做成了 AI 工程
Chip Huyen 的新书《AI Engineering: Building Applications with Foundation Models》自今年 1 月出版以来,一直是 O'Reilly 平台上阅读量最高的书,亚马逊多个 AI 相关分类排名第一,目前正在被翻译成中文、法语、日语、韩语等多种语言。如果你读过她的上一本畅销书《Designing Machine Learning Systems》,会发现她延续了一贯的风格:不教你用某个具体工具,而是讲清楚底层的“为什么”。
我翻译了这本书的中文版 《AI 工程:大模型应用开发实战》,已经由图灵出版社出版。
【1】这本书讲什么
一句话概括:怎么在基础模型之上构建应用。
Chip Huyen 把 AI 工程和传统机器学习工程做了清晰的区分。传统 ML 工程的核心是训练模型,AI 工程的核心是使用模型。 模型即服务的模式已经把 AI 从一个高门槛的学科变成了人人可用的开发工具,但“能用”和“用好”之间的距离,比大多数人想象的要远得多。
全书 10 章,覆盖了构建 AI 应用的完整链路:从规划应用、理解基础模型的工作原理,到评估方法论(占了两章)、提示工程、RAG 与 AI 智能体、微调、数据集工程、推理优化,最后是 AI 工程架构与用户反馈。
关于评估,多说几句。大多数教程把评估一笔带过,但 Chip 认为这是 AI 工程中最难也最被低估的环节。我专门问过她为什么给评估这么大的篇幅,她说如果再版可能还要加到三章。两个原因:
• 一是 AI 的输出本身带有不确定性,你必须靠评估来保证生成结果的稳定性;
• 二是 AI 一旦出错,后果可能比传统软件严重得多,评估没做好直接上线可能产生难以估量的负面影响。
书里详细讨论了 AI 当裁判(AI-as-a-judge) 这种快速增长的评估方式,也指出了它的局限。
做传统应用开发的人可能意识不到评估有多重要。传统软件的行为是确定性的,输入 A 一定得到输出 B,写几个单元测试就能覆盖。AI 应用不一样,同样的输入可能每次给出不同的结果,没法靠“跑一次看看”来判断质量。读完这两章之后,你会在开发 AI 应用时刻意去做评估。比如我自己写提示词,会维护一个测试集,每次换模型或者改了提示词,就跑一遍,看结果是更好了还是更差了。