找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 6|回复: 0

Prompt Engineering 为何有效?

[复制链接]

4

主题

0

回帖

12

积分

新手上路

积分
12
发表于 昨天 23:21 | 显示全部楼层 |阅读模式
Prompt Engineering 为何有效?


一、核心本质

Prompt Engineering 的本质并非与模型“沟通”,而是对大模型输出分布的精确操控。

其底层逻辑是:Prompt 作为条件信号,改变模型的条件概率分布形状,进而让模型从不同的概率分布中采样,最终产生不同质量的输出。

二、关键技巧及底层机制

1. Few-shot

- 操作方式:在 Prompt 中提供几个示例。

- 底层机制:模型在预训练阶段已将翻译、摘要、分类、问答等多种任务能力编码在参数里,但模型不清楚当前要执行哪种任务。Few-shot 示例的作用是帮模型定位任务格式,激活其已有的能力回路。

- 关键认知:模型并非从示例中学习新知识,而是通过示例明确任务模式;示例的核心价值在于任务格式,而非具体答案(即使标签故意打错,模型也可能做对)。

2. 思维链(Chain of Thought)

- 操作方式:让模型在 Prompt 中一步步展示推理过程。

- 底层机制:Transformer 模型的计算深度是固定的,对于复杂推理任务,一次前向传播的计算量可能不足。思维链通过让模型输出更多 Token,将中间推理步骤显示化,以生成长度换取计算深度。每一步的推理结果成为下一步的输入上下文,使模型通过多次前向传播完成复杂推理,降低出错概率。

3. 角色扮演

- 操作方式:在 Prompt 中为模型设定特定角色,如“资深机器学习工程师”“耐心的小学老师”。

- 底层机制:预训练语料包含了不同身份、风格的文本分布。设定角色是将输出分布缩窄到特定子集,让模型从该子集中采样。例如,“资深工程师”角色会让输出更专业精确,“小学老师”角色会让输出更通俗易懂。这并非赋予模型新能力,而是从其已有能力中选择合适的输出风格。

三、总结

1. 点明本质:Prompt 是大模型的条件输入,改变模型的条件概率分布,不同分布产生不同质量输出。
2. 分技巧解释机制:
- Few-shot:帮模型定位任务模式,激活已有能力回路。
- 思维链:通过显示化中间推理步骤,用生成长度换计算深度。
- 角色扮演:缩窄分布到特定子集,让采样落在更合适的区域。
3. 高级观点:Prompt Engineering 不是教模型新能力,而是从其高度纠缠的已有能力中精准调出所需部分。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-3 02:41 , Processed in 0.243004 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表