增强大模型的推理能力:从思维链到连续思维链(中)
2025-01-06 10:06 161
0
0
免费使用
画布
|
大纲
# 增强大模型的推理能力:从思维链到连续思维链(中)
## 1. 语言模型进行推理的底层逻辑
### 1.1 自回归模型的基本原理
#### 自回归模型:依据前面的词来预测后面的词,前面出现的词会影响后面的词的出现概率。
#### 直觉回答:如果提示词上下文中没有“解题思路”的提示,模型会依据预训练时所见过的样本,参考一个最相似的样本来回答。
#### 推理路径:如果提示词上下文中有“解题思路”的提示,模型的注意力机制将出现变化,促使模型寻找预训练时相似的推理路径,不断生成中间解题步骤。
### 1.2 人类与自回归模型的类比
#### 童年遭遇影响成年三观:人类也可以看成是一个自回归模型,童年时的遭遇会影响成年时的三观形成。
#### 昨天经历影响今天决策:昨天的经历会影响今天的决策。
## 2. 思维链的多样化
### 2.1 多样化的思维链生成
#### 调整模型输出参数:通过调整模型输出温度系数、Top_P等参数,可以改变模型输出的多样性。
#### 多套思维链:对于一道题,可以生成多套思维链,有些会导致正确的答案,有些会导致错误的答案。
### 2.2 思维链的自一致性
#### 多数答案作为最终答案:对于一个问题,每次让大模型生成多套思路链,每套思维链都会导致一个答案,然后取多数答案作为最终答案。
#### 提高准确率:这种方法能够提高大模型最终答案的准确率。
## 3. 推理能力的训练探索
### 3.1 STaR方法
#### 推理引导推理:使用少量带有推理过程的示例作为提示,引导预训练的大型语言模型(LLM)生成多个问题的推理过程。
#### 微调训练:只保留那些生成了正确答案的推理过程,并在这些数据上对原始模型进行微调训练。
#### 从错误中学习:对于模型未能正确回答的问题,向模型提供正确答案,然后要求模型生成一个合理的推理过程来解释这个答案。
#### 迭代训练:重复上述过程,每次都使用上一轮微调训练后的模型来生成新的训练数据。
### 3.2 STaR的意义
#### 构建三元组数据:通过这种方式,构建出“问题--推理--答案”三元组数据,给大模型进行迭代微调训练。
#### 强化学习近似:STaR可以看作是对强化学习RL风格的策略梯度目标的近似。
## 4. 语言模型的自我反思
### 4.1 Reflexion框架
#### Actor(执行者):负责生成文本和推理步骤。
#### Evaluator(评估者):负责评估Actor生成的推理步骤的质量,并提供一个奖励信号。
#### Self-Reflection(自我反思):负责生成语言反馈,分析Actor的失败推理步骤和环境反馈,生成自然语言的反思总结。
#### Memory(记忆):用于存储Actor的经验和Self-Reflection模型生成的反馈。
### 4.2 反思能力的意义
#### 提高准确率:反思能力不仅可以提高模型在推理方面的准确率,也是智能体运用的基石之一。
#### 改变输出结果:当加入反思文本后,改变了后续文本输出的概率,也就改变了输出的结果。
## 5. 思维链结构的革新--思维树
### 5.1 思维树的基本概念
#### 树状结构:思维树以树的形式组织其解决问题的策略,每个节点被称为“思维”,是一段语言文本,是通往最终答案的一步。
#### 搜索算法:思维树将基于语言的能力与搜索算法(如广度优先搜索 (BFS) 或深度优先搜索 (DFS))相结合,以生成和评估不同的思想。
### 5.2 思维树的构建过程
#### 问题分解:先用提示词生成候选思维(即中间步骤)。
#### 状态评估:再用提示词评估每个候选思维的进展,决定其是否值得进一步探索。
#### 思维树搜索:对剩余的两个分支继续进行探索,探索过程即重复1、2、3步。
### 5.3 思维树的意义
#### 计算机搜索行为:思维树提出的意义在于将推理思维变成一种可被计算机搜索的行为。
#### 蒙特卡洛搜索算法:虽然Yao 等人 (2023)在论文使用的搜索算法是一种比较低效的算法,但它为后面的蒙特卡洛搜索算法的介入打开了大门。
## 6. 未来展望
### GPT-O1的训练:下一篇文章将正式解读GPT-O1是如何训练提高大模型的推理能力。
### 增强推理能力的途径:未来增强大模型的推理能力还有哪些途径,敬请关注本公众号。
## 7. 加入讨论群
### 技术讨论交流群:如果你对AI大模型感兴趣,可以加入我的大模型技术讨论交流群,里面有技术高手,产品经理,有许多志同道合的爱好者。
## 8. 相关文章推荐
### 2024年大模型总结与展望(技术上篇)
### 2024年大模型总结与展望(技术下篇)
### 寒武纪人工智能公众号团队荣获第七届CCF国际AIOps挑战赛优秀奖
### 田渊栋团队的关于增强大模型推理能力的热门论文
### 强化学习是你必须掌握的
作者其他创作