增强大模型的推理能力:从思维链到连续思维链(中)
2025-01-06 10:06 139
0
0
免费使用
画布
|
大纲
为你推荐
第2章 经典合成方法
项目合作协议书思维导图
从抖音评论中挖掘用户关注点创作内容思维导图
《阿斯洛加的骑士》:一段关于勇气、荣誉与冒险的中世纪传奇之旅。 这个标题简洁地概括了书籍的核心内容,既体现了故事发生的背景(中世纪),也突出了主要元素(勇气、荣誉、冒险)。如果你能提供更多的书籍细节,我可以进一步优化这句话介绍。
《青年管理者》:探索年轻一代在管理岗位上的成长与挑战之路 这个标题简洁地概括了书籍的核心内容,突出了目标读者群体(青年)以及主题(管理),同时暗示书中会涉及青年管理者在职业生涯中可能遇到的问题及解决方法。 如果你希望调整或者生成更多选项,我很乐意继续为你服务!你还可以告诉我更多关于这本书的具体信息,这样我能生成更精准的标题。
《史前的现代化:从狩猎采集到农业起源》: 探索人类社会从狩猎采集向农业文明转型的关键历程与动因。
《浪漫派为什么重要》: 探讨浪漫主义运动对现代文化和思想的深远影响。 这个标题既简洁又点明了书籍的核心内容,同时也能够引起读者的兴趣。如果你希望调整重点或风格,请告诉我!
《成为雅诗兰黛》:揭秘雅诗兰黛从默默无闻到全球美妆巨头的传奇蜕变之路。 这句话简洁地概括了书籍的核心内容,既体现了雅诗兰黛品牌的成长历程,又暗示了书中可能包含的成功秘诀和商业智慧。如果你觉得这个标题稍长,也可以简化为: 《成为雅诗兰黛》:从零到全球美妆帝国的传奇旅程 这两种方式都能很好地传达书籍的主题和吸引力。你觉得哪个更合适呢?或者你有其他想法吗?我可以根据你的反馈进一步调整。
《华为HCIA路由交换认证指南》:掌握网络互联技术的入门秘籍 这个标题突出以下要点: 1. 明确指出这是关于华为HCIA认证的书籍 2. 强调了“路由交换”这一核心技术领域 3. 使用“入门秘籍”来表明这本书适合初学者,且具有实用性 需要调整或者其他版本,请告诉我。
《东京塔》:一段在东京塔下展开的温暖治愈的成长物语。 这个标题简洁地概括了书籍的核心内容。《东京塔》是日本作家片山恭一的作品,讲述了主人公与母亲之间感人至深的故事,通过东京塔这个标志性建筑为背景,展现了母子间真挚的情感和人生经历。 如果你需要更具吸引力或不同风格的版本,我还可以提供以下选择: 1. 《东京塔》:在都市的见证下,谱写动人心弦的亲情赞歌 2. 《东京塔》:一部关于成长、梦想与母爱的温情小说 3. 《东京塔》:以东京塔为幕,演绎平凡而伟大的母子情深 你觉得哪个版本更适合呢?或者你有其他特定的要求吗?
《昆虫志》:探索微观世界的奇妙昆虫百科 这个标题简洁地概括了书籍的核心内容,突出了“探索”和“奇妙”两个关键词,让读者能够快速了解这本书是关于昆虫的科普类作品。 如果您觉得需要调整或有其他要求,请随时告诉我!
《东京罪恶》: 探索东京地下世界的黑暗与复杂,揭露罪恶背后的真相。 这个标题既概括了书籍的核心内容,也能够吸引读者的兴趣。如果您希望调整或者有其他要求,请告诉我!
# 增强大模型的推理能力:从思维链到连续思维链(中)
## 1. 语言模型进行推理的底层逻辑
### 1.1 自回归模型的基本原理
#### 自回归模型:依据前面的词来预测后面的词,前面出现的词会影响后面的词的出现概率。
#### 直觉回答:如果提示词上下文中没有“解题思路”的提示,模型会依据预训练时所见过的样本,参考一个最相似的样本来回答。
#### 推理路径:如果提示词上下文中有“解题思路”的提示,模型的注意力机制将出现变化,促使模型寻找预训练时相似的推理路径,不断生成中间解题步骤。
### 1.2 人类与自回归模型的类比
#### 童年遭遇影响成年三观:人类也可以看成是一个自回归模型,童年时的遭遇会影响成年时的三观形成。
#### 昨天经历影响今天决策:昨天的经历会影响今天的决策。
## 2. 思维链的多样化
### 2.1 多样化的思维链生成
#### 调整模型输出参数:通过调整模型输出温度系数、Top_P等参数,可以改变模型输出的多样性。
#### 多套思维链:对于一道题,可以生成多套思维链,有些会导致正确的答案,有些会导致错误的答案。
### 2.2 思维链的自一致性
#### 多数答案作为最终答案:对于一个问题,每次让大模型生成多套思路链,每套思维链都会导致一个答案,然后取多数答案作为最终答案。
#### 提高准确率:这种方法能够提高大模型最终答案的准确率。
## 3. 推理能力的训练探索
### 3.1 STaR方法
#### 推理引导推理:使用少量带有推理过程的示例作为提示,引导预训练的大型语言模型(LLM)生成多个问题的推理过程。
#### 微调训练:只保留那些生成了正确答案的推理过程,并在这些数据上对原始模型进行微调训练。
#### 从错误中学习:对于模型未能正确回答的问题,向模型提供正确答案,然后要求模型生成一个合理的推理过程来解释这个答案。
#### 迭代训练:重复上述过程,每次都使用上一轮微调训练后的模型来生成新的训练数据。
### 3.2 STaR的意义
#### 构建三元组数据:通过这种方式,构建出“问题--推理--答案”三元组数据,给大模型进行迭代微调训练。
#### 强化学习近似:STaR可以看作是对强化学习RL风格的策略梯度目标的近似。
## 4. 语言模型的自我反思
### 4.1 Reflexion框架
#### Actor(执行者):负责生成文本和推理步骤。
#### Evaluator(评估者):负责评估Actor生成的推理步骤的质量,并提供一个奖励信号。
#### Self-Reflection(自我反思):负责生成语言反馈,分析Actor的失败推理步骤和环境反馈,生成自然语言的反思总结。
#### Memory(记忆):用于存储Actor的经验和Self-Reflection模型生成的反馈。
### 4.2 反思能力的意义
#### 提高准确率:反思能力不仅可以提高模型在推理方面的准确率,也是智能体运用的基石之一。
#### 改变输出结果:当加入反思文本后,改变了后续文本输出的概率,也就改变了输出的结果。
## 5. 思维链结构的革新--思维树
### 5.1 思维树的基本概念
#### 树状结构:思维树以树的形式组织其解决问题的策略,每个节点被称为“思维”,是一段语言文本,是通往最终答案的一步。
#### 搜索算法:思维树将基于语言的能力与搜索算法(如广度优先搜索 (BFS) 或深度优先搜索 (DFS))相结合,以生成和评估不同的思想。
### 5.2 思维树的构建过程
#### 问题分解:先用提示词生成候选思维(即中间步骤)。
#### 状态评估:再用提示词评估每个候选思维的进展,决定其是否值得进一步探索。
#### 思维树搜索:对剩余的两个分支继续进行探索,探索过程即重复1、2、3步。
### 5.3 思维树的意义
#### 计算机搜索行为:思维树提出的意义在于将推理思维变成一种可被计算机搜索的行为。
#### 蒙特卡洛搜索算法:虽然Yao 等人 (2023)在论文使用的搜索算法是一种比较低效的算法,但它为后面的蒙特卡洛搜索算法的介入打开了大门。
## 6. 未来展望
### GPT-O1的训练:下一篇文章将正式解读GPT-O1是如何训练提高大模型的推理能力。
### 增强推理能力的途径:未来增强大模型的推理能力还有哪些途径,敬请关注本公众号。
## 7. 加入讨论群
### 技术讨论交流群:如果你对AI大模型感兴趣,可以加入我的大模型技术讨论交流群,里面有技术高手,产品经理,有许多志同道合的爱好者。
## 8. 相关文章推荐
### 2024年大模型总结与展望(技术上篇)
### 2024年大模型总结与展望(技术下篇)
### 寒武纪人工智能公众号团队荣获第七届CCF国际AIOps挑战赛优秀奖
### 田渊栋团队的关于增强大模型推理能力的热门论文
### 强化学习是你必须掌握的
作者其他创作