资源库_MindSea | AI思维导图官网

增强大模型的推理能力：从思维链到连续思维链（中）

2025-01-06 10:06 301

免费使用

画布

大纲

为你推荐

# 增强大模型的推理能力：从思维链到连续思维链（中） ## 1. 语言模型进行推理的底层逻辑 ### 1.1 自回归模型的基本原理 #### 自回归模型：依据前面的词来预测后面的词，前面出现的词会影响后面的词的出现概率。 #### 直觉回答：如果提示词上下文中没有“解题思路”的提示，模型会依据预训练时所见过的样本，参考一个最相似的样本来回答。 #### 推理路径：如果提示词上下文中有“解题思路”的提示，模型的注意力机制将出现变化，促使模型寻找预训练时相似的推理路径，不断生成中间解题步骤。 ### 1.2 人类与自回归模型的类比 #### 童年遭遇影响成年三观：人类也可以看成是一个自回归模型，童年时的遭遇会影响成年时的三观形成。 #### 昨天经历影响今天决策：昨天的经历会影响今天的决策。 ## 2. 思维链的多样化 ### 2.1 多样化的思维链生成 #### 调整模型输出参数：通过调整模型输出温度系数、Top_P等参数，可以改变模型输出的多样性。 #### 多套思维链：对于一道题，可以生成多套思维链，有些会导致正确的答案，有些会导致错误的答案。 ### 2.2 思维链的自一致性 #### 多数答案作为最终答案：对于一个问题，每次让大模型生成多套思路链，每套思维链都会导致一个答案，然后取多数答案作为最终答案。 #### 提高准确率：这种方法能够提高大模型最终答案的准确率。 ## 3. 推理能力的训练探索 ### 3.1 STaR方法 #### 推理引导推理：使用少量带有推理过程的示例作为提示，引导预训练的大型语言模型（LLM）生成多个问题的推理过程。 #### 微调训练：只保留那些生成了正确答案的推理过程，并在这些数据上对原始模型进行微调训练。 #### 从错误中学习：对于模型未能正确回答的问题，向模型提供正确答案，然后要求模型生成一个合理的推理过程来解释这个答案。 #### 迭代训练：重复上述过程，每次都使用上一轮微调训练后的模型来生成新的训练数据。 ### 3.2 STaR的意义 #### 构建三元组数据：通过这种方式，构建出“问题--推理--答案”三元组数据，给大模型进行迭代微调训练。 #### 强化学习近似：STaR可以看作是对强化学习RL风格的策略梯度目标的近似。 ## 4. 语言模型的自我反思 ### 4.1 Reflexion框架 #### Actor（执行者）：负责生成文本和推理步骤。 #### Evaluator（评估者）：负责评估Actor生成的推理步骤的质量，并提供一个奖励信号。 #### Self-Reflection（自我反思）：负责生成语言反馈，分析Actor的失败推理步骤和环境反馈，生成自然语言的反思总结。 #### Memory（记忆）：用于存储Actor的经验和Self-Reflection模型生成的反馈。 ### 4.2 反思能力的意义 #### 提高准确率：反思能力不仅可以提高模型在推理方面的准确率，也是智能体运用的基石之一。 #### 改变输出结果：当加入反思文本后，改变了后续文本输出的概率，也就改变了输出的结果。 ## 5. 思维链结构的革新--思维树 ### 5.1 思维树的基本概念 #### 树状结构：思维树以树的形式组织其解决问题的策略，每个节点被称为“思维”，是一段语言文本，是通往最终答案的一步。 #### 搜索算法：思维树将基于语言的能力与搜索算法（如广度优先搜索 (BFS) 或深度优先搜索 (DFS)）相结合，以生成和评估不同的思想。 ### 5.2 思维树的构建过程 #### 问题分解：先用提示词生成候选思维（即中间步骤）。 #### 状态评估：再用提示词评估每个候选思维的进展，决定其是否值得进一步探索。 #### 思维树搜索：对剩余的两个分支继续进行探索，探索过程即重复1、2、3步。 ### 5.3 思维树的意义 #### 计算机搜索行为：思维树提出的意义在于将推理思维变成一种可被计算机搜索的行为。 #### 蒙特卡洛搜索算法：虽然Yao 等人 (2023)在论文使用的搜索算法是一种比较低效的算法，但它为后面的蒙特卡洛搜索算法的介入打开了大门。 ## 6. 未来展望 ### GPT-O1的训练：下一篇文章将正式解读GPT-O1是如何训练提高大模型的推理能力。 ### 增强推理能力的途径：未来增强大模型的推理能力还有哪些途径，敬请关注本公众号。 ## 7. 加入讨论群 ### 技术讨论交流群：如果你对AI大模型感兴趣，可以加入我的大模型技术讨论交流群，里面有技术高手，产品经理，有许多志同道合的爱好者。 ## 8. 相关文章推荐 ### 2024年大模型总结与展望（技术上篇） ### 2024年大模型总结与展望（技术下篇） ### 寒武纪人工智能公众号团队荣获第七届CCF国际AIOps挑战赛优秀奖 ### 田渊栋团队的关于增强大模型推理能力的热门论文 ### 强化学习是你必须掌握的

大模型推理思维链语言模型

作者其他创作

AI脑图#362090

去主页

增强大模型的推理能力：从思维链到连续思维链（中）

水湾湾

中信银行攻击面边界

人教版初中地理第八章我们临近的地区和国家

妊娠诊断总览

农业自然经济与宗法制度

农业-宗法社会与文化结构

好看的登录界面

石油产业链

采（Procurement）与购（Purchasing）岗位职责区分

相交线与平行线

人教版初中地理第七章亚洲

公安情报学

AI脑图#362090

增强大模型的推理能力：从思维链到连续思维链（中）

水湾湾

中信银行攻击面边界

人教版初中地理 第八章 我们临近的地区和国家

妊娠诊断总览

农业自然经济与宗法制度

农业-宗法社会与文化结构

好看的登录界面

石油产业链

采（Procurement）与购（Purchasing）岗位职责区分

相交线与平行线

人教版初中地理 第七章 亚洲

公安情报学

AI脑图#362090

人教版初中地理第八章我们临近的地区和国家

人教版初中地理第七章亚洲