HI,下午好,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-163-301
请扫码咨询

新闻动态

NEWS CENTER

通过 ToT 提示进行 LLMs 模块化推理

2023-11-27

本篇是商业化战略产品司理必读系列的第三篇,为我们详细介绍一下广告的竞价拍卖机制,让我们清楚的了解什么是GFP、GSP和VCG机制。为什么Facebook运用VCG机制,而Google却运用GSP机制。

通过 ToT 提示进行 LLMs 模块化推理

提示词里“深呼吸”(take a deep breath)和 “一步步考虑 “(think step by step)等技巧的推广,如今现已扩展到了运用并行计算和启发式(搜索的一些基本原理)进行推理的高级办法。

思维树 (ToT)听起来的确如此。这是一种促进言语模型创建推理途径树的办法,推理途径树或许会也或许不会汇聚到正确答案。论文中对运用 LLMs 解决问题的其他办法进行了比较:

根底模型在大规模数据集上练习,能够履行广泛的任务。开发人员运用根底模型作为强壮的生成式AI运用的根底,例如ChatGPT。

挑选根底模型时的一个关键考虑要素是开源与非开源,下面概述了两种模型各自的优点和缺点:


ToT 的立异之处在于将推理步骤分块,并促进模型创建新的推理步骤。这应该是第一种用于进步推理功能的 “递归 “提示技术,与人工智能安全所重视的递归自我改善模型十分挨近。

关于推理树,能够采用不同的办法对每个顶点(节点)进行评分,或对最终途径进行采样。它能够根据诸如到最共同答案的最短途径,也能够根据需求外部反馈的复杂途径,这又把我们引向了 RLHF 的方向。

ToT 论文地址:https://arxiv.org/abs/2305.10601

四、细粒度奖励:进程奖励模型 PRM

迄今为止,大多数 RLHF 的办法都是让言语模型的整个呼应得到一个相关的分数。关于任何具有 RL 布景的人来说,这都是令人绝望的,因为它限制了 RL 办法将文本的每个子部分的价值联系起来的才能

有人指出,未来因为需求有人类或一些提示源在循环中,这种多步骤优化将在多个对话回合的层面上进行,但这比较勉强。这能够很容易地扩展到自我对弈式的对话中,但很难赋予 LLMs 目标,使其转化为持续改善的自我对弈动态。我们想让 LLMs 做的大多数事情都是重复性任务,而不会像围棋那样对功能设置近乎无限的上限。

另一方面,有一种 LLM 用例能够很自然地抽象为文本块:逐渐推理,数学问题就是最好的比如。

进程奖励模型(PRMs)是 Nathan 在曩昔 6 个月里从 RLHF 朋友那里听到的一个非揭露话题。关于这些模型的文献很多,但关于如何在 RL 中运用这些模型的文献却很少。PRM 的核心理念是为每个推理步骤而不是完好的信息分配分数。下面是 OpenAI 论文《让我们一步步验证》( Let’s Verify Step by Step)中的一个比如:

图 2 为同一个问题的两种解决方案,左面答案是正确的,右边的答案过错。绿色布景表明 PRM 得分高,赤色布景表明 PRM 得分低。PRM 能够正确识别过错解决方案中的过错。关于过错的解决方案,两种办法都揭示出至少存在一个过错,但进程监督还揭示了该过错的切当方位。


相关推荐