当前位置：首页 >新闻动态 >新媒体服务

ToT 的提示为人们供给了多样性，能够通过拜访 PRM 来学习运用这种多样性

2023-11-27

本篇是商业化战略产品司理必读系列的第三篇，为咱们具体介绍一下广告的竞价拍卖机制，让咱们清楚的了解什么是GFP、GSP和VCG机制。为什么Facebook运用VCG机制，而Google却运用GSP机制。

这样就能够通过对最大平均奖励或其他指标进行采样，而不是仅仅依靠一个分数（标准 RM 在该文献中被称为结果 RM），对推理问题的生成进行更精密的调整。

运用 “N最优采样”（Best-of-N sampling），即生成一系列次数，并运用奖励模型得分最高的一次（这是 “拒绝采样”（Rejection Sampling）的推理办法之一，在 Llama 2 中广为流传），PRM 在推理任务中的体现优于标准 RM。

迄今为止，大多数 PRMs 资源仅仅展现了如安在推理时运用它们。当这种信号针对练习进行优化时，才能发挥真实的威力。要创立最丰富的优化设置，有必要能够生成多种推理途径，用于评分和学习。这便是思想树的作用地点。ToT 的提示为人们供给了多样性，能够通过拜访 PRM 来学习运用这种多样性。

此外，还有一种盛行的公开数学模型被记录为运用 PRMs 进行练习：Wizard-LM-Math。一起，OpenAI 在本年早些时候发布了用于练习 PRM 的《逐渐验证》（Verify Step by Step）论文中的细粒度奖励标签。

五、回头来看 Q* 与模型推理

Q* 好像是在运用 PRM 对思想树推理数据进行评分，然后运用离线 RL 对其进行优化。这看起来与现有的 RLHF 工具并无太大差异，后者运用的是 DPO 或 ILQL 等离线算法，无需在练习期间从 LLM 中生成。RL 算法看到的 “轨迹 “是推理过程的序列，因此咱们最终是在以多过程办法而非上下文绑定的办法进行 RLHF。

因为有听闻已经标明 OpenAI 正在运用离线 RL 进行 RLHF，这或许并不是一个大的飞跃。这种办法的复杂之处在于：搜集正确的提示、树立模型以生成出色的推理过程，以及最重要的一点：对数以万计的完成状况进行精确评分。

最后一步便是传闻中的 “庞大核算资源 “地点：用人工智能代替人类给每个过程打分。合成数据才是王道，用树状而非单宽途径（通过思想链）在后面给出越来越多的选项，从而得出正确答案。

据悉有一家或几家大型科技公司（谷歌、Anthropic、Cohere 等）正在通过过程监督或相似 RLAIF 的办法创立一个预练习大小的数据集，这将快速耗费数万个 GPU 小时。

在这一范畴，公开可用模型的距离令人担忧。总结来看，虽然核心理念好像很清晰，但施行起来却很难。一切对 ToT 和 PRM 的评估都是针对数学等推理问题的，而这正是一切新闻报道所说的这种泄露办法的目的地点。即便它不是 Q*，也会是一个风趣的实验。

对于超大规模人工智能反应的数据与未来：

大模型练习过程中数据不足，合成数据是扩展数据集的办法之一。在短期内，咱们是能够运用它创立一些有用的数据。

然而，目前尚不清楚的是它的扩展程度。

它是否能完全取代互联网规模的数据？

上一篇：新的市场环境驱动着我国云厂商加速海外市场竞赛

下一篇：通过 ToT 提示进行 LLMs 模块化推理