HI,下午好,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-163-302
请扫码咨询

新闻动态

NEWS CENTER

ToT 的提示为人们供给了多样性,能够通过拜访 PRM 来学习运用这种多样性

2023-11-27

本篇是商业化战略产品司理必读系列的第三篇,为咱们具体介绍一下广告的竞价拍卖机制,让咱们清楚的了解什么是GFP、GSP和VCG机制。为什么Facebook运用VCG机制,而Google却运用GSP机制。

这样就能够通过对最大平均奖励或其他指标进行采样,而不是仅仅依靠一个分数(标准 RM 在该文献中被称为结果 RM),对推理问题的生成进行更精密的调整。

运用 “N最优采样”(Best-of-N sampling),即生成一系列次数,并运用奖励模型得分最高的一次(这是 “拒绝采样”(Rejection Sampling)的推理办法之一,在 Llama 2 中广为流传),PRM 在推理任务中的体现优于标准 RM。

迄今为止,大多数 PRMs 资源仅仅展现了如安在推理时运用它们。当这种信号针对练习进行优化时,才能发挥真实的威力。要创立最丰富的优化设置,有必要能够生成多种推理途径,用于评分和学习。这便是思想树的作用地点。ToT 的提示为人们供给了多样性,能够通过拜访 PRM 来学习运用这种多样性。

此外,还有一种盛行的公开数学模型被记录为运用 PRMs 进行练习:Wizard-LM-Math。一起,OpenAI 在本年早些时候发布了用于练习 PRM 的《逐渐验证》(Verify Step by Step)论文中的细粒度奖励标签。

五、回头来看 Q* 与模型推理

Q* 好像是在运用 PRM 对思想树推理数据进行评分,然后运用离线 RL 对其进行优化。这看起来与现有的 RLHF 工具并无太大差异,后者运用的是 DPO 或 ILQL 等离线算法,无需在练习期间从 LLM 中生成。RL 算法看到的 “轨迹 “是推理过程的序列,因此咱们最终是在以多过程办法而非上下文绑定的办法进行 RLHF。

因为有听闻已经标明 OpenAI 正在运用离线 RL 进行 RLHF,这或许并不是一个大的飞跃。这种办法的复杂之处在于:搜集正确的提示、树立模型以生成出色的推理过程,以及最重要的一点:对数以万计的完成状况进行精确评分

最后一步便是传闻中的 “庞大核算资源 “地点:用人工智能代替人类给每个过程打分。合成数据才是王道,用树状而非单宽途径(通过思想链)在后面给出越来越多的选项,从而得出正确答案。

据悉有一家或几家大型科技公司(谷歌、Anthropic、Cohere 等)正在通过过程监督或相似 RLAIF 的办法创立一个预练习大小的数据集,这将快速耗费数万个 GPU 小时。

在这一范畴,公开可用模型的距离令人担忧。总结来看,虽然核心理念好像很清晰,但施行起来却很难。一切对 ToT 和 PRM 的评估都是针对数学等推理问题的,而这正是一切新闻报道所说的这种泄露办法的目的地点。即便它不是 Q*,也会是一个风趣的实验。

对于超大规模人工智能反应的数据与未来:

大模型练习过程中数据不足,合成数据是扩展数据集的办法之一。在短期内,咱们是能够运用它创立一些有用的数据。

然而,目前尚不清楚的是它的扩展程度。

它是否能完全取代互联网规模的数据?


相关推荐