当前位置：首页 >新闻动态 >快手号出售

AI 组成数据是增数据集的办法之一

2023-11-27

本篇是商业化战略产品司理必读系列的第三篇，为咱们具体介绍一下广告的竞价拍卖机制，让咱们清楚的了解什么是GFP、GSP和VCG机制。为什么Facebook运用VCG机制，而Google却运用GSP机制。

随后 OpenAI 在发给职工的内部消息中供认有一个名为 Q* 的项目，在具有大量计算资源的情况下，它能够处理某些数学问题。只有一个名字，没有论文，没有产品，Jim Fan 说在他做 AI 的十年里还没有见过一个算法能让这么多人猎奇。

尽管 Q* 的数学才能据悉只有小学生的水平，但它标志着 LLM 推理才能的增强和错觉问题的处理，是完成通用人工智能（AGI）的要害打破。目前没有官方解释 Q* 究竟是什么，但 Nathan Lambert 和 Jim Fan 等技能大 V 给出了最靠谱的假定，也是关于怎么进一步提升模型推理才能的办法猜想，解读如下。

Let’s learn step by step.

Sense 考虑

咱们尝试根据文章内容，提出更多发散性的推演和沉思，欢迎沟通。

Q* 与传统大言语模型的差异：现有模型很难在所练习的数据之外进行泛化，展现出的逻辑推理才能更像是“直觉”，而 Q* 似乎把 Q 学习与 A 查找模型结合，将根据经历的知识和现实推理结合，完成真正的推理才能、处理错觉问题。

Q* 的技能道路猜想：自我对弈+思想树推理+进程奖赏+组成数据增强。运用进程奖赏模型（PRM）对思想树推理进程效果进行评分，然后运用离线强化学习进行优化。

进程奖赏模型依赖巨大的数据，即对每个中心进程打分。仅靠仿照人类数据，人工智能无法成为“超人”。AI 组成数据是增数据集的办法之一，但关于其生成数据质量和可扩展程度还有待验证。

一、重温 AlphaGo

要理解查找与学习算法之间的强强联手，咱们需求回到 2016 年，重温人工智能历史上的光辉时刻 AlphaGo。

它有 4 个要害要素：

战略 NN（学习）：担任挑选好的棋步。它能估算出每一步棋获胜的概率。
价值 NN（学习）：评价棋盘并猜测围棋中任何给定可行局势的输赢。
MCTS（查找）：蒙特卡罗树查找。它运用战略 NN 模仿从当时方位动身的许多或许的走棋次序，然后汇总这些模仿的效果，决议最有希望的走棋。这是 “慢考虑 “部分，与 LLM 的快速符号采样形成鲜明对比。
驱动整个体系的地面实况信号（Groundtruth signal）。在围棋中，它就像二进制标签 “谁赢了 “相同简略，由一套既定的游戏规则决议。能够把它看作是保持学习进度的能量源。

那么上面四个部分怎么协同？

AlphaGo 进行自我对弈，即与自己的旧检查点对弈。跟着自我对弈的继续，”战略网络”（Policy NN）和 “价值网络”（Value NN）都会得到迭代改善：跟着战略在挑选棋步方面变得越来越好，”价值网络”（Value NN）也会取得更好的数据来进行学习，进而为战略提供更好的反应。更强的战略也有助于 MCTS 探究更好的战略。

这就完成了一个巧妙的“永动机”。经过这种办法，AlphaGo 能够引导自己的才能，并在 2016 年以 4 比 1 的比分击败人类世界冠军李世石。

仅靠仿照人类数据，人工智能无法成为“超人”。

二、Q* 的合理猜想

仅凭一个项目的名称，就能引发如此广泛的猜想，这仍是第一次。不过，这个简略的名字或许并不仅仅是《沙丘》宇宙中的另一个代号。

中心结论：Jim Fan 认为 Q* 包括下面四个组成部分。与 AlphaGo 相同，”战略 LLM “和 “价值 LLM “能够相互迭代改善，并随时从人类专家的注释中学习。更好的战略 LLM 将协助思想树查找探究更好的战略，进而为下一轮收集更好的数据。

战略 NN：这是 OpenAI 最强大的内部 GPT，担任完成处理数学问题的思想轨迹。
价值 NN：另一个 GPT，用于评价每个中心推理进程的正确性。
查找：与 AlphaGo 的离散状态和行为不同，LLM 是在 “所有合理的字符串 “这一更为杂乱的空间中运转的，因此需求新的查找程序。
地面实况信号（Groundtruth signal）：能够理解为是对进程效果的打分数据。OpenAI 或许已从现有的数学考试或竞赛中收集了大量语料，或许运用模型自身组成数据做增强。

Nathan 最初的猜想是将 Q-learning 和 A* 查找模糊地合并在一起，但跟着对这个问题研究的深入，能够越来越相信，他们经过思想树推理查找言语/推理进程的才能很强，但这种飞跃比人们幻想的要小得多。

夸大其词的原因在于，他们的方针是将大型言语模型的练习和运用与 Deep RL 的中心组成部分联络起来，而正是这些中心组成部分促成了 AlphaGo 的成功：自我博弈（Self-play）和前瞻性规划（Look-ahead planning）。

自我对弈（Self-play）：是指署理（agent）能够经过与略有不同的自己进行博弈来提高自己的博弈水平，因为它会逐步遇到更具挑战性的情况。在 LLM 的空间中，简直能够必定的是，自我对弈的最大部分将看起来像人工智能反应，而不是竞争进程。
前瞻性规划（Look-ahead planning）：是指运用世界模型来推理未来，并发生更好的举动或产出。两种变体别离根据模型猜测操控（MPC）和蒙特卡洛树查找（MCTS），前者通常用于接连状态，后者则用于离散举动和状态。

要了解这两者之间的联络，咱们需求了解 OpenAI 和其他公司最近发表的效果，这些效果将答复两个问题：

咱们怎么构建能够查找的言语表征？
咱们该怎么构建一种价值概念，并将其掩盖到分门别类且有含义的言语片段，而非整个语篇上？

有了这些问题的答案，咱们就能够清楚地知道怎么运用用于 RLHF 的现有 RL 办法。咱们运用 RL 优化器对言语模型进行微调，并经过模块化奖赏取得更高质量的生成（而不是像现在这样取得完好序列）。

上一篇：SHEIN、Temu、TikTok、速卖通等国内的电商出海途径的鼓起，卖家，尤其是我国卖家有的是更多选择

下一篇：用户看其他游戏类视频行为，给用户喜欢的游戏类型，游戏内容贴标签