产品

新的OpenAI模型暴露在秘密培训下!一千篇硬核直

Xin Zhiyuan报告编辑:编辑部Yzhn [Xin Zhiyuan简介]半分析的新硬核启示出乎意料地宣布了新OpenAI模型的秘密?据报道,新模型在GPT-4.1和GPT-4.5之间,下一代O4的评估模型基于GPT-4.1培训,其背后最大的贡献者是对加强的研究。 Openai的O4已经训练?最近,半分析发表了一个顽固的博客,揭示了许多有关大型模型圈的内部信息。其中,一些最基本的亮点是一眼:Openai实践GPT-4.1和GPT-4.5之间的新大小模型。下一代推理模型O4将基于GPT-4.1进行RL培训。采用的研究改变了主要制造商的未来性唤醒的重点和优先级。很难定义奖励功能。通常,只有在AI利用漏洞之后,漏洞才能无力盘超过。没有LLM性能牺牲,不需要重量。另一种RL形式 - 混合数据。与预培训不同,RL可以继续更新缩放模型功能。 DeepSeek-R1是一个典型的例子。高质量的数据是缩放加强的研究。在小型模型中训练,蒸馏的效果比RL更好。扩展全文 Openai训练一种新型号,具有GPT-4.1和GPT-4.5之间的规模 下一代推理模型O4将基于GPT-4.1进行RL培训。 强化的研究改变了实验室结构,甚至改变了未来研究人员制造商的重点和优先级 确定奖励功能更加困难。通常,当AI利用漏洞时,会发现弱点。 没有LLM表现牺牲,没有体重整合,另一种方法来混合数据 与预训练不同,RL可以继续更新缩放模型功能,而DeepSeek-R1是一个典型的例子。 高质量数据是ST缩放加固缩放的效果 训练小型模型,蒸馏的效果比RL更好 开始了新的预训练 首先,让我们看一下最难的内容 - OpenAI的新模型。 由于星际之门超级计算机尚未完成,因此今年的OpenAI计算群集的大小不会大大增加,因此很明显,预训练量表不能根据计算的Lakas扩大。 但是,这并不意味着OpenAI将停止在新模型中进行预训练。 如今,预培训比以往任何时候都更重要。即使理解成本很小,也可以节省开销,加快RL反馈循环并创造更多的开发,而无需牺牲模型的智能水平。 许多实验室的研究表明,中等规模模型的RL反馈速度超过了大型模型。 如一开始所述,新的OpenAI模型量表位于GPT-4.5和GPT-4/GPT-4.1之间。 作为r的大小Lang的扩展延续,稍大的模型不仅具有更强的学习能力,而且还具有更高的MOE稀疏性。 Openai O4会来 O4型号可能是推理的下一个大型Openai产品。 可以说,O4标志着OpenAI方法的变化,主要原因是他们取代了用于培训的基本模型。 由于主模型确定了较低的性能限制,因此RL使用的基本模型越好,最终效果越好。 但是,找到模型强度与RL训练实用性之间的完美平衡是非常令人困惑的。 由于RL需要大量的理解计算和大量征服-next,如果目标模型太大,则RL的成本将很高。 过去,OpenAI一直在使用RL培训基于GPT-4O的O1和O3模型,但按O4,情况将会改变。 O4系列模型基于GPT-4.1。gpt-。 此外,GPT -4.1的Lakas显然被严重低估 - 非常实用,在光标中广泛使用,为许多强大的新产品打开了大门。 目前,拟人化表明了法规中功能的绝对好处,而OpenAI显然不愿意跌倒。打开GPT-4.1显然是一个非常重要的一步。 尽管诸如SWE Bench之类的基准可以衡量模型功能,但最终的业务收入仍然取决于定价策略。 在半分析的角度看,光标的实际使用是测试模型应用值的终极试金石。 巨大的迈向理解模型,RL是最有意义的 如今,推理推理的范式正在出现,推理模型也迅速改善。 在衡量SA SWE BENCH(例如SWE Bench)的任务的评论中,模型以较低的成本获得更高的分数。 它背后的英雄当然是研究NG加固。它可以通过建立婴儿床来理解模型的能力。 此外,由于该模型现在可以维持长期的连贯思维,因此它将释放AI代理的潜力。 他们有能力完成更复杂的计算机任务,例如全自动远程办公室和系统工程/建筑设计。 但是,在扩大研究强化的力量方面,整个基础设施都面临着新的瓶颈。 在AGI到达之前,RL可能是我们需要的最后一个主要范式。 因为它包含了主要的机会,所以所需的投资规模也很大。据此,已经有数十亿美元的投资,将来有更多的投资。 但是,强化基础设施的要求完全不同。 我们必须为此付出什么? RL如何工作 RL概念非常简单。 一个RL模型从任何环境的当前状态获取信息,生成一组POSS选择动作然后执行操作的IBISITION。 该模型的目的是实现由“奖励功能”指定的目标。 加强过程是改变模型的重量,以使其更有可能产生可能带来更高奖励的动作。 可以说,RL是一种古老的技术,比LLM早。当时,系统后面击败了GO和国际象棋冠军,将列在Likod ITS中。 但是,直到最近,RL最终才成功地应用于LLM。它对模型和名望的技能产生了深远的影响。 经过验证的奖励 在LLM中,RL在具有良好奖励的地区表现最好。 这意味着,对于编码和数学等任务,明确定义了RL所需的奖励操作。在奖励功能的定义尚不清楚的地方,理解模型很难发展。 当Openai练习O1到GPT-4O中RL时,最重要的性能IMPRovement在这些领域具有可靠的奖励。 我们都知道,Openai的O3可以根据您看到的内容扩大图像,较低,计算,较低,并最终给出答案。 令人惊讶的是,O3模型没有专门训练此类任务。 但是,与培训前投资相比,主要实验室并没有投资太多RL。 在这里,半分析提出了基本问题 - 产生RL资源的计算资源甚至超过预训练的瓶颈是什么? 将来可能无法克服奖励的地方吗? 推理的原因很大 通过研究RL最受欢迎的算法之一,我们将瞥见上面的大量理解。 Koma -Child -Child政策政策(GRPO)是一种常见算法,因为DeepSeek使用它来训练R1模型并著名。 在GRPO算法中,该模型必须回答一个问题,并提出很多候选人的问题。每个答案都可以考虑ED作为“推出”,本质上是模型试图找到解决方案。 每个问题的扣除额范围从几个到百分之一。虽然无限的技术,但减少的数量越多,记忆和计算的来源就越多。 因为每个问题都会产生一个巨大的答案,所以它使RL成为彻底的推理。这一点的影响特别重要,并在下一部分中反复提及。 接下来,将模型产生的答案比较并评分为标准答案。在GRPO中,每个答案都会收到一个奖励标记。 在计算奖励标记之后,该模型的梯度算法的更新是希望增加可以成为积极奖励的诗意的答案的可能性。 GRPO紧密优化了该方法(PPO),它不需要PPO评论家模型,因此内存更好。 PPO和GRPO可以使用学习的奖励模型或使用基于规则的奖励系统来判断答案的质量。由于记忆需求较低,因此在开放社区资源中广泛采用了GRPO,但是顶级实验室应继续使用不同的PPO变体。 由OpenAI发明的内部版本与通常由GRPO定位的公共版本明显不同,这些实验室面临的计算资源限制较少。 主要思想是RL通常需要一个问题,一个常见的检查答案以及通过模型上通过的机制来指导行为的调整。 模型可以通过许多方法来探索答案,但是它们都需要许多候选答案以许多不同的推论形式发展,因此资源要求非常高。 该模型将被更新以增加正确答案的可能性,因此此过程还表示培训过程。 奖励很难确定 如前所述,对强化的研究在可靠的奖励领域取得了巨大的发展,原因之一是,此类活动的奖励很容易定义 - 例如,数学问题的答案是对还是错。 但是,从技术上讲,奖励操作可以是用户想要优化的任何目的。概念,加固模型的主要目的是最大化总奖励。 以训练模型为例,主要目标是赢得比赛而不会违反规则。该模型可以通过学习移动来继续提高其国际象棋技巧将有助于您赢得各种国际象棋游戏,并从所处环境中获得反馈。 但是,如果涉及任务定义的更广泛的奖励,那就像是“形而上学”,因为它确实很难理解正确。 即使在符合良好的环境中,设定完美的奖励功能也需要大量的研究,测试和优化。 芯片设计就是一个很好的例子。 Google Upang开发的Alphachip模型有助于采用芯片的设计教育培训。 该型号帮助Google的TPUV6芯片设计,并成功地将其电线缩短了6.2%。在这种情况下,奖励功能明确定义为: 该功能指导模型准确降低几个关键因素:线长度,拥塞和密度。 值得注意的是,即使是相对简单的奖励操作也不容易设置。充血和密度都带有标量值(α和γ)以调节其重量。 这些值是工程师通过基于权衡期望的大量实验得出的最终结论,即行的长度是主要的优化因素。 在写作和战略规划领域,通常没有明确的答案,而且这些答案并非被阻止。 有些人曾经怀疑:是否有可能在这些领域申请加固?据信,半肌to是完全可行的和实现的。 这样做并不难。您只需要更改奖励机制M:不再依靠正式验证器进行检查,而是使用其他模型根据一组评分标准(Rubric)来判断答案的利弊。 Openai使用一项强化研究来修复模型的行为,这比数学问题更抽象。 在故意对齐的论文中,OpenAI使用LLM作为“提供者”,并基于一系列评分标准,加强研究是为了确保模型更安全并减少了误解请求。 而且,此过程完全使用合成数据。 如前所述,他们还发现,这种方法“在分布以外的安全情况下显示出强大的慷慨功能”。 因此,该方法已用于训练O1,O3-Mini和O4-Mini,并将继续适用于将来的理解模型。 推理能力不仅在解决数学问题方面很重要,而且对不可避免的活动非常有用。 例如,在许多情况下,强大ER理解的能力可以帮助模型更好地确定何时应拒绝用户的请求。 但是,不可否认的是,在不可否认的领域,某些因素将产生更大的影响,因为该模型的“个性”会极大地影响编写它的样式。 此外,对不可避免的领域的加固的研究也更加可变。 例如,之前讨论的GPT-4O的“旋转”行为部分是由于基于用户偏好数据的OpenAI强化研究的结果。 它表明,善意的奖励也会导致不良行为。 O3充分利用工具,核心在这里 O3模型清楚地证明了增强研究的有效性,尤其是在外部工具的高级应用中。 O3性能证明具有智能很重要,但是访问和使用工具更为重要。 为了实现这一能力,Openai采取了一些基本步骤。 首先,确保该模型可以访问该工具。这可以实现更广泛的基础架构的一部分(例如,它提供访问特定环境的访问)。 在模型级别上,可以通过特殊令牌来停滞工具调用。 例如,让模型使用特殊令牌(例如搜索)启动外部搜索,搜索结果将返回到结构化的形式,并可以直接用于其理解过程。 通过提供访问许多特殊令牌能力的模型,它可以快速,轻松地访问不同的环境。 另一个主要挑战是,您是否会选择正确的培训问题集? 尽管该模型可以访问该工具,但如果不需要问题本身,则可以选择根本不使用它。 因此,要有效地训练模型,有必要提供足够的困难问题,应在工具的帮助下解决,以确保模型学会自然使用外部资源。非常很难理解该学位,需要许多试验来测试它。 同时,过度使用工具还可以降低性能,复杂的奖励信号,从而影响整体影响。 其他主要因素包括:确保每个“减少”具有丰富的初始状态,并且每个起点可以产生许多响应以提高研究的稳定性和效率;对畸形格式的产出施加惩罚;并奖励正确使用的标签。 简而言之,创建O3级模型的关键在于两个点 - 首先,通过备用款项和其他方式,该模型提供了对许多工具的访问。其次,就可以“强制”模型使用这些工具的问题进行培训。 令人惊讶的是奖励,O3的幻觉 尽管在查找信息和研究方面仍然具有其能力,但O3还是因严重的幻觉而受到批评。 这通常会做不做的事情,并且随着RL计算竞争的问题,问题变得更糟Ting增加。为什么这是? 高级分析师认为,这最终取决于这些模型的培训方式。 通常仅对正确的最终结果进行奖励,如果未正确考虑其推理过程,则可以使其“获得”有缺陷的逻辑并获得正确的答案。 例如,模型可以赢得简单的棋盘游戏甚至误解了规则,因此错误地考虑了有缺陷的推理是可以接受的。 这种机制不仅具有惩罚模型的错误心态,而且还用伪装来奖励它。 半分析认为这种情况不仅限于棋盘游戏。 它无意间允许模型幻想对新的,未指定的情况,从而在更广泛的领域中对推理能力进行分类。 提出更强模型的推理,因为法官可以纠正整个推理痕迹,因此法官可以产生一定的效果。 其他想法包括设计更精致的奖励信号,例如给出不同的奖励s每个输出令牌,以惩罚正确的逻辑范围内正确的答案。 应该很明显的是,错误的奖励行为还会影响诸如代码生成之类的任务。 模型可以编写质量差的代码,但仍然可以通过单元测试。这将进一步强调设计正确的奖励操作的必要性。 AI自我进化,使用RL来优化RL 对加强的研究不仅可以提高LLM的性能,还可以提高自尊心并形成一个良好的周期。 此“ RL优化RL”程序取决于LLM法官和评分标准(Rubric)提供增强研究信号。 例如,Openai的深入Reaarch项目展示了RL如何在不兼容的领域中促进发展并成为模型。 如果这是一项经过验证的任务,则不可避免的任务,OpenAI由另一个LLM根据标记标准判断。 同样,QWEN-3也采用了类似的方法,使用与LLM-Gudge结合使用的综合数据的海量,提供了研究信号,没有参考CE答案。 半分析认为,“标准标记”模型在许多地方开辟了新的可能性。 例如,OpenAI邀请260多名医生撰写评论标准,即HealthBench,以评估问答活动中的模型绩效。 作为公众审查标准,HealthBench反映了LLM-Gudge,这在衡量尚未证明的奖励绩效方面非常有力。 在执行性能时,可以通过研究加强来改善它。 它以RL和分析之间的低估关系为特征 - 后者清楚地揭示了RL培训和有效性的发展。 启动了“递归自我完善” 如上所述,可以通过允许更强大的模型作为更好的强化法官来实现自我完善。 但是这里还有另一个重要的大小:让模型帮助火车并写下下一个模型。 拟人化专门显示了Claude 4系统卡上顶级实验室的这种想法。 ThEY评估了四足机器人的编译器,内核工程甚至增强学习活动的开发。 实际上,今天的主要实验室是旨在挤压所有硬件性能的困难工程工作。 编译器,内核,内存管理对立,超参数的PAG-TUNE是可以计算和改进的编程活动,并且每个项目都对模型效率产生重大影响。 “递归自我完善”通常被描述为听起来很诱人和有前途的术语,但事实是它发生在某种大小。 该实验室还可以通过对特定任务进行强化研究,并具有大量专门研究其的内部模型变体,从而继续增加其投资。 这种自我完善将首先关注困难,无聊,沉重和无聊的工作水平,然后逐渐渗透到新模型的架构的研究。 当前模型可以不加快开发过程。 但是,OpenAI Codex工具已经在帮助员工开发模型的下一个版本。理解自我完善的关键是,这些模型将使工程师能够花费更少的时间编码,从而花费更多时间思考研究和数据等关键问题。只要该模型的开发瓶装在工程上进行投资,这些瓶颈就最终会解决。 但是,实际上,该模型的开发也受到各种因素,例如计算资源。 真正的自我衰退改善将大大加快研究和数据过程。 环境 为了进行加固的研究,有必要“加强”特定的行为或结果。 只要AI模型/代理应该在“环境”中并获得评论以了解下一步该怎么做,就可以实现这一目标。 它使“增强”的成就增加了。rlef的entation已经出现了,也就是说,运行了模型在环境中生成的代码,并将实施的结果作为奖励信号。 SO称为“环境”是一个场景或仿真系统,在该系统中,该模型可以采取行动并接收反馈,例如国际象棋和棋盘游戏,这是一个很棒的环境示例。 他们有明确的目标和明确的政策。 随着灵活性的提高,AI进入了更广泛的领域,例如在视频游戏中赛车或控制生物反应器模拟中的一组特定参数。 此外,他们会发现数学,编程甚至浏览器,它们是更开放的环境。 各种环境调整会导致AI代理的不同行为。 如果环境不再是配置的,则模型可能无法理解任务或无法正确纠正其功能,从而导致“奖励黑客入侵”。 换句话说,该模型学会了在此处的功能中钻取漏洞,而不是真正的Complete任务。 例如,致力于通过单元测试的编程环境可以导致用于“应对试验”而不是编写高质量代码的模型。 因此,开发一个稳定的环境并确保其奖励功能准确地反映了预期的目标是工程学中非常困难的挑战。 合格的环境需要满足许多要求。 延迟是主要因素之一。过度的延迟会导致浪费资源,而“推出”无效。 另一个PAGSCONSICESS包括:连接必须连续可靠,以防止系统崩溃和中断过程;同时,需要设置对故障和检查点机制的容忍度机制,以确保可以正确处理错误;并且应正确处理许多平行扣除或轨迹。 此外,需要一组完整的安全基础架构来保护模型免受外部笔依赖或阻止其试图“逃脱”环境。 模型本身中的某些误差模式也因问题而变得复杂,例如采取耗尽机械资源的行动的可能性。 同时,气氛应准确地模仿真实场景,以便代理可以理解在哪里改进,并消除黑客利用戏剧性的可能性。 所有这些要求使规模环境非常困难,尤其是如果您首次尝试。 尽管基础设施工程似乎很乏味,但对教育的成功很重要。如果还原过程持续太长,则用于验证的模型将是闲置的,从而导致浪费资源。 因此,如何执行这些模型在等待期间执行其他任务,例如判断另一个LLM减少的结果,这成为一个重要的问题。 这些有限的软件级别也应适用于硬件级别的障碍,例如大多数E运行CPU而不是GPU的环境进一步提高了工程的复杂性。 更重要的是,环境应将弱点置于模型开发中。 诸如O3之类的theodels基于支持许多工具调用的复杂环境。随着工具上升的呼吁,环境的复杂性也增加了,带来了一系列新的挑战。 奖励黑客 如前所述,设置适当的奖励可能非常困难,因为模型可能会误解目标并以较少的方式优化目标。 当模型利用环境弱点或奖励结构以获得高分的情况下而无需实际完成预期任务时,就会发生奖励。 2016年初,人类创始人达里奥·阿莫迪(Dario Amodei)教授了“奖励黑客”问题。 例如,机器人臂的任务是覆盖蓝色块上的红色块并获得奖励。 但是在演示中,当滑入红色的构件时,这是直接的,这不是t以奖励利用漏洞,以堆叠的方式完成。 这是因为判断奖励的标准只是红色构件底部表面的高度。 故障模式的另一个示例是,在物理模拟中教机器人行走时,代理会发现软件中的弱点 - 无需采取步骤,水平运动还可以,有点6。 就LLM而言,Claude 3.7十四行诗还显示出黑客的奖励:更改测试用例,而不是改进自己的代码以通过原始测试。 尽管人类采取了一些替代步骤,但这种行为模式仍然存在于Claude 3.7中。 尽管这些情况听起来很有趣,但真正的问题是: Inhiniyero通常无法准确确定奖励的功能,并且经常在AI代理利用环境弱点后发现它们。 换句话说,奖励黑客的许多途径是设计师没有想到的东西。 虽然迭代可以在培训期间进行校正,对于LLM来说,这是非常困难的。 机器人的环境仍处于童年状态,很容易解决,但是LLM拥有宽敞且复杂的动作空间,因此很难避免奖励黑客。 因此,解决奖励黑客问题是所有领先实验室的重中之重,这需要安全和一致团队的许多想法。 在Claude 4中,拟人化大大减少了通过Paenvilmental的改进,澄清奖励信号和主动监控的实施来减少奖励的黑客攻击。这并不容易,需要大量的专业知识和实践经验。 但是,对奖励和黑客奖励的研究不仅是瓶颈,而且基础设施本身也是一个很大的瓶颈。这种瓶颈始于增强研究所需的数据。 数据和样品的效率 乍一看,强化研究的卓越样本似乎很高。 在火车期间与主要模型相比,研究人员在QWEN模型中NG“推理增强学习”,研究人员使用少于4,000个问答环节来取得显着的性能提高,因此声称其示例效率非常高。 但是,实际情况更加复杂。 因为4,000个问答对中的BSing必须满足严格的条件:这可能不是模型开始的冷阶段中使用的数据;在当前模型功能中,涵盖广泛的细分应该尽可能困难。 满足这些要求并不容易。 制定适当的合成数据需要大量筛选和重复模型理解。 此外,为了确保问题“具有挑战性,但并不难”,它个人需要实验和验证,以确认问题的难度在狭窄的范围内。 在某些情况下,如果无法生成合成数据,则实验室需要招募它在STEM领域的博士学位是为模型写足够挑战性的问题和答案。其他工作是为LLM法官准备评分标准以供参考。 这就是为什么Scaleai,Mercor和Handshake等招聘和数据服务公司可以从Major AI实验室获得坚实的业务流并发挥财富。 此外,QWEN模型还进行了另一个加强阶段,并且尚未发布此阶段使用的样品数量,因为该数字超过4,000。 在随后的阶段,他们在20多个领域进行了一项加强研究,并立即使用了所有三种类型的奖励模型(基于策略,具有标准答案的LLM判断力,而LLM-Gudge没有常规答案)。 在其背后,有必要拥有超级复杂的工程技术和计算资源支持。 从长远来看,半分析希望主要的实验室能够以刺激性的方式进行兴奋的研究ONAL字段可显着提高模型性能。 在此过程中,质量比体积更重要 - 因为该模型适用于其培训数据。 因此,尽管只有4,000个样本用于培训,但筛选它们的过程消耗了大型计算源。 可以说,对增强的研究在数据级别上是“极好的”,但在计算级别上绝对是“样本无效”。 这就是为什么有效地消除加强研究需要比预训练更大的工程团队的原因。 数据是护城河 简而言之,Qwen的案例表明,高质量数据是大型-Scaleg RL应用程序的重要资源。 高质量的数据可以提供足够清晰的增强信号的模型,从而可以准确地提高完成特定任务的能力,并且此类数据的开发通常需要大量计算理解。 从广义上讲,普通公司或企业可以包括其自己的数据和使用服务,例如Openai推出的改进的精致曲调(RFT)。 RFT允许企业使用自定义得分手并根据标记结果或特定数据更新模型。显然,此功能目前被低估了,将来将产生深远的影响。 实际上,随着用户的行为数据最终生成可Pinavaluable数据集,任何可以累积或收集用户行为的产品都具有很高的价值。 由此,我们将获得一个有趣的认可:将来使用用户数据开始的AI开始,您可以使用强化研究来训练自己的自定义模型,而无需依赖大型计算预算来综合数据。 如果企业实际上可以开发适当的加固环境,那么很明显,企业模型的深入定制时期确实来了。 与主要模型的不可控制的开发速度相比,企业的简单调整路线通常会失败。AI代理商不断打折,在7个月内复制 该模型现在将长期保持统一。 更长的活动需要长期内的稳定的运营和基础设施环境,这需要很多项目。 下图显示,独立编码活动的持续时间每7个月翻倍,并期望非编码任务加倍。 OpenAI的In -Depth Research是第一个与几分钟以上有关的模型,我们希望这种能力的上限将大幅度地增加。 这里有矛盾。 代理商的活动具有很高的经济价值,但是由于资源的复杂性和强度,它们显示了高度的学习挑战(RL)。 工作持续时间的扩大意味着每项研究的研究也需要更长的时间,在整个培训过程中都会减慢。 以计算机为例,很好地描述了长期活动中的许多探测器。首先,作为代理商的工作,它更接近现实世界中的问题和行为,带来了新的挑战。 例如,使用计算机使用,代理会找到许多反机器人网络脚本,验证代码和复杂的Cloudflare保护功能。 这些问题偶尔出现。此类细节会增加尚未之前的环境中的复杂性。 此外,计算机需要大量的基础架构,例如虚拟机(VM)和浏览器连接,它们不仅必须牢固地运行,而且还满足了前面提到的环境工程要求。 计算机使用活动通常需要很多时间。这意味着,执行工作的时间变长了,奖励变得混乱。 换句话说,代理商可能需要多10倍的步骤,但只有最后一步才得到奖励,从而使强化研究变得较弱。 不仅如此,使用计算机还依靠图像和视频来显示模型发生。 尽管有些人试图通过传输HTML文件或设置网页的文本表示来实现计算机使用,但是在这种情况下,该模型将无法理解图像的含义。 如果可以使文本表示正常工作,则将减少计算机使用的内存要求。 环境计算也花费了大量资金 半分析认为,不仅专注于研究强化,因此在环境计算机上投资的潜力很大。 一个例子是一种高度现实且困难的赚钱,使用数十个或数百个CPU一起工作。 这是一个全新的地方,非常适合扩展。由于纯信号,这种真实性可以带来令人难以置信的性能改善。 将来,这些环境还将供GPU,该环境模仿现实世界数字双胞胎。 值得注意的是,这些GPU需要具有图形渲染功能,例如RTX Pro GPU或GPU GRA消费者。 GPU和ASIC芯片专门为AI设计(例如H100,B200,TPU,Trainium等)显然不足以渲染图形。 因此,大量资源投入到为增强研究环境(RL)的AI世界模型中,而不是其他提到的RL常规环境。 这将简化扩展过程,否则环境的复杂性将在许多软件和硬件前面增加。 可靠,可衡量,易于实施的环境将有很大的需求,并期望成为初创企业的繁荣场所,并且一些公司已经开始参与其中。 当今的瓶颈不是模型的能力,就像Grok 3一样,它足够明智,可以处理大多数任务 - 而是与现实世界互动并获得上下文的能力。 半分析认为,这尤其渴望在科学领域的AI应用。 例如,可以建立与任何措施连接的环境In实验室。这种设置使AI代理可以根据环境反馈来控制Totong世界并调整和更改各种因素。在某些情况下,例如控制烤箱温度,反馈回路可以很快,并且模型可以快速重复。 但是,在其他高价值的任务中,如果实验持续很长时间,则该模型需要具有相应的长期统一性。另外,设置可能在计算和身体上是要求的。 在生物学,半导体制造和材料科学等领域中,重要的是要考虑模型和测试的模型反馈回路(例如实验和消融研究)。这些生物学,制造业和工业区具有速度和验证限制。 某些领域对计算增强学习的影响更长的时间,而其他领域则迅速降低了Go,因为能够提供快速反馈。 物理AI的反馈回路比数字世界慢,因此需要ES一个真正强大的数字双胞胎环境。 关于“评估”的类比 给我们一个粗略的例子:即使对概念模型的相对简单的评论也很难真正运行。 Docker图像经常崩溃;许多选择的简单格式(例如将选项从A更改为1)可能会导致模型审核标记更改多达5%。 在基础设施量表分析的早期阶段,拟人化讨论了其背后的主要工程挑战。 GPQA是在该模型的物理,化学和生物学领域的研究生水平上测试的常用评论基准,但是它似乎具有“上部噪声” - 尽管表明该模型的性能已卡住,但由于错误的数据集答案,该模型实际上无法实现100%的精度。 随着代理商的活动越来越长,问题在许多方面变得更加严重。 模型运动模型中的行动大幅增加,其教练时间b的时间b生态较长。创建一种可以衡量这种长期能力的评估方法是高度挑战性的,并显着增加了评估成本。 简而言之,尽管基础设施构建分析的概念并不是什么新鲜事物,而且看似简单,但该过程的复杂细节足以使人们崩溃。 建筑和扩大大规模的增强研究是更高的数量级,而越来越多的MGA问题。 调整超级计算机GPU,RL是优化的 为GB200和GB300设计的NVL72 NVL72系统在推理领域带来了关键的进步。 更强的计算能力可以实现更高的吞吐量,以降低潜伏期,而共享内存为KV缓存提供了更大的扩展空间。这不仅允许理解模型在理解阶段进行更好的批处理处理,而且对加强研究产生了深远的影响。 对于加强研究,折痕记忆可以提高各种技能。 首先,它允许给定问题的更多扣除。 其次,它可以更好地处理地平线代理的活动。 同样,麻省理工学院将支持远见卓识启用的较大,更多的模型,这在结果难以直接证明的领域特别有用。 最后,新的增强研究范式完全取决于合成数据的产生和筛选,这与大量识别计算是密不可分的。 NVL72系统在这方面的性能非常出色。 但是,实际上,将计算能力不足是一个困难的问题。 例如,研究在线增强,很难在各种样本复制品之间实现完美的负载平衡。 完成最终减少任务时,第一个可以长时间完成,从而导致资源的时间和懒惰。 另外,因为不同的采样器和培训师可以缩小各种网络拓扑,重量广播也可以导致大量的计算强度计算。 在强化的所有阶段都需要理解,但是与训练前期不同,这些任务不应以集中式的方式执行。 尽管加强研究需要大量计算,但这些计算活动不需要部署到同一位置。 例如,可以在数据中心开发和验证域中的合成数据,而训练模型可以在另一个完全不同的数据中心执行。 随着对总计算比例增加的加强研究,我们可以看到数据中心的构建模式发生了变化。尽管仍需要最大的多基因超大数据中心来扩大训练量表,但仍不清楚加强研究可以实现分散式化的覆盖范围。 预训练可能一次占有数千个GPU但是计算用于加固研究的推理的力量可以根据可用容量给予灵活性。 这意味着实验室现在可以在OFF -PEAK时间内利用空闲的GPU,以在研究增强过程中执行诸如合成数据生成之类的任务。 实际上,半分析发现,至少一个实验室使用闲置的次要群集来运行此过程,生成合成数据,这等同于为模型培训提供免费的计算源。 将来,理解力和打pagexperience之间的界限将与主要的实验室更加模糊,这将提供更多的计算源以提高模型功能,除了大型培训簇外。 这些空闲计算能力可以提供“免费”培训的主要原因是,应根据峰值请求配置推理群集的构建。 主要的智力2模型显示了REI的分散特征Nforcece研究,一种全球分布式构想模型。 从硬件设计的角度来看,对推理和长期代理活动的需求不断增长,使记忆更加重要。 尽管增强研究消耗的浮点操作(FLOP)的数量低于预训练,但其内存负荷仍然很高。 在世界范围内,可以调整硬件开发以适应这一变化,这也包括出于网络拓扑等原因的考虑。 半分析可以看到,强化的教育带来了更多的硬件设计,它将重新组合组织研究与合作的方法。 由RL引起的AI实验室重组 通过研究语言模型的加强,识别首次与培训过程深入融合。 如今,识别表现直接影响训练速度。 这意味着在产品级别上推理的能力离子(即快速,高效和廉价的推理)已成为模型训练过程中必不可少的一部分。 过去,每个实验室都清楚地区分了“专用于服务的推理”和“内部pangreason”(例如,用于模型分析)。 但是,当然,由于教育学习需要对理解进行大量计算,因此直接对培训堆栈进行完全优化的理解非常重要。 这种趋势也反映在公司组织结构的调整中。 Openai合并了研究团队,并为此目的应用了研究推理团队。同样,Anthropic和Google对其产品团队和内部研究团队进行了重大的组织调整。 RL保持模型“鲜血变化” 训练前时代和当前模型之间的一个显着差异是,在释放模型后可以继续进行增强研究。 这意味着模型可以发布d首先,然后通过继续研究强化来扩展功能,并基于它进行版本更新。 这种迭代的开发方法可以继续为现有模型添加新功能。新的DeepSeek R1正是这种情况。 实际上,这种类型的连续优化是标准的 - 例如,当前的GPT -4O经历了许多更新,并且不再是放电的原始版本。 Semianysissa预测,在这种新的范式下,拟人化更新Claude模型的频率比以往任何时候都更频繁。 无需牺牲都是都是都是都是脚的,混合数据是一种解决方案 训练“ RL”的一种常见方法是基于目标模型创建许多复制品,RL在某个领域中分别进行,最后在这些副本的权重中加入。 尽管大多数人讨论了此方法,但它应用于命令A模型。 这样,不同的团队可以以同样的速度工作,SP扩大开发过程并简化整体过程。 但是,挑战在于,重量整合可以导致某些领域的模型能力在不同程度上的降低。 例如,在集成了Coere模型之后,抹布和大学保持稳定,但其SCOD的能力被削弱了。 这带来了一个关键问题:是否值得牺牲改善抹布性能的编码功能? 为了解决这个问题,另一种方法是使用批处理技术。 它将来自不同环境的数据混合以进行打sc,因此不需要模型集成。 通过开发包含包含所有领域的混合样本(例如数学,代码,搜索等)的培训批次,这种多种环境批次并不是一次关注环境,而是在许多不同的RL环境中同时训练单个模型。 它的好处是显而易见的,无需结合模型并保持在此类领域的能力S编码模型。 但是,此方法还需要团队的更大合作和基础架构。 RL培训,工厂站在叉子上 与预训练相比,技术路径的RL阶段更为复杂。 在培训前阶段,技术行业的路径相对清晰,主要是通过提高参数的大小和算法的效率来建立改进的LLM性能。 但是,RL阶段的战略选择直接反映了每个公司权衡的优先事项。 例如,Coere值支付破布并制作相应的选项以保持此优势。 OpenAI,Anthropic和Google的激励机制和目标不同,这直接影响了他们的数据组合技术和RL投资方法。 这也意味着在缩放模型的路径上,整个AI圆圈都在争论。 以前,训练前竞赛的重点是如何尽快增加模型大小通过更改算法来提高和提高计算效率。 但是在RL字段中,比例方法不仅仅是扩展强度NG计算。例如,您可以专注于在特定字段中扩展数据量。 例如,拟人化显然专注于代码性能。 其他实验室已经在不同的地方投资了资源 - 在启动代码工具法典之前,OpenAI在发布深度研究之前。 随着这种范式的不断变化,实验室的真正重点将变得更加清晰,并且在训练前阶段通常很难看到这些差异。我很容易。 思维机器的基本度量恰恰是因为它们的重点与其他实验室不同。 小型模型,更适合蒸馏 对于小型模型,增强研究不是最佳选择。 Qwen的技能表明,当小型模型的形成时,蒸馏的影响非常重要。 具体而言,蒸馏是指o制造小型模型分布(学生模型),更接近通过比较相同问题的答案来分配教师模型的可能性。 蒸馏通常不需要像RL这样的“减少”,这意味着资源更好。 Qwen发现,通过约会,他们可以通过更少的GPU获得更好的结果。 同样,该方法也用于Openai最近发布的迷你系列模型。 但是,小型模型的缺点是它们的性能是“不均匀”或“尖峰效应”,即它们在某些方面而不是在其他方面表现良好。 相反,像GPT-4O这样的大型模型更宽。 当然,蒸馏的成功不会与强大的“老师”模型分开,NA很重要。 参考: https://semianlysis.com/2025/06/08/scaling-reinforecement-learning-envorirnment-ward-hacking-hacking-gents-gents-caling-data/return to sohu看到更多