您的位置: 首页 > 科技 > Meta AI发布思维偏好优化技术,旨在提高AI模型的响应质量

Meta AI发布思维偏好优化技术,旨在提高AI模型的响应质量

时间:2025-01-26 07:27:26 来源:互联网 编辑:阳阳资源网

近日,Meta AI 的研究团队携手加州大学伯克利分校和纽约大学的专家们,共同开发了一种称为思维偏好优化(Thought Preference Optimization, TPO)的新方法。这一创新技术旨在通过改进指令微调过程来提高大型语言模型(LLM)的回答质量。

Meta AI发布思维偏好优化技术,旨在提高AI模型的响应质量

与传统模型仅关注最终答案不同,TPO 方法允许模型在生成回应前进行内部思考,从而产生更加准确和连贯的回答。

这种新技术结合了改进版的思维链(Chain-of-Thought, CoT)推理方法。在训练过程中,该方法鼓励模型在回应前先进行 “思考”,帮助其构建更为系统的内部思维过程。以往的直接 CoT 提示有时会降低准确性,并且由于缺乏明确的思维步骤,训练过程较为困难。TPO 通过允许模型优化和精简其思维过程,克服了这些局限性,并且在用户面前并不展示中间思维步骤。

在 TPO 的流程中,首先提示大型语言模型生成多个思维过程,然后在形成最终回应之前,对这些输出进行抽样和评估。随后,一个评估模型将对输出进行评分,确定最优和最差的回应。通过将这些输出作为选择和拒绝对进行直接偏好优化(Direct Preference Optimization, DPO),这一迭代训练方法增强了模型生成更相关、高质量回应的能力,从而提高了整体效果。

在这个方法中,训练提示经过调整,鼓励模型在回应前进行内部思考。经过评估的最终回应由一个基于 LLM 的评估模型进行评分,这使得模型能在不考虑隐性思维步骤的情况下,仅依据回应的有效性来提升质量。此外,TPO 利用直接偏好优化创建包含隐性思维的偏好与拒绝回应对,经过多次训练循环来进一步细化模型的内部过程。

研究结果显示,TPO 方法在多项基准测试中表现优异,超越了多种现有模型。这一方法不仅适用于逻辑和数学任务,也在创意领域如市场营销和健康等指令跟随任务中展现了潜力。

Meta公司重大决策:知名VR游戏工作室Ready at Dawn宣布关闭,行业反响强烈

科技巨头Meta近日宣布了一项震惊游戏界的决定,即日起停止运营其旗下的虚拟现实(VR)游戏开发工作室Ready at Dawn。

Meta公司重大决策:知名VR游戏工作室Ready at Dawn宣布关闭,行业反响强烈

这家曾以《 Lone Echo》和《Echo VR》等作品闻名业界的工作室,如今不得不面对解散的命运,引发了游戏开发者与粉丝们的广泛讨论。

Ready at Dawn作为VR游戏领域的领头羊,其作品屡获殊荣,为VR游戏体验树立了标杆。Meta的这一决策,不仅是工作室自身的终结,也被视为对整个VR游戏开发行业的一记重锤,让人不禁担忧VR内容创新的未来走向。

Meta方面表示,此次关闭工作室是公司整体战略调整的一部分,旨在更加集中资源于公司的核心项目与长期目标。

尽管如此,外界仍猜测此举或与Meta近期对元宇宙投资重点的变化有关,以及在经济不确定时期的成本控制考量。

Ready at Dawn团队的解散,不仅意味着多个项目的戛然而止,也让众多才华横溢的游戏开发者面临职业道路的重新选择。

同时,这一事件也为整个VR游戏开发领域敲响了警钟,促使同行审视自身的可持续发展战略与市场定位。

Meta新工具SPDL亮相:AI模型训练数据效率飙升,吞吐量增2-3倍

近日消息,AI 模型训练迎来新突破,Meta AI 推出开源高性能数据加载工具 SPDL,有效提升数据管理效率,从而显著加快训练速度。

Meta新工具SPDL亮相:AI模型训练数据效率飙升,吞吐量增2-3倍

SPDL 工具采用多线程技术,在常规 Python 解释器中(未启用 free-threading 选项)实现了高吞吐量,资源占用更低,并兼容 Free-Threaded Python。

核心优势

SPDL 包含任务执行器(流水线抽象)、构建流水线的实用工具以及高效且线程安全的媒体处理操作,其核心是异步事件循环,负责调度新任务和响应任务完成。SPDL 通过将同步操作委托给线程异步执行,实现真正的并发。

相比较传统基于进程(process)的处理方式,SPDL 工具升级改用基于线程(thread)的加载方式,有效避免了进程间通信的开销,显著提升了数据传输速度。

该工具的另一个亮点在于预取和缓存技术,确保 GPU 始终有数据可供处理,最大程度减少 GPU 空闲时间,提高系统整体效率。

无论是单 GPU 还是大型集群,SPDL 支持跨分布式系统工作,可以高效处理复杂任务;SPDL 工具还无缝兼容主流 AI 框架 PyTorch,方便团队快速采用。

性能

Meta 表示相比传统基于进程的方案,SPDL 吞吐量提升 2-3 倍;此外在禁用 GIL 的 Free-Threaded Python 环境中,SPDL 吞吐量提升 30%。SPDL 提供性能监控和调优工具,方便用户深入了解数据加载过程并进行优化。

hnqyjy.cn 版权所有 (C)2011 https://www.hnqyjy.cn All Rights Reserved 渝ICP备20008086号-34