长度

长度

字节跳动VAPO突破AI推理极限，AIME24创60.4分新高

IT之家 4 月 12 日消息，字节跳动于 4 月 8 日发布博文，其 Seed 研究团队推出 VAPO 强化学习训练框架，目标提升大型语言模型在复杂、冗长任务中的推理能力。现有挑战在大型语言模型（LLM）的强化学习（RL）训练中，价值导向方法（Value-based reinforcement l
2025-04-12 13:46:00