九章云极联合团队在人工智能领域取得重要突破,其大模型慢思考推理技术获得系列成果,相关预印版论文已在arXiv上发表,该团队通过深入研究,成功将慢思考推理技术应用于人工智能模型,提高了模型的性能和准确性,这一成果对于推动人工智能领域的发展具有重要意义,将为未来人工智能技术的应用提供新的思路和方法。
九章云极DataCanvas公司联合中国人民大学STILL项目团队以及北京智源研究院团队,在大模型慢思考推理技术领域取得了显著的成果,他们初步复现了类R1推理模型,并完整开源了实现细节及训练技巧,更重要的是,他们通过创新的方法,使用代码工具增强了模型的推理性能,并在AIME数学推理测试中超越了DeepSeek-R1模型的性能,相关成果已经以论文《An Empirical Study on Eliciting and Improving R1-like Reasoning Models》的形式在预印版论文网站arXiv上公开发表。
九章云极DataCanvas联合研究团队还公布了复现DeepSeek-R1全参数微调开源方案,并发布了全新的强化学习训练模型STILL-3-Tool-32B,该方案不仅公开了从模型训练到推理部署的全链路工程代码,还同步公开了实践验证过的技术经验与调优策略,为开发者提供了可直接部署的工业化级大模型训练框架。
在AIME 2024基准测试中,STILL-3-Tool-32B模型取得了81.70%的准确率(采样),超越了DeepSeek-R1满血版以及OpenAI o3-mini的表现,这一成果在GitHub社区中得到了详细阐述,并公开了相关开源链接。
值得一提的是,这个模型是九章云极DataCanvas联合团队在复杂推理模型训练框架上的又一次重要创新实践,研究论文指出,即使在已接近性能巅峰的蒸馏模型上,通过强化学习训练方法也能大幅提升AIME 2024的准确率,面对语言推理的精准性问题,该模型引入了外部工具来增强AI模型的复杂推理能力。
自DeepSeek-R1技术报告公布以来,开源模型的复现一直面临代码完整性缺失、超参数调试等难题,九章云极DataCanvas联合团队通过AI基础设施深度融合实现了突破,并同步开源了模型在DataCanvas Alaya NeW智算操作系统上的完整训练日志、奖励函数代码及容器化部署方案,研究结果显示,Alaya NeW智算操作系统在多个方面表现出明显优势,有望推动AI技术的进一步发展。
这些成果对于推动大模型推理技术的发展具有重要意义,并为开发者提供了宝贵的资源和工具,我们期待未来更多关于这一领域的创新和突破。