AI新工具(20250207) 李飞飞S1成本仅50美元性能媲美Deepseek-R1；Logic RL成功重现了 DeepSeek R1 Zero 模型 ✨ 1: s1 s1是一个简单的测试时间缩放方法，能基于1000个示例和预算限制实现强推理性能。 s1（Simple Test-Time Scaling）是一种简单的测试时尺度优化方法，旨在通过仅使用1000个示例和预算强制来实现与o1-preview相匹配的强推理性能。

AI新工具(20250207) 李飞飞S1成本仅50美元性能媲美Deepseek-R1；Logic RL成功重现了 DeepSeek R1 Zero 模型

By AiBard123
February 7, 2025 - 2 min read

✨ 1: s1

s1是一个简单的测试时间缩放方法，能基于1000个示例和预算限制实现强推理性能。

s1（Simple Test-Time Scaling）是一种简单的测试时尺度优化方法，旨在通过仅使用1000个示例和预算强制来实现与o1-preview相匹配的强推理性能。该方法的核心思想是通过在测试阶段进行规模调整，提高模型的推理效果。

s1适用于以下场景：

推理优化：在需要快速高效处理大量数据时，可以使用s1来提高模型的推理效率。 实验和研究：可以作为研究人员探索其他推理架构或优化方法的一部分，以便快速验证其效果。 资源限制：当计算资源有限时，s1可通过强制预算限制来有效利用模型。

地址：https://github.com/simplescaling/s1

✨ 2: R1-V

R1-V项目旨在通过强化学习提升视觉语言模型的泛化能力与训练效率，贡献开源研究。

R1-V是一个针对视觉语言模型（VLM）的研究项目，旨在增强其超泛化能力。该项目主要基于**可验证奖励的强化学习（RLVR）**方法，研究表明，相比传统的链式思维监督微调（CoT-SFT），RLVR在模型的有效性和对分布外（OOD）鲁棒性方面表现更优。通过激励视觉语言模型学习一般化的可视计数能力，避免模型过拟合于训练集，R1-V构建了一个生态高效的视觉语言智能体系。

地址：https://github.com/Deep-Agent/R1-V