对于deepseek r1模型的一些科普 - 搞七捻三 / 搞七捻三, Lv1 - LINUX DO

1224 条记录
52 私有链接

1224 条记录 · 52 私有链接

过滤器

每页链接数

20 50 100

对于deepseek r1模型的一些科普 - 搞七捻三 / 搞七捻三, Lv1 - LINUX DO

DeepSeek 最新发布的 R1 模型通过纯强化学习（R1-Zero）和多阶段混合训练（R1）取得了突破。R1-Zero 完全跳过监督微调，仅通过自我探索和基于规则的奖励机制提升推理能力；R1 则引入少量人工标注数据进行微调，并加入语言一致性奖励，提升输出质量和稳定性。这项研究表明，大模型可以通过自我博弈和强化学习实现自我进化，无需过度依赖人工数据，为通往通用人工智能（AGI）的道路指明了方向。

January 23, 2025 at 07:40:25 GMT+8 * · 永久链接

https://linux.do/t/topic/384422

过滤器

每页链接数

20 50 100