DeepSeek-R1 訓(xùn)練方法相關(guān)論文已于 2025 年 9 月 17 日正式發(fā)表在《自然》雜志,并登上當(dāng)期封面。該研究由 DeepSeek-AI 團(tuán)隊(duì)完成,通訊作者為梁文鋒。論文核心內(nèi)容如下:
(一)純強(qiáng)化學(xué)習(xí)激發(fā)推理能力
DeepSeek-R1 采用“純強(qiáng)化學(xué)習(xí)”訓(xùn)練流程,無需大量人工標(biāo)注的推理示范,僅通過“答題正確→獎(jiǎng)勵(lì)、錯(cuò)誤→懲罰”的試錯(cuò)機(jī)制,讓模型自主學(xué)習(xí)并逐步生成可解釋的推理步驟。
(二) 多階段 pipeline
DeepSeek-R1-Zero:完全去掉監(jiān)督微調(diào)冷啟動(dòng),僅用群組相對(duì)策略優(yōu)化(GRPO)+ 規(guī)則獎(jiǎng)勵(lì),在數(shù)學(xué)、代碼等任務(wù)上實(shí)現(xiàn)自我進(jìn)化。
DeepSeek-R1:在 Zero 基礎(chǔ)上引入少量高質(zhì)量冷啟動(dòng)數(shù)據(jù)與拒絕采樣,再進(jìn)行第二輪強(qiáng)化學(xué)習(xí),兼顧通用場(chǎng)景的有用性與無害性
(三) 性能表現(xiàn)
在數(shù)學(xué)基準(zhǔn)測(cè)試中,DeepSeek-R1-Zero 得分 77.9%,DeepSeek-R1 進(jìn)一步提升至 79.8%;在編程競(jìng)賽及研究生級(jí) STEM 題目上同樣優(yōu)于傳統(tǒng)大模型。
(四) 學(xué)術(shù)與行業(yè)意義
成為首個(gè)經(jīng)過《自然》同行評(píng)審的主流大語(yǔ)言模型,填補(bǔ)了主流模型缺乏獨(dú)立學(xué)術(shù)審查的空白
(五) 開源與影響
模型已在 Hugging Face 開源,下載量超 1090 萬次;Nature 評(píng)論認(rèn)為其開放模式有助于建立公眾信任,推動(dòng) AI 行業(yè)從“技術(shù)競(jìng)賽”走向“科學(xué)紀(jì)律”。
總結(jié)
DeepSeek-R1 通過強(qiáng)化學(xué)習(xí)自主習(xí)得推理策略的研究方法、嚴(yán)格的同行評(píng)審流程以及全面開源的舉措,為提升大模型推理能力與可信性提供了新的范式。
【高??蒲斜貍洹緿eepSeek使用指南全匯總,為科研人助力
掃碼無套路免費(fèi)領(lǐng)取-掃碼立即發(fā)送云盤鏈接
評(píng)論 0