【資料圖】

IT之家 8 月 26 日消息,科技媒體 9to5Mac 昨日(8 月 25 日)發(fā)布博文,報(bào)道稱蘋果研究人員在最新論文中提出“基于清單反饋的強(qiáng)化學(xué)習(xí)”(RLCF)方法,用任務(wù)清單替代傳統(tǒng)人類點(diǎn)贊 / 點(diǎn)踩評(píng)分,顯著提升大語言模型(LLMs)執(zhí)行復(fù)雜指令能力。

IT之家注:RLCF 的全稱為 Reinforcement Learning from Checklist Feedback,不同于傳統(tǒng)的“人類反饋強(qiáng)化學(xué)習(xí)”(RLHF)依賴人工點(diǎn)贊 / 點(diǎn)踩,RLCF 為每條用戶指令生成具體的檢查清單,并按 0-100 分逐項(xiàng)評(píng)分,用以指導(dǎo)模型優(yōu)化。

研究團(tuán)隊(duì)在強(qiáng)指令跟隨模型 Qwen2.5-7B-Instruct 上測(cè)試該方法,涵蓋五個(gè)常用評(píng)測(cè)基準(zhǔn)。結(jié)果顯示,RLCF 是唯一在全部測(cè)試中均取得提升的方案:

  • FollowBench 硬性滿意率提升 4 個(gè)百分點(diǎn)
  • InFoBench 提高 6 點(diǎn)
  • Arena-Hard 勝率增加 3 點(diǎn)
  • 某些任務(wù)最高提升達(dá) 8.2%。

這表明清單反饋在復(fù)雜、多步驟需求的執(zhí)行中效果顯著。

清單的生成過程也頗具特色。團(tuán)隊(duì)利用更大規(guī)模的 Qwen2.5-72B-Instruct 模型,結(jié)合既有研究方法,為 13 萬條指令生成了“WildChecklists”數(shù)據(jù)集。清單內(nèi)容為明確的二元判斷項(xiàng),例如“是否翻譯成西班牙語?”。隨后,大模型對(duì)候選回答逐項(xiàng)打分,綜合加權(quán)后作為小模型的訓(xùn)練獎(jiǎng)勵(lì)信號(hào)。

蘋果研究者也坦言該方法存在局限。首先,它依賴更強(qiáng)模型作為評(píng)判者,這在資源受限場(chǎng)景下未必可行。其次,RLCF 專注于提升復(fù)雜指令執(zhí)行能力,并非設(shè)計(jì)用于安全對(duì)齊,因此不能替代安全性評(píng)估與調(diào)優(yōu)。對(duì)于其他任務(wù)類型,該方法的適用性仍需進(jìn)一步驗(yàn)證。

標(biāo)簽: 翻譯 清單法 蘋果公司 知名企業(yè) 深度思