加入收藏
 免費(fèi)注冊(cè)
 用戶(hù)登陸
首頁(yè) 展示 供求 職場(chǎng) 技術(shù) 智造 職業(yè) 活動(dòng) 視點(diǎn) 品牌 鐠社區(qū)
今天是:2026年3月17日 星期二   您現(xiàn)在位于: 首頁(yè) →  產(chǎn)通直播 → 半導(dǎo)體器件(企業(yè)動(dòng)態(tài))
摩爾線(xiàn)程大模型對(duì)齊研究獲頂會(huì)認(rèn)可:URPO框架入選AAAI 2026
2025/12/5 11:11:35     

按此在新窗口瀏覽圖片

【產(chǎn)通社,12月5日訊】摩爾線(xiàn)程(Moore Threads;股票代碼:688795)官網(wǎng)消息,其近日在人工智能前沿領(lǐng)域取得重要突破,其提出的新一代大語(yǔ)言模型對(duì)齊框架——URPO統(tǒng)一獎(jiǎng)勵(lì)與策略?xún)?yōu)化,相關(guān)研究論文已被人工智能領(lǐng)域的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議AAAI 2026收錄。這一成果標(biāo)志著摩爾線(xiàn)程在大模型基礎(chǔ)技術(shù)探索上邁出了關(guān)鍵一步,為簡(jiǎn)化大模型訓(xùn)練流程、突破模型性能上限提供了全新的技術(shù)路徑。

在題為《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的論文中,摩爾線(xiàn)程AI研究團(tuán)隊(duì)提出了URPO統(tǒng)一獎(jiǎng)勵(lì)與策略?xún)?yōu)化(Unified Reward & Policy Optimization,URPO)框架,創(chuàng)新地將“指令遵循”(選手)和“獎(jiǎng)勵(lì)評(píng)判”(裁判)兩大角色融合于單一模型中,并在統(tǒng)一訓(xùn)練階段實(shí)現(xiàn)同步優(yōu)化。URPO從以下三方面攻克技術(shù)挑戰(zhàn):
▼ 數(shù)據(jù)格式統(tǒng)一:將異構(gòu)的偏好數(shù)據(jù)、可驗(yàn)證推理數(shù)據(jù)和開(kāi)放式指令數(shù)據(jù),統(tǒng)一重構(gòu)為適用于GRPO訓(xùn)練的信號(hào)格式。
▼ 自我獎(jiǎng)勵(lì)循環(huán):針對(duì)開(kāi)放式指令,模型生成多個(gè)候選回答后,自主調(diào)用其“裁判”角色進(jìn)行評(píng)分,并將結(jié)果作為GRPO訓(xùn)練的獎(jiǎng)勵(lì)信號(hào),形成一個(gè)高效的自我改進(jìn)循環(huán)。
▼ 協(xié)同進(jìn)化機(jī)制:通過(guò)在同一批次中混合處理三類(lèi)數(shù)據(jù),模型的生成能力與評(píng)判能力得以協(xié)同進(jìn)化。生成能力提升帶動(dòng)評(píng)判更精準(zhǔn),而精準(zhǔn)評(píng)判進(jìn)一步引導(dǎo)生成質(zhì)量躍升,從而突破靜態(tài)獎(jiǎng)勵(lì)模型的性能瓶頸。 

實(shí)驗(yàn)結(jié)果顯示,基于Qwen2.5-7B模型,URPO框架顯著超越依賴(lài)獨(dú)立獎(jiǎng)勵(lì)模型的傳統(tǒng)基線(xiàn):在AlpacaEval指令跟隨榜單上,得分從42.24提升至44.84;在綜合推理能力測(cè)試中,平均分從32.66提升至35.66。尤為突出的是,作為訓(xùn)練的“副產(chǎn)品”,該模型內(nèi)部自然涌現(xiàn)出卓越的評(píng)判能力,在RewardBench獎(jiǎng)勵(lì)模型評(píng)測(cè)中取得85.15的高分,表現(xiàn)甚至優(yōu)于其替代的專(zhuān)用獎(jiǎng)勵(lì)模型(83.55分)。 

除了卓越的性能表現(xiàn),URPO框架在工程落地方面同樣展現(xiàn)出顯著優(yōu)勢(shì)。該技術(shù)基于GRPO算法進(jìn)行輕量化迭代實(shí)現(xiàn),在代碼層面僅需添加少量補(bǔ)丁即可完成部署,大幅降低了技術(shù)遷移與應(yīng)用門(mén)檻。目前,URPO已在摩爾線(xiàn)程自研計(jì)算卡上實(shí)現(xiàn)穩(wěn)定高效運(yùn)行,充分發(fā)揮軟硬件協(xié)同優(yōu)化的底層優(yōu)勢(shì);同時(shí),摩爾線(xiàn)程已完成VERL等主流強(qiáng)化學(xué)習(xí)框架的深度適配,讓這一簡(jiǎn)潔高效的對(duì)齊方案能快速融入現(xiàn)有研發(fā)體系,既保留了技術(shù)延續(xù)性,又為行業(yè)提供了兼具性能、效率與兼容性的一體化解決方案。 

URPO框架的成功,是摩爾線(xiàn)程堅(jiān)持底層技術(shù)創(chuàng)新、攻堅(jiān)大模型核心挑戰(zhàn)的重要成果。該研究不僅提供了一種更簡(jiǎn)潔、高效、性能更強(qiáng)的對(duì)齊方案,更通過(guò)“選手-裁判”一體化的設(shè)計(jì),為大模型實(shí)現(xiàn)持續(xù)自我進(jìn)化開(kāi)辟了新路徑。未來(lái),摩爾線(xiàn)程將繼續(xù)深耕大模型等前沿技術(shù)領(lǐng)域,以堅(jiān)實(shí)的創(chuàng)新成果推動(dòng)人工智能產(chǎn)業(yè)實(shí)現(xiàn)跨越式發(fā)展。查詢(xún)進(jìn)一步信息,請(qǐng)?jiān)L問(wèn)官方網(wǎng)站http://developer.mthreads.com。(張怡,產(chǎn)通發(fā)布)    (完)
→ 『關(guān)閉窗口』
 365pr_net
 [ → 我要發(fā)表 ]
上篇文章:長(zhǎng)川科技成功主辦2025集成電路產(chǎn)業(yè)測(cè)試設(shè)備創(chuàng)新發(fā)…
下篇文章:華潤(rùn)微電子以治理效能驅(qū)動(dòng)高質(zhì)量發(fā)展信息披露三連A
  → 評(píng)論內(nèi)容 (點(diǎn)擊查看)
您是否還沒(méi)有 注冊(cè) 或還沒(méi)有 登陸 本站?!
 分類(lèi)瀏覽
官網(wǎng)評(píng)測(cè)>| 官網(wǎng)  社區(qū)  APP 
STEAM>| 學(xué)術(shù)科研  產(chǎn)品藝術(shù)  技術(shù)規(guī)范  前沿學(xué)者 
半導(dǎo)體器件>| 產(chǎn)品通報(bào)  企業(yè)動(dòng)態(tài)  VIP追蹤 
電子元件>| 產(chǎn)品通報(bào)  企業(yè)動(dòng)態(tài)  VIP追蹤 
消費(fèi)電子>| 產(chǎn)品通報(bào)  企業(yè)動(dòng)態(tài)  VIP追蹤 
商業(yè)設(shè)備>| 產(chǎn)品通報(bào)  企業(yè)動(dòng)態(tài)  VIP追蹤 
電機(jī)電氣>| 產(chǎn)品通報(bào)  企業(yè)動(dòng)態(tài)  VIP追蹤 
電子材料>| 產(chǎn)品通報(bào)  企業(yè)動(dòng)態(tài)  VIP追蹤 
電子測(cè)量>| 產(chǎn)品通報(bào)  企業(yè)動(dòng)態(tài)  VIP追蹤 
電子制造>| 產(chǎn)品通報(bào)  企業(yè)動(dòng)態(tài)  VIP追蹤 
應(yīng)用案例>| 家庭電子  移動(dòng)電子  辦公電子  通信網(wǎng)絡(luò)  交通工具  工業(yè)電子  安全電子  醫(yī)療電子  智能電網(wǎng)  固態(tài)照明 
工業(yè)控制>| 產(chǎn)品通報(bào)  企業(yè)動(dòng)態(tài)  VIP追蹤 
通信電子>| 產(chǎn)品通報(bào)  企業(yè)動(dòng)態(tài)  VIP追蹤 
交通工具>| 產(chǎn)品通報(bào)  企業(yè)動(dòng)態(tài)  VIP追蹤 
基礎(chǔ)工業(yè)>| 產(chǎn)品通報(bào)  企業(yè)動(dòng)態(tài)  VIP追蹤 
農(nóng)業(yè)科技>| 產(chǎn)品通報(bào)  企業(yè)動(dòng)態(tài)  專(zhuān)家追蹤 
信息服務(wù)>| 企業(yè)動(dòng)態(tài) 
光電子>| 企業(yè)動(dòng)態(tài) 
關(guān)于我們 ┋ 免責(zé)聲明 ┋ 產(chǎn)品與服務(wù) ┋ 聯(lián)系我們 ┋ About 365PR ┋ Join 365PR
Copyright @ 2005-2008 365pr.net Ltd. All Rights Reserved. 深圳市產(chǎn)通互聯(lián)網(wǎng)有限公司 版權(quán)所有
E-mail:postmaster@365pr.net 不良信息舉報(bào) 備案號(hào):粵ICP備06070889號(hào)