91一级特黄大片|婷婷中文字幕在线|av成人无码国产|日韩无码一二三区|久久不射强奸视频|九九九久久久精品|国产免费浮力限制

8
點(diǎn)贊
0
評(píng)論
1
轉(zhuǎn)載
我要入駐

SIGMOD 2026 | 通過協(xié)同設(shè)計(jì)并行策略與數(shù)據(jù)分配實(shí)現(xiàn)大模型訓(xùn)練負(fù)載均衡

 

SIGMOD是計(jì)算機(jī)科學(xué)領(lǐng)域的頂級(jí)國(guó)際學(xué)術(shù)會(huì)議之一,專注于數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)管理技術(shù)的研究。作為中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)推薦的A類會(huì)議,SIGMOD與VLDB、ICDE并稱為數(shù)據(jù)庫(kù)領(lǐng)域的三大頂會(huì),近年來(lái)論文接收率維持在17%-20%左右。PKU-DAIR實(shí)驗(yàn)室的論文《Hydraulis: Balancing Large Transformer Model Training via Co-designing Parallel Strategies and Data Assignment》在SIGMOD第二輪評(píng)審中成功被錄用。

Hydraulis: Balancing Large Transformer Model Training via Co-designing Parallel Strategies and Data Assignment

作者:Haoyang LiFangcheng FuSheng LinHao Ge, Xuanyu WangJiawen Niu, Jinbao Xue, Yangyu Tao, Di Wang, Jie Jiang, Bin Cui

代碼鏈接:https://github.com/PKU-DAIR/Hetu

 

背景

在大規(guī)模Transformer模型訓(xùn)練中,輸入序列往往存在顯著的長(zhǎng)度差異。傳統(tǒng)做法是通過padding將較短的序列補(bǔ)齊到批次中的最大長(zhǎng)度,以便統(tǒng)一并行計(jì)算,但這種方式會(huì)引入對(duì)填充token的冗余計(jì)算,造成算力浪費(fèi)。為提升效率,現(xiàn)代訓(xùn)練系統(tǒng)廣泛采用packing技術(shù),即將多個(gè)不同長(zhǎng)度的序列拼接成一個(gè)較長(zhǎng)序列,再通過block-diagonal attention等機(jī)制保證語(yǔ)義隔離,從而減少無(wú)效計(jì)算。

目前,主流的訓(xùn)練系統(tǒng)通常采用兩類方法:一方面,并行策略上采用靜態(tài)、同構(gòu)的配置,即所有訓(xùn)練流水線(replicas)在整個(gè)訓(xùn)練過程中都保持相同的并行度組合(如固定的tensor parallel與pipeline parallel度數(shù));另一方面,數(shù)據(jù)管理上使用max-length packing,即先設(shè)定一個(gè)最大序列長(zhǎng)度(context length),再將不同長(zhǎng)度的原始序列packing成不超過該閾值的長(zhǎng)序列,并平均分配到各設(shè)備上。這種“靜態(tài)同構(gòu)并行+最大長(zhǎng)度packing”的組合在實(shí)現(xiàn)上簡(jiǎn)潔,但卻存在四種負(fù)載不均:

1. 迭代內(nèi)采樣不均衡(intra-iteration sampling imbalance):同一批次中,短序列占主導(dǎo)地位,而長(zhǎng)序列稀少。這種長(zhǎng)度差異使得同構(gòu)并行策略為了給長(zhǎng)序列預(yù)留顯存,不得不采取低效的資源分配方案,從而拖累了短序列的訓(xùn)練效率。

2. 迭代間采樣不均衡(inter-iteration sampling imbalance):不同批次的序列長(zhǎng)度分布差異顯著,最大序列長(zhǎng)度波動(dòng)劇烈。靜態(tài)的并行策略通常按最長(zhǎng)序列配置,結(jié)果在大多數(shù)短序列批次中浪費(fèi)資源。

圖1:迭代內(nèi)與迭代間采樣不均衡

     3. 流水線內(nèi) packing 不均衡(intra-pipeline packing imbalance):packing雖然平衡了顯存占用,但注意力機(jī)制的計(jì)算復(fù)雜度隨序列長(zhǎng)度平方增長(zhǎng),導(dǎo)致不同packed序列的計(jì)算時(shí)間差異極大,增加流水線氣泡。

    4. 流水線間 packing 不均衡(inter-pipeline packing imbalance):當(dāng)不同流水線處理的packed序列復(fù)雜度差異較大時(shí),最慢的流水線決定了整體迭代速度,從而拉低集群效率。

圖2:流水線內(nèi)與流水線間packing不均衡

這四類不均衡使得現(xiàn)有依賴靜態(tài)同構(gòu)并行與最大長(zhǎng)度packing的方法在實(shí)際訓(xùn)練中效率低下。因此,需要在并行策略與數(shù)據(jù)管理層面協(xié)同優(yōu)化,以適應(yīng)真實(shí)世界中變長(zhǎng)序列的特性。

 

方法

我們提出Hydraulis系統(tǒng),從并行策略與數(shù)據(jù)分配兩個(gè)維度協(xié)同設(shè)計(jì),核心方法包括:

   1. 動(dòng)態(tài)異構(gòu)并行策略:針對(duì)采樣不均衡,Hydraulis支持在不同迭代動(dòng)態(tài)選擇合適的并行策略;在同一迭代內(nèi),不同流水線可采用異構(gòu)并行配置(如tensor/pipeline/context parallel度數(shù)不同),使長(zhǎng)短序列各自匹配最優(yōu)方案,從而同時(shí)緩解intra-iteration與inter-iteration的不均衡。

2.優(yōu)化—傳播解耦與子圖機(jī)制:Hydraulis 通過將傳播階段(前向/反向計(jì)算)與優(yōu)化階段(梯度同步與更新)解耦,保持優(yōu)化階段的參數(shù)分片固定不變,同時(shí)允許傳播階段靈活切換異構(gòu)并行配置。為進(jìn)一步解決兩者之間的異構(gòu)通信問題,我們引入了 pull(拉取參數(shù))和 push(同步梯度)操作。基于子圖抽象,我們進(jìn)一步統(tǒng)一表達(dá)了不同并行策略下的通信模式,實(shí)現(xiàn)了異構(gòu)并行策略之間的無(wú)縫切換。

3. 兩階段序列分配(two-stage sequence assignment):針對(duì)packing不均衡,Hydraulis先在流水線間分配原始序列以保證負(fù)載均衡(解決inter-pipeline imbalance),再在流水線內(nèi)部通過基于整數(shù)線性規(guī)劃的優(yōu)化方法進(jìn)行packing,使不同微批次的執(zhí)行時(shí)間更加接近(解決intra-pipeline imbalance)。

4.數(shù)據(jù)分布感知的策略候選生成:結(jié)合數(shù)據(jù)集的全局序列長(zhǎng)度分布,Hydraulis使用動(dòng)態(tài)規(guī)劃生成一組高質(zhì)量的候選策略,訓(xùn)練時(shí)快速評(píng)估與選擇,避免了迭代中窮舉搜索的開銷。

圖3:Hydraulis系統(tǒng)框架

 

實(shí)驗(yàn)

在LLaMA2 7B、13B和32B模型上,以CommonCrawl和GitHub兩個(gè)大規(guī)模數(shù)據(jù)集為基準(zhǔn),我們?cè)?4張Nvidia A800 GPU的集群中開展實(shí)驗(yàn)。結(jié)果顯示,Hydraulis相較于Megatron-LM、DeepSpeed和HotSPa,在端到端性能上提升1.32–2.66倍。進(jìn)一步實(shí)驗(yàn)表明,在 GPU 數(shù)量擴(kuò)展、最大序列長(zhǎng)度增大和batch size調(diào)整等不同條件下,Hydraulis均展現(xiàn)出良好的擴(kuò)展性和穩(wěn)定性。

圖4:端到端實(shí)驗(yàn)對(duì)比

 

總  結(jié)

本文首次系統(tǒng)化地提出通過并行策略與數(shù)據(jù)管理的協(xié)同優(yōu)化來(lái)應(yīng)對(duì)大模型訓(xùn)練中的四類不均衡問題。Hydraulis通過動(dòng)態(tài)異構(gòu)并行以及合理的序列分配,有效提升了對(duì)變長(zhǎng)序列訓(xùn)練的適應(yīng)性,大幅改善了負(fù)載均衡。實(shí)驗(yàn)驗(yàn)證了其在真實(shí)大規(guī)模集群上的顯著優(yōu)勢(shì),為未來(lái)大模型訓(xùn)練在變長(zhǎng)數(shù)據(jù)場(chǎng)景下的系統(tǒng)設(shè)計(jì)提供了新的方向。

 

實(shí)驗(yàn)室簡(jiǎn)介

 

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR實(shí)驗(yàn)室)由北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授領(lǐng)導(dǎo),長(zhǎng)期從事數(shù)據(jù)庫(kù)系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究,在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項(xiàng)成果,已在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議和期刊發(fā)表學(xué)術(shù)論文200余篇,發(fā)布多個(gè)開源項(xiàng)目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國(guó)優(yōu)博、北大優(yōu)博、微軟學(xué)者、蘋果獎(jiǎng)學(xué)金、谷歌獎(jiǎng)學(xué)金等榮譽(yù)。PKU-DAIR實(shí)驗(yàn)室持續(xù)與工業(yè)界展開卓有成效的合作,與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業(yè)開展項(xiàng)目合作和前沿探索,解決實(shí)際問題,進(jìn)行科研成果的轉(zhuǎn)化落地。


北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室,PKU-DAIR,Peking University Data And Intelligence Research Lab,負(fù)責(zé)人為北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授。
返回頂部