91一级特黄大片|婷婷中文字幕在线|av成人无码国产|日韩无码一二三区|久久不射强奸视频|九九九久久久精品|国产免费浮力限制

7
點(diǎn)贊
0
評(píng)論
0
轉(zhuǎn)載
我要入駐

VLDB 2025 | 多任務(wù)異構(gòu)數(shù)據(jù)感知的LoRA微調(diào)系統(tǒng)

VLDB 2025 | 多任務(wù)異構(gòu)數(shù)據(jù)感知的LoRA微調(diào)系統(tǒng)

VLDB(International Conference on Very Large Data Bases)是數(shù)據(jù)庫(kù)領(lǐng)域的頂級(jí)國(guó)際學(xué)術(shù)會(huì)議之一,與SIGMOD、ICDE并稱(chēng)為數(shù)據(jù)庫(kù)領(lǐng)域的三大頂會(huì)。第51屆VLDB將于2025年9月1日至5日在英國(guó)倫敦召開(kāi)。PKU-DAIR實(shí)驗(yàn)室論文《LobRA: Multi-tenant Fine-tuning over Heterogeneous Data》被VLDB 2025錄用,系PKU-DAIR實(shí)驗(yàn)室自研分布式深度學(xué)習(xí)系統(tǒng)河圖Hetu圍繞大模型訓(xùn)練的新成果。

LobRA: Multi-tenant Fine-tuning over Heterogeneous Data

作者:Sheng Lin, Fangcheng Fu, Haoyang Li, Hao Ge, Xuanyu Wang, Jiawen Niu, Yaofeng Tu, Bin Cui

代碼鏈接:https://github.com/PKU-DAIR/Hetu

PKU-DAIR實(shí)驗(yàn)室近期針對(duì)異構(gòu)模型和數(shù)據(jù)負(fù)載的優(yōu)化已開(kāi)展了一系列相關(guān)工作:

  • HotSPa [SOSP’24]: https://dl.acm.org/doi/10.1145/3694715.3695969
  • Malleus [SIGMOD’25]: https://arxiv.org/abs/2410.13333
  • FlexSP [ASPLOS’25]: https://arxiv.org/abs/2412.01523
  • Hydraulis: https://arxiv.org/abs/2412.07894
  • ByteScale: ?https://arxiv.org/abs/2502.21231

 

1. 背景與挑戰(zhàn)

隨著基于Transformer的預(yù)訓(xùn)練模型發(fā)展,模型尺寸不斷擴(kuò)大,下游應(yīng)用對(duì)微調(diào)的需求不斷增長(zhǎng)。云廠(chǎng)商通常提供“模型即服務(wù)”(Model as a Service, MaaS)的架構(gòu),允許用戶(hù)上傳數(shù)據(jù)集完成個(gè)性化的微調(diào)請(qǐng)求。為了減小多微調(diào)任務(wù)的執(zhí)行開(kāi)銷(xiāo),LoRA[1] 作為一種參數(shù)高效微調(diào)技術(shù)被廣泛應(yīng)用,減小模型微調(diào)所需的顯存并提高效率。鑒于租戶(hù)的微調(diào)請(qǐng)求通?;谕粋€(gè)預(yù)訓(xùn)練模型,同時(shí)服務(wù)多租戶(hù)的微調(diào)請(qǐng)求成為提高服務(wù)效率的關(guān)鍵。然而,現(xiàn)有的微調(diào)框架如NeMo 和 mLoRA[2] 都假設(shè)訓(xùn)練負(fù)載是同構(gòu)的(即所有序列長(zhǎng)度一致),并根據(jù)數(shù)據(jù)集內(nèi)的最長(zhǎng)序列進(jìn)行資源配置和并行策略選擇,在實(shí)踐中無(wú)法達(dá)到整體訓(xùn)練效率最優(yōu)。

圖1:多租戶(hù)任務(wù)數(shù)據(jù)集中序列長(zhǎng)度的長(zhǎng)尾分布

具體而言,在實(shí)際的多租戶(hù)微調(diào)請(qǐng)求服務(wù)中,不同租戶(hù)的微調(diào)數(shù)據(jù)集之間具有異構(gòu)性。如圖1所示,一方面,不同任務(wù)類(lèi)型的數(shù)據(jù)集的序列長(zhǎng)度不同,例如常見(jiàn)的對(duì)話(huà)數(shù)據(jù)集以短序列為主,而總結(jié)類(lèi)數(shù)據(jù)集則以長(zhǎng)序列為主;另一方面,在同時(shí)服務(wù)多個(gè)微調(diào)請(qǐng)求時(shí),多任務(wù)數(shù)據(jù)集整體服從長(zhǎng)尾分布,即存在大量短序列和少量長(zhǎng)序列。

圖2:多任務(wù)微調(diào)下不同執(zhí)行方案及相應(yīng)卡時(shí)的示例

在分布式微調(diào)時(shí),對(duì)數(shù)據(jù)并行、模型并行等并行策略的選擇會(huì)導(dǎo)致不同的內(nèi)存消耗、通信開(kāi)銷(xiāo)和執(zhí)行效率。如圖2(a)和圖2(b)所示,在同時(shí)服務(wù)多租戶(hù)微調(diào)任務(wù)時(shí),如果簡(jiǎn)單地將所有數(shù)據(jù)合并且采用同構(gòu)策略,需要的卡時(shí)反而比順序跑要更長(zhǎng),而在圖2(c)和圖2(d)中,利用同時(shí)存在不同模型并行度的異構(gòu)策略,能更高效地處理異構(gòu)數(shù)據(jù)負(fù)載。

2. 方法

以此為出發(fā)點(diǎn),我們提出了異構(gòu)微調(diào)系統(tǒng)LobRA,通過(guò)異構(gòu)的并行策略部署來(lái)處理不同租戶(hù)任務(wù)之間的異構(gòu)數(shù)據(jù)負(fù)載。圖2(d)展示了一個(gè)簡(jiǎn)單的例子,我們的系統(tǒng)會(huì)在微調(diào)開(kāi)始前根據(jù)多任務(wù)的數(shù)據(jù)分布情況確定靜態(tài)的并行策略方案,并在每輪訓(xùn)練迭代中根據(jù)工作負(fù)載的異構(gòu)特征進(jìn)行負(fù)載均衡的數(shù)據(jù)分發(fā),以減少模型等待梯度同步的資源浪費(fèi)。這種基于異構(gòu)理念設(shè)計(jì)的訓(xùn)練范式能夠讓異構(gòu)負(fù)載在各自的顯存約束內(nèi)選擇合適的模型并行方案,從而達(dá)到整體的高效訓(xùn)練。

圖3:LobRA系統(tǒng)架構(gòu)圖

圖3展示了LobRA的系統(tǒng)架構(gòu)圖,其由求解器和異構(gòu)訓(xùn)練模塊組成。我們將求解器分為兩個(gè)階段:靜態(tài)的并行策略部署求解(Model Deployment Planning)和動(dòng)態(tài)的數(shù)據(jù)分發(fā)求解(Data Dispatching Planning)。

靜態(tài)階段根據(jù)多租戶(hù)任務(wù)的數(shù)據(jù)集分布將策略求解建模為一個(gè)混合整數(shù)非線(xiàn)性規(guī)劃(MINLP)問(wèn)題,并通過(guò)策略剪枝(Configuration Pruning)加速求解過(guò)程,最終得到并行策略部署方案。

動(dòng)態(tài)階段則首先對(duì)每輪迭代的訓(xùn)練數(shù)據(jù)進(jìn)行動(dòng)態(tài)分桶(Dynamic Bucketing),通過(guò)動(dòng)態(tài)規(guī)劃算法減少padding,并將分桶結(jié)果交付給求解器給出在不同模型并行組上實(shí)現(xiàn)負(fù)載均衡的數(shù)據(jù)分發(fā)策略(Workload-Balanced Data Dispatching)。動(dòng)態(tài)階段的求解器將數(shù)據(jù)分發(fā)建模為線(xiàn)性規(guī)劃問(wèn)題,從而能夠在運(yùn)行時(shí)快速求解。值得一提的是,LobRA 將數(shù)據(jù)分發(fā)求解與訓(xùn)練過(guò)程解耦并行,從而隱藏求解器的時(shí)間開(kāi)銷(xiāo)。

3. 實(shí) 驗(yàn)

圖4:LobRA與其他執(zhí)行方案的端到端性能實(shí)驗(yàn)對(duì)比

我們構(gòu)建了面向多租戶(hù)LoRA微調(diào)任務(wù)的訓(xùn)練框架LobRA,通過(guò)高效的多租戶(hù)異構(gòu)數(shù)據(jù)處理,支持在70B的大模型上同時(shí)服務(wù)10個(gè)以上的多租戶(hù)微調(diào)請(qǐng)求,并在多個(gè)數(shù)據(jù)集、多種大小模型上進(jìn)行實(shí)驗(yàn)。圖4展示了 LobRA 與不同的執(zhí)行方案的性能對(duì)比,實(shí)驗(yàn)結(jié)果表明,我們的系統(tǒng)相比于同構(gòu)混合執(zhí)行(Task-Fused)減少了最多60.67%的卡時(shí),且與同構(gòu)順序執(zhí)行(Task-Sequential)和異構(gòu)順序執(zhí)行(LobRA-Sequential)等方案相比有更高的訓(xùn)練效率。

4. 總 結(jié)

在本研究中,我們提出了面向多租戶(hù)LoRA微調(diào)任務(wù)的訓(xùn)練系統(tǒng)LobRA,該系統(tǒng)通過(guò)靜態(tài)的異構(gòu)并行策略部署和動(dòng)態(tài)的負(fù)載均衡數(shù)據(jù)分發(fā)方法實(shí)現(xiàn)了多任務(wù)異構(gòu)數(shù)據(jù)負(fù)載的高效微調(diào)。實(shí)驗(yàn)表明,LobRA能更好地節(jié)省多任務(wù)服務(wù)的卡時(shí),優(yōu)于現(xiàn)有的執(zhí)行方案。

 

參考文獻(xiàn):

[1] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen. LoRA: Low-Rank Adaptation of Large Language Models. ICML, 2022.

[2] Zhengmao Ye, Dengchun Li, Zetao Hu, Tingfeng Lan, Jian Sha, Sicong Zhang, Lei Duan, Jie Zuo, Hui Lu, Yuanchun Zhou, Mingjie Tang. mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs. VLDB, 2025.

 

 

實(shí)驗(yàn)室簡(jiǎn)介

 

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR實(shí)驗(yàn)室)由北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授領(lǐng)導(dǎo),長(zhǎng)期從事數(shù)據(jù)庫(kù)系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究,在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項(xiàng)成果,已在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議和期刊發(fā)表學(xué)術(shù)論文200余篇,發(fā)布多個(gè)開(kāi)源項(xiàng)目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國(guó)優(yōu)博、北大優(yōu)博、微軟學(xué)者、蘋(píng)果獎(jiǎng)學(xué)金、谷歌獎(jiǎng)學(xué)金等榮譽(yù)。PKU-DAIR實(shí)驗(yàn)室持續(xù)與工業(yè)界展開(kāi)卓有成效的合作,與騰訊、阿里巴巴、蘋(píng)果、微軟、百度、快手、中興通訊等多家知名企業(yè)開(kāi)展項(xiàng)目合作和前沿探索,解決實(shí)際問(wèn)題,進(jìn)行科研成果的轉(zhuǎn)化落地。


北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室,PKU-DAIR,Peking University Data And Intelligence Research Lab,負(fù)責(zé)人為北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授。
返回頂部