VLDB 2025 | 多任務(wù)異構(gòu)數(shù)據(jù)感知的LoRA微調(diào)系統(tǒng)

VLDB（International Conference on Very Large Data Bases）是數(shù)據(jù)庫(kù)領(lǐng)域的頂級(jí)國(guó)際學(xué)術(shù)會(huì)議之一，與SIGMOD、ICDE并稱為數(shù)據(jù)庫(kù)領(lǐng)域的三大頂會(huì)。第51屆VLDB將于2025年9月1日至5日在英國(guó)倫敦召開(kāi)。PKU-DAIR實(shí)驗(yàn)室論文《LobRA: Multi-tenant Fine-tuning over Heterogeneous Data》被VLDB 2025錄用，系PKU-DAIR實(shí)驗(yàn)室自研分布式深度學(xué)習(xí)系統(tǒng)河圖Hetu圍繞大模型訓(xùn)練的新成果。

LobRA: Multi-tenant Fine-tuning over Heterogeneous Data

作者：Sheng Lin, Fangcheng Fu, Haoyang Li, Hao Ge, Xuanyu Wang, Jiawen Niu, Yaofeng Tu, Bin Cui

代碼鏈接：https://github.com/PKU-DAIR/Hetu

PKU-DAIR實(shí)驗(yàn)室近期針對(duì)異構(gòu)模型和數(shù)據(jù)負(fù)載的優(yōu)化已開(kāi)展了一系列相關(guān)工作：

HotSPa [SOSP’24]: https://dl.acm.org/doi/10.1145/3694715.3695969
Malleus [SIGMOD’25]: https://arxiv.org/abs/2410.13333
FlexSP [ASPLOS’25]: https://arxiv.org/abs/2412.01523
Hydraulis: https://arxiv.org/abs/2412.07894
ByteScale: ?https://arxiv.org/abs/2502.21231

1. 背景與挑戰(zhàn)

隨著基于Transformer的預(yù)訓(xùn)練模型發(fā)展，模型尺寸不斷擴(kuò)大，下游應(yīng)用對(duì)微調(diào)的需求不斷增長(zhǎng)。云廠商通常提供“模型即服務(wù)”（Model as a Service, MaaS）的架構(gòu)，允許用戶上傳數(shù)據(jù)集完成個(gè)性化的微調(diào)請(qǐng)求。為了減小多微調(diào)任務(wù)的執(zhí)行開(kāi)銷，LoRA[1] 作為一種參數(shù)高效微調(diào)技術(shù)被廣泛應(yīng)用，減小模型微調(diào)所需的顯存并提高效率。鑒于租戶的微調(diào)請(qǐng)求通?；谕粋€(gè)預(yù)訓(xùn)練模型，同時(shí)服務(wù)多租戶的微調(diào)請(qǐng)求成為提高服務(wù)效率的關(guān)鍵。然而，現(xiàn)有的微調(diào)框架如NeMo 和 mLoRA[2] 都假設(shè)訓(xùn)練負(fù)載是同構(gòu)的（即所有序列長(zhǎng)度一致），并根據(jù)數(shù)據(jù)集內(nèi)的最長(zhǎng)序列進(jìn)行資源配置和并行策略選擇，在實(shí)踐中無(wú)法達(dá)到整體訓(xùn)練效率最優(yōu)。

圖1：多租戶任務(wù)數(shù)據(jù)集中序列長(zhǎng)度的長(zhǎng)尾分布

具體而言，在實(shí)際的多租戶微調(diào)請(qǐng)求服務(wù)中，不同租戶的微調(diào)數(shù)據(jù)集之間具有異構(gòu)性。如圖1所示，一方面，不同任務(wù)類型的數(shù)據(jù)集的序列長(zhǎng)度不同，例如常見(jiàn)的對(duì)話數(shù)據(jù)集以短序列為主，而總結(jié)類數(shù)據(jù)集則以長(zhǎng)序列為主；另一方面，在同時(shí)服務(wù)多個(gè)微調(diào)請(qǐng)求時(shí)，多任務(wù)數(shù)據(jù)集整體服從長(zhǎng)尾分布，即存在大量短序列和少量長(zhǎng)序列。

圖2：多任務(wù)微調(diào)下不同執(zhí)行方案及相應(yīng)卡時(shí)的示例

在分布式微調(diào)時(shí)，對(duì)數(shù)據(jù)并行、模型并行等并行策略的選擇會(huì)導(dǎo)致不同的內(nèi)存消耗、通信開(kāi)銷和執(zhí)行效率。如圖2(a)和圖2(b)所示，在同時(shí)服務(wù)多租戶微調(diào)任務(wù)時(shí)，如果簡(jiǎn)單地將所有數(shù)據(jù)合并且采用同構(gòu)策略，需要的卡時(shí)反而比順序跑要更長(zhǎng)，而在圖2(c)和圖2(d)中，利用同時(shí)存在不同模型并行度的異構(gòu)策略，能更高效地處理異構(gòu)數(shù)據(jù)負(fù)載。

2. 方法

以此為出發(fā)點(diǎn)，我們提出了異構(gòu)微調(diào)系統(tǒng)LobRA，通過(guò)異構(gòu)的并行策略部署來(lái)處理不同租戶任務(wù)之間的異構(gòu)數(shù)據(jù)負(fù)載。圖2(d)展示了一個(gè)簡(jiǎn)單的例子，我們的系統(tǒng)會(huì)在微調(diào)開(kāi)始前根據(jù)多任務(wù)的數(shù)據(jù)分布情況確定靜態(tài)的并行策略方案，并在每輪訓(xùn)練迭代中根據(jù)工作負(fù)載的異構(gòu)特征進(jìn)行負(fù)載均衡的數(shù)據(jù)分發(fā)，以減少模型等待梯度同步的資源浪費(fèi)。這種基于異構(gòu)理念設(shè)計(jì)的訓(xùn)練范式能夠讓異構(gòu)負(fù)載在各自的顯存約束內(nèi)選擇合適的模型并行方案，從而達(dá)到整體的高效訓(xùn)練。

圖3：LobRA系統(tǒng)架構(gòu)圖

圖3展示了LobRA的系統(tǒng)架構(gòu)圖，其由求解器和異構(gòu)訓(xùn)練模塊組成。我們將求解器分為兩個(gè)階段：靜態(tài)的并行策略部署求解（Model Deployment Planning）和動(dòng)態(tài)的數(shù)據(jù)分發(fā)求解（Data Dispatching Planning）。

靜態(tài)階段根據(jù)多租戶任務(wù)的數(shù)據(jù)集分布將策略求解建模為一個(gè)混合整數(shù)非線性規(guī)劃（MINLP）問(wèn)題，并通過(guò)策略剪枝（Configuration Pruning）加速求解過(guò)程，最終得到并行策略部署方案。

動(dòng)態(tài)階段則首先對(duì)每輪迭代的訓(xùn)練數(shù)據(jù)進(jìn)行動(dòng)態(tài)分桶（Dynamic Bucketing），通過(guò)動(dòng)態(tài)規(guī)劃算法減少padding，并將分桶結(jié)果交付給求解器給出在不同模型并行組上實(shí)現(xiàn)負(fù)載均衡的數(shù)據(jù)分發(fā)策略（Workload-Balanced Data Dispatching）。動(dòng)態(tài)階段的求解器將數(shù)據(jù)分發(fā)建模為線性規(guī)劃問(wèn)題，從而能夠在運(yùn)行時(shí)快速求解。值得一提的是，LobRA 將數(shù)據(jù)分發(fā)求解與訓(xùn)練過(guò)程解耦并行，從而隱藏求解器的時(shí)間開(kāi)銷。

3. 實(shí) 驗(yàn)

圖4：LobRA與其他執(zhí)行方案的端到端性能實(shí)驗(yàn)對(duì)比

我們構(gòu)建了面向多租戶LoRA微調(diào)任務(wù)的訓(xùn)練框架LobRA，通過(guò)高效的多租戶異構(gòu)數(shù)據(jù)處理，支持在70B的大模型上同時(shí)服務(wù)10個(gè)以上的多租戶微調(diào)請(qǐng)求，并在多個(gè)數(shù)據(jù)集、多種大小模型上進(jìn)行實(shí)驗(yàn)。圖4展示了 LobRA 與不同的執(zhí)行方案的性能對(duì)比，實(shí)驗(yàn)結(jié)果表明，我們的系統(tǒng)相比于同構(gòu)混合執(zhí)行（Task-Fused）減少了最多60.67%的卡時(shí)，且與同構(gòu)順序執(zhí)行（Task-Sequential）和異構(gòu)順序執(zhí)行（LobRA-Sequential）等方案相比有更高的訓(xùn)練效率。

4. 總結(jié)

在本研究中，我們提出了面向多租戶LoRA微調(diào)任務(wù)的訓(xùn)練系統(tǒng)LobRA，該系統(tǒng)通過(guò)靜態(tài)的異構(gòu)并行策略部署和動(dòng)態(tài)的負(fù)載均衡數(shù)據(jù)分發(fā)方法實(shí)現(xiàn)了多任務(wù)異構(gòu)數(shù)據(jù)負(fù)載的高效微調(diào)。實(shí)驗(yàn)表明，LobRA能更好地節(jié)省多任務(wù)服務(wù)的卡時(shí)，優(yōu)于現(xiàn)有的執(zhí)行方案。

參考文獻(xiàn)：

[1] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen. LoRA: Low-Rank Adaptation of Large Language Models. ICML, 2022.

[2] Zhengmao Ye, Dengchun Li, Zetao Hu, Tingfeng Lan, Jian Sha, Sicong Zhang, Lei Duan, Jie Zuo, Hui Lu, Yuanchun Zhou, Mingjie Tang. mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs. VLDB, 2025.

實(shí)驗(yàn)室簡(jiǎn)介

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室（Data And Intelligence Research Lab at Peking Univeristy，PKU-DAIR實(shí)驗(yàn)室）由北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授領(lǐng)導(dǎo)，長(zhǎng)期從事數(shù)據(jù)庫(kù)系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究，在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項(xiàng)成果，已在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議和期刊發(fā)表學(xué)術(shù)論文200余篇，發(fā)布多個(gè)開(kāi)源項(xiàng)目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國(guó)優(yōu)博、北大優(yōu)博、微軟學(xué)者、蘋(píng)果獎(jiǎng)學(xué)金、谷歌獎(jiǎng)學(xué)金等榮譽(yù)。PKU-DAIR實(shí)驗(yàn)室持續(xù)與工業(yè)界展開(kāi)卓有成效的合作，與騰訊、阿里巴巴、蘋(píng)果、微軟、百度、快手、中興通訊等多家知名企業(yè)開(kāi)展項(xiàng)目合作和前沿探索，解決實(shí)際問(wèn)題，進(jìn)行科研成果的轉(zhuǎn)化落地。

91一级特黄大片|婷婷中文字幕在线|av成人无码国产|日韩无码一二三区|久久不射强奸视频|九九九久久久精品|国产免费浮力限制

VLDB 2025 | 多任務(wù)異構(gòu)數(shù)據(jù)感知的LoRA微調(diào)系統(tǒng)

實(shí)驗(yàn)室簡(jiǎn)介

評(píng)論 0

近期熱門(mén)新聞

下一篇