最近,智能算法研究中心黃翰教授受邀作了多場關(guān)于AI大模型賦能的報(bào)告或培訓(xùn),特別是在大學(xué)教育領(lǐng)域的應(yīng)用。然而,他發(fā)現(xiàn)很多單位并沒有部署類似DeepSeek這樣的大模型,他們更多是想了解如何利用通用大模型來提升工作效率。因此,黃老師結(jié)合自己的研究和實(shí)踐經(jīng)驗(yàn),分享了他的看法,希望能為各單位提供一些有價(jià)值的參考。接下來,就讓我們一起看看黃教授怎么說吧:
1、通用大模型的局限性
首先,我必須潑一盆冷水:目前的通用大模型在實(shí)際工作中并沒有帶來顯著的賦能效果。它們更多是提供了一種AI體驗(yàn),比如通過智能問答獲取知識,這些內(nèi)容在以前往往需要通過大量閱讀或深度檢索和整理才能獲??;又比如通過大模型實(shí)現(xiàn)作詩、寫作、聊天等娛樂性功能。無論是AI體驗(yàn)還是娛樂功能,其實(shí)通用大模型并沒有在工作中實(shí)現(xiàn)真正的賦能。
為什么通用大模型難以賦能工作?一方面,它的數(shù)據(jù)質(zhì)量堪憂。通用大模型使用的數(shù)據(jù)大多是非標(biāo)注數(shù)據(jù),這些數(shù)據(jù)未經(jīng)人工標(biāo)記、分類或注釋,其可靠性和可信度往往難以保證。另一方面,它的推理邏輯不穩(wěn)定。通用大模型在推理時(shí)帶有隨機(jī)性,缺乏嚴(yán)格的業(yè)務(wù)邏輯。盡管它學(xué)習(xí)了大量數(shù)據(jù)中的邏輯,但這些邏輯更多是形式上的,而非深層次的語義或任務(wù)邏輯。因此,很多時(shí)候,它的結(jié)果要么是錯(cuò)的,要么邏輯上講不通。更糟糕的是,大模型有時(shí)會(huì)編造不存在的事實(shí)。比如,我最近在查資料時(shí)發(fā)現(xiàn),有些參考文獻(xiàn)是大模型編造出來的,甚至包含論文題目、摘要、卷號、頁碼等信息。這些關(guān)鍵信息本應(yīng)是客觀的,但大模型卻將其視為符號輸出,隨意編造。這不僅會(huì)誤導(dǎo)研究方向,還可能引發(fā)信任危機(jī)。
基于以上局限性,通用大模型在較復(fù)雜工作場景或要求數(shù)據(jù)真實(shí)性的場景中很難實(shí)現(xiàn)實(shí)質(zhì)性的工作賦能。有人可能會(huì)問:未來改進(jìn)后是否能解決這個(gè)問題?答案是,雖然未來的技術(shù)進(jìn)步可能會(huì)帶來一些改善,但目前來看,問題的核心在于通用大模型學(xué)習(xí)的內(nèi)容過于龐雜。我們可以這樣理解:通用大模型所學(xué)習(xí)的數(shù)據(jù)就像大江大海,各種各樣的信息匯聚在一起。在這種情況下,想要精準(zhǔn)提取你需要的資源,或者找到適合生長的生態(tài),幾乎是不可能的。
2、從通用到垂直:大模型賦能的新方向
既然通用大模型在實(shí)際工作中存在諸多局限性,那我們該如何更好地利用大模型呢?從國家戰(zhàn)略以及當(dāng)前市場趨勢來看,目前的方向是從通用大模型向垂直大模型過渡。
在通用和垂直大模型之間,我們還經(jīng)歷了行業(yè)大模型階段。行業(yè)大模型在通用大模型的基礎(chǔ)上加入行業(yè)數(shù)據(jù)和專家經(jīng)驗(yàn)進(jìn)行訓(xùn)練,更聚焦于某一領(lǐng)域。例如云南白藥攜手華為云共同打造了“雷公大模型”, 旨在構(gòu)建普惠的中醫(yī)藥知識服務(wù)平臺和專業(yè)的中藥材產(chǎn)業(yè)服務(wù)平臺。
垂直大模型則更進(jìn)一步,通常使用任務(wù)相關(guān)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練或微調(diào),以提高在某一任務(wù)上的性能和效果。例如谷歌開發(fā)的醫(yī)療大語言模型MedPaLM,專為醫(yī)學(xué)問答、疾病診斷和醫(yī)學(xué)文獻(xiàn)分析等任務(wù)設(shè)計(jì),能夠通過理解醫(yī)學(xué)文本提供專業(yè)的建議和參考。
3、構(gòu)建私域大模型:方法與實(shí)踐
如果你有不便公開的數(shù)據(jù),或者不愿意與外界共享,可以考慮構(gòu)建私域大模型。那么,如何構(gòu)建私域大模型呢?是否可以使用通用大模型的底座,結(jié)合自己的數(shù)據(jù)進(jìn)行訓(xùn)練呢?比如,用DeepSeek滿血版在本地進(jìn)行訓(xùn)練?答案是不太可行。通用大模型的底座過于龐大,就像一個(gè)巨大的湖泊,你用自己的少量數(shù)據(jù)或者某些業(yè)務(wù)邏輯的資料去做訓(xùn)練或微調(diào),就好比在湖里放茶葉,根本沖不出茶的味道。
要構(gòu)建一個(gè)真正能賦能工作的私域大模型,首先應(yīng)該找一個(gè)精簡的底座,這個(gè)底座需具備基本的人機(jī)交互、推理邏輯和語義理解功能。然后,用你所在領(lǐng)域的知識庫進(jìn)行預(yù)訓(xùn)練,再依據(jù)業(yè)務(wù)邏輯進(jìn)行微調(diào)。此外,甚至可以通過強(qiáng)化學(xué)習(xí)來鞏固學(xué)習(xí)效果。只有這樣構(gòu)建出的私域大模型,才能真正賦能我們的工作。
4、總結(jié)
如果現(xiàn)在問我大模型賦能各行各業(yè)的問題,我首先會(huì)問你所講的大模型是指什么?如果你指的是通用大模型,很遺憾,目前它還難以達(dá)到顯著的賦能效果。但如果你有自己的垂直大模型或本地部署的大模型,我可以告訴你如何構(gòu)建私域大模型。當(dāng)然,你也可以選擇有成功案例和豐富經(jīng)驗(yàn)的團(tuán)隊(duì)來幫助你完成這一過程,從而避免在試錯(cuò)過程中產(chǎn)生不必要的損失。
在我看來,私域大模型將會(huì)成為垂直大模型元年中的一個(gè)重要“爆品”。希望以上分享能為大家?guī)砀鄦l(fā)和建議,感謝大家的關(guān)注!