可度量數(shù)量信息
(Measurable Quantitative Information)
https://zhuanlan.zhihu.com/p/641097432
郝天永(華南師范大學(xué))
王海濤 (中國(guó)標(biāo)準(zhǔn)化研究院)
曹馨宇 (中國(guó)標(biāo)準(zhǔn)化研究院)
開(kāi)篇導(dǎo)語(yǔ)
從醫(yī)院電子病歷到上市公司文本報(bào)告,從區(qū)域教育治理到金融風(fēng)險(xiǎn)防控,不同領(lǐng)域不同語(yǔ)言的自然文本常常蘊(yùn)含大量的數(shù)量信息,這些數(shù)量信息的分析和理解是數(shù)字資源利用的重要基礎(chǔ)之一??啥攘繑?shù)量信息(Measurable Quantitative Information,MQI)以廣泛出現(xiàn)的數(shù)量信息為基礎(chǔ),表達(dá)了實(shí)體、數(shù)量及其關(guān)系的綜合信息,如“預(yù)期城鎮(zhèn)新增就業(yè)不低于1186萬(wàn)人”、 “公司凈利潤(rùn)在1300至2000萬(wàn)之間”、“7% of HbA1c level at admission but 10% after 2 days”。海量可度量數(shù)量信息的自動(dòng)分析及結(jié)構(gòu)化表示,對(duì)自然語(yǔ)言處理技術(shù)、語(yǔ)言資源建設(shè)管理、數(shù)據(jù)匯聚計(jì)算、企業(yè)競(jìng)爭(zhēng)情報(bào)分析、乃至數(shù)字經(jīng)濟(jì)都具有重要現(xiàn)實(shí)意義。
InfoBox:
中文名:可度量數(shù)量信息
外文名:Measurable Quantitative Information
簡(jiǎn)寫(xiě):MQI
學(xué)科:自然語(yǔ)言處理
實(shí)質(zhì):描述了實(shí)體、數(shù)值、單位及其之間關(guān)系
基本簡(jiǎn)介:
可度量數(shù)量信息的基礎(chǔ)元素包括實(shí)體(Entity)、數(shù)值/區(qū)間(Numeral/Range)、計(jì)量單位(Unit)和連接關(guān)系(Relations)。根據(jù)ISO國(guó)際標(biāo)準(zhǔn)[1],其中數(shù)值和計(jì)量單位構(gòu)成可度量數(shù)量信息的數(shù)量(Measure),連接關(guān)系包括依賴關(guān)系(Dependency link)和比較關(guān)系(Comparison link),依賴關(guān)系表示實(shí)體與相關(guān)數(shù)量屬性相關(guān)性而比較關(guān)系表示實(shí)體的實(shí)際數(shù)量和描述數(shù)量的比較性。從原始文本中通過(guò)信息抽取系統(tǒng)對(duì)實(shí)體和相關(guān)數(shù)量屬性進(jìn)行識(shí)別和關(guān)聯(lián)后,以XML、或四元組、或多元組的形式進(jìn)行結(jié)構(gòu)化表示。
可度量數(shù)量信息抽取是一項(xiàng)從半結(jié)構(gòu)化和非結(jié)構(gòu)化文本中提取和組織可度量數(shù)量信息的任務(wù),屬于自然語(yǔ)言處理的信息抽取研究領(lǐng)域??啥攘繑?shù)量信息抽取任務(wù)可以拆分為可度量信息識(shí)別任務(wù)和可度量信息關(guān)聯(lián)任務(wù)。識(shí)別任務(wù)從原始文本數(shù)據(jù)中提取實(shí)體、數(shù)值和計(jì)量單位等基礎(chǔ)信息,關(guān)聯(lián)任務(wù)將這些基礎(chǔ)信息進(jìn)行匹配和關(guān)聯(lián),生成結(jié)構(gòu)化的可度量數(shù)量信息。以語(yǔ)句 “白細(xì)胞不低于14.0X10^9/L” 為例,其中 “白細(xì)胞” 為實(shí)體,“14.0X10^9” 為數(shù)值,“L” 為計(jì)量單位, 數(shù)值與計(jì)量單位的組合 “14.0X10^9/L” 為數(shù)量,蘊(yùn)含的比較關(guān)系(數(shù)量修飾符)為 “大于等于”,其簡(jiǎn)單的結(jié)構(gòu)化可度量數(shù)量信息可表示為:“{ Entity: 白細(xì)胞, Numeral: 14.0X10^9, Unit: L, Relator: 不低于, Comparison: 大于等于}”,如圖1所示。
圖1. 一個(gè)可度量數(shù)量信息的構(gòu)造示例
可度量數(shù)量信息不僅可用于通用或領(lǐng)域知識(shí)圖譜構(gòu)建、屬性比對(duì)、數(shù)值匯聚,特別是在臨床、生物醫(yī)學(xué)、化學(xué)和材料、金融等量化信息高度集中的領(lǐng)域,可度量數(shù)量信息的抽取成為定量分析應(yīng)用的關(guān)鍵技術(shù)基礎(chǔ)之一。
背景與挑戰(zhàn):
隨著互聯(lián)網(wǎng)的發(fā)展和數(shù)據(jù)規(guī)模的快速增長(zhǎng),一方面有組織的可用的結(jié)構(gòu)化的可度量數(shù)量信息數(shù)據(jù)庫(kù)極度稀缺,另一方面海量的可度量數(shù)量信息存于非結(jié)構(gòu)化文本中無(wú)法被有效利用,中間存在的巨量可度量數(shù)量信息缺口急需填補(bǔ)。作為醫(yī)學(xué)領(lǐng)域的重要信息,可度量數(shù)量信息有助于臨床決策支持、疾病風(fēng)險(xiǎn)預(yù)測(cè)和疾病監(jiān)測(cè)。例如,在臨床試驗(yàn)納排標(biāo)準(zhǔn)文本中的可度量數(shù)量信息占比超過(guò)40%,低精度的可度量數(shù)量信息抽取是導(dǎo)致藥物劑量分析與臨床試驗(yàn)資格標(biāo)準(zhǔn)認(rèn)定等研究的瓶頸。
盡管近年來(lái)可度量數(shù)量信息抽取已經(jīng)得到了工業(yè)界和自然語(yǔ)言處理研究人員關(guān)注,但它仍然面臨許多挑戰(zhàn),例如:
(1)數(shù)量屬性的表達(dá)具有多樣性。數(shù)值可以用無(wú)數(shù)種不同的語(yǔ)言形式來(lái)表達(dá),不同領(lǐng)域的計(jì)量單位也有不同的書(shū)寫(xiě)方式。此外,復(fù)雜的可度量數(shù)量信息可能包含多個(gè)數(shù)量屬性[2],甚至需要解析公式或表達(dá)式以獲取數(shù)值。因此,將數(shù)值和計(jì)量單位識(shí)別完整并準(zhǔn)確關(guān)聯(lián)成為一個(gè)復(fù)雜的問(wèn)題。
(2)目前的信息抽取系統(tǒng)通?;诰渥舆M(jìn)行抽取,一句話所給出的上下文往往過(guò)于狹窄,而語(yǔ)義相關(guān)的上下文信息可能與數(shù)值所在的文本位置相距較遠(yuǎn),導(dǎo)致模型無(wú)法理解可度量數(shù)量信息的上下文[3],進(jìn)一步影響實(shí)體、數(shù)值、計(jì)量單位和比較關(guān)系的抽取和標(biāo)準(zhǔn)化。
(3)原始文本數(shù)據(jù)復(fù)雜多樣,例如,臨床報(bào)告和筆記等醫(yī)學(xué)文本通常以復(fù)雜和非正式的方式書(shū)寫(xiě)[4],其他文檔類型,如產(chǎn)品數(shù)據(jù)表,大量使用表格和技術(shù)圖紙來(lái)傳達(dá)信息。 此外,將原始文本數(shù)據(jù)轉(zhuǎn)換成機(jī)器可讀數(shù)據(jù)的過(guò)程也會(huì)產(chǎn)生噪聲。
(4)可度量數(shù)量信息模型的推理能力需要加強(qiáng)。當(dāng)信息因簡(jiǎn)短而被省略時(shí),當(dāng)處理像 "光速"這樣的常數(shù)時(shí),為了推斷一個(gè)區(qū)間是否包括或不包括其端點(diǎn)時(shí),或者在處理相對(duì)于標(biāo)準(zhǔn)的數(shù)量時(shí)(例如,"正常上限的1.15倍")[5]。此外,計(jì)量單位省略也經(jīng)常發(fā)生[6]。這些需要大量領(lǐng)域知識(shí)進(jìn)行支撐,幫助模型理解定量表述并進(jìn)一步完成數(shù)量屬性的推斷。
研究概況:
可度量數(shù)量信息抽取的發(fā)展主要經(jīng)歷了五個(gè)階段:(1)基于手工的方法,(2)基于規(guī)則和模式匹配的方法,(3)基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,(4)基于深度學(xué)習(xí)的方法,(5)基于預(yù)訓(xùn)練語(yǔ)言模型的方法。
在早期階段,關(guān)于可度量數(shù)量信息抽取的研究大多數(shù)是基于規(guī)則的方法?;谝?guī)則的方法以規(guī)則、模式和關(guān)鍵詞匹配、本體匹配或字典匹配的組合為主。除了字符串匹配之外,模式通常涉及基于詞性(Part-of-Speech tagging,POS)標(biāo)簽的句法規(guī)則。例如,Valx[5]使用UMLS 元詞典等外部知識(shí)設(shè)計(jì)啟發(fā)式規(guī)則和領(lǐng)域知識(shí)來(lái)輔助提取二型糖尿病的相關(guān)數(shù)值信息。Liu 等人[7] 提出了一個(gè)基于規(guī)則的信息提取系統(tǒng),從臨床記錄中提取帶有時(shí)間信息的實(shí)驗(yàn)室測(cè)試結(jié)果,其中,數(shù)量和單位的提取由已有的數(shù)量、單位和時(shí)間表達(dá)標(biāo)記器支持。Liu等人[8] 結(jié)合了規(guī)則和模式匹配的方法用于提取臨床定量信息。基于規(guī)則的方法通常具有更高的準(zhǔn)確率,較低的召回率,需要專家投入大量時(shí)間手動(dòng)設(shè)計(jì)規(guī)則。為了平衡準(zhǔn)確率和召回率,基于特征工程的機(jī)器學(xué)習(xí)方法被提出用于提取可度量數(shù)量信息并且被廣泛應(yīng)用于針對(duì)科學(xué)出版物和網(wǎng)絡(luò)數(shù)據(jù)文本的抽取系統(tǒng)。例如,Gruss等人[9]將樸素貝葉斯分類器應(yīng)用于數(shù)值表達(dá)式的抽取及分類。Berrahou 等人[10] 則是利用 J48 決策樹(shù)、支持向量機(jī)(Support Vector Machines)、樸素貝葉斯 (Naive Bayes)、判別性多義樸素貝葉斯 (Discriminative Multinominal Naive Bayes) 等多個(gè)分類器對(duì)科學(xué)文檔中的單位進(jìn)行抽取?;跈C(jī)器學(xué)習(xí)的模型性能對(duì)特征工程依賴性較高,基于人工的特征方法需要消耗大量的時(shí)間、人力和物力。
由于在自動(dòng)特征提取方面的優(yōu)勢(shì),基于深度學(xué)習(xí)的可度量數(shù)量信息抽取方法發(fā)展迅速。思路主要是使用IOB等標(biāo)記方案將實(shí)體、數(shù)值和單位的識(shí)別轉(zhuǎn)換為序列標(biāo)記問(wèn)題,基于Conditional Random Field (CRF) [11] 構(gòu)建抽取模型。例如,Li 等人[12] 將醫(yī)學(xué)詞典和詞性信息結(jié)合到雙向長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò)(Bi-LSTM-CRF)中以改進(jìn)臨床命名實(shí)體識(shí)別。Liu等人[13] 提出了融合領(lǐng)域知識(shí)信息和位置特征的Bi-LSTM-CRF模型,實(shí)驗(yàn)驗(yàn)證了特征增強(qiáng)的雙向長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò)在臨床可度量數(shù)量信息抽取上的有效性。Foppiano等人[14] 提出了基于CRF的Grobid-quantities 系統(tǒng),該系統(tǒng)用于識(shí)別和標(biāo)準(zhǔn)化科學(xué)和技術(shù)文件中的物理測(cè)量。不同于上述針對(duì)特定領(lǐng)域研發(fā)的系統(tǒng),SaHa 等人[15] 設(shè)計(jì)并發(fā)布了BONIE, 一個(gè)用于抽取包含數(shù)值和計(jì)量單位短語(yǔ)等多元組信息的開(kāi)放式數(shù)值關(guān)系提取器。
近年來(lái),隨著預(yù)訓(xùn)練語(yǔ)言模型(Pre-Trained Language Models, PLMs)的出現(xiàn),如基于Transformer的雙向編碼表示 (Bidirectional Encoder Representations from Transformers, BERT) [16],已成為許多自然語(yǔ)言處理任務(wù)的基本支撐。例如,Zhang等人[17] 使用BERT預(yù)訓(xùn)練的單詞嵌入作為Bi-LSTM-CRF的輸入特征,有效提升了乳腺癌的臨床信息識(shí)別模型的性能。Avram等人[18] 使用RoBERTa+CRF模型對(duì)IOB序列標(biāo)簽進(jìn)行識(shí)別,并通過(guò)將跨度提取視為多輪問(wèn)題回答來(lái)提取相關(guān)的可度量實(shí)體、屬性和限定詞。Kohler 等人[19] 采用GPT-3[20]進(jìn)行小樣本學(xué)習(xí)(Few-Shot Learning),但實(shí)驗(yàn)結(jié)果表明針對(duì)可度量數(shù)量信息抽取的小樣本學(xué)習(xí)方法并不能有效提升模型性能。
未來(lái)發(fā)展:
由于實(shí)體與數(shù)量信息表述的復(fù)雜性, 從非結(jié)構(gòu)化文檔中精準(zhǔn)抽取可度量數(shù)量信息仍然是一個(gè)重要的挑戰(zhàn)。未來(lái)的可度量數(shù)量信息抽取的研究趨勢(shì)主要有以下三個(gè)方向:
(1)可度量數(shù)量信息抽取模型訓(xùn)練需要更多相關(guān)高質(zhì)量數(shù)據(jù)集。不同領(lǐng)域的計(jì)量單位和實(shí)體存在差異性,目前仍然存在標(biāo)注數(shù)據(jù)不足的問(wèn)題。涵蓋數(shù)量及其上下文的更廣泛的數(shù)據(jù)集可以極大地改善可度量數(shù)量信息抽取模型的性能。
(2)增強(qiáng)模型的數(shù)值推理能力以提升可度量數(shù)量信息抽取系統(tǒng)的性能。例如,在預(yù)處理過(guò)程中改變所有數(shù)值的表示形式以提高模型性能[21],用數(shù)值的特殊表示擴(kuò)展語(yǔ)言模型以提高數(shù)值推理能力[22]。
(3)抽取系統(tǒng)的發(fā)展需要優(yōu)化模型對(duì)文本上下文的利用。目前,許多系統(tǒng)在句子級(jí)別上進(jìn)行抽取,或者在固定的標(biāo)記限制的局部文本進(jìn)行抽取,缺少考慮文本上下文并結(jié)合其他模式信息的可度量數(shù)量信息提取系統(tǒng)。
參考文獻(xiàn)