可度量數(shù)量信息
(Measurable Quantitative Information)
https://zhuanlan.zhihu.com/p/641097432
郝天永(華南師范大學)
王海濤 (中國標準化研究院)
曹馨宇 (中國標準化研究院)
開篇導語
從醫(yī)院電子病歷到上市公司文本報告,從區(qū)域教育治理到金融風險防控,不同領域不同語言的自然文本常常蘊含大量的數(shù)量信息,這些數(shù)量信息的分析和理解是數(shù)字資源利用的重要基礎之一??啥攘繑?shù)量信息(Measurable Quantitative Information,MQI)以廣泛出現(xiàn)的數(shù)量信息為基礎,表達了實體、數(shù)量及其關系的綜合信息,如“預期城鎮(zhèn)新增就業(yè)不低于1186萬人”、 “公司凈利潤在1300至2000萬之間”、“7% of HbA1c level at admission but 10% after 2 days”。海量可度量數(shù)量信息的自動分析及結(jié)構(gòu)化表示,對自然語言處理技術(shù)、語言資源建設管理、數(shù)據(jù)匯聚計算、企業(yè)競爭情報分析、乃至數(shù)字經(jīng)濟都具有重要現(xiàn)實意義。
InfoBox:
中文名:可度量數(shù)量信息
外文名:Measurable Quantitative Information
簡寫:MQI
學科:自然語言處理
實質(zhì):描述了實體、數(shù)值、單位及其之間關系
基本簡介:
可度量數(shù)量信息的基礎元素包括實體(Entity)、數(shù)值/區(qū)間(Numeral/Range)、計量單位(Unit)和連接關系(Relations)。根據(jù)ISO國際標準[1],其中數(shù)值和計量單位構(gòu)成可度量數(shù)量信息的數(shù)量(Measure),連接關系包括依賴關系(Dependency link)和比較關系(Comparison link),依賴關系表示實體與相關數(shù)量屬性相關性而比較關系表示實體的實際數(shù)量和描述數(shù)量的比較性。從原始文本中通過信息抽取系統(tǒng)對實體和相關數(shù)量屬性進行識別和關聯(lián)后,以XML、或四元組、或多元組的形式進行結(jié)構(gòu)化表示。
可度量數(shù)量信息抽取是一項從半結(jié)構(gòu)化和非結(jié)構(gòu)化文本中提取和組織可度量數(shù)量信息的任務,屬于自然語言處理的信息抽取研究領域??啥攘繑?shù)量信息抽取任務可以拆分為可度量信息識別任務和可度量信息關聯(lián)任務。識別任務從原始文本數(shù)據(jù)中提取實體、數(shù)值和計量單位等基礎信息,關聯(lián)任務將這些基礎信息進行匹配和關聯(lián),生成結(jié)構(gòu)化的可度量數(shù)量信息。以語句 “白細胞不低于14.0X10^9/L” 為例,其中 “白細胞” 為實體,“14.0X10^9” 為數(shù)值,“L” 為計量單位, 數(shù)值與計量單位的組合 “14.0X10^9/L” 為數(shù)量,蘊含的比較關系(數(shù)量修飾符)為 “大于等于”,其簡單的結(jié)構(gòu)化可度量數(shù)量信息可表示為:“{ Entity: 白細胞, Numeral: 14.0X10^9, Unit: L, Relator: 不低于, Comparison: 大于等于}”,如圖1所示。
圖1. 一個可度量數(shù)量信息的構(gòu)造示例
可度量數(shù)量信息不僅可用于通用或領域知識圖譜構(gòu)建、屬性比對、數(shù)值匯聚,特別是在臨床、生物醫(yī)學、化學和材料、金融等量化信息高度集中的領域,可度量數(shù)量信息的抽取成為定量分析應用的關鍵技術(shù)基礎之一。
背景與挑戰(zhàn):
隨著互聯(lián)網(wǎng)的發(fā)展和數(shù)據(jù)規(guī)模的快速增長,一方面有組織的可用的結(jié)構(gòu)化的可度量數(shù)量信息數(shù)據(jù)庫極度稀缺,另一方面海量的可度量數(shù)量信息存于非結(jié)構(gòu)化文本中無法被有效利用,中間存在的巨量可度量數(shù)量信息缺口急需填補。作為醫(yī)學領域的重要信息,可度量數(shù)量信息有助于臨床決策支持、疾病風險預測和疾病監(jiān)測。例如,在臨床試驗納排標準文本中的可度量數(shù)量信息占比超過40%,低精度的可度量數(shù)量信息抽取是導致藥物劑量分析與臨床試驗資格標準認定等研究的瓶頸。
盡管近年來可度量數(shù)量信息抽取已經(jīng)得到了工業(yè)界和自然語言處理研究人員關注,但它仍然面臨許多挑戰(zhàn),例如:
(1)數(shù)量屬性的表達具有多樣性。數(shù)值可以用無數(shù)種不同的語言形式來表達,不同領域的計量單位也有不同的書寫方式。此外,復雜的可度量數(shù)量信息可能包含多個數(shù)量屬性[2],甚至需要解析公式或表達式以獲取數(shù)值。因此,將數(shù)值和計量單位識別完整并準確關聯(lián)成為一個復雜的問題。
(2)目前的信息抽取系統(tǒng)通?;诰渥舆M行抽取,一句話所給出的上下文往往過于狹窄,而語義相關的上下文信息可能與數(shù)值所在的文本位置相距較遠,導致模型無法理解可度量數(shù)量信息的上下文[3],進一步影響實體、數(shù)值、計量單位和比較關系的抽取和標準化。
(3)原始文本數(shù)據(jù)復雜多樣,例如,臨床報告和筆記等醫(yī)學文本通常以復雜和非正式的方式書寫[4],其他文檔類型,如產(chǎn)品數(shù)據(jù)表,大量使用表格和技術(shù)圖紙來傳達信息。 此外,將原始文本數(shù)據(jù)轉(zhuǎn)換成機器可讀數(shù)據(jù)的過程也會產(chǎn)生噪聲。
(4)可度量數(shù)量信息模型的推理能力需要加強。當信息因簡短而被省略時,當處理像 "光速"這樣的常數(shù)時,為了推斷一個區(qū)間是否包括或不包括其端點時,或者在處理相對于標準的數(shù)量時(例如,"正常上限的1.15倍")[5]。此外,計量單位省略也經(jīng)常發(fā)生[6]。這些需要大量領域知識進行支撐,幫助模型理解定量表述并進一步完成數(shù)量屬性的推斷。
研究概況:
可度量數(shù)量信息抽取的發(fā)展主要經(jīng)歷了五個階段:(1)基于手工的方法,(2)基于規(guī)則和模式匹配的方法,(3)基于傳統(tǒng)機器學習的方法,(4)基于深度學習的方法,(5)基于預訓練語言模型的方法。
在早期階段,關于可度量數(shù)量信息抽取的研究大多數(shù)是基于規(guī)則的方法?;谝?guī)則的方法以規(guī)則、模式和關鍵詞匹配、本體匹配或字典匹配的組合為主。除了字符串匹配之外,模式通常涉及基于詞性(Part-of-Speech tagging,POS)標簽的句法規(guī)則。例如,Valx[5]使用UMLS 元詞典等外部知識設計啟發(fā)式規(guī)則和領域知識來輔助提取二型糖尿病的相關數(shù)值信息。Liu 等人[7] 提出了一個基于規(guī)則的信息提取系統(tǒng),從臨床記錄中提取帶有時間信息的實驗室測試結(jié)果,其中,數(shù)量和單位的提取由已有的數(shù)量、單位和時間表達標記器支持。Liu等人[8] 結(jié)合了規(guī)則和模式匹配的方法用于提取臨床定量信息。基于規(guī)則的方法通常具有更高的準確率,較低的召回率,需要專家投入大量時間手動設計規(guī)則。為了平衡準確率和召回率,基于特征工程的機器學習方法被提出用于提取可度量數(shù)量信息并且被廣泛應用于針對科學出版物和網(wǎng)絡數(shù)據(jù)文本的抽取系統(tǒng)。例如,Gruss等人[9]將樸素貝葉斯分類器應用于數(shù)值表達式的抽取及分類。Berrahou 等人[10] 則是利用 J48 決策樹、支持向量機(Support Vector Machines)、樸素貝葉斯 (Naive Bayes)、判別性多義樸素貝葉斯 (Discriminative Multinominal Naive Bayes) 等多個分類器對科學文檔中的單位進行抽取。基于機器學習的模型性能對特征工程依賴性較高,基于人工的特征方法需要消耗大量的時間、人力和物力。
由于在自動特征提取方面的優(yōu)勢,基于深度學習的可度量數(shù)量信息抽取方法發(fā)展迅速。思路主要是使用IOB等標記方案將實體、數(shù)值和單位的識別轉(zhuǎn)換為序列標記問題,基于Conditional Random Field (CRF) [11] 構(gòu)建抽取模型。例如,Li 等人[12] 將醫(yī)學詞典和詞性信息結(jié)合到雙向長短期記憶遞歸神經(jīng)網(wǎng)絡(Bi-LSTM-CRF)中以改進臨床命名實體識別。Liu等人[13] 提出了融合領域知識信息和位置特征的Bi-LSTM-CRF模型,實驗驗證了特征增強的雙向長短期記憶遞歸神經(jīng)網(wǎng)絡在臨床可度量數(shù)量信息抽取上的有效性。Foppiano等人[14] 提出了基于CRF的Grobid-quantities 系統(tǒng),該系統(tǒng)用于識別和標準化科學和技術(shù)文件中的物理測量。不同于上述針對特定領域研發(fā)的系統(tǒng),SaHa 等人[15] 設計并發(fā)布了BONIE, 一個用于抽取包含數(shù)值和計量單位短語等多元組信息的開放式數(shù)值關系提取器。
近年來,隨著預訓練語言模型(Pre-Trained Language Models, PLMs)的出現(xiàn),如基于Transformer的雙向編碼表示 (Bidirectional Encoder Representations from Transformers, BERT) [16],已成為許多自然語言處理任務的基本支撐。例如,Zhang等人[17] 使用BERT預訓練的單詞嵌入作為Bi-LSTM-CRF的輸入特征,有效提升了乳腺癌的臨床信息識別模型的性能。Avram等人[18] 使用RoBERTa+CRF模型對IOB序列標簽進行識別,并通過將跨度提取視為多輪問題回答來提取相關的可度量實體、屬性和限定詞。Kohler 等人[19] 采用GPT-3[20]進行小樣本學習(Few-Shot Learning),但實驗結(jié)果表明針對可度量數(shù)量信息抽取的小樣本學習方法并不能有效提升模型性能。
未來發(fā)展:
由于實體與數(shù)量信息表述的復雜性, 從非結(jié)構(gòu)化文檔中精準抽取可度量數(shù)量信息仍然是一個重要的挑戰(zhàn)。未來的可度量數(shù)量信息抽取的研究趨勢主要有以下三個方向:
(1)可度量數(shù)量信息抽取模型訓練需要更多相關高質(zhì)量數(shù)據(jù)集。不同領域的計量單位和實體存在差異性,目前仍然存在標注數(shù)據(jù)不足的問題。涵蓋數(shù)量及其上下文的更廣泛的數(shù)據(jù)集可以極大地改善可度量數(shù)量信息抽取模型的性能。
(2)增強模型的數(shù)值推理能力以提升可度量數(shù)量信息抽取系統(tǒng)的性能。例如,在預處理過程中改變所有數(shù)值的表示形式以提高模型性能[21],用數(shù)值的特殊表示擴展語言模型以提高數(shù)值推理能力[22]。
(3)抽取系統(tǒng)的發(fā)展需要優(yōu)化模型對文本上下文的利用。目前,許多系統(tǒng)在句子級別上進行抽取,或者在固定的標記限制的局部文本進行抽取,缺少考慮文本上下文并結(jié)合其他模式信息的可度量數(shù)量信息提取系統(tǒng)。
參考文獻