91一级特黄大片|婷婷中文字幕在线|av成人无码国产|日韩无码一二三区|久久不射强奸视频|九九九久久久精品|国产免费浮力限制

CCF術(shù)語(yǔ)快線 - “可度量數(shù)量信息”術(shù)語(yǔ)發(fā)布
來(lái)源: 郝天永/
華南師范大學(xué)
1932
6
0
2024-06-25

可度量數(shù)量信息
(Measurable Quantitative Information)

https://zhuanlan.zhihu.com/p/641097432

郝天永(華南師范大學(xué))
王海濤 (中國(guó)標(biāo)準(zhǔn)化研究院)
曹馨宇 (中國(guó)標(biāo)準(zhǔn)化研究院)

開(kāi)篇導(dǎo)語(yǔ)

從醫(yī)院電子病歷到上市公司文本報(bào)告,從區(qū)域教育治理到金融風(fēng)險(xiǎn)防控,不同領(lǐng)域不同語(yǔ)言的自然文本常常蘊(yùn)含大量的數(shù)量信息,這些數(shù)量信息的分析和理解是數(shù)字資源利用的重要基礎(chǔ)之一??啥攘繑?shù)量信息(Measurable Quantitative Information,MQI)以廣泛出現(xiàn)的數(shù)量信息為基礎(chǔ),表達(dá)了實(shí)體、數(shù)量及其關(guān)系的綜合信息,如“預(yù)期城鎮(zhèn)新增就業(yè)不低于1186萬(wàn)人”、 “公司凈利潤(rùn)在1300至2000萬(wàn)之間”、“7% of HbA1c level at admission but 10% after 2 days”。海量可度量數(shù)量信息的自動(dòng)分析及結(jié)構(gòu)化表示,對(duì)自然語(yǔ)言處理技術(shù)、語(yǔ)言資源建設(shè)管理、數(shù)據(jù)匯聚計(jì)算、企業(yè)競(jìng)爭(zhēng)情報(bào)分析、乃至數(shù)字經(jīng)濟(jì)都具有重要現(xiàn)實(shí)意義。

InfoBox:

中文名:可度量數(shù)量信息

外文名:Measurable Quantitative Information

簡(jiǎn)寫(xiě):MQI

學(xué)科:自然語(yǔ)言處理

實(shí)質(zhì):描述了實(shí)體、數(shù)值、單位及其之間關(guān)系

基本簡(jiǎn)介:

可度量數(shù)量信息的基礎(chǔ)元素包括實(shí)體(Entity)、數(shù)值/區(qū)間(Numeral/Range)、計(jì)量單位(Unit)和連接關(guān)系(Relations)。根據(jù)ISO國(guó)際標(biāo)準(zhǔn)[1],其中數(shù)值和計(jì)量單位構(gòu)成可度量數(shù)量信息的數(shù)量(Measure),連接關(guān)系包括依賴關(guān)系(Dependency link)和比較關(guān)系(Comparison link),依賴關(guān)系表示實(shí)體與相關(guān)數(shù)量屬性相關(guān)性而比較關(guān)系表示實(shí)體的實(shí)際數(shù)量和描述數(shù)量的比較性。從原始文本中通過(guò)信息抽取系統(tǒng)對(duì)實(shí)體和相關(guān)數(shù)量屬性進(jìn)行識(shí)別和關(guān)聯(lián)后,以XML、或四元組、或多元組的形式進(jìn)行結(jié)構(gòu)化表示。

可度量數(shù)量信息抽取是一項(xiàng)從半結(jié)構(gòu)化和非結(jié)構(gòu)化文本中提取和組織可度量數(shù)量信息的任務(wù),屬于自然語(yǔ)言處理的信息抽取研究領(lǐng)域??啥攘繑?shù)量信息抽取任務(wù)可以拆分為可度量信息識(shí)別任務(wù)和可度量信息關(guān)聯(lián)任務(wù)。識(shí)別任務(wù)從原始文本數(shù)據(jù)中提取實(shí)體、數(shù)值和計(jì)量單位等基礎(chǔ)信息,關(guān)聯(lián)任務(wù)將這些基礎(chǔ)信息進(jìn)行匹配和關(guān)聯(lián),生成結(jié)構(gòu)化的可度量數(shù)量信息。以語(yǔ)句 “白細(xì)胞不低于14.0X10^9/L” 為例,其中 “白細(xì)胞” 為實(shí)體,“14.0X10^9” 為數(shù)值,“L” 為計(jì)量單位, 數(shù)值與計(jì)量單位的組合 “14.0X10^9/L” 為數(shù)量,蘊(yùn)含的比較關(guān)系(數(shù)量修飾符)為 “大于等于”,其簡(jiǎn)單的結(jié)構(gòu)化可度量數(shù)量信息可表示為:“{ Entity: 白細(xì)胞, Numeral: 14.0X10^9, Unit: L, Relator: 不低于, Comparison: 大于等于}”,如圖1所示。

C:\Users\Admin\AppData\Local\Microsoft\Windows\INetCache\Content.Word\CCF術(shù)語(yǔ) 圖片.jpg

圖1. 一個(gè)可度量數(shù)量信息的構(gòu)造示例

可度量數(shù)量信息不僅可用于通用或領(lǐng)域知識(shí)圖譜構(gòu)建、屬性比對(duì)、數(shù)值匯聚,特別是在臨床、生物醫(yī)學(xué)、化學(xué)和材料、金融等量化信息高度集中的領(lǐng)域,可度量數(shù)量信息的抽取成為定量分析應(yīng)用的關(guān)鍵技術(shù)基礎(chǔ)之一。

背景與挑戰(zhàn):

隨著互聯(lián)網(wǎng)的發(fā)展和數(shù)據(jù)規(guī)模的快速增長(zhǎng),一方面有組織的可用的結(jié)構(gòu)化的可度量數(shù)量信息數(shù)據(jù)庫(kù)極度稀缺,另一方面海量的可度量數(shù)量信息存于非結(jié)構(gòu)化文本中無(wú)法被有效利用,中間存在的巨量可度量數(shù)量信息缺口急需填補(bǔ)。作為醫(yī)學(xué)領(lǐng)域的重要信息,可度量數(shù)量信息有助于臨床決策支持、疾病風(fēng)險(xiǎn)預(yù)測(cè)和疾病監(jiān)測(cè)。例如,在臨床試驗(yàn)納排標(biāo)準(zhǔn)文本中的可度量數(shù)量信息占比超過(guò)40%,低精度的可度量數(shù)量信息抽取是導(dǎo)致藥物劑量分析與臨床試驗(yàn)資格標(biāo)準(zhǔn)認(rèn)定等研究的瓶頸。

盡管近年來(lái)可度量數(shù)量信息抽取已經(jīng)得到了工業(yè)界和自然語(yǔ)言處理研究人員關(guān)注,但它仍然面臨許多挑戰(zhàn),例如:

(1)數(shù)量屬性的表達(dá)具有多樣性。數(shù)值可以用無(wú)數(shù)種不同的語(yǔ)言形式來(lái)表達(dá),不同領(lǐng)域的計(jì)量單位也有不同的書(shū)寫(xiě)方式。此外,復(fù)雜的可度量數(shù)量信息可能包含多個(gè)數(shù)量屬性[2],甚至需要解析公式或表達(dá)式以獲取數(shù)值。因此,將數(shù)值和計(jì)量單位識(shí)別完整并準(zhǔn)確關(guān)聯(lián)成為一個(gè)復(fù)雜的問(wèn)題。

(2)目前的信息抽取系統(tǒng)通?;诰渥舆M(jìn)行抽取,一句話所給出的上下文往往過(guò)于狹窄,而語(yǔ)義相關(guān)的上下文信息可能與數(shù)值所在的文本位置相距較遠(yuǎn),導(dǎo)致模型無(wú)法理解可度量數(shù)量信息的上下文[3],進(jìn)一步影響實(shí)體、數(shù)值、計(jì)量單位和比較關(guān)系的抽取和標(biāo)準(zhǔn)化。

(3)原始文本數(shù)據(jù)復(fù)雜多樣,例如,臨床報(bào)告和筆記等醫(yī)學(xué)文本通常以復(fù)雜和非正式的方式書(shū)寫(xiě)[4],其他文檔類型,如產(chǎn)品數(shù)據(jù)表,大量使用表格和技術(shù)圖紙來(lái)傳達(dá)信息。 此外,將原始文本數(shù)據(jù)轉(zhuǎn)換成機(jī)器可讀數(shù)據(jù)的過(guò)程也會(huì)產(chǎn)生噪聲。

(4)可度量數(shù)量信息模型的推理能力需要加強(qiáng)。當(dāng)信息因簡(jiǎn)短而被省略時(shí),當(dāng)處理像 "光速"這樣的常數(shù)時(shí),為了推斷一個(gè)區(qū)間是否包括或不包括其端點(diǎn)時(shí),或者在處理相對(duì)于標(biāo)準(zhǔn)的數(shù)量時(shí)(例如,"正常上限的1.15倍")[5]。此外,計(jì)量單位省略也經(jīng)常發(fā)生[6]。這些需要大量領(lǐng)域知識(shí)進(jìn)行支撐,幫助模型理解定量表述并進(jìn)一步完成數(shù)量屬性的推斷。

研究概況:

可度量數(shù)量信息抽取的發(fā)展主要經(jīng)歷了五個(gè)階段:(1)基于手工的方法,(2)基于規(guī)則和模式匹配的方法,(3)基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,(4)基于深度學(xué)習(xí)的方法,(5)基于預(yù)訓(xùn)練語(yǔ)言模型的方法。

在早期階段,關(guān)于可度量數(shù)量信息抽取的研究大多數(shù)是基于規(guī)則的方法?;谝?guī)則的方法以規(guī)則、模式和關(guān)鍵詞匹配、本體匹配或字典匹配的組合為主。除了字符串匹配之外,模式通常涉及基于詞性(Part-of-Speech tagging,POS)標(biāo)簽的句法規(guī)則。例如,Valx[5]使用UMLS 元詞典等外部知識(shí)設(shè)計(jì)啟發(fā)式規(guī)則和領(lǐng)域知識(shí)來(lái)輔助提取二型糖尿病的相關(guān)數(shù)值信息。Liu 等人[7] 提出了一個(gè)基于規(guī)則的信息提取系統(tǒng),從臨床記錄中提取帶有時(shí)間信息的實(shí)驗(yàn)室測(cè)試結(jié)果,其中,數(shù)量和單位的提取由已有的數(shù)量、單位和時(shí)間表達(dá)標(biāo)記器支持。Liu等人[8] 結(jié)合了規(guī)則和模式匹配的方法用于提取臨床定量信息。基于規(guī)則的方法通常具有更高的準(zhǔn)確率,較低的召回率,需要專家投入大量時(shí)間手動(dòng)設(shè)計(jì)規(guī)則。為了平衡準(zhǔn)確率和召回率,基于特征工程的機(jī)器學(xué)習(xí)方法被提出用于提取可度量數(shù)量信息并且被廣泛應(yīng)用于針對(duì)科學(xué)出版物和網(wǎng)絡(luò)數(shù)據(jù)文本的抽取系統(tǒng)。例如,Gruss等人[9]將樸素貝葉斯分類器應(yīng)用于數(shù)值表達(dá)式的抽取及分類。Berrahou 等人[10] 則是利用 J48 決策樹(shù)、支持向量機(jī)(Support Vector Machines)、樸素貝葉斯 (Naive Bayes)、判別性多義樸素貝葉斯 (Discriminative Multinominal Naive Bayes) 等多個(gè)分類器對(duì)科學(xué)文檔中的單位進(jìn)行抽取?;跈C(jī)器學(xué)習(xí)的模型性能對(duì)特征工程依賴性較高,基于人工的特征方法需要消耗大量的時(shí)間、人力和物力。

由于在自動(dòng)特征提取方面的優(yōu)勢(shì),基于深度學(xué)習(xí)的可度量數(shù)量信息抽取方法發(fā)展迅速。思路主要是使用IOB等標(biāo)記方案將實(shí)體、數(shù)值和單位的識(shí)別轉(zhuǎn)換為序列標(biāo)記問(wèn)題,基于Conditional Random Field (CRF) [11] 構(gòu)建抽取模型。例如,Li 等人[12] 將醫(yī)學(xué)詞典和詞性信息結(jié)合到雙向長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò)(Bi-LSTM-CRF)中以改進(jìn)臨床命名實(shí)體識(shí)別。Liu等人[13] 提出了融合領(lǐng)域知識(shí)信息和位置特征的Bi-LSTM-CRF模型,實(shí)驗(yàn)驗(yàn)證了特征增強(qiáng)的雙向長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò)在臨床可度量數(shù)量信息抽取上的有效性。Foppiano等人[14] 提出了基于CRF的Grobid-quantities 系統(tǒng),該系統(tǒng)用于識(shí)別和標(biāo)準(zhǔn)化科學(xué)和技術(shù)文件中的物理測(cè)量。不同于上述針對(duì)特定領(lǐng)域研發(fā)的系統(tǒng),SaHa 等人[15] 設(shè)計(jì)并發(fā)布了BONIE, 一個(gè)用于抽取包含數(shù)值和計(jì)量單位短語(yǔ)等多元組信息的開(kāi)放式數(shù)值關(guān)系提取器。

近年來(lái),隨著預(yù)訓(xùn)練語(yǔ)言模型(Pre-Trained Language Models, PLMs)的出現(xiàn),如基于Transformer的雙向編碼表示 (Bidirectional Encoder Representations from Transformers, BERT) [16],已成為許多自然語(yǔ)言處理任務(wù)的基本支撐。例如,Zhang等人[17] 使用BERT預(yù)訓(xùn)練的單詞嵌入作為Bi-LSTM-CRF的輸入特征,有效提升了乳腺癌的臨床信息識(shí)別模型的性能。Avram等人[18] 使用RoBERTa+CRF模型對(duì)IOB序列標(biāo)簽進(jìn)行識(shí)別,并通過(guò)將跨度提取視為多輪問(wèn)題回答來(lái)提取相關(guān)的可度量實(shí)體、屬性和限定詞。Kohler 等人[19] 采用GPT-3[20]進(jìn)行小樣本學(xué)習(xí)(Few-Shot Learning),但實(shí)驗(yàn)結(jié)果表明針對(duì)可度量數(shù)量信息抽取的小樣本學(xué)習(xí)方法并不能有效提升模型性能。

未來(lái)發(fā)展:

由于實(shí)體與數(shù)量信息表述的復(fù)雜性, 從非結(jié)構(gòu)化文檔中精準(zhǔn)抽取可度量數(shù)量信息仍然是一個(gè)重要的挑戰(zhàn)。未來(lái)的可度量數(shù)量信息抽取的研究趨勢(shì)主要有以下三個(gè)方向:

(1)可度量數(shù)量信息抽取模型訓(xùn)練需要更多相關(guān)高質(zhì)量數(shù)據(jù)集。不同領(lǐng)域的計(jì)量單位和實(shí)體存在差異性,目前仍然存在標(biāo)注數(shù)據(jù)不足的問(wèn)題。涵蓋數(shù)量及其上下文的更廣泛的數(shù)據(jù)集可以極大地改善可度量數(shù)量信息抽取模型的性能。

(2)增強(qiáng)模型的數(shù)值推理能力以提升可度量數(shù)量信息抽取系統(tǒng)的性能。例如,在預(yù)處理過(guò)程中改變所有數(shù)值的表示形式以提高模型性能[21],用數(shù)值的特殊表示擴(kuò)展語(yǔ)言模型以提高數(shù)值推理能力[22]。

(3)抽取系統(tǒng)的發(fā)展需要優(yōu)化模型對(duì)文本上下文的利用。目前,許多系統(tǒng)在句子級(jí)別上進(jìn)行抽取,或者在固定的標(biāo)記限制的局部文本進(jìn)行抽取,缺少考慮文本上下文并結(jié)合其他模式信息的可度量數(shù)量信息提取系統(tǒng)。

參考文獻(xiàn)

  1. Tianyong Hao, Haitao Wang. ISO 24617-11, Language resource management -- Semantic annotation framework (SemAF) -- Part 11: Measurable Quantitative Information (MQI), 2021.
  2. Helena F. Deus, Corey Harper, Darin McBeath, and Ron Daniel. 2017. Combining pattern matching with word embeddings for the extraction of experimental variables from scientific literature. In 2017 IEEE International Conference on Big Data (Big Data), pages 4287–4292.
  3. Gerhard Weikum. 2020. Entities with Quantities. Bulletin of the Technical Committee on Data Engineering, 43(1):4–8.
  4. Olga V. Patterson, Matthew S. Freiberg, Melissa Skanderson, Samah J. Fodeh, Cynthia A. Brandt, and Scott L. DuVall. 2017. Unlocking echocardiogram measurements for heart disease research through natural language processing. BMC Cardiovascular Disorders, 17(1):151.
  5. Hao, T., Liu, H., Weng, C.: Valx: a system for extracting and structuring numeric lab test comparison statements from text. Methods Inf. Med. 55(03), 266–275. (2016).
  6. Matthew Lamm, Arun Chaganty, Christopher D. Manning, Dan Jurafsky, and Percy Liang. 2018b. Textual Analogy Parsing: What’s Shared and What’s Compared among Analogous Facts. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 82–92, Brussels, Belgium. Association for Computational Linguistics.
  7. Liu S., Wang L., Ihrke D., Chaudhary V., Tao C., Weng C., Liu H. Correlating Lab Test Results in Clinical Notes with Structured Lab Data: A Case Study in HbA1c and Glucose. AMIA Jt Summits Transl Sci Proc. pp. 221-228. (2017).
  8. Liu S., Pan X., Chen B., Gao D., Hao T.: An automated approach for clinical quantitative information extraction from Chinese electronic medical records. In: Siuly S., Lee I., Huang Z., Zhou R., Wang H., Xiang W. (eds.) HIS 2018. LNCS, vol. 11148, pp. 98–109. Springer, Cham (2018).
  9. Gruss R., Abrahams A.S., Fan W., Wang G.A.: By the numbers: the magic of numerical intelligence in text analytic systems. Decis. Support Syst. 113, 86–98. (2018).
  10. Berrahou SL, Buche P, Dibie-Barthelemy J, et al. How to extract unit of measure in scientific documents? Proceedings of the International Conference on Knowledge Discovery and Information Retrieval and the International Conference on Knowledge Management and Information Sharing. Vilamoura: KDIR, pp. 249–256.(2013).
  11. John Lafferty, Andrew McCallum, and Fernando Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. Departmental Papers (CIS). (2001).
  12. Li L., Zhao J., Hou L., Zhai Y., Shi J., Cui F.: An attention-based deep learning model for clinical named entity recognition of Chinese electronic medical records. BMC Med. Inform. Decis. Mak. 19(5), 1–11. (2019).
  13. Liu S., Nie W. Gao D., Yang H., Yan J., Hao T.: Clinical quantitative information recognition and entity-quantity association from Chinese electronic medical records. Int. J. Mach. Learn. Cybern. 12(1), 117–130. (2020).
  14. Luca Foppiano, Laurent Romary, Masashi Ishii, and Mikiko Tanifuji. Automatic Identification and Normalisation of Physical Measurements in Scientific Literature. In Proceedings of the ACM Symposium on Document Engineering 2019, pages 1–4, Berlin Germany. ACM. (2019).
  15. Swarnadeep Saha, Harinder Pal, and Mausam. 2017. Bootstrapping for Numerical Open IE. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 317–323, Vancouver, Canada. Association for Computational Linguistics.
  16. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). pp.4171–4186. (2019).
  17. Zhang X., Zhang Y., Zhang Q., Ren Y., Qiu T., Ma J., Sun Q. Extracting comprehensive clinical information for breast cancer using deep learning methods. International Journal of Medical Informatics, 132, 103985. (2019).
  18. Andrei-Marius Avram, George-Eduard Zaharia, Dumitru-Clementin Cercel, and Mihai Dascalu. 2021. UPB at SemEval-2021 Task 8: Extracting Semantic Information on Measurements as Multi-Turn Question Answering. In Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021), pages 534–540, Online. Association for Computational Linguistics.
  19. Curt Kohler and Ron Daniel Jr. What’s in a Measurement? Using GPT-3 on SemEval 2021 Task 8 - MeasEval. CoRR, page 11. (2021).
  20. Brown T., Mann B., Ryder N., Subbiah M., Kaplan J. D., Dhariwal P., ... & Amodei D. Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901. (2020).
  21. Xikun Zhang, Deepak Ramachandran, Ian Tenney, Yanai Elazar, and Dan Roth. Do Language Embeddings capture Scales? In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 4889–4896, Online. Association for Computational Linguistics. (2020).
  22. Avijit Thawani, Jay Pujara, and Filip Ilievski. Numeracy enhances the Literacy of Language Models. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 6960–6967, Online and Punta Cana, Dominican Republic. Association for Computational Linguistics. (2021).

登錄用戶可以查看和發(fā)表評(píng)論, 請(qǐng)前往  登錄 或  注冊(cè)。
SCHOLAT.com 學(xué)者網(wǎng)
免責(zé)聲明 | 關(guān)于我們 | 聯(lián)系我們
聯(lián)系我們: