Biomedical Text Mining and Its Applications-2009

生物医学文本挖掘及其应用

1 介绍

1 生物医学文本挖掘是什么

在科学领域，致力于训练计算机具备完成理解文本这一任务(以及其他任务)的正确知识，这被称为自然语言处理(NLP)。
生物医学文本挖掘是处理来自生物学、医学和化学的文本的子领域。另一个流行的名称是BioNLP，一些从业者将其用作文本挖掘的同义词。

2 生物医学文本挖掘特定于领域的必要性

生物医学文本不是一个同质的领域。医疗记录的书写方式与科学文章、序列注释或公共卫生指南不同。此外，当地方言并不少见。例如，医学中心开发了自己的术语，实验室创造了独特的蛋白质命名法。这种可变性意味着，在实践中，文本挖掘应用程序是针对特定类型的文本而定制的。特别是，由于可用性和成本的原因，许多是为Medline的英文科学摘要而设计的。

2 主要概念

命名实体识别

术语是在特定领域中使用的名称，术语集是术语的集合。生物医学文本中有很多术语，它们构成了重要的组成部分。术语的一些例子是细胞类型、蛋白质、医疗器械、疾病、基因突变、化学名称和蛋白质结构域的名称。由于它们的重要性，文本挖掘者一直致力于设计识别术语的算法。在文本挖掘文献中，识别术语的任务也被称为命名实体识别，尽管这种NLP任务更广泛，超出了术语的识别。

生物医学关系

1) 二分类关系
在识别术语之后，自然的下一步是寻找术语之间的关系。

识别关系的最简单方法是使用共现假设：出现在同一文本中的术语往往是相关的。例如，如果一种蛋白质和一种疾病在相同的摘要中经常被提及，那么我们就有理由假设这种蛋白质与疾病的某些方面有关。共现程度可以在统计上量化，以对统计上较弱的共现进行排序和消除。

2) 多分类关系
比共现更好的证据来自明确描述的关系。
我们可以将这种关系简化为两个术语和一个动词的三元组：PML与抗JO1抗体有关。这种三元组表示由于其简单性而强大，但它省略了原始文章中的关键细节，例如证据来自临床案例研究。

知识发现

除了寻找关系，文本挖掘者也对发现关系感兴趣。
由于文献的规模，科学家们忽略了他们的工作与其他相关工作之间的联系。

在一个经典的例子中，通过仔细阅读，他发现镁和偏头痛之间有11个被忽视的联系。

发现关系的一种方法是基于传递推理。
简单地说，如果A与B相连，B与C相连，那么A与C相连的可能性就存在。

3 文本挖掘技术的质量评估

1 评价指标

文本挖掘中最常见的输出质量度量是f度量，它是另外两个度量，精度和召回率的调和平均值。

这三种措施可以用大海捞针的比喻来描述。
高召回率意味着我们已经找到了我们正在寻找的大部分针头。高精度意味着我们取回的针头远多于吸管。高精度和高召回都是需要的，高f值反映了两者，因为它是谐波平均值。

优化文本挖掘应用程序的F-测度通常与优化精度不同，因为干草堆中通常只有少量针头和大量干草。一个将整个草垛识别为只有干草的应用程序非常准确，但却漏掉了所有的针。

2 评估方式

在评估应用程序的F-measure[43]之前，考虑应用程序的评估方式是很重要的，特别是要考虑评估的现实性。

f值不是一个绝对值。
换句话说，较低的f值可能反映的是较困难的任务，而不是较差的应用。此外，文本挖掘应用程序在不同类型的文本中可能表现不同，这可能反映在比宣传的更低的f度量中。