A survey of current work in biomedical text mining-2004

生物医学文本挖掘研究现状综述

研究背景和目的

1 生物医学文本对推进生物医学发展至关重要

生物医学研究的目标是发现知识，并以诊断、预防和治疗的形式将其付诸实践。
生物医学文本中包含了大量的有用信息，这些信息能够帮助研究人员和医生更有效地利用现有的研究，并帮助他们沿着实际应用的道路将这项研究推向下一步。

2 文本挖掘和知识提取是帮助研究人员应对信息过载的方法

已发表的生物医学研究的数量，以及潜在的生物医学知识库，正在以越来越快的速度扩大。虽然几个世纪以来，科学信息总体上呈指数级增长，但其中现代医学信息的增长速度令人印象深刻。MEDLINE 2004数据库包含超过1250万条记录，并且该数据库目前正以每年新增50万条引用的速度增长。

随着这种爆炸性的增长，即使在自己的生物医学研究领域内，跟上所有新发现和新理论的发展也是极具挑战性的。

文本挖掘和知识提取是帮助研究人员应对信息过载的方法。

生物医学文本挖掘的目标是允许研究人员更有效地识别所需的信息，揭示被大量可用信息掩盖的关系，通过将相关方法应用于存在于文献中的大量生物医学知识以及生物医学数据库的自由文本字段，从而将信息过载的负担从研究人员转移到计算机上。

文本挖掘任务

文本挖掘任务主要包括命名实体识别、文本分类、同义词和缩写提取、关系抽取和假设生成。

命名实体识别任务NER的目标是在文本集合中识别特定类型事物名称的所有实例：例如，期刊文章集合中所有药物名称，或MEDLINE摘要集合中的全部基因名称和符号。
Hansich和de Bruijn及其同事9，10认为，解决这个问题可以解决更复杂的文本挖掘任务。其想法是，通过识别文本中的生物实体，即识别感兴趣的关键概念，并允许这些概念以某种一致的、规范化的形式表示，可以进一步提取关系和其他信息。
文本分类试图自动确定文档或文档的一部分是否具有感兴趣的特征，通常基于文档是否讨论了给定的主题或包含特定类型的信息。
同义词和缩写提取：与生物医学文献的增长并行的是生物医学术语的增长。由于许多生物医学实体有多个名称和缩写，因此有一个自动收集这些同义词和缩写的方法来帮助用户进行文献搜索将是有利的。
此外，如果一个实体的所有同义词和缩写都可以映射到表示该概念的单个术语，则可以更有效地完成其他文本挖掘任务。
关系抽取：关系提取的目标是检测给定类型的一对实体之间预先指定的关系类型的出现情况。虽然实体的类型通常是非常具体的（如基因、蛋白质或药物），但关系类型可能是非常一般的（如任何生化关联）或非常具体的（如调节关系）。换句话说，无法仅根据实体对的类型确定他们之间的关系。
假设生成：关系提取侧重于提取文本中明确存在的实体之间的关系，而假设生成试图揭示文本中不存在的关系，是通过其他更明确的关系推断出来的关系。其目标是揭示以前未被认识到的值得进一步研究的关系。

关系提取方法

手动生成的基于模板的方法使用领域专家生成的模式(通常以正则表达式的形式)从文本中提取由特定关系连接的概念。
自动模板方法通过从已知具有感兴趣关系的概念对周围的文本泛化模式来自动创建类似的模板。
统计方法通过寻找比偶然预测更频繁地发现彼此的概念来识别关系。
最后，基于nlp的方法执行大量的句子解析，将文本分解为可以轻松提取关系的结构。

生物医学文本的关系提取主要集中于特定的关系

在基因组时代，这种类型的大多数研究都集中在基因和蛋白质之间的关系上。根据功能关系对基因进行分组有助于基因表达分析和数据库注释。一些研究人员研究了基因间一般关系的提取。
其他研究集中于提取基因、蛋白质或其他生物实体之间的特定关系。
提取基因或蛋白质与GO密码之间的关系是一项具有直接实用潜力的任务，最近受到了广泛关注。
许多其他研究人员已经应用文本挖掘来提取新颖有趣的关系

从前面的工作中可以清楚地看出，某些类型的关系比其他类型的关系更容易提取。非常一般的非特异性关系(如基因组)似乎相当简单，而必须由精确的支持文本证实的非常特定的关系(如GO代码分配)仍然具有挑战性。由于识别非常具体的关系与伴随的支持文本的价值是很高的，这项工作必须得到持续的关注。

关于面向生物医学文本的关系提取的结论

目前，关系提取的准确性和召回率取决于要提取的关系类型和要处理的文献语料库。
提取非常一般的、非特定的关系似乎很简单。