Frontiers of biomedical text mining: current progress-2007

生物医学文本挖掘的前沿:当前进展

生物医学文本挖掘的研究背景和目标

1 生物医学文本挖掘的重要性

生物医学文献正以惊人的速度不断增长，由此产生了帮助生物医学科学家在吸收高比率新出版文献方面的需求。Hunter和Cohen b（Biomedical language processing: what's beyond PubMed?-2006）证明了新的PubMed/MEDLINE出版物呈指数级增长，以这种出版速度，生物学家很难或不可能跟上本学科的相关出版物，更不用说其他相关学科的出版物了。
对于实验室科学家来说，已发表的数据是进行一些实验的最佳来源，但需要自动文本处理方法将它们集成到数据分析工作流中。
对于一般的研究人员来说，基于文献的发现是有希望的假设的潜在来源。
生物数据库管理员通常是生物医学文本挖掘系统的潜在用户，他们对文本挖掘技术的需求可能是最大的。鲍姆加特纳等人（Manual curation is not sufficient for annotation of genomic databases-2007）最近的研究表明，按照目前基因和基因产物的注释速度，如果没有文本挖掘等自动化管理辅助工具的发展，一些人工管理的基因组资源要完成，最好的情况是几年，最坏的情况是几十年。

2 生物医学文本挖掘的研究领域

大多数生物医学文本挖掘研究在不同程度上依赖于自然语言处理方法和工具。

文本挖掘有更广泛的定义和更严格的定义。（Natural language processing for online applications : text retrieval, extraction and categorization-2002；What is text mining-2008）

根据最严格的定义，根据最严格的定义，文本挖掘系统必须返回文本中没有明确说明的知识。根据这个定义，基于文献的发现和一些摘要和问答系统可以被称为文本挖掘。
从更广泛的定义来看，任何从文本中提取信息或执行必要的先决条件的功能的系统都被认为是文本挖掘。这将包括一系列应用程序类型，从命名实体识别到基于文献的发现，以及介于两者之间的许多东西。

大多数生物医学文本挖掘系统包括一个识别文本中的生物实体或概念的模块，即命名实体识别模块。然后可以检测生物实体之间的关系即关系抽取模块。
除了信息提取之外，文档摘要的目的是识别并简洁地呈现文档中最重要的方面，以节省阅读时间。源文档越来越多地是全文文章，通常不仅包括文本，还包括信息丰富的非文本信息，如表格和图像。“问题回答”部分描述了力求为自然形成的问题提供精确答案的系统。真正的文本挖掘不仅可以直接访问文本中陈述的事实，而且还有助于揭示生物实体之间的间接关系，从而直接解决信息过载的问题。

识别生物医学实体之间的关系

文本挖掘系统通常旨在从文献中提取的基本事实通常采用NER识别的两个生物元素之间的关系形式。

方法：

检测生物医学实体之间关系的最简单方法是收集它们共同出现的文本或句子。共现统计数据可以提供高召回率(如果返回大多数共现)，但可能精度较低，现在更多地用作与其他方法进行比较的简单基线方法。
基于模式的方法为关系检测提供了更精确的语言条件。虽然它们理论上可以直接应用于原始文本，但实际上在所有情况下都要执行句子切分和词性标注。
最近的一个重要进展是对语法的关注有所增加。更全面的解析方法产生更精细的句法信息。句法结构被表示为组成解析树或依赖树，并编码短语或单词之间的语法关系(主语、直接宾语、名词修饰语等)。
句法分析可以通过语义角色标记来补充，语义角色标记是为句子元素分配角色（如位置、时间等）的步骤，有助于进一步改进关系提取。

生物医学文本的关系提取涉及的关系：
关系提取的丰富工作涉及各种关系，包括基因/蛋白质、蛋白质点突变[42]、蛋白质结合位点[43]、基因-疾病[44]、表型上下文[45,46]和突变。