灵玖大数据应用:自然语言文本文档抽取模块
供应商:灵玖中科软件(北京)有限公司[查看公司详情]
所在地:北京市海淀区中关村甲331楼14层B座3门1229号(住宅)
价格:面议
经营模式:
联系人:张先生
产品简介
文档抽取(DocExtractor)组件是指自动识别包含在自然语言文本中的实体之间的预定义关系。所谓实体是指文本中包含的特定事实信息,如人物、组织机构、地理位置等。文档抽取在数据结构化、信息检索和自动应答系统等领域有着重要的研究意义。美国标准技术研究院(NIST)在2008年组织的自动内容抽取(ACE,AutomaticContentExtraction)评测中定义了7种实体关系类型和18种子类型。
目前大多数中文文本分类系统都采用词作为特征项,作为特征项的词称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算 。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,会对分类系统的运算性能造成极大的压力。在这样的情况下,要完成文本分类几乎是不可能的。寻求一种的特征降维方法,不仅能降运算复杂度,还能提高分类的效率和精度,是文本自动分类中一项重要技术。
文档抽取的主要功能是在不损伤核心信息的情况下降向量空间维数,简化计算,提高文本处理的速度和效率。相对于其他分类问题,文本特征抽取的方式常见的有4种:
. 用映射或变换的方法把原始特征变换为较少的新特征;
. 从原始特征中挑选出一些代表性的特征;
. 根据的知识挑选有影响的特征;
. 基于数学方法进行选取,找出分类信息的特征。
其中基于数学方法进行特征选择比较,人为因素干扰少,尤其适合于文本应用。这种方法通过构造评估函数,对特征集合中的每个特征进行评估,并对每个特征打分,这样每个词语都获得一个评估值,又称为权值,然后将所有特征按权值大小排序,提取预定数目的特征作为提取结果的特征子集。