【灵玖大数据应用：自然语言文本文档抽取模块】厂家_批发价格

灵玖大数据应用：自然语言文本文档抽取模块

供应商：灵玖中科软件（北京）有限公司[查看公司详情]

所在地：北京市海淀区中关村甲331楼14层B座3门1229号(住宅)

价格：面议

经营模式：

联系人：张先生

产品简介

　　文档抽取(DocExtractor)组件是指自动识别包含在自然语言文本中的实体之间的预定义关系。所谓实体是指文本中包含的特定事实信息,如人物、组织机构、地理位置等。文档抽取在数据结构化、信息检索和自动应答系统等领域有着重要的研究意义。美国标准技术研究院(NIST)在2008年组织的自动内容抽取(ACE,AutomaticContentExtraction)评测中定义了7种实体关系类型和18种子类型。

　　目前大多数中文文本分类系统都采用词作为特征项，作为特征项的词称作特征词。这些特征词作为文档的中间表示形式，用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项，那么特征向量的维数将过于巨大，会对分类系统的运算性能造成极大的压力。在这样的情况下，要完成文本分类几乎是不可能的。寻求一种的特征降维方法，不仅能降运算复杂度，还能提高分类的效率和精度，是文本自动分类中一项重要技术。

　　文档抽取的主要功能是在不损伤核心信息的情况下降向量空间维数，简化计算，提高文本处理的速度和效率。相对于其他分类问题，文本特征抽取的方式常见的有4种：

　　. 用映射或变换的方法把原始特征变换为较少的新特征;

　　. 从原始特征中挑选出一些代表性的特征;

　　. 根据的知识挑选有影响的特征;

　　. 基于数学方法进行选取，找出分类信息的特征。

　　其中基于数学方法进行特征选择比较，人为因素干扰少，尤其适合于文本应用。这种方法通过构造评估函数，对特征集合中的每个特征进行评估，并对每个特征打分，这样每个词语都获得一个评估值，又称为权值，然后将所有特征按权值大小排序，提取预定数目的特征作为提取结果的特征子集。