首页 > 产品信息

灵玖大数据应用:自然语言文本文档抽取模块

供应商:灵玖中科软件(北京)有限公司[查看公司详情]

所在地:北京市海淀区中关村甲331楼14层B座3门1229号(住宅)

价格:面议

经营模式:

联系人:张先生

产品简介

 

  文档抽取(DocExtractor)组件是指自动识别包含在自然语言文本中的实体之间的预定义关系。所谓实体是指文本中包含的特定事实信息,如人物、组织机构、地理位置等。文档抽取在数据结构化、信息检索和自动应答系统等领域有着重要的研究意义。美国标准技术研究院(NIST)在2008年组织的自动内容抽取(ACE,AutomaticContentExtraction)评测中定义了7种实体关系类型和18种子类型。

  目前大多数中文文本分类系统都采用词作为特征项,作为特征项的词称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算 。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,会对分类系统的运算性能造成极大的压力。在这样的情况下,要完成文本分类几乎是不可能的。寻求一种的特征降维方法,不仅能降运算复杂度,还能提高分类的效率和精度,是文本自动分类中一项重要技术。

  文档抽取的主要功能是在不损伤核心信息的情况下降向量空间维数,简化计算,提高文本处理的速度和效率。相对于其他分类问题,文本特征抽取的方式常见的有4种:

  . 用映射或变换的方法把原始特征变换为较少的新特征;

  . 从原始特征中挑选出一些代表性的特征;

  . 根据的知识挑选有影响的特征;

  . 基于数学方法进行选取,找出分类信息的特征。

  其中基于数学方法进行特征选择比较,人为因素干扰少,尤其适合于文本应用。这种方法通过构造评估函数,对特征集合中的每个特征进行评估,并对每个特征打分,这样每个词语都获得一个评估值,又称为权值,然后将所有特征按权值大小排序,提取预定数目的特征作为提取结果的特征子集。


相关产品推荐

原油期货平台|外盘纯手期货招商

深圳物业满意度调查,物业满意度调研

深圳问卷调查,问卷执行公司,问卷调研

深圳市场调研,市场调查执行服务

黄金眼大数据网络舆情监控平台

湖南劳联代缴工伤险为企业规避用工风险

房地产策划公司请找五位一体服务商

床上用品行业市场报告

各省的饮品铺货调查

汽车4S店销售人员暗访

提供第三方满意度调查服务

济南螺旋伞齿轮

高登回转小火锅设备

资质编写光伏项目可研报告-陕西全省

品牌汽车4S店明访

深圳市场调研公司 市场调查执行

金融机构大数据风险监测平台解决方案白皮书

代缴工伤险

2020~2026年港口码头行业运营态势报告

灭菌器市场运行态势及发展前景分析报告