首页 > 产品信息

金融中文分词新词发现系统

供应商:大象金服(北京)科技有限公司[查看公司详情]

所在地:北京海淀区苏州街49-3号盈智大厦五层

价格:面议

经营模式:

联系人:梅先生

产品简介

 

  在中文信息处理领域,由于中文自身的特点,它不像英文那样在词与词之间有空格间隔,因此,中文自动分词是一项很重要的基础工作。但是随着社会和互联网的不断发展,新词语不断在日常生活中涌现。据语言文字工作委员会曾做的一个保守统计,自改革开放的20年来平均每年产生800多个新词语。新词的出现,使得自动分词结果中出现过多的“散串”,从而影响了分词的率。近的研究还显示,60%的分词错误是由新词导致的。因此,地识别新词,将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。

  新词虽然也是未在词典中出现的词,属于未登录词,但它和未登录词还是不同的。认为应该从两个方面把握新词的定义,(1)从词典参照的角度来说,新词语是指通过各种途径产生的、具有基本词汇所没有的新形式、新意义或新用法的词语。即鉴定新词语的参照系是现代汉语基本词汇的词形、词义和词语的用法。(2)从时间参照角度来说,新词语是出现在某一时间段内或自某一时间点以来所出现的具有新词形、新词义或者新用法的词汇。

  新词发现技术存在着以下难点:

  (1) 由于中文词语定义的模糊性,新词没有统一的定义标准,且涵盖面广,很难找到一

  种通用的的方法;

  (2) 新词尤其是非命名实体,在构成方面没有普遍的规律;

  (3) 对于频新词由于数据稀疏,识别难度很大;

  (4) 很难根据词语的词形、词义和词语用法的变化以及利用时间信息发现新词。

  九九信用金融中文分词新词发现系统,大规模处理网页,对于切分后的网页内容,用重复串查找寻找新词语。接着根据给定的时间,建立一个给定时间之前的大规模的词与串的背景词串集合,这个集合里面不仅包括了大部分已有的词语,还包括了噪音和固定搭配。在这个背景词串集合的基础上,通过评价函数对于给定时间以后的词和串进行比较和评价,从中得到新词语候选。用过滤规则对新词语候选进行过滤,得到终的新词语结果。新词发现率50%以上,召回率95%以上。本文的不同之处在于,他们利用了新词构成特征以及时间特征,同时将统计与规则很好的结合,可以寻找某一时间点后出现的不限领域和长度的任意新词语。

相关产品推荐

智能软硬件定制方案 开发 单片机开发

餐饮类小程序

用友T3-用友通标准版

用友t3财务软件

网上办事大厅

大型网站群发布系统

健身场地预约APP系统开发

门店管理系统开发搭建

美容美发APP系统开发

在线问诊软件开发

艺术品拍卖系统开发小程序

网上预约公众号开发

多次配送卡提货系统

智能代还软件开发信用卡代还系统贴牌开发

售后易维修报修管理系统

友讯即时聊天社交app源码转让

社交聊天软件源码出售

与你即时聊天社交app源码转让

信用卡代还系统源码开发养卡代还

废品回收小程序分类资源回收站