首页 > 产品信息

中文分词:ELINT 网络舆情挖掘技术

供应商:灵玖中科软件(北京)有限公司[查看公司详情]

所在地:北京市海淀区中关村甲331楼14层B座3门1229号(住宅)

价格:面议

经营模式:

联系人:张先生

产品简介

 

 网页信息采集(Web Crawler)也常被称作采集机器人(Web Robot)、网络蜘蛛(Web Spider)、 网络爬虫(Web Worm)等。经过十几年的发展,网页信息采集技术已经是相对比较成熟,很 多大的搜索引擎厂商,例如:Google、百度等都有比较成熟的信息采集系统,每天采集大量 的网页信息提供用户搜索。根据用户的不同需要,信息采集系统主要有以下几种类型:针对整 个 Web 的网页采集(Scalable Web Crawling),增量式网页采集(Incremental Web Crawling), 基于主题的网页采集(Focused Web Crawling),基于用户个性化的网页采集(Personalized Web Crawling),基于 Agent 的网页采集(Agent Based Web Crawling),迁移的网页采集 (Relocatable Web Crawling),基于元搜索的网页采集(Metasearch Web Crawling)等。其中针 对整个 Web 的网页采集(Scalable Web Crawling)和增量式网页采集(Incremental Web Crawling)是成熟也是在应用广泛的两种网页采集的方式,而其他的网页采集形式则 主要是网页采集领域新的研究和发展趋势的体现。

  l 、网页信息采集的基本原理

  虽然网页信息采集的方式有多种类型,但网页信息采集的基本原理都是相同的。网页采集的基本原理是利用网页之间的相互链接关系,不断的蔓延获取网页。网页采集器从少量 的种子 URL 出发,采集下来这些种子 URL 所对应的网页,通过对获取到的网页进行分析,找 出这些网页中所包含的链接,进一步对这些链接进行查重后,做了新的种子 URL,这个过程 不断进行,从而可以比较全面的获取到大量的网页。

  2、传统网页采集中主要处理的问题

  在传统的网页采集中涉及以下几个方面的问题:

  海量的 WEB 信息问题:

  随着 Internet 中信息的迅速膨胀,WEB 信息快速增长,1998 年年初,因特网仅有 3.2 亿 个 web 页面,1999 年 2 月该数字上升为 8 亿个,到 2000 年 7 月已经发展为 21 亿个,且仍 在以每天 700 万个页面、每 8 个月翻一番的速度增长着。截止到 2004 年 12 月,Google 宣 称已经索引的网页数量已经超过 80 亿。按照 Hobbes‘ Internet Timeline 的统计,截止到 2005 年 8 月,互联网上 WEB 服务主机数已达到 70,392,567 台。随着 WEB 相关技术的不断发展, WEB 信息的增长也有一些不同,在 WEB 技术发展的初期,只有懂得网络技术的计算机 人员才能制作和发布网页,此时的网页也多是静态的 WEB 页面,但当 WEB 论坛、个人博客 (Blog)等 WEB 发布形式的出现,社会上的每个人都可以成为信息的发布者,每个人都可以 登录 WEB 论坛发表文章,也可以创建一个自己个人的博客网站,每天记录自己的网络日记, 这种变化意味着 WEB 信息增长速度将会更快,以我国的互联网络发展情况为例,根据互 联网络信息中心(CNNIC)发布了第十八次“互联网络发展状况统计报告”,截止到 2006 年 6 月 30 日,的网民总人数超过 1.23 亿,其中有 23.7%的人经常使用 Blog,这样庞大的互联网网民每天正以惊人的速度快速的产生大量的信息。

  针对海量的 WEB 信息的问题,我们采用的主要解决方案有两个方面:

  :减少不必要的信息获取,针对性的获取目标信息

  WEB 信息的快速增长,使得几乎没有任何一个采集系统能够获取全部的信息,因此如何减 少不必要的信息(垃圾信息)获取,把有限的网络和计算机资源用来获取那些需要的目标信息 是解决海量信息的途径。例如针对本系统,我们需要获取的目标信息是感兴趣的网页,那 么如何能够采集到的网页中,感兴趣信息所占的比例较高,而其他无用的信息尽可能少, 从一个侧面克服了海量 WEB 信息带来的问题。在这个方面我们研制了的信息识别和采 集预测算法,可以在获取的信息中具有较多的感兴趣的信息。另外,我们在以“论坛”、“Blog” 为目标的信息采集中也取得了很好的效果。在我们针对论坛的测试中,信息采集的率达到 95%(采集到的论坛帖子页面数/采集到总的页面数),采集的召回率超过 75%(采集的论坛帖 子页面数/论坛帖子页面总数,其中论坛帖子页面总数使用论坛显示的统计数据为依据)。

  其次:提高信息采集的效率,在有限时间内获取更多的信息,并行采集信息;

  解决海量 WEB 信息直观的方法是提高采集的效率,这样在相同的时间内可以获得更 多的信息。我们在提高采集效率方面做了深入的研究,不断从采集系统的整体设计和采集模型 的设计方面寻求改进,对于每一个可能的优化环节都做了比较深入细致的分析,使得采集系统 能够具有比较高的采集效率。每个采集节点可以并发采集 400 个以上的 Web 网站,每台采集 节点每天可以采集 400 万网页,大约 60-80GB 的网页数据,峰值采集速度 120-130 页/s,这 个速度和Google搜索引擎报告的采集速度(The Anatomy of a Large-Scale Hypertextual Web Search Engine )是基本相当的。

相关产品推荐

广播电视节目制作许可证审批

心理咨询预约

四川代办资质

直升机租赁 直升机出租 白领氏通航

矿产资源价格评估服务

消防照明灯具3C认证CCCF强制性认证

二级建造师资质代理

食品塑包QS认证代办

河北省办理QS认证费用

企业战略规划咨询服务

阳泉起名服务

太原心理咨询服务,太原婚姻咨询服务

一次性补缴养老保险

成都离任审计服务

外资银行对抵押贷款借款人产生哪些影响?

拉卡拉POP机收款宝

大连工程造价咨询

中文分词提升人工智能“自我学”

山东资信等级证书,潍坊AAA信用等级

成都高企认定