【中文分词：ELINT 网络舆情挖掘技术】厂家_批发价格

中文分词：ELINT 网络舆情挖掘技术

供应商：灵玖中科软件（北京）有限公司[查看公司详情]

所在地：北京市海淀区中关村甲331楼14层B座3门1229号(住宅)

价格：面议

经营模式：

联系人：张先生

产品简介

　网页信息采集(Web Crawler)也常被称作采集机器人(Web Robot)、网络蜘蛛(Web Spider)、网络爬虫(Web Worm)等。经过十几年的发展，网页信息采集技术已经是相对比较成熟，很多大的搜索引擎厂商，例如：Google、百度等都有比较成熟的信息采集系统，每天采集大量的网页信息提供用户搜索。根据用户的不同需要，信息采集系统主要有以下几种类型：针对整个 Web 的网页采集(Scalable Web Crawling)，增量式网页采集(Incremental Web Crawling)，基于主题的网页采集(Focused Web Crawling)，基于用户个性化的网页采集(Personalized Web Crawling)，基于 Agent 的网页采集(Agent Based Web Crawling)，迁移的网页采集 (Relocatable Web Crawling)，基于元搜索的网页采集(Metasearch Web Crawling)等。其中针对整个 Web 的网页采集(Scalable Web Crawling)和增量式网页采集(Incremental Web Crawling)是成熟也是在应用广泛的两种网页采集的方式，而其他的网页采集形式则主要是网页采集领域新的研究和发展趋势的体现。

　　l 、网页信息采集的基本原理

　　虽然网页信息采集的方式有多种类型，但网页信息采集的基本原理都是相同的。网页采集的基本原理是利用网页之间的相互链接关系，不断的蔓延获取网页。网页采集器从少量的种子 URL 出发，采集下来这些种子 URL 所对应的网页，通过对获取到的网页进行分析，找出这些网页中所包含的链接，进一步对这些链接进行查重后，做了新的种子 URL，这个过程不断进行，从而可以比较全面的获取到大量的网页。

　　2、传统网页采集中主要处理的问题

　　在传统的网页采集中涉及以下几个方面的问题：

　　海量的 WEB 信息问题：

　　随着 Internet 中信息的迅速膨胀，WEB 信息快速增长，1998 年年初，因特网仅有 3.2 亿个 web 页面，1999 年 2 月该数字上升为 8 亿个，到 2000 年 7 月已经发展为 21 亿个，且仍在以每天 700 万个页面、每 8 个月翻一番的速度增长着。截止到 2004 年 12 月，Google 宣称已经索引的网页数量已经超过 80 亿。按照 Hobbes‘ Internet Timeline 的统计，截止到 2005 年 8 月，互联网上 WEB 服务主机数已达到 70,392,567 台。随着 WEB 相关技术的不断发展， WEB 信息的增长也有一些不同，在 WEB 技术发展的初期，只有懂得网络技术的计算机人员才能制作和发布网页，此时的网页也多是静态的 WEB 页面，但当 WEB 论坛、个人博客 (Blog)等 WEB 发布形式的出现，社会上的每个人都可以成为信息的发布者，每个人都可以登录 WEB 论坛发表文章，也可以创建一个自己个人的博客网站，每天记录自己的网络日记，这种变化意味着 WEB 信息增长速度将会更快，以我国的互联网络发展情况为例，根据互联网络信息中心(CNNIC)发布了第十八次“互联网络发展状况统计报告”，截止到 2006 年 6 月 30 日，的网民总人数超过 1.23 亿，其中有 23.7%的人经常使用 Blog，这样庞大的互联网网民每天正以惊人的速度快速的产生大量的信息。

　　针对海量的 WEB 信息的问题，我们采用的主要解决方案有两个方面：

　　：减少不必要的信息获取，针对性的获取目标信息

　　WEB 信息的快速增长，使得几乎没有任何一个采集系统能够获取全部的信息，因此如何减少不必要的信息(垃圾信息)获取，把有限的网络和计算机资源用来获取那些需要的目标信息是解决海量信息的途径。例如针对本系统，我们需要获取的目标信息是感兴趣的网页，那么如何能够采集到的网页中，感兴趣信息所占的比例较高，而其他无用的信息尽可能少，从一个侧面克服了海量 WEB 信息带来的问题。在这个方面我们研制了的信息识别和采集预测算法，可以在获取的信息中具有较多的感兴趣的信息。另外，我们在以“论坛”、“Blog” 为目标的信息采集中也取得了很好的效果。在我们针对论坛的测试中，信息采集的率达到 95%(采集到的论坛帖子页面数/采集到总的页面数)，采集的召回率超过 75%(采集的论坛帖子页面数/论坛帖子页面总数，其中论坛帖子页面总数使用论坛显示的统计数据为依据)。

　　其次：提高信息采集的效率，在有限时间内获取更多的信息，并行采集信息;

　　解决海量 WEB 信息直观的方法是提高采集的效率，这样在相同的时间内可以获得更多的信息。我们在提高采集效率方面做了深入的研究，不断从采集系统的整体设计和采集模型的设计方面寻求改进，对于每一个可能的优化环节都做了比较深入细致的分析，使得采集系统能够具有比较高的采集效率。每个采集节点可以并发采集 400 个以上的 Web 网站，每台采集节点每天可以采集 400 万网页，大约 60-80GB 的网页数据，峰值采集速度 120-130 页/s，这个速度和Google搜索引擎报告的采集速度(The Anatomy of a Large-Scale Hypertextual Web Search Engine )是基本相当的。