网络爬虫(Crawler)也称网络蜘蛛或网络机器人。它为搜索引擎从万维网上下载网页并沿着网页的相关链接在web中采集资源是一个功能很强的网页自动抓取程序也是搜索引擎的重要组成部件它的处理能力往往决定了整个搜索引擎的性能及扩展能力等。传统的网络爬虫从一个或若干个初始种子开始爬行获得初始的URL在爬取网页的过程中不断从当前页面上获取新的URL放入队列直到满足系统结束条件为止。然而随着网络资源的爆炸式膨胀和信息量的飞速增长通用的爬虫技术在索引规模、更新速度和个性化等很多方面都已不能满足用户的需求与此同时应运而生的主题爬虫则不像通用爬虫那样采集全部网络资源而是从互联网上采集特定主题资源的网页大大提高搜索效率日渐受到人们的青睐逐渐成为研究的热点。早期研究者DeBraP等人于1994年提出了fish-search算法它是最早使用查询来指导爬虫爬行的系统。1998年MHersovici等研究人员将fish-search算法进一步拓展为shark-search算法他们的搜索策略都是来源于文本检索拥有很好的理论基础而且容易计算但却忽略了网页链接的结构信息所以预测相关
美国卡内基梅隆大学的A:KMccallum和M·Nigam等人于1999URL的准确度不高。另外年针对计算机科学设计了主体型搜索引擎CORA系统。Diligenti等人研究设计了
ContextFocusedCrawler聚焦爬虫系统。CAggarwal等学者利用Hubsand
Authorites逻分组算法和向量空间模型提出了一种网页主题管理系统WTMS系统。M·Ehrig等学者[5]提出了一种基于计算ontology相关度的
主题爬虫并设计了其体系结构和框架。S·Chakrabarti提出了一种新的We
b资源爬行系统即IBMFocusedCrawler[6]系统它对主题的定义既不是采用关键词也不是加权向量而是一组具有相同主题的网页。国内南京大学的张福炎潘金贵教授等设计了一个数据采集系统IDGS(IntemetDataGatherSystem)该系统主要是对Web上中英文技术资料进行自动搜集。“