客户案例
customercase-icon
客户案例
实在智能凭借流畅稳定的产品和落地有效的方案,已为电商、通信、金融、政府及公共服务等2000+企业提供数字化产品和服务
客户之声
实在生态
产品咨询热线400-139-9089市场合作contact@i-i.ai
百万开发者交流群
关于我们
产品咨询热线400-139-9089市场合作contact@i-i.ai
百万开发者交流群
行业百科
分享最新的RPA行业干货文章
行业百科>网络爬虫的介绍
网络爬虫的介绍
2023-03-15 15:39:02

网络爬虫(Crawler)也称网络蜘蛛‚或网络机器人。它为搜索引擎从万维网上下载网页‚并沿着网页的相关链接在web中采集资源‚是一个功能很强的网页自动抓取程序‚也是搜索引擎的重要组成部件‚它的处理能力往往决定了整个搜索引擎的性能及扩展能力等。传统的网络爬虫从一个或若干个初始种子开始爬行‚获得初始的URL在爬取网页的过程中‚不断从当前页面上获取新的URL放入队列‚直到满足系统结束条件为止。然而随着网络资源的爆炸式膨胀和信息量的飞速增长‚通用的爬虫技术在索引规模、更新速度和个性化等很多方面都已不能满足用户的需求‚与此同时‚应运而生的主题爬虫则不像通用爬虫那样采集全部网络资源‚而是从互联网上采集特定主题资源的网页‚大大提高搜索效率‚日渐受到人们的青睐‚逐渐成为研究的热点。早期研究者DeBraP等人于1994年提出了fish-search算法它是最早使用查询来指导爬虫爬行的系统。1998年MHersovici等研究人员将fish-search算法进一步拓展为shark-search算法他们的搜索策略都是来源于文本检索拥有很好的理论基础而且容易计算但却忽略了网页链接的结构信息所以预测相关

美国卡内基梅隆大学的A:KMccallum和M·Nigam等人于1999URL的准确度不高。另外年针对计算机科学设计了主体型搜索引擎CORA系统。Diligenti等人研究设计了

ContextFocusedCrawler聚焦爬虫系统。CAggarwal等学者利用Hubsand

Authorites逻分组算法和向量空间模型提出了一种网页主题管理系统WTMS系统。M·Ehrig等学者[5]提出了一种基于计算ontology相关度的

主题爬虫并设计了其体系结构和框架。S·Chakrabarti提出了一种新的We

b资源爬行系统即IBMFocusedCrawler[6]系统它对主题的定义既不是采用关键词也不是加权向量而是一组具有相同主题的网页。国内南京大学的张福炎潘金贵教授等设计了一个数据采集系统IDGS(IntemetDataGatherSystem)该系统主要是对Web上中英文技术资料进行自动搜集。“

分享:
上一篇文章
网络爬虫相关技术
下一篇文章
自然语言处理NLP
相关新闻
人工智能技术下图像处理原理及目标探究
2023-03-15 17:20:18
从RPA到ChatGPT
2023-03-16 13:40:24
NLP自然语言处理技术
2023-03-14 17:33:21
查看更多行业新闻>>
免费领取更多行业解决方案
立即咨询
大家都在用的智能软件机器人
获取专业的解决方案、智能的产品帮您实现业务爆发式的增长
下载中心
渠道合作
资料领取
预约演示
扫码咨询
领取行业自动化解决方案
1V1服务,社群答疑
扫码咨询,免费领取解决方案
热线电话:400-139-9089