爬虫软件工作及管理模块主题

产品中心

解决方案

客户案例

实在生态

关于我们

400-139-9089 下载中心

中/英

行业百科

分享最新的RPA行业干货文章

行业百科>爬虫软件工作及管理模块主题

爬虫软件工作及管理模块主题

2022-12-19 15:25:21

爬虫工作及管理模块主题爬虫设计是多线程机制爬虫的工作部分需要被放到一个线程体中。该线程主要的用途是通过爬虫管理员获取到一个新的任务然后调用前文已述的各个模块对其进行综合分析与处理。为保证数据库数据的同步访问所有线程与数据库的交互均由爬虫管理员来管理。每次从等待队列中获取到的新的URL需要满足以下两点：一是该URL的预测打分值必须是最高的；二是该URL的文本长度必须尽可能的短。

rpa

在爬虫工作过程中需要尽力避免相同、相似页面的重复访问否则不仅会降低用户体验而且导致爬虫严重浪费网络带宽。对于相同页面的避免访问我们是很容易做到的。只需要将新发现的URL在放入等待队列前搜寻一遍各个工作队列如果没有则表明没有相同页面被访问过。由于相同页面的访问是同一个URL对其去重是在时间的角度进行考虑的所以被称为时间上的去重。网络中存在很多的相似页面主要原因在于相同页面内容的互相拷贝、引用与前者不同这类相似性问题是基于空间上的所以对这类网页的处理被称为空间上的去重。我们主题爬虫设计中的网页空间去重方法如下：首先对网页进行HTML解析获得各标签文本内容然后对其分词统计并将单词按词频从高到低排序接下来将所得单词序列转化为字符串最后取字符串的前N个字节使用MD5计算散列值。如果两个页面计算获得的散列值相同则可以认定它们是相似的。

主题爬虫在工作过程中需要服从爬虫阻止协议（RobotExclusionProtocol）该协议是通过网站根目录下的robots．txt文件来实现的（这个文件是可选的）。在robots．txt文件中只有3种类型的行。其中以“＃”开头的为注释行该行对文件没有直接的影响。另外两种均以冒号结束其中User－Agent用于指明接下来的条款应用于哪个或哪些爬虫如果该域为“∗”则表明所有的爬虫都应该注意接下来的条款；而Disallow则正是用于标明禁止条款的当某一个网站目录被指定后整个目录都是不能被访问的。通过分析该文件我们便可以获得一个网站中被明令禁止的网页或者目录。如果当前准备访问的页面是被网站管理员禁止的则我们停止访问将相应URL放入到抛弃队列。另外由于一个网站中所有页面都是共享一个robots．txt文件所以为提高爬虫工作性能我们可以将每一个网站被禁止的部分进行缓存。这样爬虫就不必在每次访问一个页面前首先访问相应的robots．txt文件。

上一篇文章

“RPA+AI”模式下传统财务的转型建议

下一篇文章

“RPA+AI”对传统财务的冲击及应对策略