RPA发展历程:RPA与爬虫、按键精灵、脚本到底有什么区别

实在智能|
2021年12月21日|
行业解读

RPA跟爬虫有什么区别?RPA跟按键精灵有什么区别?RPA跟脚本程序有什么区别?RPA跟传统开发有什么区别?RPA跟自动化测试软件有什么区别?流程自动化业内人士应该多数有被问及这些问题,不过好像还没有一个比较系统的回答。对许多普通用户来说,很难完全搞清楚这么多不同名词之间的区别。我们将最主流RPA产品的标准化能力与实现对应的这些能力的非RPA技术实现方案做了一个简单对比:

 

RPA与爬虫、按键精灵、脚本

 

RPA魅力--“多面手”

 

通过以上对比可以发现,主流成熟RPA产品的能力具备了完整的企业应用自动化方案,可以将几乎所有企业办公会碰到的应用场景在技术上全部完美实现。RPA产品的魅力就在于单个产品(或平台),具备了如此丰富且可靠的能力,如果产品在易用性和开发效率上又做了许多打磨的话,就完全可以实现早先RPA理念中非常重要的一条“快速交付”能力。

 

对比非RPA技术实现路径:

 

许多时候都是拿RPA产品的一个能力点,去对比某一项技术实现路径。就比如:网页数据-读

 

单纯的去网页上抓(读)数据,对象网站又几乎没有反爬措施的情况下,网络爬虫,似乎是更高效的方案。

 

网络爬虫最基础的实现原理:即笼共分两步:

 

第一步:拿指定URL页面所有内容

 

第二步:分析这些内容

 

以上最基础流程基本没有实用价值,需要加上批量循环的URL调度器,毫无节制的去对象网站收刮站点的内容:

 

即笼共分三步:

 

第一步:轮询URL调度器

 

第二步:拿指定URL页面所有内容

 

第三步:分析这些内容

 

为了高效,很多爬虫是“臭不要脸”又毫无节制的,他们会给对象网站沉重的压力。这是为什么很多网站不喜欢被爬的原因之一。为什么说爬虫毫无节制呢,因为爬虫会把有用的,没用的,反正这个URL下的所有东西都拿过来,然后再在本地做数据分析留下它要的数据,抛弃99.999%的无用信息。

 

那RPA是怎么做的?

 

RPA是跟人一样的处理逻辑,打开一个网页,找有没有RPA想找的东西,有就拿下来,没有就接着找,或者直接说“找不到”。

 

其二,RPA对于网页的技术实现是需要把网页打开进行UI呈现的,RPA是没有“headless”模式的(headless模式是selenium的参数,意思是不显示浏览器直接操作)。为什么技术这么设计?这样设计的目的就是最大限度的模拟人的行为进行作业。人需要网站完全加载了,才知道下一步应该点哪里,而不是提前分析网站的HTML代码解析出那个按钮对应的HREF是哪里。

 

第三,RPA对目标网站的压力不会比真人大多少。不会像爬虫,伪装N个Header头,多线程发起N个Request请求,简单的概括就是,RPA不暴力。它可能比人快,但是是在游戏规则内合理合法的快。

 

所以常规的网站反爬对于RPA基本是无效的,除了在login阶段的验证码同样会带来一点麻烦外。RPA干的那点事,在网站后台看起来是跟普通人在作业几乎一摸一样的,如果网站把RPA的行为都列入反爬限制,那么这个网站的误伤率一定高的可怕,会把很多普通人的行为也给屏蔽了。

 

有些人可能会说,Python+Selenium也能实现类似人的访问模式。好吧,Selenium确实有网页自动化能力,但是网页元素识别提取,整合后的系统可靠性可能还是不如主流的RPA产品靠谱。所以为什么我们一直说,RPA工具的元素拾取器是RPA工具的灵魂功能。

 

由于RPA已经逐渐形成了清晰的产品形态,产品(平台)打造的各种机器人管理、行为审计监控、机器人资源池、灵活扩展、任务触发排期机制、第三方账号密码管理、统一的数据规范等等让RPA更像一个真正的数字员工同事,而不只是一款软件。

 

至于那些用各种技术拼凑起来的脚本方案,开发效率低,管理维护难,可靠性差是基本可以确定的。

 

开篇的很多提问我们可能没法一个个展开去阐述,仅以RPA与网络爬虫的区别进行举例分析,希望可以把这个问题讲明白。

 

本文由RPA机器人提供,https://www.ai-indeed.com

标签:RPA技术AI+RPARPA机器人按键精灵

免费试用实在RPA
你可能也喜欢
RPA软件有哪些?一分钟爱上这款提效神器:实在智能RPA
2022年07月04日
RPA为企业腾飞插上“数字翅膀”
2022年07月04日
自动化软件成为职场新的“同事”?实在智能RPA带你一文看清
2022年07月04日
实在RPA·看见未来
扫码咨询
电话咨询
400-1399-089
邮箱咨询
contact@i-i.ai
回到顶部