客户案例
customercase-icon
客户案例
实在智能凭借流畅稳定的产品和落地有效的方案,已为电商、通信、金融、政府及公共服务等2000+企业提供数字化产品和服务
客户之声
实在生态
产品咨询热线400-139-9089市场合作contact@i-i.ai
百万开发者交流群
关于我们
产品咨询热线400-139-9089市场合作contact@i-i.ai
百万开发者交流群
行业百科
分享最新的RPA行业干货文章
行业百科>Python在数据下载的思路
Python在数据下载的思路
2023-03-10 16:40:31

数据下载是数据爬取过程中的重要环节。执行数据下载之前首先需要对数据爬取对象网站进行全面地了解,包括此网站数据展示介质、网站背景、网站的组织结构及今后的发展等,在对爬取对象可能出现的展示形式(Web、PC端应用、APP)进行分析后,才能确定要爬取的具体展现形式。

(1)另类角度网络数据爬取过程中有时需要利用资源主要字段来调研收集高质量的目标网站作为反向调研手段。与此同时,不能只关注“直接”网站,要想做好做优,还要去收集和发现“间接”(包含直接网站内容)网站,因为“直接”网站可能由于版权或者其他原因数据不全。在资源下载时如何挑选优质的下载源对爬虫至关重要,建议选择使用不同下载源、不同分类资源占比的方式进行下载。

(2)两个维度利用横向和纵向两个维度评估数据下载的切入点和难易程度。横向维度包括PC页面、PC客户端(Windows和苹果)以及手机APP(Android和iPhone)、WAP页面等;纵向维度指版本从高到低。

(3)分析如何获得有效的网络请求分析请求URL主要有三种情景。第一种是通过URL请求可以直接获得想要的内容;第二种是通过URL请求,有部分字段数据是需要通过分析JS或者异步加载的内容;第三种是有些URL请求的参数难以被构造,构造的代价比较大或者目前以自己的能力解决不了内容。针对第三种情景,我们可以采用从两个维度考虑尝试能不能解决问题,或使用模拟浏览器来解决,常用的模拟浏览器有Webkit和PhantomJS等。

(4)模拟登录要清楚了解请求的所有参数、Cookie和Headers中的信息,这样才会使模拟登录更像真实的用户登录,才会更可能登录成功。几种模拟登录情景包括无验证码和有验证码(图片验证码)、使用Cookie登录和授权登录。无验证码模拟登录步骤首先分析要模拟登录网站的登录Form形式,然后使用Python的Urllib2和Cookielib两个模块模拟登录。有验证码模拟登录步骤首先分析要模拟登录网站的登录Form形式,然后使用Python的Urllib2和Cookielib两个模块模拟登录,最后将验证码下载下来保存为图片,人工识别后给变量赋值。除此之外,还有其他识别验证码的方式,比如基于OCR识别方法和打码平台。

(5)伪装成WAP请求目前,主流爬虫应用的切入点分为网站端和移动端,网站端数据爬取难度普遍高于移动端,主要原因是现在的网站越来越多地使用AJAX加载,反爬虫机制也厉害。而像WAP这种移动端网站限制比较小,网页结构也简单,获取、解析起来都简单很多,理论上速度也会快很多,所以,如果允许的话建议尽量采用WAP站抓取。通过修改浏览器的User-Agent(用户代理)伪装成移动端,从而像手机浏览器一样访问目标网站。爬虫程序带上不同的User-Agent,可以从m端(甚至是WAP端)爬取目标网站。修改浏览器User-Agent主要有两种方法:一种是使用User-AgentSwitcher插件;另一种是直接修改浏览器的User-Agent,因此,要在工作中构建自己的User-Agent池。

(6)模拟浏览器使用模拟浏览器作为爬虫手段的原因一方面是使自己的爬虫更像用户的操作行为,另一方面则是在异步加载中某些请求往往很难构造。在我们的日常开发中,经常使用是Webkit和PhantomJS两个工具。

(7)APK和浏览器的区别在开始解决下载任务的时候,一定要清楚自己是要从浏览器、PC客户端还是从AndroidAPK去分析下载。二者的主要区别在于此网站在浏览器、PC客户端和AndroidAPK介质上展示的数据规模可能不同,这就需要爬虫工程师去调研分析如何才能下载到更多的数据。此外,网页可以随时改版,客户端尽管也会随时升级版本,但是老版本客户端依然会支持,相当于没有改版,因此,通过客户端访问对代码维护和获取响应内容解析更加便捷。的Cookie。创建Cookielib.CookieJar对象自动管理Cookie稍烦琐一些,但是一旦创建,即可供Urllib2创建Opener,后续的所有Cookie更新和过期删除都是自动处理的。

分享:
上一篇文章
Python请求响应与数据解析
下一篇文章
Python-数据爬取基础工具
相关新闻
低质量文本图像的OCR 技术的研究
2023-03-10 17:09:49
OCR识别技术
2023-03-10 18:42:34
企业在RPA方向应该注意的要点
2023-03-09 16:46:07
查看更多行业新闻>>
免费领取更多行业解决方案
立即咨询
大家都在用的智能软件机器人
获取专业的解决方案、智能的产品帮您实现业务爆发式的增长
下载中心
渠道合作
资料领取
预约演示
扫码咨询
领取行业自动化解决方案
1V1服务,社群答疑
扫码咨询,免费领取解决方案
热线电话:400-139-9089