Loading... 爬虫简称为爬虫,它有一个骚气骚包的名字叫做Spider(私帮的er) ### 1.爬虫的概念: 爬虫是用于爬虫数据,又称为<span style="color:#DDA0DD">**数据采集程序**</span> 爬取数据的来源于网络,网络中的数据可以是来自<span style="color:#DDA0DD">**Web服务器**</span>(Nginx/Apache),数据库服务器(Mysql,Redis),索引库(ElastichSearch),大数据(Hbase/Hive),视频/图片库(Ftp),云存储(OSS)等等在等等提供的数据 <span style="color:#DC143C">爬取原则:</span> <span style="color:#EE82EE">爬取的数据一定是公开的,非盈利的,小心逮到你了让你体验一样,什么是豪华单人间七日游,配套的白银手铐,身穿免费而且又时尚又好看的囚衣一套,况且还包吃包住包分配</span> ### 2.python爬虫 使用python编写的爬虫数据脚本(程序)可以定时,定量,指定目标比如web站点的数据爬取,主要使用多线程和单线程和进程,网络请求库,数据解析,数据存储,任务调度等相关技术 python爬虫工程师,可以完成接口测试,功能测试,性能测试,集成测试 一般的情况下是不怎么使用进程的,线程和进程的差距在于时间 ### 3.爬虫与web后端服务器之间的关系 爬虫使用网络请求库,相当于客户端请求,web后端服务根据请求去响应数据    请求响应码具体查看<div class="preview"> <div class="post-inser post box-shadow-wrap-normal"> <a href="http://qiyu.run/index.php/archives/59/" target="_blank" class="post_inser_a no-external-link"> <div class="inner-image bg" style="background-image: url(https://ss0.bdstatic.com/70cFvHSh_Q1YnxGkpoWK1HF6hhy/it/u=1542033933,2344446873&fm=26&gp=0.jpg);background-size: cover;"></div> <div class="inner-content" > <p class="inser-title">Http请求响应状态码</p> <div class="inster-summary text-muted"> 消息响应100 Continue (继续) 客户端应当继续发送请求.这个临时响应是用来通知客户端它的部分请求已... </div> </div> </a> <!-- .inner-content #####--> </div> <!-- .post-inser ####--> </div> 爬虫向web服务器发出HTTP请求,正确的接收响应数据,然后根据数据的类型(Content-Type),进行数据的解析和存储 爬虫程序发出请求前要进行伪装一下,把自己伪装成一个浏览器(User-Agent指定请求报文头),然后呢,再向服务器发起请求,这样子可以提高200的成功率 ### 4.python技术相关的库 网络请求 ```python urllib/urllib2/urllib3 requests/urllib3 (requests基于urllib3进行封装改造的) selenium(ul自动测试,js动态渲染) appium(手机app的爬虫或ul测试) ``` 数据解析 ```python re正则 xpath bs4 json ``` 数据存储 ```python pymysql mongodb elasticsearch ``` 多任务库 ```python 多线程(threading) 线程队列(queue) 协程(asynio , gevent , eventlet) ``` 爬虫框架 ```python scrapy scrapy-redis 分布式(多机爬虫) ``` ### 5.比较常见反爬策略 ```python UA(User-Agent)策略 登录限制(Cookie)策略 请求频次(IP代理)策略 验证码(图片验证码-云打码-加减法,文字,物品图片选择,滑块)策略 动态js(Selenium/Splash/api接口)策略 ``` ### 5.爬虫库Urllib <div class="tip inlineBlock success"> 累了,晚点写[懒] </div> <div class="tip inlineBlock warning"> 内容资料会随时更新,请定期访问查看哦~ </div> <div class="tip inlineBlock share"> 如果不理解建议打开浏览器网址栏输入www.baid.com,然后你就能想找到你想要的答案了,简单吧 </div> Last modification:August 18th, 2020 at 05:06 pm © 允许规范转载 Support 如果觉得我的文章对你有用,请随意赞赏 ×Close Appreciate the author Sweeping payments Pay by AliPay Pay by WeChat