Python详解:关于爬虫的基本流程

开课吧开课吧锤锤2021-03-17 10:38

    爬虫的定义:定向抓取互联网内容(大部分为网页)、并进行自动化数据处理的程序。主要用于对松散的海量信息进行收集和结构化处理,为数据分析和挖掘提供原材料。在介绍爬虫定义后,今天为大家讲解的是爬虫的基本流程。

py

    爬虫的基本流程

    1.发起请求:

    通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,然后等待服务器响应。这个请求的过程就像我们打开浏览器,在浏览器地址栏输入网址:www.baidu.com,然后点击回车。这个过程其实就相当于浏览器作为一个浏览的客户端,向服务器端发送了一次请求。

    2.获取响应内容:

    如果服务器能正常响应,我们会得到一个Response,Response的内容便是所要获取的内容,类型可能有HTML、Json字符串,二进制数据(图片,视频等)等类型。这个过程就是服务器接收客户端的请求,进过解析发送给浏览器的网页HTML文件。

    3.解析内容:

    得到的内容可能是HTML,可以使用正则表达式,网页解析库进行解析。也可能是Json,可以直接转为Json对象解析。可能是二进制数据,可以做保存或者进一步处理。这一步相当于浏览器把服务器端的文件获取到本地,再进行解释并且展现出来。

    4.保存数据:

    保存的方式可以是把数据存为文本,也可以把数据保存到数据库,或者保存为特定的jpg,mp4等格式的文件。这就相当于我们在浏览网页时,下载了网页上的图片或者视频。

    以上就是爬虫的基本流程,更多Python教程相关内容尽在开课吧广场Python教程频道。

有用
分享
全部评论快来秀出你的观点
登录 后可发表观点…
发表
暂无评论,快来抢沙发!
零基础轻松入门Python