Python爬虫技术、框架、实现

村口二丫2021-12-23 12:25

  爬虫,即网络爬虫,是通过递归访问网络资源、捕获信息的技术。

  互联网上也有大量有价值的信息数据,手动下载效率很低。爬虫是自动爬行和下载这些有价值信息的技术。

  互联网中的页面通常不是独立存在的,而是通过超链接连接到网络中。爬虫程序就像蜘蛛一样,通过访问超链接在网络中移动并下载所需的信息。理论上,它可以抓取整个互联网的大部分数据。

  爬虫技术起源于搜索引擎技术,是搜索引擎的基础,已成为一种非常常用的通用技术。

  爬虫的实现。

  许多语言可以用来开发爬虫。理论上,只要有访问网络的能力,就可以用来开发爬虫。但目前主流的爬虫开发主要采用python语言。python语言简单清晰高效,特别适合爬虫根据不同页面灵活高效地开发不同处理程序的需求。

  Python爬虫框架。

  1、介绍Python爬虫框架。

  利用Pythong的基本网络包开发爬虫比较麻烦。市面上有很多基于这个API开发的爬虫框架,大大简化了Python爬虫的开发。

  Scrapy和PySpider更为著名。

  PySpider上手更简单,操作更简单,WEB界面增加,开发效率高,phantomjs集成,可用于处理复杂js渲染页面。(可定制能力减弱)

  Scrapy定制度高,比PySpider更底层。适合学习研究,需要学习很多相关知识,但是非常适合研究分布式和多线程。

  2、PySplider安装配置。

  (1)安装pip。

  a、pip是python的包管理工具,类似于RedHat中的yum。python软件可以通过pip快速下载和安装,隐藏了背后复杂的下载和安装过程。

  b、访问https://pypi、python、org/pypi/pip#downloads。

  c、下载pip安装包。

  d、解压pip-9、0、1、tar、gz。

  e、执行pythonsetup、pyinstall。

  f、将python安装目录下的Scripts配置到PATH环境变量中。

  (2)安装phantomjs。

  phantomjs是一个浏览器内核程序,可以在爬虫开发过程中模拟浏览器。

  访问http://phantomjs、org/download、html。

  下载相应版本的phantomjs。

  解压phantomjs-2、1、1-windows、zip。

  将其bin目录配置到PATH环境变量中。

  (3)用pip安装pyspider。

  执行pipinstallpyspider。

  (4)运行pyspider。

  执行pyspiderall。

  (5)通过浏览器访问pyspider。

  http://localhost:5000、

  以上就是小编为大家整理发布的“Python爬虫技术、框架、实现”一文,更多相关内容尽在开课吧广场Python教程频道。

免责声明:本站所提供的内容均来源于网友提供或网络搜集,由本站编辑整理,仅供个人研究、交流学习使用。如涉及版权问题,请联系本站管理员予以更改或删除。
有用
分享