如何用Python做爬虫

杰米粉2021-12-21 12:02

  入门是一个很好的动机,但它可能很慢。如果你手里或脑子里有一个项目,你会被目标驱动,而不是像学习模块一样慢慢学习。

如何用Python做爬虫

  另外,如果知识系统中的每一个知识点都是图中的点,依赖关系是边缘,那么这个图肯定不是一个向无环图。因为学习A的经验可以帮助你学习B。所以你不需要学习如何入门,因为这样的入门点根本不存在!你需要学习的是如何做一件大事。在这个过程中,你会很快学会你需要学习的东西。当然,你可以争论你需要先了解python,否则你如何学习python作为爬虫?但事实上,你可以在做这个爬虫的过程中学习python:D。

  看到之前很多答案都在说术——用什么软件怎么爬,那我就说说道和术——爬虫是怎么工作的,python是怎么实现的。

  先说summarize,你需要学习。

  爬虫的基本工作原理。

  基本的http抓取工具,scrapy。

  BloomFilter:BloomFiltersbyexample。

  如果需要大规模的网页抓取,需要学习分布式爬虫的概念。其实没那么神秘。你只需要学会如何维护所有集群机器都能有效分享的分布式队列。最简单的实现是python-rq:https://github.com/nvie/rq。

  rq与Scrapy的结合:darkrho/scrapy-redis·GitHub。

  后续处理,网页析取(grangier/python-gosegithub),存储(mongodb)

  以上就是小编为大家整理发布的“如何用Python做爬虫”一文,更多相关内容尽在开课吧广场Python教程频道。

免责声明:本站所提供的内容均来源于网友提供或网络搜集,由本站编辑整理,仅供个人研究、交流学习使用。如涉及版权问题,请联系本站管理员予以更改或删除。
有用
分享