Python培训干货，Python开源网络爬虫汇总

· Scrapy - 一种高效的屏幕,网页数据采集框架。

· django-dynamic-scraper - 基于Scrapy内核由django Web框架开发的爬虫。

· Scrapy-Redis - 基于Scrapy内核采用Redis组件的爬虫。

· scrapy-cluster - 基于Scrapy内核采用Redis 和 Kafka 开发的分布式爬虫框架。

· distribute_crawler - 基于Scrapy内核采用redis, mongodb开发的分布式爬虫框架。

· pyspider - 一个强大纯python的数据采集系统.

· cola - 一个分布式的爬虫框架.

· Demiurge - 基于PyQuery的微型爬虫框架.

· Scrapely - 一个纯python的HTML页面捕捉库.

· feedparser - 一个通用的feed解析器.

· you-get - 静默网站爬去下载器.

· Grab - 网站采集框架.

· MechanicalSoup - 一个自动化的互动网站Python库.

· portia - 基于Scrapy的可视化数据采集框架.

· crawley - 基于非阻塞通信(NIO)的python爬虫框架.

· RoboBrowser - 一个简单的，不基于Web浏览器的基于Python的Web 浏览器.

· MSpider - 一个基于gevent(协程网络库)的python爬虫.

· brownant - 一个轻量级的网络数据抽取框架.