Python培训干货,Python开源网络爬虫汇总
Python培训干货,Python开源网络爬虫汇总
· Scrapy - 一种高效的屏幕,网页数据采集框架。
· django-dynamic-scraper - 基于Scrapy内核由django Web框架开发的爬虫。
· Scrapy-Redis - 基于Scrapy内核采用Redis组件的爬虫。
· scrapy-cluster - 基于Scrapy内核采用Redis 和 Kafka 开发的分布式爬虫框架。
· distribute_crawler - 基于Scrapy内核采用redis, mongodb开发的分布式爬虫框架。
· pyspider - 一个强大纯python的数据采集系统.
· cola - 一个分布式的爬虫框架.
· Demiurge - 基于PyQuery的微型爬虫框架.
· Scrapely - 一个纯python的HTML页面捕捉库.
· feedparser - 一个通用的feed解析器.
· you-get - 静默网站爬去下载器.
· Grab - 网站采集框架.
· MechanicalSoup - 一个自动化的互动网站Python库.
· portia - 基于Scrapy的可视化数据采集框架.
· crawley - 基于非阻塞通信(NIO)的python爬虫框架.
· RoboBrowser - 一个简单的,不基于Web浏览器的基于Python的Web 浏览器.
· MSpider - 一个基于gevent(协程网络库)的python爬虫.
· brownant - 一个轻量级的网络数据抽取框架.