分享 pyspider 爬虫框架

Spoony 64.6m2020-01-071152 次点击1 人收藏2 人感谢
github地址: https://github.com/binux/pyspider
demo地址: http://demo.pyspider.org/

* python 脚本,可以用任何你喜欢的html解析包(内置 pyquery)
* WEB 界面编写调试脚本,起停脚本,监控执行状态,查看活动历史,获取结果产出
* 支持 MySQL, MongoDB, SQLite
* 支持抓取 JavaScript 的页面
* 组件可替换,支持单机/分布式部署,支持 Docker 部署
* 强大的调度控制

由于功能太多,更多请参考: https://github.com/binux/pyspider/wiki
pycon上的slide: http://www.slideshare.net/roybinux/pyspider-pycon2014beijing

附加:
如何从 WEB 页面中提取信息
http://blog.binux.me/2014/07/how-to-extract-data-from-web/
收藏 ♥ 感谢
RaspiSQH 120.5m 2020-01-08 
哇,太强了啊......于是我有了一个危险的想法
话说demo页是内网穿透?炸了?
Spoony 小组长 2020-01-08 
@RaspiSQH 我还没研究

登录注册 后可回复。



GitHub