声明
本教程为原创教程,转载请注明出处http://kongtianyi.cn/2016/09/26/python/Scrapy-Lesson-1/
前言
目前网上的Scrapy中文教程比较少,而且大多教程使用的Scrapy版本较老,比如说这个Scrapy 0.25 文档,如其名,上古时期的翻译文档(后注:这个文档在不断更新,现在已更至1.0版本,喜欢阅读文档学习的朋友可以移步);再比如极客学院的视频教程使用的是1.0.x版本,跟新版相比还是有出入(后注:当然喜欢视频的朋友可以移步)。这种情况使得新手入门Scrapy较为困难,而且各种掉坑。本人也是只刚入门的菜鸟,我希望能用菜鸟的语言给其他想要踏进Scrapy大门的小菜鸟指引一条道路。至少比我踩得坑少点吧^-^。
开发环境
- Ubuntu 16.04
- Python 2.7.12
- Scrapy 1.1.2(后注:因版本更新较快,我会把所知的新改动在教程中更新)
- PyCharm 2016.1.4
介绍
本教程将带领大家写一个爬取Discuz模板论坛网站的定向爬虫,网上的Discuz论坛数不胜数,当然我也不敢公开在这教唆大家去侵犯某一个,只好祭出自己搭的论坛来供大家练习——心韵论坛。当然,既然是Discuz模板,用哪个网站做教程都是大同小异的。有了思路后,其他网站也会触类旁通。本教程分为以下八个部分,将分为八篇博文向大家介绍:
- Scrapy安装与项目创建
- 通过Selector选择器解析页面获取内容
- 爬取多个页面
- 数据存入MongoDB
- 保持登陆状态
- 分析表单并回帖
- 使用UA/代理中间件(因课业繁忙,未更新,可催)
- 结束邮件通知(因课业繁忙,未更新,可催)