Scrapy-02(系列篇4)-爬虫&云服务器定时调度(以京东零食为例)

项目过程

1.云服务器配置
2.Scrapy爬虫撸代码
3.ProxyPool动态IP代理池
4.云服务器调度

工具

  • Pycharm
  • Xshell
  • Python 3.6
  • 阿里云Centos 7

4.云服务器配置调度

前3步都完成后 进行最后一步服务器配置调度 激动人心!
配置文件scrapy.cfg

切换到命令行模型 切到相应文件目录
scrapyd-deploy AliCloud -p 爬虫项目名
记得安全组开放6800端口
就可以在网页看到爬虫已上传成功

运行调度爬虫curl命令
可在网页Jobs中查看到相应日志 和本地控制台输出的log一模一样

curl http://XXX.XXX.XXX.XXX:6800/schedule.json -d project=爬虫项目名
-d spider=爬虫Spider名

win下没有curl命令
详细见百度经验Windows下安装使用curl命令
最后一步 就是 定时调度crontab
具体怎么用 还是自行百度
xshell连接服务器 输入如下样式命令
crontab -e

保存:wq退出
这里的意思是每天2点、11点、20点各执行一次
然后就可以喝着快乐肥宅水 享受云端自动调度的快感


到此 爬虫 &云服务器定时调度(以京东零食为例)项目结束
整个过程涉及到的细(坑)节 特别多 特别碎
值得好好消化
授人以鱼不如授人以渔

文章来源于转载, 如有疑问, 请联系我,转载地址:https://www.jianshu.com/p/d51163f71318