2018-11-07 Scrapy 实战(5)--杂谈以及遇见的坑

文章由本人博客首发转载请注明链接: http://qinfei.glrsmart.com/2018/11/07/scrapy-shi-zhan-5-za-tan-yi-ji-yu-jian-de-keng/

工程目录以及说明:

.
|-- JiYS
|   |-- __init__.py
|   |-- controllers
|   |   |-- __init__.py
|   |   `-- body_seg.py
|   |-- items.py
|   |-- middlewares.py
|   |-- models
|   |   |-- __init__.py
|   |   `-- body_seg.py
|   |-- pipelines.py
|   |-- settings.py
|   `-- spiders
|       |-- __init__.py
|       `-- jys_seg.py
|-- README.md
|-- get_proxies.py (第三节中获取代理的爬虫)
|-- proxy_servers.txt (代理列表文件)
|-- requirements.txt
|-- run_all_spiders.sh
`-- scrapy.cfg

好像跟自己建立的不一样,哈哈,被我改啦, 默认生成的目录太多,我有用不到就改成这样啦,具体怎么样,你开心就好啦
sqlalchemy 关系建立...这不属于本章探讨范围,请参考 sqlalchemy 官方文档.

多个 pipeline? 你只要开心, 随便写, 一行行加入 settings.py 中即可, 数据会根据优先级一个个流过去,只要判断并处理就好啦!

我也是使用 scrapy 第一个项目,没啥说的了啦...虽然我完整的工程不是那么简单,当然写代码过程中各种 Exception 各位童鞋自己克服哈!

你可能感兴趣的:(2018-11-07 Scrapy 实战(5)--杂谈以及遇见的坑)