Scrapy 实现博客爬虫实例
目标网址:http://i.csensix.com (即本站)
项目地址:blogSpider
系统环境
- CentOS 7.5
- Python 2.7.16
- Scrapy 1.7.3
实现过程
创建项目
scrapy startproject blogSpider
执行完上面的命令,会生成如下目录结构:
blogSpider/
scrapy.cfg # 配置文件
blogSpider/ # 主要代码目录
__init__.py
items.py # 定义项目items
middlewares.py # 项目中间件文件
pipelines.py # 项目管道文件
settings.py # 项目配置
spiders/ # 爬虫目录
__init__.py