Scrapy 实现博客爬虫实例
目标网址:http://i.csensix.com (即本站)
项目地址:blogSpider
系统环境
- CentOS 7.5
 - Python 2.7.16
 - Scrapy 1.7.3
 
实现过程
创建项目
scrapy startproject blogSpider
执行完上面的命令,会生成如下目录结构:
blogSpider/
    scrapy.cfg              # 配置文件
    blogSpider/             # 主要代码目录
        __init__.py
        items.py            # 定义项目items
        middlewares.py      # 项目中间件文件
        pipelines.py        # 项目管道文件
        settings.py         # 项目配置
        spiders/            # 爬虫目录
            __init__.py