Scrapy框架(六) 通过Scrapy内置的ImagePipeline下载图片

发表于 2018-11-27 更新于 2021-10-06 分类于爬虫阅读次数：本文字数： 4.4k 阅读时长 ≈ 4 分钟

引言

相信大家学了这么长时间的爬虫后都想干点什么。这章的主要任务是抓取网页上的图片并把它们下载到本地，听起来不太容易实现，但其实这很简单！

注：本章爬取的网页是我的博客: http://qzmvc1.top/

一、爬取图片链接

首先要做的当然是新建爬虫项目和爬虫文件，通过图下命令即可： > scrapy startproject ImageDownloads > cd ImageDownloads > scrapy genspider image

下面我们开始着手工作！

1.1 items.py

import scrapy

class ImagedownloadsItem(scrapy.Item):
  # image_urls是存储图片链接的元数据
    image_urls = scrapy.Field()

1.2 image.py

# -*- coding: utf-8 -*-
import scrapy
from urllib.parse import urljoin
from scrapy.http import Request
from ImageDownloads.items import ImagedownloadsItem


class ImageSpider(scrapy.Spider):
    name = 'image'
    allowed_domains = ['web']
    start_urls = ['http://qzmvc1.top/']

    def parse(self, response):
        URL1 = response.xpath('//a[@class="extend next"]//@href').extract()
        for url in URL1:
            yield Request(urljoin(response.url,url),dont_filter=True)

        URL2 = response.xpath('//a[@class="article-title"]/@href').extract()
        for url in URL2:
            yield Request(urljoin(response.url,url),callback=self.parse_item,dont_filter=True)

    def parse_item(self,response):
        item = ImagedownloadsItem()
        image_urls = response.xpath('//img/@src').extract()
        item['image_urls'] = image_urls
        return item

水平爬取，垂直爬取一些基本的操作感到生疏的可以复习复习我以前的博客: 第一个Scrapy项目抽取更多的URL

parse_item()这个解析函数主要做的就是对于每一个待解析的页面(就是我们垂直爬取的内容页面)，通过Xpath表达式获取该页面内所有图片的一个URL列表，并把这个列表赋值给items.py 中我们定义的元数据。

之所以需要给元数据赋值为列表，是因为管道里面需要用到列表进行迭代操作，如果不是列表爬取日志上会显示 raise ValueError(‘Missing scheme in request url: %s’ % self._url) 这个错误信息。

所以，image.py 主要是获取每张页面的图片链接，并返回每个Item。

1.3 pipelines.py

# -*- coding: utf-8 -*-

from scrapy.pipelines.images import ImagesPipeline
from scrapy.exceptions import DropItem
from scrapy import Request
from pymysql import cursors
from twisted.enterprise import adbapi
from urllib.parse import unquote
import random

class ImagedownloadsPipeline(ImagesPipeline):
   # 迭代获取图片URL链接并进行下载
    def get_media_requests(self,item,info):
        for url in item['image_urls']:
            try:
                if 'http' not in url:
                    continue
                else:
                   yield Request(url)
            except Exception as e:
                print(e)

    """
    文件下载完成之后，返回一个列表 results
    列表中是一个元组，第一个值是布尔值，请求成功或失败，第二个值是下载到的资源
    """
    def item_completed(self,results,item,info):
        if not results[0][0]:
            raise DropItem('Download failure!')
        return item



class MysqlPipeline(object):
    lst = set()
    @classmethod
    def from_settings(cls,settings):
        adbparams = dict(
            host = settings['MYSQL_HOST'],
            user = settings['MYSQL_USER'],
            password = settings['MYSQL_PASSWORD'],
            db = settings['MYSQL_DB'],
            cursorclass = cursors.DictCursor
        )
        dbpool = adbapi.ConnectionPool('pymysql',**adbparams)
        return cls(dbpool)

    def __init__(self,dbpool):
        self.dbpool = dbpool

    def process_item(self,item,spider):
        query = self.dbpool.runInteraction(self.do_insert,item)
        query.addErrback(self.handle_error)
        return item

    def handle_error(self,failure):
        print('failure')

    def do_insert(self,cursor,item):
        sql = "insert into image(name,url) values(%s,%s);"
        urls = item['image_urls']
        for i in urls:
            if i not in self.lst:
                cursor.execute(sql, (random.randint(0, 10000), unquote(i)))
                self.lst.add(i)

我们在 Pipelines.py 中定义了两个管道。一个是用来下载图片的管道，还有一个就是将图片的地址存入到数据库的管道。如果对于存储数据到数据库不熟悉的同学可以看我的另一篇博客：

Scrapy框架(五) 将数据存储到数据库

我们主要介绍一下 ImagedownloadsPipeline 这个管道。我们在里面定义了两个函数，这两个函数的名字都是固定的。 一个是 get_media_requests() ，还有一个是 item_completed()。

1.3.1 get_media_requests()

首先我们将图片下载到本地，需要借助Scrapy内置的ImagesPipeline这个管道。 > from scrapy.pipelines.images import ImagesPipeline

我们在 get_media_requests（） 中循环迭代存储图片URL的列表，通过 Request() 进行访问并下载。为什么要引入异常操作呢？这是因为我们爬取的图片中包含了一些本地图片：

如果不引入异常操作的话会报错:

1	'NoneType' object is not subscriptable

于是我们访问那些具有http请求头的URL并进行下载。

1.3.2 item_completed()

文件下载完成之后，返回一个列表 results。列表中是一个元组，第一个值是布尔值，请求成功或失败，第二个值是下载到的资源。代码很简单，非常好懂！

1.4 settings.py

# 管道
ITEM_PIPELINES = {
      'ImageDownloads.pipelines.ImagedownloadsPipeline': 300,
      'ImageDownloads.pipelines.MysqlPipeline':100,
}
# 数据库
MYSQL_HOST = "localhost"
MYSQL_USER = "root"
MYSQL_PASSWORD = "root"
MYSQL_DB = "pysqltest"

# 图片存储路径
IMAGES_STORE = 'C:\QzmVc1\Code\PyCharm\Python_Project\Python_Spider\Spider_Test1\ImageDownloads\Spider_Picture'

我们在 settings.py 中设置图片的存储路径 IMAGES_STORE ，这可以是绝对路径，也可以是相对路径。

1.5 运行

scrapy crawl images

结果如下：

注1：图片的名字是根据URL的SHA1 值进行生成的，如果想要让名字变得更规范，可以增加file_name()函数，没什么时间了这里就先不写了，emmm…

注2： settings.py里面关于图片的下载除了下载路径其实还可以添加很多东西，像一些失效时间，缩略图的设置等等…有需求的可以看看文档。

QzmVc1