QzmVc1

Scrapy框架之细数到目前为止我遇到的坑

发表于 2018-11-19 更新于 2021-10-06 分类于爬虫本文字数： 2.3k 阅读时长 ≈ 2 分钟

本篇博客会在我学习Scrapy的途中不断更新，记录大大小小的我遇到的坑。直接正题。 ****** 问1：Python3.7版本使用Scrapy Shell遇到invalid syntax 答1：如果出现SyntaxError:invalid syntax,在“ from twisted.conch import manhole ”而且提示符 ‘^’ 指向async，那么很有可能是因为你的版本是Python3.7，这个版本把async变成了关键字，这个时候就需要自己动手去找到并打开 manhole.py (在错误信息里面找)这个文件，然后找到(CTRL+F)所有 “async” 关键字并修改成关键字无关的标识符如“async_” 。

问2：Scrapy爬虫提示 list index out of range 答2：extract()返回信息列表，extract()[0]显示 index out of range 错误信息，将extract()[0]换成extract_first()即可。

阅读全文 »

Scrapy框架(二) 抽取更多的URL

发表于 2018-11-19 更新于 2021-10-06 分类于爬虫本文字数： 14k 阅读时长 ≈ 12 分钟

一、爬取更多的URL

到目前为止，我们使用的只是设置在爬虫的start_urls属性中的单一URL。而该属性实际为一个列表，我们可以硬编码写入更多的URL，如下所示： >start_urls = [ 　　　‘https://jcoffeezph.top/’, 　　　‘http://qzmvc1.top/’, 　　　···]

这种写法可能不会让你太激动。不过我们还可以使用文件作为URL的源，写法如下所示: >start_urls = [ i.strip() for i in open(‘xxx.txt’,‘r’).readlines()]

这种写法其实也不那么令人激动，但它确实管用。更经常发生的情况是感兴趣的网站中包含一些索引页以及内容页。

一个典型的索引页会包含许多到博客的链接，以及一个能够让你从一个索引页前往另一个索引页的分页系统。

因此，一个典型的爬虫会向两个方向移动： + 横向——从一个索引页到另一个索引页； + 纵向——从一个索引页到内容页并抽取Item。

我们将前者称为水平爬取，因为这种情况下是在同一层级下爬取页面；而将后者成为垂直爬取，因为该方式是从一个更高的层级到一个更低的层级。

阅读全文 »

Scrapy框架(一) 第一个Scrapy项目

发表于 2018-11-19 更新于 2021-10-06 分类于爬虫本文字数： 12k 阅读时长 ≈ 11 分钟

前言

这几天在Scrapy框架里面挣扎了好久，各种碰坑，好在也懵懵懂懂的坚持了下来，话不多说，直接进入正题吧~

本篇博客框架如下： + 第一个Scrapy项目 + 编写爬虫 + 清理—item装载器与管理字段 + Scrapy Shell

阅读全文 »

Windows下使用Virtualenv虚拟环境

发表于 2018-11-07 更新于 2021-10-06 分类于杂项本文字数： 814 阅读时长 ≈ 1 分钟

Virtualenv是Python的虚拟环境，可以在同一台PC隔离不同的python开发环境。Virtualenv可以创建一个隔离的Python环境（沙盒）。使用沙盒的优点：

解决库之间的版本依赖，比如同一系统上不同应用依赖同一个库的不同版本。
解决权限限制，比如你没有root权限。
尝试新的工具，而不用担心污染系统环境。
阅读全文 »

新篇精通Python爬虫框架Scrapy

发表于 2018-11-07 更新于 2021-10-06 分类于爬虫本文字数： 1.3k 阅读时长 ≈ 1 分钟

### 前言很早之前学习了《Python网络数据采集》这本爬虫入门书籍，书上基本用的是Python标准库urllib和第三方库BeautifulSoup，还有一些少量的requests库。过了这么长时间，对爬虫也不是很熟悉了。想了想以后可能会从事大数据方面的工作，本人对数据也是hin感兴趣。于是想腾出时间学习一下Scrapy框架，也趁此机会巩固一下我的爬虫能力。

这本《精通Python爬虫框架Scrapy》基于Scrapy1.0和Python2.x版本，虽然我学的是Python3.x，但这本书应该不会影响阅读，之后的博客就会基于这本书发布一些我学习Scrapy的进度，理解等等，路还很长，一起加油吧！ ******

阅读全文 »

Python3 Numpy模块详解

发表于 2018-11-07 更新于 2021-10-06 分类于 Python库本文字数： 37k 阅读时长 ≈ 34 分钟

参考链接：https://blog.csdn.net/a373595475/article/details/79580734 ### 一、Numpy - 简介 Numpy 是一个 Python 包。它代表 “Numeric Python”。它是一个由多维数组对象和用于处理数组的例程集合组成的库。

Numeric，即 NumPy 的前身，是由 Jim Hugunin 开发的。也开发了另一个包 Numarray ，它拥有一些额外的功能。 2005年，Travis Oliphant 通过将 Numarray 的功能集成到 Numeric 包中来创建 NumPy 包。这个开源项目有很多贡献者。 ****** ### 二、Numpy 操作 使用Numpy，开发人员可以执行以下操作：