QzmVc1

Standing on Shoulders of Giants.

0%

本篇博客会在我学习Scrapy的途中不断更新,记录大大小小的我遇到的坑。直接正题。 ****** 问1:Python3.7版本使用Scrapy Shell遇到invalid syntax 答1:如果出现SyntaxError:invalid syntax,在“ from twisted.conch import manhole ”而且提示符 ‘^’ 指向async,那么很有可能是因为你的版本是Python3.7,这个版本把async变成了关键字,这个时候就需要自己动手去找到并打开 manhole.py (在错误信息里面找)这个文件,然后找到(CTRL+F)所有 “async” 关键字并修改成关键字无关的标识符如“async_” 。

问2:Scrapy爬虫提示 list index out of range 答2:extract()返回信息列表,extract()[0]显示 index out of range 错误信息,将extract()[0]换成extract_first()即可。

阅读全文 »

一、爬取更多的URL

到目前为止,我们使用的只是设置在爬虫的start_urls属性中的单一URL。而该属性实际为一个列表,我们可以硬编码写入更多的URL,如下所示: >start_urls = [    ‘https://jcoffeezph.top/’,    ‘http://qzmvc1.top/’,    ···]

这种写法可能不会让你太激动。不过我们还可以使用文件作为URL的源,写法如下所示: >start_urls = [ i.strip() for i in open(‘xxx.txt’,‘r’).readlines()]

这种写法其实也不那么令人激动,但它确实管用。更经常发生的情况是感兴趣的网站中包含一些索引页以及内容页。

一个典型的索引页会包含许多到博客的链接,以及一个能够让你从一个索引页前往另一个索引页的分页系统。

因此,一个典型的爬虫会向两个方向移动: + 横向——从一个索引页到另一个索引页; + 纵向——从一个索引页到内容页并抽取Item。

我们将前者称为水平爬取,因为这种情况下是在同一层级下爬取页面;而将后者成为垂直爬取,因为该方式是从一个更高的层级到一个更低的层级。

阅读全文 »

前言

这几天在Scrapy框架里面挣扎了好久,各种碰坑,好在也懵懵懂懂的坚持了下来,话不多说,直接进入正题吧~

本篇博客框架如下: + 第一个Scrapy项目 + 编写爬虫 + 清理—item装载器与管理字段 + Scrapy Shell

阅读全文 »

Virtualenv是Python的虚拟环境,可以在同一台PC隔离不同的python开发环境。Virtualenv可以创建一个隔离的Python环境(沙盒)。使用沙盒的优点:

  • 解决库之间的版本依赖,比如同一系统上不同应用依赖同一个库的不同版本。
  • 解决权限限制,比如你没有root权限。
  • 尝试新的工具,而不用担心污染系统环境。
    阅读全文 »

### 前言 很早之前学习了《Python网络数据采集》这本爬虫入门书籍,书上基本用的是Python标准库urllib和第三方库BeautifulSoup,还有一些少量的requests库。过了这么长时间,对爬虫也不是很熟悉了。想了想以后可能会从事大数据方面的工作,本人对数据也是hin感兴趣。于是想腾出时间学习一下Scrapy框架,也趁此机会巩固一下我的爬虫能力。

这本《精通Python爬虫框架Scrapy》基于Scrapy1.0和Python2.x版本,虽然我学的是Python3.x,但这本书应该不会影响阅读,之后的博客就会基于这本书发布一些我学习Scrapy的进度,理解等等,路还很长,一起加油吧! ******

阅读全文 »

参考链接:https://blog.csdn.net/a373595475/article/details/79580734 ### 一、Numpy - 简介 Numpy 是一个 Python 包。 它代表 “Numeric Python”。 它是一个由多维数组对象和用于处理数组的例程集合组成的库。

Numeric,即 NumPy 的前身,是由 Jim Hugunin 开发的。 也开发了另一个包 Numarray ,它拥有一些额外的功能。 2005年,Travis Oliphant 通过将 Numarray 的功能集成到 Numeric 包中来创建 NumPy 包。 这个开源项目有很多贡献者。 ****** ### 二、Numpy 操作 使用Numpy,开发人员可以执行以下操作:

  • 数组的算数和逻辑运算。

  • 傅立叶变换和用于图形操作的例程。

  • 与线性代数有关的操作。 Numpy 拥有线性代数和随机数生成的内置函数。


阅读全文 »

参考链接:https://blog.csdn.net/u013332124/article/details/80621638

一、Xpath介绍

Xpath 是一门在 XML 文档中查找信息的语言,Xpath 用于在 XML 文档中通过元素和属性进行导航。 + Xpath 使用路径表达式在 XML 文档中进行导航 + Xpath 包含一个标准函数库 + Xpath 是 XSLT 中的主要元素 + Xpath 是一个 W3C 标准

节点

在 Xpath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。

阅读全文 »

参考链接:https://blog.csdn.net/xiaocaiju/article/details/6973175

Python中的random模块用于生成随机数。下面介绍一下random模块中最常用的几个函数。

阅读全文 »