Python Data Analysis Library -- Pandas

发表于 2019-02-04 更新于 2021-10-06 分类于 Python库阅读次数：本文字数： 3.1k 阅读时长 ≈ 3 分钟

Pandas简介

1、Python Data Analysis Library 或 Pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

2、数据结构： + Series： 一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近，其区别是：List中的元素可以是不同的数据类型，而Array和Series中则只允许存储相同的数据类型，这样可以更有效的使用内存，提高运算效率。 + Time- Series： 以时间为索引的Series。 + DataFrame： 二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。 + Panel ： 三维的数组，可以理解为DataFrame的容器。

Pandas 有两种自己独有的基本数据结构。读者应该注意的是，它固然有着两种数据结构，因为它依然是 Python 的一个库，所以，Python 中有的数据类型在这里依然适用，也同样还可以使用类自己定义数据类型。只不过，Pandas 里面又定义了两种数据类型：Series 和 DataFrame，它们让数据操作更简单了。

运行环境：jupyter notebook 参考链接：十分钟搞定pandas ****** >本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译，原文在这里。这篇文章是对pandas的一个简单的介绍，详细的介绍请参考：Cookbook 。习惯上，我们会按下面格式引入所需要的包：

一、创建对象

可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。

1.1 可以通过传递一个list对象来创建一个Series，pandas会默认创建整型索引：

1.2 通过传递一个numpy array，时间索引以及列标签来创建一个DataFrame：

1.3 通过传递一个能够被转换成类似序列结构的字典对象来创建一个DataFrame：

1.4 查看不同列的数据类型：

二、查看数据

详情请参阅：Basics Section

2.1 查看frame中头部和尾部的行：

2.2 显示索引、列和底层的numpy数据：

2.3 describe()函数对于数据的快速统计汇总：

2.4 对数据的转置：

2.5 按轴进行排序

****** ### 三、选择虽然标准的Python/Numpy的选择和设置表达式都能够直接派上用场，但是作为工程使用的代码，我们推荐使用经过优化的pandas数据访问方式： .at, .iat, .loc, .iloc 和 .ix详情请参阅Indexing and Selecing Data 和 MultiIndex / Advanced Indexing。 #### 3.1 获取 3.1.1 选择一个单独的列，这将会返回一个Series，等同于df.A：