超全,图解Pandas教程来了!

本文是阳哥推出的《图解Pandas》系列教程,通过视频和图文形式,生动讲解Pandas基础知识,包括数据结构、数据读取、数据框操作、缺失值处理、数据合并和Groupby等,旨在帮助读者快速掌握Pandas。
Python3.8

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

大家好,我是阳哥。

有不少同学跟我提过,看看能不能出一系列 Pandas 数据处理的教程,之前一直也没来得及弄。

最近一段时间,《图解Pandas》系列内容陆续上新。

01图解Pandas

为了大家能够生动、形象的学习 Pandas,阳哥正在制作一系列 《图解Pandas》 的内容,当前已在微信视频号「Python数据之道」发布 50多 期视频,同时在公众号「Python数据之道」配套发布了 11 篇图文内容(图文中配套源代码以及在PC端观看的视频)。

《图解Pandas》主要跟大家以视频图解、动态图片等方式来讲解 Pandas 的基础知识,方便大家快速的掌握这些知识,相信《图解Pandas》会给大家带来一些不一样的视角。

  • 视频内容:在微信视频号「Python数据之道」发布视频,是可以免费观看的。

  • 图文内容:在微信公众号「Python数据之道」发布的图文内容,则是付费阅读内容,付费部分包括《图解Pandas》图文干货内容、可以在电脑端观看的高清视频以及配套的源代码等。对于打算深入学习Pandas的同学,相信会有诸多益处的。目前每次发布单篇的付费内容,后续会考虑出付费合集。图文内容点击👉👉👉前往:《图解Pandas》

《图解Pandas》的视频内容一般如下:

扫描下面的二维码,关注视频号,可以观看《图解Pandas》已发布的所有视频以及及时推送最新的视频:

8f0d65e8fc0268fc232951983fb447b3.jpeg

《图解Pandas》 系列,是一个不小的工程,目前进行过程中,算是半个期货吧,搞不好就是烂尾工程啦,大家的支持就是我持续分享的动力,嘿嘿~~

已发布的内容

《图解Pandas》系列已发布的图文链接(点击下面链接前往围观)以及对应的视频编号,汇总如下:

图文链接视频号对应编号
《图解Pandas》内容框架介绍-
图文01-数据结构介绍001
图文02-创建数据对象002
图文03-读取和存储Excel文件003-004
图文04-常见的数据访问005
图文05-常见的数据运算006-008
图文06-常见的数学计算009-010
图文07-常见的数据统计011-015
图文08-常见的数据筛选016-028
图文09-常见的缺失值处理029-034
图文10-数据合并操作035-047
图文11-Groupby分组操作048-057

点击👉👉👉前往:《图解Pandas》

02部分内容速递

数据结构介绍

DataFrame (中文翻译“数据框”)介绍:

92fc6b4f5e8da64b4a47b141610e489b.jpeg

图解数据框轴方向:

4e3558ce3ddf61f1d54451d99fed023a.jpeg

DataFrame 与 Series 之间的关联:

d995cc0d7f7a70d0c42889f7c47a002f.gif

通过列表创建数据框

6eca447fee4d01a5741ee786dc088a9c.jpeg

读取Excel文件

从Excel读取数据时,有时需要跳过数据文件末尾部分数据行:

6e0e64f33012d5ccccabae80d09f76bb.gif

数据框行列转置

通过 df.T 可以实现数据框的行列转置:

d49a719535b4159fe26b47b5d4547c55.gif

索引位置以及索引值

如何获取 Series 中最小值或最大值对应的索引位置以及索引值。

0030c015a5a0d0f4456e94705a6279cd.jpeg

通过 argmin() 函数来获取最小值对应的索引位置,如红色标注所示,结果为数字 1 ,如下:

1e86974430c28dfefc42e65c989731f2.jpeg

通过 idxmin() 函数来获取最小值对应的索引值,如红色标注所示,结果为字母 e ,如下:

7517bc3b1ad01448fe9be51f0ddbf9dd.jpeg

数据偏移:shift

默认情况下,shift() 函数中 axis=0,将数据框沿 0轴方向 向下偏移一个位置,结果如下:

e01c4f134dafceb7b3a096214d9dd220.jpeg

详细的实现过程动态演示如下:

28e1ed7e18128ef4043312aee30b65d5.gif

数据筛选

在Pandas中,可以通过多种方法进行数据筛选,在 图文08-常见的数据筛选 中,对数据筛选进行了比较详细的介绍。

这里分享一个条件筛选的案例。

应用 loc 函数实现条件筛选,相当于loc后面第一部分是条件判断,逗号后面是选取列。如下图蓝色标注2所示:

31fb67e96e8c16701080e7403e088fd0.jpeg

更多详细介绍:

缺失值处理操作

缺失值数据填充

可以通过字典的方式,对数据框每列填充不同的常数。

字典的 key 值对应数据框的列索引名称。

这里,对于缺失值,a列填充数字11,b列填充数字22,c列填充数字33,动态图演示如下:

f5f72f113b3a80f259674b3298f72591.gif
缺失值删除

dropna 函数有一个参数 subset 可以设置,subset 参数表示的是其他轴方向对应的索引标签。

设置 axis=1,此时,subset 里的"a" 指的是行索引标签中的 a 行。这里的操作,表示的是将数据框a行中含有缺失值的数据列进行删除操作。因此,结果中删除了a列和b列。动态图演示如下:

e4827b5c644ab13969e2bdee9e2b11b0.gif

更多详细介绍:

数据合并-concat

concat 函数有一个参数 join 可以设置,其作用是设置数据合并时,选择并集或交集的方式。

所以,咱们先来介绍关于并集、交集等基础概念,图示如下:

7fc8e22687f9847ef5a87256cc8baa27.jpeg

在 concat 函数中, join 参数的值可以选择 outerinner,分别对应前面描述的 并集 和 交集。

默认情况下,join 参数的值为 outer,也就是并集。

下面这个案例,咱们来看 join 参数为 inner,也就是交集的情形。

具体来演示下过程如下:

c8ccafc3e952db47c9ece33aafff0585.gif

更多详细介绍:

Groupby分组操作

groupby操作的基本原理,概括地说,groupby操作可分解为三个步骤,包括:

  1. 拆分(split)

  2. 应用(apply)

  3. 合并(combine)

第一步是根据分组目标列,按所在列的数据值将数据框拆分为多组,形成多个子数据框;

第二步是根据groupby后的计算或统计方式,对拆分后的各组进行应用。这里对“Fee” 列求平均值,对 “Discount” 列求和。

第三步是将前一步的应用结果进行合并,形成一个新的数据框。

上面描述的过程,图示如下:

fb857bff2d0bb1949a75acab1c266544.jpeg

动态的演示过程,如下:

f6e9fecc96fa1d4726a79e64a8f72617.gif

更多详细介绍:

03专题汇总

考虑到《图解Pandas》系列内容在不断更新过程中,大家可以通过下面的专题来找到最新发布的内容。

28698c6ea7613ccf39c023a6397f9a87.jpeg

点击👉👉👉前往:《图解Pandas》

同时考虑到,以后如果文章数量较多,可能在专题中也不好快速的找到所需要的内容,我会以文章汇总的形式,将《图解Pandas》系列的文章进行手动汇总,并形成 图解Pandas汇总 的专题,最新的汇总文章,可以点击下面专题,找到最新的文章即可。

73eaa227bc84b9a7056535834583833e.jpeg

学习 Pandas,最难的还在于坚持,希望《图解Pandas》能给大家带来一些乐趣,一起加油吧!


大家读完顺手点下右下角的  “在看” ,就是最大的鼓励和支持了。

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值