Python 教程之数据分析(5)—— 使用 Python 进行数据分析和可视化 | 第 2 套

简介: Python 教程之数据分析(5)—— 使用 Python 进行数据分析和可视化 | 第 2 套

1. 以 CSV 格式存储 DataFrame:

Pandas提供**to.csv('filename', index = "False|True")** 了将 DataFrame 写入 CSV 文件的功能。这*filename是您要创建的 CSV 文件的名称,index告诉 DataFrame 的索引(如果默认)是否应该被覆盖。如果我们设置*index = False,则索引不会被覆盖。默认情况下,索引的值是TRUE**索引被覆盖。

例子 :

import pandas as pd
# 将三个系列分配给 s1、s2、s3
s1 = pd.Series([0, 4, 8])
s2 = pd.Series([1, 5, 9])
s3 = pd.Series([2, 6, 10])
# 获取索引和列值
dframe = pd.DataFrame([s1, s2, s3])
# 分配列名
dframe.columns =['Geeks', 'For', 'Geeks']
# 将数据写入 csv 文件
dframe.to_csv('geeksforgeeks.csv', index = False)
dframe.to_csv('geeksforgeeks1.csv', index = True)

输出 :

image.png

2. 处理缺失数据

数据分析阶段还包括处理数据集中缺失数据的能力,Pandas 也达到了这一预期也就不足为奇了。这就是dropna和/或fillna方法发挥作用的地方。在处理缺失数据时,作为数据分析师,您应该删除包含NaN 值的列(dropna 方法),或者使用整列条目的平均值或众数填充缺失数据(fillna 方法),这个决定是意义重大,取决于数据和影响将在我们的结果中产生。

  • 删除丢失的数据:
    考虑这是由以下代码生成的 DataFrame:

image.png

import pandas as pd
# 创建一个数据框
dframe = pd.DataFrame({'Geeks': [23, 24, 22],
          'For': [10, 12, np.nan],
          'geeks': [0, np.nan, np.nan]},
          columns =['Geeks', 'For', 'geeks'])
# 这将删除所有具有 NAN 值的行
# 如果未定义轴,则它沿行,即轴 = 0
dframe.dropna(inplace = True)
print(dframe)
# 如果轴等于 1
dframe.dropna(axis = 1, inplace = True)
print(dframe)

输出 :

axis=0

image.png

axis=1

image.png

填充缺失值:

现在,使用数据的平均值或模式替换任何NaNfillna值,它可以根据要求替换特定列甚至整个DataFrame中的所有 NaN 值。

import numpy as np
import pandas as pd
# 创建一个数据框
dframe = pd.DataFrame({'Geeks': [23, 24, 22],
            'For': [10, 12, np.nan],
            'geeks': [0, np.nan, np.nan]},
            columns = ['Geeks', 'For', 'geeks'])
# 使用完整Dataframe的fillna
# 价值函数将应用于每一列
dframe.fillna(value = dframe.mean(), inplace = True)
print(dframe)
# 一列的填充值
dframe['For'].fillna(value = dframe['For'].mean(),
                  inplace = True)
print(dframe)

输出 :

image.png

3. Groupby 方法(聚合):

groupby 方法允许我们根据任何行或列将数据分组在一起,因此我们可以进一步应用聚合函数来分析我们的数据。使用 mapper(dict 或 key 函数,将给定函数应用于组,将结果作为系列返回)或一系列列对系列进行分组。


考虑这是由以下代码生成的 DataFrame:

image.png

import pandas as pd
import numpy as np
# 创建数据框
dframe = pd.DataFrame({'Geeks': [23, 24, 22, 22, 23, 24],
            'For': [10, 12, 13, 14, 15, 16],
            'geeks': [122, 142, 112, 122, 114, 112]},
            columns = ['Geeks', 'For', 'geeks'])
# 应用 groupby 和聚合函数 max 来查找列的最大值
print(dframe.groupby(['Geeks']).max())

输出 :

image.png

感谢大家的阅读,有什么问题的话可以在评论中告诉我。希望大家能够给我来个点赞+收藏+评论 ,你的支持是海海更新的动力!后面我会持续分享前端 & 后端相关的专业知识。


目录
相关文章
|
3月前
|
数据采集 数据可视化 数据挖掘
Python数据分析实战:Pandas处理结构化数据的核心技巧
在数据驱动时代,结构化数据是分析决策的基础。Python的Pandas库凭借其高效的数据结构和丰富的功能,成为处理结构化数据的利器。本文通过真实场景和代码示例,讲解Pandas的核心操作,包括数据加载、清洗、转换、分析与性能优化,帮助你从数据中提取有价值的洞察,提升数据处理效率。
220 3
|
3月前
|
数据可视化 搜索推荐 大数据
基于python大数据的北京旅游可视化及分析系统
本文深入探讨智慧旅游系统的背景、意义及研究现状,分析其在旅游业中的作用与发展潜力,介绍平台架构、技术创新、数据挖掘与服务优化等核心内容,并展示系统实现界面。
|
2月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
2月前
|
索引 Python
Python 列表切片赋值教程:掌握 “移花接木” 式列表修改技巧
本文通过生动的“嫁接”比喻,讲解Python列表切片赋值操作。切片可修改原列表内容,实现头部、尾部或中间元素替换,支持不等长赋值,灵活实现列表结构更新。
150 1
|
3月前
|
数据采集 存储 XML
Python爬虫技术:从基础到实战的完整教程
最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.
773 19
|
3月前
|
数据可视化 数据挖掘 大数据
基于python大数据的水文数据分析可视化系统
本研究针对水文数据分析中的整合难、分析单一和可视化不足等问题,提出构建基于Python的水文数据分析可视化系统。通过整合多源数据,结合大数据、云计算与人工智能技术,实现水文数据的高效处理、深度挖掘与直观展示,为水资源管理、防洪减灾和生态保护提供科学决策支持,具有重要的应用价值和社会意义。
|
3月前
|
机器学习/深度学习 搜索推荐 数据可视化
基于python大数据的音乐可视化与推荐系统
本研究基于Python实现音乐数据采集、清洗、分析与可视化,并结合协同过滤算法构建个性化推荐系统。通过Echarts展示音乐热度及用户偏好,提升用户体验,助力音乐产业智能化发展。
|
3月前
|
数据采集 存储 JSON
使用Python获取1688商品详情的教程
本教程介绍如何使用Python爬取1688商品详情信息,涵盖环境配置、代码编写、数据处理及合法合规注意事项,助你快速掌握商品数据抓取与保存技巧。

推荐镜像

更多