13、PySpark数据处理：分组聚合、空值处理与JSON数据处理

最新推荐文章于 2026-07-04 11:27:39 发布

原创最新推荐文章于 2026-07-04 11:27:39 发布 · 68 阅读

0 GEO检测

收录于

当前文章被以下社区和专栏收录：

PySpark数据科学实战专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

PySpark数据处理：分组聚合、空值处理与JSON数据处理

1. PySpark分组聚合操作

在PySpark中进行列的分组和聚合时，我们可以充分利用Column对象的强大功能，对自定义列进行分组和聚合。下面以计算每个电视频道的商业节目时长和总节目时长为例进行说明。

首先，定义一个用于计算商业节目时长的表达式：

from pyspark.sql import functions as F

# 定义计算商业节目时长的表达式
commercial_duration_expr = F.when(
    F.trim(F.col("ProgramClassCD")).isin(
        ["COM", "PRC", "PGI", "PRO", "LOC", "SPO", "MER", "SOL"]
    ),
    F.col("duration_seconds"),
).otherwise(0)

上述代码中， F.when() 函数用于根据条件返回不同的值。当 ProgramClassCD 列的值经过去除首尾空格后，在指定的商业节目代码列表中时，返回 duration_seconds 列的值；否则返回0。

接下来，使用这个表达式进行分组聚合操作：

answer = (
    full_log.groupby("LogIdentifierID")
    .agg(

标签

#PySpark # 数据处理 # 分组聚合

订阅专栏解锁全文

会员秒杀 ¥9.9 重磅福利

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

palm99

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

多维聚合数据操作：维度对齐、空值注入与粒度桥接实战

weixin_30482181的博客

06-04

490

多维聚合是OLAP分析与BI报表的核心能力，其本质是将明细数据压缩为多坐标轴构成的‘数据立方体’。但真实数据存在维度歧义、空值语义模糊、时间粒度错配等结构性问题，导致简单GROUP BY结果失真。本文聚焦多维聚合前的关键数据操作——维度对齐解决同义异形与同形异义，空值策略实现上下文感知注入，粒度桥接保障跨周期指标可追溯。这些操作并非ETL流水线，而是决定立方体几何完整性的精密步骤。适用于构建可信OLAP平台、提升Tableau/Power BI分析鲁棒性，以及治理‘同一指标多处不一致’等典型数据信任问题。

pyspark入门--DataFrame基础

m0_60707623的博客

05-27

824

2-type/head/select/withColumn/withColumnRenamed/使用sql语句。

参与评论您还未登录，请先登录后发表或查看评论

生产级多维聚合：pandas工业实践与性能优化

weixin_30240349的博客

06-04

366

多维聚合是数据分析的核心能力，指在多个维度（如时间、地域、类别）上对数据进行分组统计与计算。其底层原理涉及哈希分桶、内存索引重建与向量化运算，技术价值在于支撑高并发、可审计、低延迟的金融级数据服务。典型应用场景包括银行风控特征工程、支付交易滚动监控、零售经营看板等，需兼顾业务语义准确性与计算效率。本文聚焦pandas中groupby多列差异化聚合、自定义函数工程化、时间窗口语义对齐及多级透视等真实生产难题，结合rolling、agg字典映射、expanding等关键技术点，提供可落地的性能调优策略与避坑指南

python_day13_综合案例

Yel10w_的博客

07-23

176

导包准备。

pandas多维聚合实战：银行级生产环境优化指南

张沈鹏,在路上 ...

06-16

519

多维聚合是数据分析的核心能力，指在多个分组维度（如区域、时间、类别）上同时计算多种统计指标（均值、中位数、滚动均值、同比等）。其底层原理涉及一次分组多路并行计算、时间窗口对齐、索引结构优化与内存管理。技术价值在于显著降低I/O开销、避免中间结果爆炸、保障审计可追溯性，并支撑高并发BI看板与实时风控场景。典型应用包括银行信贷分析、支付机构欺诈特征工程、零售经营热力图生成等。本文聚焦pandas在千万至十亿级生产数据中的工业级用法，覆盖agg字典映射、rolling('7D')时间感知窗口、unstack扁平化

PySpark调用Azure文本情感分析的生产级实践

weixin_30905133的博客

06-24

473

文本情感分析是自然语言处理（NLP）中的基础任务，其核心在于将非结构化文本转化为可量化的态度倾向。在大数据场景下，单纯依赖REST API或BI工具难以满足高吞吐、强一致、可审计的工程要求。本文聚焦PySpark与Azure认知服务的深度集成，围绕分布式HTTP调用稳定性、批量请求优化、错误隔离与重试机制、语言标识标准化等关键技术点展开，突出Databricks环境下API调用的生产就绪性设计。内容涵盖连接池管理、分区级容错、confidenceScores业务解读及Delta Lake结果落地，适用于金融

Spark DataFrame

weixin_30877493的博客

05-17

因为之后的项目要用Spark来做分布式处理，所以开始接触DataFrame 需要先安装pyspark pip install pyspark 然后导入SparkSession from pyspark.sql import SparkSession 然后实例化对象 spark=SparkSession.builder.getOrCreate() 或者 s...

PySpark简单使用(七)——综合案例2

qq_42120843的博客

06-13

199

有如下的搜索日志 search_log.txt00:00:00 2982199073774412 传智播客 8 3 http://www.itcast.cn00:00:00 07594220010824798 黑马程序员 1 1 http://www.itcast.cn00:00:00 5228056822071097 传智播客 14 5 http://www.itcast.cn00:00:00 6140463203615646 博学谷 62 36 http://www.itcast.cn。

PySpark批量调用Azure情感分析V3的高可用实践

weixin_30315435的博客

06-05

295

情感分析是NLP基础任务，而Azure Cognitive Services Sentiment Analysis V3提供了开箱即用的多语言细粒度情绪识别能力；其底层基于深度语义模型，输出包含positive/neutral/negative标签及置信度分数，但原生RESTful接口面向实时交互设计，不适用于海量文本批处理场景；PySpark作为分布式计算框架，天然支持弹性扩展与容错，但直接封装HTTP调用易触发限流、Token失效、单点失败导致全量重试等工程问题；本文聚焦‘如何让PySpark真正承载V

数据操作与转换实战手册：ETL、特征工程与生产级数据处理指南

xpmwgcwm的博客

06-16

431

数据操作与转换是数据工程的核心能力，涉及数据清洗、结构变更、分布重塑和业务语义注入。理解操作（如drop、cast、去重）与转换（如标准化、编码、窗口计算）的本质区别，是构建稳定ETL管道和可靠特征工程的基础。在真实场景中，缺失值处理、类型强制转换、主键去重等高频操作直接影响系统可用性；而Robust Scaling、Target Encoding、时序窗口等转换技术则直接决定模型效果与合规性。本文聚焦生产环境中的典型问题——从SQL/Pandas/Spark多引擎适配，到数据漂移应对、熔断机制设计，再到操

PySpark读CSV防崩指南：参数原理、性能陷阱与工业级实践

最新发布

weixin_29098367的博客

07-04

CSV文件读取是大数据处理的起点，但在PySpark中它远非简单的文件加载操作——而是触发分布式计算计划、影响资源调度、决定数据质量的关键入口。其底层涉及文件分片解析、schema推导与下推优化、编码与分隔符处理等核心机制。技术价值在于避免OOM、减少重复IO、保障类型安全与字段完整性；典型应用场景包括金融日志解析、电商订单ETL、跨部门数据集成等需高稳定性与强校验的生产环境。本文聚焦PySpark read.csv()的参数本质、常见崩溃诱因（如inferSchema全量扫描、header逻辑歧义、DRO

Spark SQL完全指南：Apache Spark官方文档中文版教你高效处理结构化数据

gitblog_00585的博客

06-13

440

Apache Spark是一个快速、通用的集群计算系统，而Spark SQL作为其核心模块，专为结构化数据处理设计，提供了SQL查询和DataFrame/Dataset API的统一接口。本文基于Apache Spark官方文档中文版（[docs/7.md](https://link.gitcode.com/i/52760469e3409bebe215a48ec871e742)），带你快速掌握Sp

计算机毕业设计Python+PySpark+Hadoop视频推荐系统视频弹幕情感分析大数据毕业设计(源码+文档+PPT+ 讲解)

全网计算机/大数据辅导(自媒体)道祖第一人、全网粉丝100W+,专注于大学生项目实战开发,讲解,毕业答疑辅导,高校老师/讲师/同行合作。以及产品测评宣传、工具推广等合作。同时招收学生代理、校园代理。

02-28

1084

本文介绍了一个基于Python+PySpark+Hadoop的视频推荐系统，采用四层架构设计（数据采集、存储计算、推荐引擎、应用服务）。系统通过多源数据整合、批流一体处理实现个性化推荐，使用协同过滤和深度学习模型提升推荐效果，并支持实时更新和冷启动优化。关键技术包括PySpark分布式计算、Hadoop数据存储、多模态特征提取等，同时注重数据质量、性能优化及系统安全。该系统可显著提升视频推荐精准度和用户体验，适用于各类视频平台。文末提供源码获取方式及技术咨询服务。

Python数据分析全攻略：从入门到实战完整实战指南

热爱技术与前沿创新，深耕科技领域，在科创中精进自我；探索技术乐趣，分享技术干货与成长心得，以技术为伴，热爱生活，在科创与生活中双向成长。

05-14

398

Python数据分析是一个系统性的知识体系，其教程内容通常从基础到高级，涵盖数据处理、分析、可视化和机器学习等多个方面。以下是一个全面的Python数据分析教程内容结构，包含章节目录、核心知识点、必须掌握的工具、相关重要人物、应用场景及后续发展方向。

Data-Engineering-with-Python高级教程：实时数据管道构建与优化

gitblog_00614的博客

06-28

826

**Data-Engineering-with-Python** 是一个专注于数据工程实践的开源项目，基于 Packt 出版的同名书籍开发。本教程将带你掌握如何使用 Python 构建高效、可扩展的实时数据管道，涵盖从数据采集到处理优化的完整流程，帮助你轻松应对现代数据工程挑战。 ## 📋 核心技术栈概览实时数据管道的构建依赖于多个组件的协同工作。项目中主要使用的技术包括： - **数据

【Python】

qq_42733748的博客

11-23

528

Python

Polars延迟执行与查询优化原理：从Pandas单线程到现代数据流水线

weixin_30266885的博客

06-05

368

DataFrame是数据分析的基础抽象，其性能瓶颈常源于执行模型与硬件脱节。Pandas采用即时执行与内存驻留设计，导致过滤、聚合等操作频繁触发全量数据拷贝与单线程计算；而Polars通过LazyFrame构建表达式树，引入谓词下推、投影裁剪和聚合折叠等查询优化技术，并依托Rust引擎与Apache Arrow实现全链路并行与零拷贝内存管理。这种范式升级不仅带来10倍级性能提升，更支撑PB级数据湖接入、MLOps亚秒预处理及高并发实时分析等现代工程场景。本文深入解析Polars的延迟执行机制与底层优化逻辑。

SparkML Pipeline工程实践：构建生产级特征处理流水线

Coding

06-25

357

SparkML Pipeline 是 Apache Spark 中实现机器学习工作流标准化与可复现性的核心机制，其本质是将特征工程、数据转换与模型训练封装为强约束的原子化流程。它通过 Estimator/Transformer 范式确保训练与推理逻辑严格一致，从根本上解决数据漂移、状态不一致和人工预处理不可复现等典型工程痛点。在物联网、传感器分析等大数据场景中，Pipeline 对 StringIndexer 映射一致性、OneHotEncoder 稀疏表示、VectorAssembler 向量整合及 No

Python实现安全日志智能降噪：从告警疲劳到精准事件摘要

cmff98425的博客

07-02

339

在安全运维领域，海量日志处理与告警降噪是提升运营效率的核心挑战。传统基于固定规则的过滤方法难以应对动态变化的攻击模式，导致告警疲劳与关键威胁遗漏。其技术原理在于通过时间窗口划分、特征聚类与行为模式分析，对离散的原始告警进行智能聚合，从而提取高价值的安全事件。这种方法的价值在于显著降低噪音干扰，提升安全分析师对真实威胁的响应效率。在应用场景上，它广泛适用于SIEM平台、防火墙、WAF及IDS/IPS等安全设备的日志分析。本文聚焦于利用Python实现一套完整的智能降噪系统，通过**时间窗口分组**与**事件速