PySpark数据处理:分组聚合、空值处理与JSON数据处理
1. PySpark分组聚合操作
在PySpark中进行列的分组和聚合时,我们可以充分利用Column对象的强大功能,对自定义列进行分组和聚合。下面以计算每个电视频道的商业节目时长和总节目时长为例进行说明。
首先,定义一个用于计算商业节目时长的表达式:
from pyspark.sql import functions as F
# 定义计算商业节目时长的表达式
commercial_duration_expr = F.when(
F.trim(F.col("ProgramClassCD")).isin(
["COM", "PRC", "PGI", "PRO", "LOC", "SPO", "MER", "SOL"]
),
F.col("duration_seconds"),
).otherwise(0)
上述代码中, F.when() 函数用于根据条件返回不同的值。当 ProgramClassCD 列的值经过去除首尾空格后,在指定的商业节目代码列表中时,返回 duration_seconds 列的值;否则返回0。
接下来,使用这个表达式进行分组聚合操作:
answer = (
full_log.groupby("LogIdentifierID")
.agg(
超级会员免费看
订阅专栏 解锁全文
490

被折叠的 条评论
为什么被折叠?



