13、PySpark数据处理:分组聚合、空值处理与JSON数据处理

PySpark数据处理:分组聚合、空值处理与JSON数据处理

1. PySpark分组聚合操作

在PySpark中进行列的分组和聚合时,我们可以充分利用Column对象的强大功能,对自定义列进行分组和聚合。下面以计算每个电视频道的商业节目时长和总节目时长为例进行说明。

首先,定义一个用于计算商业节目时长的表达式:

from pyspark.sql import functions as F

# 定义计算商业节目时长的表达式
commercial_duration_expr = F.when(
    F.trim(F.col("ProgramClassCD")).isin(
        ["COM", "PRC", "PGI", "PRO", "LOC", "SPO", "MER", "SOL"]
    ),
    F.col("duration_seconds"),
).otherwise(0)

上述代码中, F.when() 函数用于根据条件返回不同的值。当 ProgramClassCD 列的值经过去除首尾空格后,在指定的商业节目代码列表中时,返回 duration_seconds 列的值;否则返回0。

接下来,使用这个表达式进行分组聚合操作:

answer = (
    full_log.groupby("LogIdentifierID")
    .agg(
       
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值