Python — 偶遇的函数 — 更新中

原创已于 2025-01-10 10:57:40 修改 · 1.5k 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#python

于 2021-01-21 20:57:14 首次发布

Python 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了Python中几个常用的数据处理和分析函数，包括自然排序函数natsort、累积函数如cumsum，以及如何使用isinstance检查对象类型。还讨论了如何利用dropna过滤NaN，使用%timeit测量代码执行时间，以及数据打乱和去重的方法。对于时间处理，提到了strftime和dt.date在处理时间数据时的区别。这些技巧对于提升数据处理效率非常有帮助。

自然排序函数natsort

累积函数

Isinstance查看一个对象是否是指定类的实例

.values.tolist() 数组转列表

strftime('%y-%m-%d')与dt.date 时间

计算百分比变化

pandas 库中的 .pct_change() 方法用于计算数据序列中相邻元素之间的百分比变化。它对于分析时间序列数据、金融数据等非常有用，可以用来计算增长率、收益率等指标。

.pct_change() 方法默认计算每个元素与其前一个元素之间的百分比变化。公式如下：

Percentage Change=(Current Value−Previous Value) / Previous Value

如果 Previous Value 为零或缺失（NaN），则结果将为 NaN。

df['pct_change'] = df['value'].pct_change()

.pct_change() 方法有多个参数，可以根据需要进行调整：

periods：指定用于计算百分比变化的滞后期数。默认值为 1，表示计算当前值与前一个值之间的变化。
fill_method：指定如何处理缺失值（NaN）。默认值为 'pad'，即使用前向填充方法。
limit：指定在前向填充时的最大填充次数。仅当 fill_method='pad' 或 ffill 时有效。
freq：指定重采样频率，适用于时间序列数据。

自然排序函数natsort

将1、10、2、33、4 排序为 1、2、4、10、33

import natsort as ns

ns.natsorted(num_list,reverse=True)

data.sort_values(day_cut,key=lambda val:np.argsort(index_natsorted(val)))

累积函数

cumsum、cumprod、cummax、cummin

计算序列中前n个数的累积和、乘积、最大值、最小值

Isinstance查看一个对象是否是指定类的实例

if isinstance(num, int):
    return int(num)

dropna 过滤NaN函数

对于dataframe：

df.drop()	会丢弃掉至少有一个NaN的行
df.drop(how='all')	会丢弃掉全部为NaN的行
df.dropna(axis=1,how='all')	会丢弃掉全部为NaN的列
df.dropna(axis=0,subset = [1])	会丢弃掉 "1"列中有NaN的行