大岩量化：浅谈量化中的数据清洗——处理缺失值

最新推荐文章于 2025-02-28 08:57:00 发布

原创

最新推荐文章于 2025-02-28 08:57:00 发布 · 1.1k 阅读

收录于

当前文章被以下社区和专栏收录：

本文探讨了量化研究中数据清洗的重要环节——处理数据缺失值。介绍了缺失值的概念及其对模型影响，列举了填充和删除两种常见处理方法，并针对未定义数据和无交易数据的特殊情况提出了处理建议，强调在清洗时应尽可能保持数据原始逻辑并尝试多种策略寻找最佳方案。

上一篇文章《浅谈量化中的数据清洗——处理异常值》中，我们讨论了关于异常值的清洗和假设。本文中，我们再聊聊数据缺失值的清洗和假设。

量化研究模型往往是建基于大量数据，然而，在数据挖掘过程中，经常会遇到挖掘出来的特征数据存在各种异常情况，比如数据异常、数据缺失等。对于这些情况，如果不加以处理，将可能直接影响到最终模型建立后的使用效果，甚至可能导致模型失效。所以对于数据挖掘工程师来说，掌握必要的数据清洗方法是很有必要的！

什么是缺失值

缺失值，指的是缺少的数据，由于部分数据结构是齐整的，比如矩阵，缺失的数据会变成空值（NAN）留在其中，对我们后续的研究带来麻烦。我们需要分析后并去掉它们的影响。对于缺失值，量化中常见的处理方法是填充或删除。我们先分析泛用的清洗方法，再来研究数据的特性，对缺失值进行分类。

处理缺失值的泛用方法——填充

标签

#数据分析 #数据挖掘 #算法 #机器学习 #python

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jasper668

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

量化交易系统如何处理数据的清洗和预处理？

zhangzhechun的专栏

07-04

586

量化交易系统的数据清洗和预处理是构建一个有效交易策略的关键步骤。数据清洗和预处理包括处理缺失值、异常值、重复数据、格式转换以及数据规范化等。

Python科研数据分析专题之缺失值填补

weixin_45825086的博客

01-20

2283

利用Pandas进行数据清洗之缺失值填补的几种实战方法及讲解。

参与评论您还未登录，请先登录后发表或查看评论

python股票数据清洗,量化交易股票数据清洗工作不用愁，Python帮你解忧愁

weixin_39942213的博客

03-26

985

本文介绍了股票1分钟数据常见的一些问题，比如时间少于240分钟，数据不准确，时间格式不一致等等，之后展示用Python找出这些问题的思路和代码。网上教学量化交易的文章很多，但是在我自己从事量化的这两年多里面，第一年我50%的工作量都花在了数据处理上面，其中预处理中的股票数据清洗工作在最初阶段占用了我大量的时间。一开始我就没有用手工的方式去做，我用python去做清洗的。但是股票1分钟数据里面各种奇...

处理数据时，遇到缺失值与异常值怎么办？

十三

11-17

5863

缺失值：是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。异常值：异常值是指数据集中存在不合理的值，又称离群点。一组测定值中与平均值的偏差超过两倍标准差的测定值，与平均值的偏差超过三倍标准差的测定值，称为高度异常的异常值。 缺失值处理删除。如果有缺失值的样本占比总样本数量很少的情况下，可以进行删除；或者某列特征缺失值占比很大，且重要程度不大，可以删除整列不做处理。树模型、神经网络、贝叶斯模型对于缺失数据不是非常敏感。因此可以采用这些模型

07-20 缺失值处理二+ 异常值处理

weixin_46400833的博客

07-21

668

缺失值处理二一：删除法对于缺失值，一般不会直接进行删除，因为删除过多影响数据分析，所以会对其进行第二中操作，补齐二：填补法( 一般适用于元素为 float 或者 int的数据) 1. 均值或中位数补齐法： df.age ---查看age列 df.age.mean() ----查看年龄列平均值 df.age.fillna( df.age.mean() ) ----使用均值填补，即在缺失值位置补上均值 df.age.median() _中位数的查看 df.age.fillna（

大岩量化：浅谈量化中的数据清洗——处理异常值

jasper668的博客

03-09

1440

在量化研究中，免不了对大量数据进行研究，而在研究之前，必不可少一道工序——数据清洗。市场上的大多研究报告中，都会介绍如何清洗所用数据，但少有报告直接分析清洗步骤带来的信息改变，以及做出的研究假设。笔者试图总结常见的清洗方法，将数据清洗定义为处理异常值和缺失值，同时讨论以下几个问题：什么是异常值和缺失值？清洗丢失了哪些数据信息？清洗隐含了哪些研究假设？本主题将分为两篇小文，分别讨论异常值与缺失值。本文中，我们讨论关于异常值的清洗和假设。什么是异常值异常值，指的是数据中不合理的值，通

2. 量化多因子数据清洗——去极值、标准化、正交化、中性化

HaileeRPIJNU的博客

06-02

4789

量化多因子数据清洗

数据分析----数据清洗

qq_54730312的博客

11-24

4358

随着科技的不断发展，数据在我们生活中越来越多，面对繁杂的数据，我们根本无从下手，本文就简单的介绍一下数据分析中的数据清洗。以上就是今天总结的数据清洗的主要4个步骤，想要学习数据分析的伙伴们抓紧时间吧，动起来！！！

量化金融分析AQF（5）：金融数据获取、清洗、整理和存储（Yahoo、Tushare）

陈宸的博客

03-16

4327

目录一. 从不同数据来源获取——本地 1.1 常用：Pandas读取CSV 二. 从网络Open Source读取 2.1 Yahoo 2.2 Tushare 三. 数据存储 3.1 存储HDF5 3.2 读取HDF5 3.3 读取存储栗子一. 从不同数据来源获取——本地 1.1 常用：Pandas读取CSV # 下载对应的股票代码的历史数据并整合出来...

量化投资学习——高频交易数据清洗

m0_37876745的博客

06-25

3537

目前刚刚入职公司，拿到的第一份任务是做数据清洗，关于数据清洗，还是要看国外的大师的研究，根据《统计视角下的金融高频数据挖掘理论与方法研究》一书（这里要多说一句的是，jackson啊jackson，你总是能找到一些很好的书，这完全没有问题，但是你又看了多少呢？恐怕没好好看吧，看了书一定要及时做笔记，做记录，不然你这个乱七八糟的脑子，根本就记不住什么东西的）在文章里，虽然找不到原文了，但是里面提到...

量化交易很好，但是也存在问题

湾区人工智能

06-18

7630

来源：https://www.sohu.com/a/162823948_152957最近这段时间，量化交易非常的火爆，很多的投资者都开始尝试使用量化交易来为自己赚钱。甚至现在有一种结论，就是量化交易万能论，什么意思呢？就是使用量化交易，就能够让你自己一直赚钱，而且永远都赚钱。这种想法就太天真了，要是真的这么容易，这个方法早就被用滥了，为什么现在用的人还这么少？究其原因，并不是有了一套好的量化系统了...

利用python建立股票量化交易系统（一）——小市值选股票模型

最新发布

云策量化的博客

02-28

968

在量化交易的世界里，数据是一切策略的基石。没有准确、干净的数据，即使是最复杂的算法也无法发挥其应有的作用。因此，数据清洗和预处理成为了量化交易中不可或缺的一环。本文将带你深入了解量化交易中的数据清洗与预处理方法，让你的数据更加精准，策略更加有效。

机器学习—数据清洗总结

dream6104的专栏

04-26

6303

需要清洗数据的主要类型：¶ 残缺数据、错误数据、重复数据 数据清洗方法：¶ (1)不完整数据：经验推导，平均最大最下，甚至概率估计，或建立回归模型，插值法等 (2)错误值检测，异常点检测，偏差分析，规则库等 (3)重复值，将重复记录合并、清楚 数据清洗的评价标准¶ (1)可信性,可信性包括精确性、完整性、一致性、有效性、唯一性等指标。¶ (1)精确性：描述数据是否与其对应的客观实体的特...

【量化交易】数据清洗与预处理

在路上的专栏

12-11

2402

在量化投资中，数据是成功的基石。然而，金融数据往往并不像我们希望的那样整洁。缺失值、异常值、数据不一致等问题常常出现在我们面对的第一份数据集上。数据清洗与预处理便是帮助我们将这些杂乱无章的数据转化为有用信息的过程。本文将深入探讨数据清洗和预处理中的常见技术，包括如何处理缺失值、异常值以及进行数据归一化等操作。通过具体的案例和代码示例，本文将帮助你理解这些技术如何应用于量化投资中，确保数据能够为你的投资策略提供准确可靠的支持。

dataframe pandas 取得当前时间段的后一个时间点数据

a5601564的博客

09-28

2969

数据从星期一到星期五的日线数据形成周线数据，然后想定位到所对应的周线数据的情况，就可以通过 backfill参数实现。 data_day_df.index.get_loc(current_kline.open_time, method='backfill') open_time为当前的日线级数据。运算后得到周线数据。 ...

数据清洗概述（数据清洗读书笔记）

qq_48955728的博客

09-09

561

1.1数据清洗的背景 1.1.1数据质量概述数据质量是指在业务环境下，数据符合数据消费者的目的，能满足业务场景具体需求的程度。从适用性的角度看，数据质量是一个相对的概念（与决策有关）。数据质量的特点： 1.“业务需求”会随时间变化，数据质量也会随时间变化。 2.数据质量可以借助信息系统度量，但独立于信息系统存在。 3.数据质量存在于数据的整个生命周期，随数据的产生而产生，随数据的消失而消失。 1.1...

数据清洗

两三点Water

02-27

8220

目录特征编码序号编码独热编码二进制编码离散化 缺失值填补异常值处理 IQR Z-score DBSCAN 孤立森林归一化标准化补充参考博客这里我们不说图片数据，图片数据的处理有专门的CV方向，我们就来说说文本数据或者“数字数据”。对于文本数据，显然计算机没办法处理，比如说“星期一”，计算机看不懂，怎么办？答：可以变成数字。注：其...

量化分析（一）数据采集、预处理&SVM建模

发现问题，并解决问题，批判性思维

02-29

6910

一.数据采集在此量化框架内，全部使用本地化计算。优势： 1.稳定——不会因网络不稳定而导致分析过程中断。 2.快速——本地化运算对于数据的访问速度比在线获取数据快，当机器学习的算法涉及到海量数据做训练集或迭代训练的时候，这一点尤其重要。 3.可复用——无论基础的行情数据还是加工处理后的数据，保存在本地后，对于后续进行结果分析或策略优化时更为方便。本地化计算，首先要做的，就是将所需...