【python数据挖掘课程】二十九.数据预处理之字符型转换数值型、标准化、归一化处理

原创已于 2022-01-19 17:03:09 修改 · 9.2k 阅读

·

9

·

标签

#数据挖掘 #Python #数据预处理 #归一化 #标准化

于 2019-11-23 14:28:26 首次发布

知识图谱、web数据挖掘及NLP 专栏收录该内容

73 篇文章 ¥9.90 ¥99.00

订阅专栏

本文是《Python数据挖掘课程》的一部分，讲解了数据预处理中的关键步骤，包括字符型特征转换为数值型、数据标准化和归一化处理。文章以KDD CUP 99数据集为例，介绍了数据特征描述和预处理方法，如TCP连接特征、时间流量统计特征和主机流量统计特征。此外，还讨论了KDD 99数据集在入侵检测中的作用，以及特征选择的重要性。最后，展示了数值标准化和归一化的代码实现及其对数据的影响。

这是《Python数据挖掘课程》系列文章，前面很多文章都讲解了数据挖掘、机器学习，这篇文章主要讲解数据分析预处理中字符特征转换为数值特征、数据标准化、数据归一化，这都是非常基础的工作。最后通过KNN实现KDD CUP99数据集的分类。
文章比较基础，希望对你有所帮助，提供些思路，也是自己教学的内容。推荐大家购买作者新书《Python网络数据爬取及分析从入门到精通（分析篇）》，如果文章中存在错误或不足之处，还请海涵。

安全资源下载地址：https://github.com/eastmountyxz/NetworkSecuritySelf-study
恶意代码下载地址：https://github.com/eastmountyxz/AI-for-Malware-Analysis-
数据分析系列代码：https://github.com/eastmountyxz/Python-for-Data-Mining
希望读者能帮Github点个赞，一起加油。

文章目录

一.KDD CUP背景知识
二.数据特征描述
三.Python数据处理
- 1.KDD 99数据集评价
- 2.字符型转换为数值型
四.数据标准化和归一化
- 1.数值标准化
- 2.数值归一化
五.KNN检测
- 1.KNN
- 2.算法实现

前文参考：
【Python数据挖掘课程】一.安装Python及爬虫入门介绍
 【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍
 【Python数据挖掘课程】三.Kmeans聚类代码实现、作业及优化
 【Python数据挖掘课程】四.决策树DTC数据分析及鸢尾数据集分析
 【Python数据挖掘课程】五.线性回归知识及预测糖尿病实例
 【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识
 【Python数据挖掘课程】七.PCA降维操作及subplot子图绘制

了解本专栏

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Eastmount 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。