数据挖掘概念与技术(原书第三版)范明 孟小峰译-----第一章课后习题答案

本文是《数据挖掘概念与技术》第三版第一章的课后习题解答,涵盖了数据挖掘的定义、与广告、统计学、机器学习的关系,知识发现步骤,数据仓库与数据库的区别,数据挖掘在商务中的应用,以及聚类、分类、回归等概念的区分。并探讨了离群点检测、数据挖掘方法与用户交互的挑战,以及海量数据挖掘的难点。

第一章答案


该答案为重庆大学计算机学院Jack Channy所作,由于本人水平有限,难免有错误和不当之处,如有意见请评论或者发邮件至majiecqu@126.com。

1.1 什么是数据挖掘?在你的回答中,强调以下问题:
(a)它是又一种广告宣传吗?
(b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?
(c)我们提出了一种观点,说数据挖掘是数据库技术进化的结果。你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这一观点吗?针对统计学和模式识别领域,做相同的事。
(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。

  • 数据挖掘不是一种广告宣传,它是一个应用驱动的领域,数据挖掘吸纳了诸如统计学习、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和许多应用领域的大量技术。它是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或动态的流入系统的数据等。当其被看作知识发现过程时,其基本步骤主要有:(1).数据清理:清楚噪声和删除不一致数据;(2).数据集成:多种数据源可以组合在一起;(3).数据选择:从数据库中提取与分析任务相关的数据;(4).数据变换:通过汇总或者聚集操作,把数据变换和统一成适合挖掘的形式;(5).数据挖掘:使用智能方法或者数据挖掘算法提取数据模式;(6).模式评估:根据某种兴趣度量,识别代表知识的真正有趣的模式。(7).知识表示:使用可视化和知识表示技术,将已经挖掘到的有用知识给用户呈现出来。

1.2 数据仓库与数据库有什么不同?它们有哪些相似之处?

  • 数据仓库是多个异构数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。数据库系统也称数据库管理系统,由一组内部相关的数据(称作数据库)和一组管理和存取数据的软件程序组成。它们的相似之处:都是通过某个数据库软件,基于某种数据模型来
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值