大数据时代
案例1:告诉客户已经的信息,如告诉牧民有多少只羊;
告诉客户无用的信息,如告诉牧民有多少只公羊、多少只母羊;
大数据分析,数据探索,发现有用的信息,分析潜在的价值,提供建议。如告诉牧民如何保持公羊、母羊的平衡,什么时候出栏收益最高,不同类型羊怎么样管理和饲养。
数据分析师的三个类别:
发现经验、描述问题————数羊的
被动接受、分析原因、解决问题————分析羊的
主动预见、解决问题、创造价值————帮着卖羊的
第一部分 什么是大数据
1.重点
发现相关关系——创造效益
允许不完美,会增加效率
分析全体,而不是抽样
2.特点
海量数据分析——创造巨大的价值、新型的产品和深刻的洞见
如谷歌通过搜索词条预测流感爆发,Farecast预测航班价格为每张机票平均节约50美元
3.时代
信息爆炸+计算机提速
量变引发质变——数学算法、海量数据、预测大致方向
关注“是什么”,而非“为什么”
大数据很早就存在,只是以前我们没有认知,天气预报就属于大数据分析。数据掌握在极少部分人手里。
雾霾在十年前就存在,只是那时候我们不知道叫雾霾,只知道是雾。
第二部分 思维变革
1.对象升级:关注所有数据,而非部分采样。但是不要迷信大数据,在没有大量数据的情况下,尽可能取得多的数据,有总比没有好。
2.统计学:
(1)方向:用尽可能少的数据,证实尽可能重大的方向。
(2)小数据:随机采样、成本高、需尽可能减少误差、随机度越高精度越高。
案例:美国人口普查采取的穿孔卡片,时间滞后性;
(3)大数据:全体数据,样本=总体
依赖现存的大数据
允许误差和不精确
能带来更多价值
案例:乔布斯利用大数据基因治疗癌症。对比自身DNA与肿瘤DNA进行排序。
小数据有小数据的好处,大数据有大数据的优势。
3.相关关系
关联物:如果A和B经常一起发生,若B发生了,则A也很可能发生
案例:亚马逊书评系统;零售商与怀孕趋势;早产儿病情;沃尔玛啤酒与尿不湿;
大数据基础上的简单算法比小数据基础上的复杂算法更有效。
4.两种思维
快速思维 :自定因果联系;通常因果不明确;依赖于经验,容易误判
慢速思维:更加努力地思考;思考全面、到位;偏向于大数据分析
第三部分 商业变革
数据化:一切都可以数据化
数字化是把模拟数据变成计算机可读的数据,而数据化是通过数学分析挖掘数据更大的价值,可读,可分析。
案例:日本先进工业技术研究所的坐姿研究与汽车防盗系统;电子书;全球定位 系统与导航和及时车况信息;微博与电影票房,如豆瓣
当前时代,大家把信息技术变革的重点都关注在T上了,而不是在I上。
数据创新:(1)信息,市场交易必不可少;所有的数据都有价值;可以被多次不同的目的使用
(2)估值,如Facebook估值1040亿美元,而其实质资产只有66亿,其每个用户及其所包含的数据估值100美元(无形资产)
(3)价值链,基于数据本身的公司,有大量数据,可授权、可出售。如Twitter授权其他独立公司使用数据
基本技能的公司,掌握专业技能,具备数据分析的技术和服务,可创新,可增值。如埃森哲
基本思维的公司,挖掘新价值,创造独特的想法。如谷歌、亚马逊
创新应用:(1)再利用,人流车流——影响房价和广告牌出租价格
(2)重组数据,房产交易+地图——预估房价
(3)扩展数据,如沃尔玛通过监控摄像头统计每位顾客在每个货架停留的时间长短;谷歌地图和街景地图为无人驾驶汽车提供帮助
(4)数据折旧,SEO,存储以往的搜索记录,通过旧搜索数据,查询排名靠前
(5)数据废弃,拼写错误——辅助输出正确结果,谷歌输入法的拼写检查
(6)数据开放,政府数据开放
第四部分 管理变革
1.风险
(1)隐私数据被二次利用
(2)预测与惩罚,对现有法律的挑战
人们不是 因为所做而受到惩罚,而是因为将做,即使他们事实上并没有犯罪。
(3)数据独裁,为了数据统计而伪造数据
战争中以死亡人数和击毙地方人数判断战争的胜利与否,导致逐层上报数据失真。
(4)摆脱对数据的过度 依赖
2.掌控
(1)个人隐私保护,从个人许可到让数据使用者承担责任
(2)个人动因VS预测分析
(3)击碎黑盒子,大数据算法师的崛起
内部算法师(监督内部数据活动)和外部算法师(审计员角色)
(4)反数据垄断大亨
4712

被折叠的 条评论
为什么被折叠?



