(读书笔记)大数据时代

大数据时代

案例1:告诉客户已经的信息,如告诉牧民有多少只羊;

              告诉客户无用的信息,如告诉牧民有多少只公羊、多少只母羊;

              大数据分析,数据探索,发现有用的信息,分析潜在的价值,提供建议。如告诉牧民如何保持公羊、母羊的平衡,什么时候出栏收益最高,不同类型羊怎么样管理和饲养。

数据分析师的三个类别:

             发现经验、描述问题————数羊的

             被动接受、分析原因、解决问题————分析羊的

             主动预见、解决问题、创造价值————帮着卖羊的


第一部分   什么是大数据

1.重点

     发现相关关系——创造效益

     允许不完美,会增加效率

     分析全体,而不是抽样

2.特点

     海量数据分析——创造巨大的价值、新型的产品和深刻的洞见

     如谷歌通过搜索词条预测流感爆发,Farecast预测航班价格为每张机票平均节约50美元

3.时代

     信息爆炸+计算机提速

     量变引发质变——数学算法、海量数据、预测大致方向

     关注“是什么”,而非“为什么”

大数据很早就存在,只是以前我们没有认知,天气预报就属于大数据分析。数据掌握在极少部分人手里。

雾霾在十年前就存在,只是那时候我们不知道叫雾霾,只知道是雾。


第二部分  思维变革

1.对象升级:关注所有数据,而非部分采样。但是不要迷信大数据,在没有大量数据的情况下,尽可能取得多的数据,有总比没有好。

2.统计学:

(1)方向:用尽可能少的数据,证实尽可能重大的方向。

(2)小数据:随机采样、成本高、需尽可能减少误差、随机度越高精度越高。

                          案例:美国人口普查采取的穿孔卡片,时间滞后性;

 (3)大数据:全体数据,样本=总体

                           依赖现存的大数据

                           允许误差和不精确

                           能带来更多价值

                          案例:乔布斯利用大数据基因治疗癌症。对比自身DNA与肿瘤DNA进行排序。

小数据有小数据的好处,大数据有大数据的优势。

3.相关关系

关联物:如果A和B经常一起发生,若B发生了,则A也很可能发生

案例:亚马逊书评系统;零售商与怀孕趋势;早产儿病情;沃尔玛啤酒与尿不湿;

大数据基础上的简单算法比小数据基础上的复杂算法更有效。

4.两种思维

快速思维 :自定因果联系;通常因果不明确;依赖于经验,容易误判

慢速思维:更加努力地思考;思考全面、到位;偏向于大数据分析


第三部分  商业变革

数据化:一切都可以数据化

数字化是把模拟数据变成计算机可读的数据,而数据化是通过数学分析挖掘数据更大的价值,可读,可分析。

                案例:日本先进工业技术研究所的坐姿研究与汽车防盗系统;电子书;全球定位 系统与导航和及时车况信息;微博与电影票房,如豆瓣

               当前时代,大家把信息技术变革的重点都关注在T上了,而不是在I上。

数据创新:(1)信息,市场交易必不可少;所有的数据都有价值;可以被多次不同的目的使用

                    (2)估值,如Facebook估值1040亿美元,而其实质资产只有66亿,其每个用户及其所包含的数据估值100美元(无形资产)

                    (3)价值链,基于数据本身的公司,有大量数据,可授权、可出售。如Twitter授权其他独立公司使用数据

                                             基本技能的公司,掌握专业技能,具备数据分析的技术和服务,可创新,可增值。如埃森哲

                                             基本思维的公司,挖掘新价值,创造独特的想法。如谷歌、亚马逊

创新应用:(1)再利用,人流车流——影响房价和广告牌出租价格

                    (2)重组数据,房产交易+地图——预估房价

                    (3)扩展数据,如沃尔玛通过监控摄像头统计每位顾客在每个货架停留的时间长短;谷歌地图和街景地图为无人驾驶汽车提供帮助

                    (4)数据折旧,SEO,存储以往的搜索记录,通过旧搜索数据,查询排名靠前

                    (5)数据废弃,拼写错误——辅助输出正确结果,谷歌输入法的拼写检查

                    (6)数据开放,政府数据开放


第四部分  管理变革

1.风险

(1)隐私数据被二次利用

(2)预测与惩罚,对现有法律的挑战

         人们不是 因为所做而受到惩罚,而是因为将做,即使他们事实上并没有犯罪。

(3)数据独裁,为了数据统计而伪造数据

        战争中以死亡人数和击毙地方人数判断战争的胜利与否,导致逐层上报数据失真。

(4)摆脱对数据的过度 依赖

2.掌控

(1)个人隐私保护,从个人许可到让数据使用者承担责任

(2)个人动因VS预测分析

(3)击碎黑盒子,大数据算法师的崛起

       内部算法师(监督内部数据活动)和外部算法师(审计员角色)

(4)反数据垄断大亨






          

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值