今年刚毕业的我就进入了数据挖掘这行,没过多久开始使用hadoop写了零星几个mapreduce,现在开始使用hive,并且在可预见的未来若干一段时间内还会一直用,可是网上关于hive的文章太杂乱,所以现在就读过的文章和知识点进行梳理和记录,希望经过一段时间的积累和学习后能够将hive归档,把hive的使用、特性、优化甚至加入实例放到一起,到时候发布出来方便大家使用。
先放几个工具地址
首先肯定是官方文档:
https://cwiki.apache.org/confluence/display/Hive/Home%3bjsessionid=D69F736C568B495777446D8EA4E39475
(2013年12月十几号的时候hive的官方文档应该是更新了,这几天看了下发现比之前的文档详细了好多啊!)
内建函数及其用法示例:
http://sishuok.com/forum/blogPost/list/6222.html
然后我觉得读阿里数据挖掘团队写的文章对理解hive是很有帮助的:
http://www.alidata.org/archives/category/cloud-computing/hive
目录:
- Join http://blog.csdn.net/tchqiq/article/details/17483587
- 关于增加分区和删除分区
409

被折叠的 条评论
为什么被折叠?



