之前用Java作日志分析,算PV的时候,要把URL提取出来,然后用hash来累计。
后来日志多了,单机扛不住,就改上hadoop,算法基本不变。
但今天发现,其实用awk命令就可以简单做到。而且性能相当快。再加上sort,连排序都一起做了。超级爽。
本文介绍了一种使用Awk命令简化日志分析的方法,该方法能够快速地从日志中提取URL并进行计数,同时配合sort命令实现排序功能,相比传统的Java或Hadoop解决方案,这种方法更简单且性能优异。
之前用Java作日志分析,算PV的时候,要把URL提取出来,然后用hash来累计。
后来日志多了,单机扛不住,就改上hadoop,算法基本不变。
但今天发现,其实用awk命令就可以简单做到。而且性能相当快。再加上sort,连排序都一起做了。超级爽。
589

被折叠的 条评论
为什么被折叠?