海量数据统计总结...

最新推荐文章于 2025-11-27 22:15:00 发布

原创最新推荐文章于 2025-11-27 22:15:00 发布 · 1.4k 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

收录于

面试....

本文介绍了一种处理大规模数据集的有效方法，通过分而治之的策略，利用哈希映射和堆排序来统计和排序数据项的频率。具体案例包括基于query频度的排序及找出访问特定网站次数最多的IP地址。

1.有10个文件，每个文件1G，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。如何按照query的频度排序。

2.海量日志数据，提取出某日访问百度次数最多的那个IP。

对于这类问题，通常要使用分而治之的思想，因为内存中不能够存放的下所有的数据，为了保证将海量数据分成几个小块后，每个小块中的元素都互不相同，也就是值相同的元素要被分到同一个数据块中，可以使用hash的方法， hash(value) % n, n就是要分的块数，这样在每个小块中在使用hash_map的方法统计每个value的频度，再利用堆排序对每个小块的频度进行排序, 最后对所有的小块进行归并排序...

标签

#query #百度

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。