当我将百度股吧作为nutch爬行首发url时,总是被nutch忽略。百思不得其解。最开始以为是url问题,所以导致我将url各种换但还是不行。最后无意中察看了下配置文件regex-urlfilter.txt才恍然大悟。
将其中的-[?*!@=] 改为: -[~]
本文介绍了解决Nutch爬虫在抓取百度股吧URL时遇到的问题。通过调整配置文件regex-urlfilter.txt中的正则表达式,成功解决了URL被忽略的情况。
当我将百度股吧作为nutch爬行首发url时,总是被nutch忽略。百思不得其解。最开始以为是url问题,所以导致我将url各种换但还是不行。最后无意中察看了下配置文件regex-urlfilter.txt才恍然大悟。
将其中的-[?*!@=] 改为: -[~]

被折叠的 条评论
为什么被折叠?