网站内网页互相循环链接造成nutch无限循环抓取

【网站内网页互相循环链接造成nutch无限循环抓取】

网站内网页互相循环链接造成nutch无限循环抓取

文章插图
内部网页互相循环链接,导致nutch无休止的循环爬行 。简介:@杨尚川你好,我想问你一个问题:我们用nutch 2.3抓取了一个测试网站 。网站有四个页面:A、B、C和d 。其中a->:B->;c->;d- gt;A当nutch抓取时,会导致无限循环抓取 。我也在线 。