火车采集器去掉URL链接无用参数

编程开发 / , / at

火车采集器在采集时经常会碰到动态页面路径,页面路径后面一条长长的参数,有时候采集时容易造成重复采集,举个例子,我要采集
http://group.renren.com/GetThread.do?id=328246226&parentpage=0&curpage=0&label=&tribeId=258421693
而其中parentpage=0指的是此贴所在页面参数,如果这个帖子被人顶到第二页,那就是parentpage=1,而下次采集时,火车采集器将判断不出他们是重复的同一篇文章,即火车采集器重复采集了同样的一条内容,由于论坛帖子页数变动是相当大的,所以,很多帖子在二次采集会重复。有些参数对帖子实际的地址是没有影响的,比如上面一个地址最简短的写法
http://group.renren.com/GetThread.do?id=328246226&tribeId=258421693
其他的参数如何去掉呢?这就用到了火车采集器的“启用自定义连接格式得到地址”功能。步骤如下:
1、在采集网址规则里选择“手动填写链接地址规则”,会弹出如下图界面
[singlepic id=316 w=480 h=360 float=]
2、勾选“启用自定义连接格式得到地址”和“禁用系统自动识别连接”
3、脚本规则(查看地址获取页源代码,找到地址格式):
href=”http://group.renren.com/GetThread.do?id=[参数]&parentpage=(*)&curpage=(*)&label=(*)&tribeId=[参数]”>
4、实际链接
http://group.renren.com/GetThread.do?id=[参数1]&tribeId=[参数2]
这样应该能看明白吧,实际链接的[参数1]、[参数2]分别按顺序对应脚本规则的两个参数,其他变量可以用(*)表示。
再次测试下,看看火车采集器去掉URL链接无用参数后的结果吧。

发表评论

电子邮件地址不会被公开。 必填项已用*标注