火车头采集指定特征的网址

编程开发 / , / at

前些天用火车头从一个列表页采集一些网址,源码简化如下:

<div>
<a href="1">111</a>
</div>
<div>
<a href="2">222</a>
<img src="" />
</div>
<div>
<a href="3">333</a>
</div>

我要采集到第二个链接,就是链接后指定有个IMG的,这个常用来采集热门帖子等,当时写的网址采集规则

<a href="[参数]">(*)</a>
<img src="" />

却发现怎么都采集不对,最后想到原因:火车头从源码的前面开始匹配,每个链接都有<a href=”[参数]”>这个特征,所以就匹配到了第一个链接上面,怎么解决呢?花了10块钱,一个兄弟帮我写了个规则:

<a href="[参数]">[参数]</a>
<img src="" />

就是把模糊匹配(*)给换成了[参数],隐隐约约的有些明白了

2条回应:“火车头采集指定特征的网址”

  1. 吹水说道:

    楼主能不能再讲清晰些呢,本人正在用火车头,但有时不懂规则的编写

  2. 吴磊说道:

    写的不错,正好用上,不过我是采集img 的 src 给dedecms的缩略图字段用。

发表评论

电子邮件地址不会被公开。 必填项已用*标注