火车头采集器内容页是如何分页采集的
2016-09-09 10:59:36   来源:   浏览: 次

导读:火车头不同的版本设置有些不一样,从网上找的一些内容是一个老版本的,估计是7,8 版本,我这里用的是9 0 11 19版本,就是9版本吧。在网上

火车头不同的版本设置有些不一样,从网上找的一些内容是一个老版本的,估计是7,8 版本,我这里用的是9.0.11.19版本,就是9版本吧。在网上找的一些设置截图都是不一样的。这里我讲下火车头采集9是如何设置内容页面分页采集的。

 

我们以火狐社会那个网站为采集列表页面讲。

首先添加列表页地址:

火车头采集火狐社会列表页

然后设置采集区域和链接提取规则,

采集区域

从 <div class="fl main_left"> 到 <div class="fr main_right">

提取规则 <a class="(*)" href="[参数]" target="_blank"> 然后在拼接di

火车头采集内容页分页采集区域和链接提取规则

 

接下来就是内容页面分页了。

分页有两种情况,第一种是“首页全部列出” ,第二种是“上下页模式”。

这里以这个采集地址为主,我们主要讲首页全部列出的情况。

其实内容页面分页 和 列表页面的分页是差不多的

找到内容页面分页的采集区域是

<p class='article_pages'> 到 </p> ,查看源代码看到

火车头采集内容页面分页的采集区域

 

然后连接提取出来 <a href="[参数]"

火车头采集内容页分页采集提取规则

 

到了这里再进行熟悉的内容匹配

区域是 <div class="article_content"> 到  <span id="advbox"></span>火车头采集内容页匹配

然后测试我们的网址

火车头采集文章页面分页测试

 

比对下我们的火狐的那个新闻地址,发现我们只是采集了第一页而已。

这里我也耽误了很久,查找了很多,就是找不到为什么,只采集第一页的内容。

因为9这个版本和之前的不一样。用的人估计也不是很多。估计网上有很多破解版的,

他们图个方便,也不会去官方下载,这里建议还是不要搞什么破解版本的,不晓得里面加了什么东西。

关键的一步是

点击内容标签=》数据来源=》点击第一个三角 然后会出来一个列表让你选择=》我们选择默认页和内容分页源码

这里的三个选项分别是 :1.默认页面 2.默认页和内容分页源码 3.关联多页。

 

火车头采集默认页和内容分页源码

 

再次采集。

 

火车头采集内容页分页采集测试成功

大功告成。