火车头采集器使用教程–分析目标网站文章链接位置及规则
上一篇文章我们批量添加了他列表页的地址。
下面我们要从列表页分析出来他文章的地址。
首先看下,在列表页里面他的文章链接都在我红线画出的部分。
然后我们就可以从画出这部分里面的代码找到地址,我们看一下
是在 server-r2 这个 div 里面
注:我用的是浏览器带的调试功能,直接按键盘 F12 就出来了。
我们查看网页源代码,浏览器按 CTRL+U 即可
CTRL+F 搜索 server-r2,可以看到只有一个结果,没有其他重复项
那么这个就可以作为我们火车头采集器自动从列表页分析文章链接的开始部分了。我们复制 server-r2,填入火车头的开始字符串那里,意味着火车头从这一段开始寻找文章链接。
然后我们还要确定下结束字符串位置
直接看下列表页最后一个文章是啥
然后再源码里面看看这个文章在哪个位置
找到了位置,我们尽可能在他下面找下一个 DIV 开始的标记。这里我们找到了
<div class="cp-manu" style="margin-top:14px">这个 DIV,我们复制 class="cp-manu" style="margin-top:14px 作为火车头的结尾字符串
其实这时候已经可以查找到准确的文章链接了,但是我们最好还是加一个过滤
在连接过滤–必须包含里面填入.html 这个内容,然后回车键即可。想添加更多条内容就在输入过滤规则,再回车。
后面那个设置图标点一下可以选择:满足其中一个条件或者满足所有条件。
以上基本完成了我们采集文章链接的规则,我们点一下下方的保存,先存一下。
如果你是新建任务规则可能提示你要输入任务名
然后我们点保存上面的:网址采集测试
看看链接采集有没有问题
因为是测试,我们点进去后他很快会采集很多列表页,我们点击停止,不需要采集这么多,现在还是测试。
点击左侧的加号,展开链接,看看链接对不对,是不是文章的链接地址。
然后发现了第二个有个地址跟其他的不一样,直接鼠标放上去点下右键,可以复制网址,打开看看是不是文章地址就行了。是的话就没问题
从这一步也可以看到我们上面说的过滤规则的重要性,很多时候你会采集到无关的地址,或者是过滤掉了正确的文章地址。
我们可以开始设置内容采集了,请看下一篇文章。
还没有人赞赏,快来当第一个赞赏的人吧!
- 2¥
- 5¥
- 10¥
- 20¥
- 50¥