Dragon
  • 欢迎来到主题派官网,主题源码,插件,模板下载。wordpress,thinkphp,discuz,织梦模板,小程序。
主题派主题派  2023-06-16 14:11 主题派 隐藏边栏 |   抢沙发  0 
文章评分 0 次,平均分 0.0

火车头采集器定时采集更新网站内容(长期做站必用)

 

教程总目录:火车头采集器使用教程

 

前面的教程我们基本能完成网站内容的采集工作了。但是我们想要网站长期运行的话,肯定不能单靠一次采集来完成。

火车头自带的有计划任务功能,我们可以使用这个功能来实现定时运行采集任务。

另外我们采集的地址也需要做一些变更,提高采集效率。

 

1.采集地址设置

前面教程李我们的目的是把对方整站的内容给采集过来,所以采集列表里网址比较多,后面我们持续采集新内容的话就不能扫描整个网站这样来了。

我们只监控第一页即可,然后定时检测第一页有没有新内容,有新内容火车头会自动采集下来数据。没有的话扫描过后自动会停止。

以景安的文章为例 https://server.zzidc.com/fwqjc/

这个是他的文章列表第一页,当景安更新了新内容,肯定会在第一页这里显示。我们就把第一页这个地址填入采集列表即可。这里不再重复说怎么填了吧,教程开头几篇文章写了

另外一点需要注意,因为我们定时运行时他要检测是不是采集过的文章,所以说我们不要清除火车头的采集数据。不然的话火车头检测发现文章都没采集过,都当做新文章采集了。

2.定时任务设置

本教程只创建了一个任务,如果你是长期运行一个网站。你网站每个版块可能都采集的是不同的文章来源,甚至一个版块才几个多个网站的文章。任务就非常多

我们可以批量添加定时任务

点击计划任务

我们先创建一个计划任务分组

然后在分组内添加计划任务,这样比较好管理

然后里面的间隔时间根据要采集的网站更新频率来设置,他更新快你就间隔时间短点。更新慢的话就长点,比如景安这个网站,可能几天几个月都不更新,就设置间隔时间为每天就行。

限定时间段

这个应该也都理解,就是计划任务在什么时间段内生效,默认是早上 6 点到晚上 23 点。我一般会给他改成全天的

 

扩展知识

因为采集任务长期运行,我们最好是将胡扯回头放到一台服务器上跑,家里有比较省电的机器的话也可以用来挂采集任务。

采集任务比较多的话还是挺消耗 CPU 的,一般建议在家里挂。家庭带宽外网 IP 经常变动有利于采集,而且硬件配置基本也都比买的服务器配置高。不用担心火车头运行着出现卡死的情况。

「点点赞赏,手留余香」

还没有人赞赏,快来当第一个赞赏的人吧!

主题派给主题派打赏
×
予人玫瑰,手有余香
  • 2
  • 5
  • 10
  • 20
  • 50
2
支付

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

主题派
主题派 关注:0    粉丝:0
Wordpress主题,插件,源码商城

发表评论

表情 格式 贴图 链接 私密 签到 常用语
扫一扫二维码分享
×
艾瑞克网