首页 > 主题开发 > 自动发布文章 > wordpress自动发布文章01-使用火车头采集目标网站
2018
05-02

wordpress自动发布文章01-使用火车头采集目标网站

火车头采集目标网站有什么好处

火车头采集目标网站有什么好处呢?

它会根据我们指定的网站进行采集,采集到的内容和我们网站的内容相关性高。

为什么不用站群软件采集呢?站群软件和火车头采集的方式不一样,站群软件用的是泛采集,而火车头是定向采集。泛采集是指:根据我们所设计的关键词,搜索相关内容进行采集,比如说,站群软件内置了几千个网站,然后从这些网站中来采集内容,这些内容是根据你设置的关键词来搜索的。然后索引几千个网站来采集相关内容,这些网站一般都是门户站,或者是通过搜索引擎来索引一些百度知道相关内容,这会导致用站群软件采集的文章质量不高,并且采集的文章重复率会很高,因为你采集的文章别人也可能采集了,因为用站群软件的人不只你一个。

所以说,火车头采集的好处就是:我想采集哪个网站就采集哪个,网站内容的相关性更高。文章质量也会更加高一些。

如何自主学习火车头采集

可以访问这个网站:火车头论坛使用教程

实战采集步骤

我这里来演示火车头如何采集:

比如说,我来采集虚幻私塾的文章:

1.打开火车头,新建任务

首先任务名取为:“虚幻私塾”

新建任务 - wordpress自动发布文章01-使用火车头采集目标网站

这里分三步:

  • 采集网址规则
  • 采集内容规则
  • 发布内容设置

这一节,我们讲解前2步:

首先,我们先添加采集的网址,

  • 单条网站:采集制定的网页
  • 批量/多页:采集文章列表

那在这里,虚幻私塾有很多列表,我们就以批量多页来做示范:如下图所示,完成后,点击“添加“ 和 ”完成”

采集规则 - wordpress自动发布文章01-使用火车头采集目标网站

这样,我们就定义好了规则。

点击“测试网址采集”:

就可以看到:所有的分页都被采集到了:

采集规则02 - wordpress自动发布文章01-使用火车头采集目标网站

点击“返回修改设置”。接着再点击保存。

然后右键任务名称“虚幻私塾”,点击“编辑任务”:

采集规则03 - wordpress自动发布文章01-使用火车头采集目标网站

从第一步随意找到一篇文章,双击,即可以这篇文章为典型文章采集了。

采集规则05 - wordpress自动发布文章01-使用火车头采集目标网站

我们会看到采集到的文章内容有很多html标记,所以我们需要对内容定义一个“规则”。

这里先把“作者”“时间”“出处”删除。

然后对标题和内容进行筛选:

标题:

  •      开始:<span class=”course-detail-heading”>
  •      结束:<span

内容:

  •      开始:<div class=”col-lg-9 col-md-8 course-detail-content”>
  •      结束:<div class=”panel panel-default hidden-xs pt10″>

这里可以不断的测试,采集出来的数据是否正确,如果没有问题

保存设置,然后勾选采网址,采内容。

采集规则06 - wordpress自动发布文章01-使用火车头采集目标网站

接着开始采集即可。

采集完成后,我们可以查看下采集的数据是否正确:

采集规则07 - wordpress自动发布文章01-使用火车头采集目标网站

如果都有,说明采集的数据符合我们的要求。

 

最后编辑:
作者:虚幻
这个作者貌似有点懒,什么都没有留下。

留下一个回复