wordpress程序ctspaider自动采集插件

首先说下这个采集插件有啥用,相信不少朋友用wordpress做博客,写博文更新嫌弃太慢,那么你可以用这个插件,花个半天配置好,以后就不用操心了,采集一下几百篇文章来了〔做原创的博主可以略过〕

使用教程:如何安装

首先去长腿蜘蛛-CTspider官网下载插件

然后到WordPress插件页面点击上传,安装启用即可。

如果使用FTP上传,请使用二进制上传协议。

如何授权

登录长腿蜘蛛-CTspider官网注册账号(PS:注册账号需要邮箱验证激活码,请认真填写邮箱账号)。

点击用户中心->添加授权域名(PS:目前每位用户可以授权3个域名)。

得到授权码后,点击CTspider插件->系统配置->授权码配置->填入授权码->保存配置->验证授权

最近有很多网友问:为什么点击采集后显示没有任何数据只有两种可能

采集规则没有设置好。

如果确定采集规则没问题,请查看当前采集的网址是否是Ajax动态渲染加载(PS:目前长腿蜘蛛-CTspider 不支持动态渲染加载采集)

新建项目 / 基本配置

接下来我们详细说下如何采集一个项目

我们使用新浪科技为示例:

首先基本配置

任务名称:新浪科技(PS:自定义即可)

更新时间:默认60分钟(PS:当前任务60分钟自动执行一次)

随机IP:开启(PS:开启随机IP会在每次采集的时候自动更换IP,减少服务器IP被封的几率)

多线程采集:开启 (PS:开启后可提高采集速度)

多线程数量:默认10(PS:根据自己服务器配置酌情使用)

列表设置

列表URL: http://roll.tech.sina.com.cn/internet_all/index.shtml (PS:如需多个,可换行添加)

列表区域选择器:.contList>ul>li (PS:【完全和CSS选择器用法一样】【可填,可不填】如果采集当前页面有多个相同列表DOM节点就要填写,确保采集精准度)用谷歌浏器右键审查元素,可以看出当前列表数据都在.contList>ul>li下面

列表缩略图:如果有图可以直接填写当前缩略图CSS选择器

文章网址匹配:a (PS:由于上面区域选择器已经定位,我们可以直接填入a标签即可,如果区域选择器没有定位则设置:.contList li a 或者.contList a 具体根据你采集页面dom结构自己分析)

添加来源网址到自定义字段:source_url(PS:【自定义】可开启或不开启,设置后会在每天文章添加一个自定义字段source_url并且会把当前采集到网址链接赋值给该字段用于前台调用显示)如: get_post_meta('source_url') 可调用该字段的值。

点击列表测试可以查看当前项目列表配置情况

标题匹配规则:h1

文章内容设置:#article_content

可以看到标题在h1标签下,也可使用.main-title来获取标题

正文内容看上去有好多 class和id 如果有id属性尽量采用id,毕竟id是唯一性,定位精准。

我们还可以增加规则来采集TAG标签

长腿蜘蛛-CTspider 提供了6总规则添加采集,并且可以自定义字段规则(PS:自定义字段规则可以添加多个)

点击采集测试

采集结果完美呈现(原文:标题:TAG)正确显示

但是我们发现结果中出现了a链接和一些多于的css属性和id属性还有span标签

我们可以利用长腿蜘蛛-CTspider强大的内容过滤模块进行数据清洗工作

内容过滤

首先删除数据中所有a链接但不删除a标签内容

删除数据中span标签并且也不删除内容

删除数据中无用的class属性和id属性

最后在进行采集测试(得到纯净的数据)

 

这个教程附图片的,可以参照官网教程:https://www.ctspider.com/course

-------------------注意!--------------------

这个是官网,里面联系方式与我本人无关,这个插件完全免费!


附件
wordpress程序ctspaider自动采集插件
****(需购买后查看)
下载文件
附件购买
售价:5 积分
月卡会员 免费下载
开通会员
开通月卡会员或更高级的会员可免费下载该文件
免登录购买
    THE END
    【版权声明】: 本文来自网络搜集或网友投稿,不代表本站观点及立场,如有版权争议请联系本站删除
    您需要 登录账户 后才能发表评论
    发布评论

    最新文章

    热门文章