⑴CTspider是一款全自动的爬虫插件工具,通过使用这款插件帮助用户在网站中爬取文章数据进行发布,用户的工作效率将会大大的提升;该插件支持几乎所有的平台网站,使用方式也比较简单,只需要用户设置一个定向的采集网址就可以开始针对该网址进行内容采集,并且通过CSS选择器来设置识别采集区域,用户可以轻松选择采集的内容,可以获取网页中的文章摘要,TAG,缩略图等等;这款工具从采集到发布会全自动完成,抓取内容之后程序会对文章进行去重处理,然后再更新发布,在整个过程中基本不需要用户干预。
⑵支持内容CSS选择器定向删除和索引删除。
⑶支持HTML标签定向过滤和索引过滤。
⑷支持HTML属性过滤,以保障内容更加纯净。
⑸支持特例标签设置,让用户可以设置直观的参考案例。
⑹内容替换模块,帮助用户快速的完成内容文字替换。
⑺支持标题关键字替换,将文章标题的关键字快速的替换成其它内容。
⑻支持标题或内容前后插入自定义文本,用户可以在插入的文本中编辑任何内容。
⑼多任务URL采集,让用户更加高效的完成工作收集信息等。
⑽采用定位更加准确的区域选择器,让您采集的内容更精准。
⑾列表缩略图采集,软件可以采集列表中的缩略图片并保存。
⑿用户完全可以设置相关参数,自定义缩略图的采集属性。
⒀支持用户自定义添加网站来源以及网址的字段。
⒁支持自动采集列表动态的渲染。
⒂直接安装即可使用,需要授权可以安装下面的步骤进行授权操作。
⒃登录长腿蜘蛛-CTspider官网并注册账号(官网地址:
⒄填写相关的的注册信息进行注册,邮箱需要填写真实的,便于验证用户。
⒅登录网站之后,点击用户中心的添加授权域名以获取授权码,每一个用户可以授权三个域名。
⒆获取授权码之后,再按照步骤点击CTspider插件->系统配置->授权码配置->填入授权码->保存配置->验证授权
⒇进入下图界面中,将授权码输入到输入框中,然后点击保存,再点击授权验证,现在就完成授权了。
⒈新建项目 / 基本配置
⒉接下来,让我们谈谈如何收集项目
⒊我们以新浪科技为例:
⒋任务名称:新浪科技(PS:用户定义
⒌更新时间:默认为分钟(PS:当前任务每分钟自动执行一次
⒍字符集:默认选项为OK(PS:如果代码乱码,请选择当前网页的字符集
⒎随机IP:开启(PS:打开随机IP将在每次收集IP时自动更改IP,从而降低了阻止服务器IP的可能性
⒏多线程采集:打开(PS:打开后可以提高采集速度
⒐多线程数:默认情况下为(PS:根据您自己的服务器配置使用
⒑列表URL: all /
⒒index.shtml(PS:如果需要多个,则可以在新行中添加
⒓列表区域选择器:。 Contlist> UL> Li(PS:[与CSS选择器完全相同]
⒔[可以填充,但不能填充]如果当前页面上有多个相同的列表DOM节点以确保收集的准确性,请右键单击 在Google浏览器中查看元素,您可以看到当前列表数据在下面。
⒕竞争者> UL> Li
⒖列出缩略图:如果有图片,您可以直接填写当前缩略图CSS选择器
⒗文章URL匹配:a(PS:由于已找到上述区域选择器,因此我们可以直接填写一个标记。如果未找到区域选择器,则将其设置为。根据DOM结构,按Lia或Contlist
⒘a。 所收集页面的
⒙将源URL添加到自定义字段:source_
⒚URL(PS:[自定义]可以启用或不启用。设置后,自定义字段源将每天添加到文章中_URL,并将当前收集的URL链接分配给该字段作为前景 调用显示,例如:get_
⒛post_ meta('source_ URL'以调用该字段的值。
①单击列表测试以查看当前项目列表配置
②点击列表测试可以查看当前项目列表配置情况
③标题匹配规则:H
④文章内容设置:文章内容
⑤您可以看到标题在H标签下,或者可以使用。 获得标题的主要标题
⑥正文内容似乎有许多类和IDS。 如果有ID属性,请尝试使用ID。 毕竟,ID是唯一且准确的。
⑦我们还可以添加规则来收集标签
⑧长腿蜘蛛ctspider提供种通用规则来添加集合,并且可以自定义字段规则(PS:自定义字段规则可以添加多个
⑨正确显示收集结果(原始文本:标题:标签
⑩但是,我们发现了一个链接,而不仅仅是一个CSS属性和ID属性,以及一个span标签
Ⅰ我们可以使用长腿蜘蛛ctspider强大的内容过滤模块进行数据清理
Ⅱ首先,删除数据中的所有链接,但不要删除标签的内容
Ⅲ删除数据中的span标签,而不删除内容
Ⅳ删除数据中无用的类属性和ID属性
Ⅴ最后,收集并测试数据