⑴懒人采集器是一款非常简单的网页数据采集工具,它具有可视化的工作界面,用户通过鼠标就可以完成对网页数据的采集,该程序的使用门槛非常低,任何用户都可以轻松使用它就行数据采集而不需要用户拥有爬虫程序的编写能力;通过这款软件,用户可以在大多数网站中采集数据,包括可以在一些单页应用Ajax加载的动态网站中获取用户需要的数据信息;软件中内置高速的浏览器引擎,用户可以自由切换多种浏览模式,让用户轻松以一个直观的方式去对网站网页进行采集;该程序安全无毒,使用简单,需要的朋友欢迎下载使用。
⑵可视化向导:自动为所有集合元素生成集合数据。
⑶计划任务:灵活定义运行时间,自动运行。
⑷多引擎支持:支持多个收集引擎,内置的高速浏览器内核,HTTP引擎,JSON引擎。
⑸智能识别:可以自动识别网页列表,收集字段,页面等。
⑹拦截请求:自定义拦截的域名,以方便对场外广告的过滤,提高收集速度。
⑺各种数据导出:可以导出到TXT,Excel,mysql,SQL Server,SQLite,aess,网站等。
⑻即使是不会网络爬虫技术,也可以轻松浏览互联网网站并收集网站数据,软件操作简单,可通过鼠标点击的方式轻松选取要抓取的内容。
⑼多引擎,高速,稳定
⑽内置于高速浏览器引擎中,您也可以切换到HTTP引擎模式以更有效地收集数据。它还具有一个内置的JSON引擎,该引擎无需分析JSON数据结构并直观地选择JSON内容。
⑾先进的智能算法可以生成目标元素XPath,自动识别网页列表,并自动识别分页中的下一页按钮。
⑿它不需要分析Web请求和源代码,但是支持更多的Web页面收集。
⒀它可以收集%的Inter站点,包括动态类型,例如单页应用程序Ajax加载。
⒁步骤:设定起始网址
⒂要收集网站数据,首先,我们需要设置进入收集的URL。例如,如果要收集网站的国内新闻,则应将起始URL设置为国内新闻栏列表的URL,但是通常不会将网站的主页设置为起始地址,因为主页通常包含许多列表,例如最新文章,热门文章和推荐文章Chapter和其他列表块,这些列表块中显示的内容也非常有限。一般来说,收集这些列表时无法收集完整的信息。
⒃接下来,我们以新浪新闻集为例,从新浪首页查找国内新闻。但是,此列首页上的内容仍然很混乱,并且分为三个子列
⒄让我们看一看“内地新闻”的子栏目报道
⒅此列页面包含带有分页的内容列表。通过切换分页,我们可以收集此列下的所有文章,因此此列表页面非常适合我们收集起始URL。
⒆现在,我们将在任务编辑框的步骤中将列表URL复制到文本框中。
⒇如果您要在一个任务中同时收集国内新闻的其他子列,您还可以复制其他两个子列的列表地址,因为这些子列的格式相似。但是,为了便于导出或发布分类数据,通常不建议将多个列的内容混合在一起。
⒈对于起始URL,我们还可以从txt文件中批量添加或导入。例如,如果我们要收集前五个页面,我们还可以通过这种方式自定义五个起始页面
⒉应当注意,如果在此处自定义多个分页列表,则在后续的收集配置中将不会启用分页。通常,当我们要收集列下的所有文章时,我们仅需要将列的第一页定义为起始URL。如果在后续的收集配置中启用了分页,则可以收集每个分页列表的数据。
⒊步骤:①自动生成列表和字段
⒋进入第二步后,对于某些网页,惰性收集器将智能分析页面列表,并自动突出显示页面列表并生成列表数据,例如
⒌然后我们可以修剪数据,例如删除一些不必要的字段
⒍单击图中的三角形符号以弹出该字段的详细采集配置。 点击上方的删除按钮以删除该字段。 其余参数将在以下各章中分别介绍。
⒎如果某些网页自动生成的列表数据不是我们想要的数据,则可以单击“清除字段”以清除所有生成的字段。
⒏如果我们的列表不是手动选择的,那么它将自动列出。
⒐如果要取消突出显示的列表框,可以单击“查找列表-列出XPath”,清除其中的XPath,然后确认。
⒑单击“搜索列表”按钮,然后选择“手动选择列表”
⒒按提示,然后用鼠标左键单击网页列表中的第一行数据
⒓单击第一行,然后按提示单击第二行或其他类似的行
⒔单击列表中的任意两行后,整个列表将突出显示。 同时,列表中的字段也将生成。 如果生成的字段不正确,请单击“清除字段”以清除下面的所有字段。
⒕下一章将介绍如何手动选择字段。
⒖点击“添加字段”按钮
⒗在列表的任何行中单击要提取的元素,例如标题和链接地址,然后用鼠标左键单击标题
⒘当您单击Web链接时,系统将提示您是否获取链接地址
⒙如果要提取链接的标题和地址,请单击“是”。 如果您只想提取标题文本,请单击“否”。在这里,我们单击“是”。
⒚系统将自动生成标题和链接地址字段,并在字段列表中显示提取的字段内容。 单击底部表格中字段的标题时,匹配的内容将在网页上以黄色背景突出显示。
⒛如果标签列表中还有其他字段,请单击“添加字段”,然后重复上述操作。
①当列表具有分页时,启用分页后可以收集所有分页列表数据。
②常规分页:有一个分页栏,并显示“下一页”按钮。单击后,可以进入下一页,例如之前在新浪新闻列表中的分页
③级联:将滚动条拉到底部时,将自动加载下一页
④对于普通分页,我们选择尝试自动或手动设置
⑤创建新任务时,默认情况下不启用分页。单击“不启用分页”以弹出菜单,然后选择“自动识别分页”。如果识别成功,将弹出一个对话框,提示“已成功识别并设置了分页元素!”
⑥,并在网页的“下一页”按钮上显示突出显示的红色虚线框(某些网页按钮可能不会显示虚线框,以便成功启用自动分页
⑦如果自动识别识别,将出现以下绿色提示框
⑧在菜单中选择“手动分页”
⑨然后,“搜索页面”按钮将自动出现。点击按钮弹出菜单,然后选择“标记分页”
⑩按提示向导,然后单击“下一页”按钮
Ⅰ单击后,突出显示的红色虚线框将出现在网页的“下一页”按钮上(某些网页按钮可能不会显示虚线框,因此已成功标记了分页。如果要查看刚刚设置的页面调度XPath,可以在菜单中选择“页面调度XPath”以查看页面调度XPath。您也可以在此处手动输入XPath进行设置。
Ⅱ某些网页需要将滚动条拖到底部才能进入下一页。例如,可以通过从菜单中选择瀑布页面来激活诸如今天的头条新闻和知虎之类的网站。使用瀑布流分页收集时,页面将自动滚动到底部,直到分页完成或达到指定的页数为止。
Ⅲ指定最大分页数,即切换页面的次数不超过此次数。
Ⅳ⑤收集内容页面等多级网页
Ⅴ如果要在当前页面字段列表中收集辅助页面(例如内容页面或更深的页面,级别,级别等,则必须有一个字段来提取链接地址,即带有href的属性,如图所示
Ⅵ单击此字段的标题栏,选择列,然后将出现“深层链接页面集合”按钮
Ⅶ单击此按钮后,将自动创建配置选项卡,并且将自动打开带有先前选择字段的URL。
Ⅷ采集模式也会自动显示为“单一模式”
Ⅸ列表模式:用于提取网页列表中的数据。预览中可以看到多个数据
Ⅹ单一模式:适用于在内容详细信息页面中收集各种信息,例如文章标题,时间,文本等
㈠因为我们深入收集的页面是内容页面,所以使用默认的“单一模式”
㈡然后,我们创建一个新字段以提取文章在网页中的发布时间。由于文章的标题已从第一级列表集合中提取,因此无需重复。当集合运行时,多个页面的字段将自动合并为一个表数据。
㈢继续创建一个新字段以提取主体
㈣为了保持原始文本的段落格式,可以在此选择innerHTML作为value属性,即从该字段提取的数据包含HTML标记
㈤在基本设置的第三步中,我们可以在浏览器上进行一些设置,例如禁用图像,JS,Flash,框架等,以提高浏览网页的速度。
㈥您还可以设置浏览器身份(用户代理,代理IP,请求间隔时间等
㈦用户代理:网页通过读取浏览器身份获取客户端的一些信息
㈧请求间隔时间:用于减少请求的频率,即降低获取速度,以避免由于获取速度太快而导致IP被阻塞。如果不需要减速,则可以将其设置为
㈨多值连接器:在字段中设置多个xpah以提取多个元素时,此处定义的连接器用于连接多个元素值
㈩HTTP引擎线程数:使用HTTP请求时,多个线程中运行的线程数。同一HTTP请求的任务可以被多个线程同时拆分和收集,以提高收集速度。它仅适用于HTTP引擎,不适用于浏览器引擎。