⑴WebCopy是一款强大的网页复制工具,它可以帮助您浏览整个网站,即使在没有Inter连接的情况下也可以检测;该程序的工作原理是浏览网站内的链接并创建内容列表,包括页面和其他类型的文件;通过这种方式,软件将获取能够使站点完全脱机的可用元素;该工具有一个优点,就是它可以重建所有链接,所以,当您单击其中一个链接时,它将不再指向原始的联机资源,而是指向硬盘上的链接;Cyotek
⑵WebCopy非常易于使用,因为只需输入网站的URL地址即可开始扫描相应的网站;此外,您还可以自定义设置一组规则来确定要下载的资源类型。
⑶规则控制扫描行为,例如排除网站的一部分。还可以使用其他选项,例如下载要包含在副本中的URL,但不对其进行爬网
⑷在分析网站之前,可以选择发布一个或多个表单,例如登录到管理区域。还支持HTTP
⑸质询身份验证,因此,如果您的网站包含受保护的区域,则可以预定义用户名和密码,或者在扫描时自动提示您输入凭据。
⑹在分析了网站之后,“链接地图查看器”允许您查看在网站中找到的所有链接(内部和外部。通过过滤,您可以轻松查看找到的不同链接。
⑺除了上面提到的规则和表格,您可以进行许多设置来配置网站的爬网方式,还可以配置域别名,用户代理字符串,默认文档等。
⑻扫描网站后,您可以查看页面列表,错误,缺少页面,媒体资源等。
⑼几个配置选项使用正则表达式。内置的编辑器使您可以轻松测试表达式。
⑽查看和自定义网站的直观图,也可以将其导出为图像。
⑾简单好用,可以帮助用户快速的将网站内容下载并保存到本地上。
⑿自动化进行内容下载,大部分参数都不需要重新设置。
⒀可以扫描网站并且允许用户制定软件下载的内容。
⒁具备灵活的配置选项,轻松就可以完成网站的下载。
⒂可以为静态网站的完整副本进行脱机浏览,或下载所有图像或其他资源。
⒃将网站中的图片,视频,文件等一键下载保存到本地。
⒄高效的爬取网站中的内容,提升用户的工作效率。
⒅用户可以根据个人的需求自行配置软件爬取网站的规则。
⒆可以使用正则表达式创建规则,以轻松的控制软件下载内容。
⒇在计算机上下载软件,然后解压后运行软件安装,完成安装之后打开软件。
⒈从“文件”菜单中,打开“新建”子菜单,然后选择“新建空白项目”。
⒉此时将创建一个空项目,并将所有内容都设置为默认值。
⒊在输入框中输入您需要复制的网页地址。
⒋保存文件夹默认保存目录为c:Downloaded Web Sites,您可以将“保存文件夹”字段保留为默认值或者自行修改。
⒌设置完成以上的地址之后,就可以从项目菜单中选择复制网站,可以直接按F完成网站复制,也可以点击WebCopy下载该网站。
⒍单击保存文件夹右侧的绿色箭头图标,以使用文件资源管理器进行查看。
⒎完成之后,您可以从文件菜单中选择保存,或者按Control + S进行保存。
⒏输入项目的文件名后,就可以单击“保存”按钮将网站保存下载来了。
⒐使用“捕获表单”工具自动捕获表单
⒑向WebCopy添加表单定义的最简单方法是使用内置的捕获工具。
⒒确保输入了您要复制的站点的地址,例如
⒓从工具菜单中选择捕获表单使用嵌入式浏览器窗口,浏览网站,直到到达登录页面
⒔WebCopy将在右上方窗口的列表中列出所有表单。选择最合适的表单(如果存在多个表单
⒕您也可以在嵌入式Web浏览器中填写表格-但不要提交!填写适当的值后,单击“扫描表单按钮以检测您输入的值
⒖所有非隐藏的参数将被自动选择以包含在表单定义中。隐藏的参数通常仍然是必需的,但是WebCopy会自动从网站读取它们,并在每次发布时使用它们。这意味着使用动态值(例如防伪令牌的表单可以轻松提交
⒗单击创建表单按钮。这将自动创建一个指向用于发布表单的正确URL的定义以及定义的参数,然后关闭该工具。
⒘密码和表单数据以纯文本格式存储在WebCopy项目文件中。
⒙复制网站时,WebCopy将在复制开始之前提交任何表单定义,此后复制将正常进行。如果您使用WebCopy演示网站遵循了本教程,则会显示许多其他页面,例如authenticationprofile.php。
⒚要制作网站的纯图像副本,我们需要配置一些规则。
⒛.*排除,抓取内容
①.png包含,停止处理
②.gif包含,停止处理
③.jpg包含,停止处理
④第一条规则指示WebCopy完全不要将任何文件下载到保存文件夹,而仍要爬网HTML文件。这是通过使用表达式.*匹配所有URL以及规则选项Exclude
⑤and Crawl Content来完成的。
⑥每个后续规则都会添加一个正则表达式来匹配特定的图像扩展名,例如.png。然后使用“包含”选项来覆盖以前的规则并导致文件被下载。匹配后,无需继续检查规则,因此也设置了“停止处理”选项。另外,例如,您可能只有一条匹配多个扩展名的规则.(?:png|gif|jpg)。
⑦遵循这些规则,当您复制网站时,它将扫描所有HTML文件,但仅将与指定扩展名匹配的文件下载到保存文件夹。
⑧打开一个远程URL
⑨适用于:结果,错误,站点地图,跳过,文件和差异。
⑩右键单击列表中的一项,然后选择“在浏览器
Ⅰ中打开”以在默认浏览器中打开远程URL。
Ⅱ适用于:结果,站点地图,文件和差异。
Ⅲ右键单击列表中的项目,然后选择“打开本地文件”
Ⅳ以在默认注册的应用程序中打开本地文件。
Ⅴ适用于:结果,站点地图,文件和差异。
Ⅵ右键单击列表中的项目,然后选择“打开本地文件夹”
Ⅶ以在本地文件的位置打开资源管理器窗口
Ⅷ编辑/预览本地文件
Ⅸ适用于:结果,站点地图,文件和差异。
Ⅹ右键单击列表中的项目,然后选择“编辑本地文件”
㈠图像将在默认注册的应用程序中打开。所有其他文件将在嵌入式文本编辑器中打开。
㈡适用于:结果,错误,站点地图,跳过,文件和差异。
㈢右键单击列表中的一项,然后选择“添加规则”
㈣以打开默认使用所选URL的规则编辑器。
㈤查看入站和出站链接
㈥适用于:结果,错误,站点地图,跳过,文件和差异。
㈦右键单击列表中的项目,然后选择“传入/传出链接”
㈧以查看指向和来自选定URL的URL列表。
㈨查看URL的属性
㈩适用于:结果,错误,站点地图,跳过,文件和差异。
右键单击列表中的项目,然后选择*属性
以显示URL的属性。
适用于:结果,错误,站点地图,跳过,文件,差异和Cookie。
右键单击列表中的一个或多个项目,然后选择“复制”
将所选内容复制到Windows剪贴板。
适用于:结果,错误,跳过,文件,差异和Cookies。
右键单击列表,然后选择“导出”
以将列表的内容导出到逗号分隔值(CSV文档。
此面板显示上次扫描或复印操作的结果。绿色图标表示操作成功,黄色图标表示由于项目设置而中止操作,红色图标表示错误。
该列表显示已处理的URL,URL的最终状态,如何找到URL以及URL内容的大小。
错误面板显示上一次扫描或复制期间遇到的错误列表。跳过的URL(出于任何原因不算作错误,因此未在此处列出。
此面板显示复制的网站的结构,包括文件。
此面板显示所有被跳过的URL的列表。可以跳过URL的原因有几个,其中包括:
外部的URL,即不属于当前正在扫描的域
已通过规则排除的URL
URL在副本的起始URL之上
此面板显示在爬网期间发现的文件的列表。与“站点地图”面板类似,它以平面列表形式显示。
此面板显示当前扫描和上一次扫描之间的差异(例如新的或已删除的URL。
Cookies面板
这将显示在爬网期间存储的所有cookie。