爬山虎采集器是一款可以获取网页内容的辅助程序,该软件可以获取的内容很多,例如抓取JS内容、抓取图片、辅助淘宝网页内容、获取网页新闻、获取耐克商店图片等,只需要是网页上的内容,不管是图片还是附加的flash视频都可以抓取,另外软件可以自动将抓取的内容分类保存,可以建立文件夹保存文字内容、图片内容以及其他HTML内容,功能非常丰富;爬山虎采集器提供了很多高级的功能,可以提前设置任务,可以提前设置导出数据或者发布数据,需要的朋友可以下载试试!
软件功能
一键提取数据
简单易学,通过可视化界面,鼠标点击即可抓取数据
快速高效
内置一套高速浏览器内核,加上HTTP
引擎模式,实现快速采集数据
适用各种网站
能够采集互联网99%的网站,包括单页、应用Ajax加载等等动态类型网站
软件特色
1、爬山虎采集器可以帮助您抓取网页上的内容
2、支持文字内容抓取,支持图片抓取
3、也可以在设置界面上将图片禁止显示
4、可以在无图的模式下分析HTML网页
5、提供字段设置,可以显示多行字段
6、支持模式编辑,轻松配置读取网页的模式
7、爬山虎采集器也可以对打开的HTML查看
8、支持在浏览器上访问HTML
安装方法
1、下载PashanhuV2Setup.exe打开,提示您点击下一步安装软件
2、将软件安装到C:Program Files (x86)PashanhuV2,也可以重新选择软件地址
3、提示病毒,点击运行软件执行
4、显示爬山虎采集器的安装进度,耐心等待安装结束
5、如图所示,这里是安装的完成的界面,点击完成退出
使用方法
1、打开爬山虎采集器软件,这里拥有软件的文档说明,点击进入网页查看教程
2、建立一个新的任务,在这里辅助浏览器上的网页地址
3、点击回车就可以访问网页,这里需要设置网页上的抓取内容
4、请先【添加字段】,然后在网页中选择要抓取的数据,下方显示网页的主要字段内容
5、设置字段的时候可以选择列表模式、单条模式,点击下一步
6、第三步,基本设置:禁用图片、拦截广告、禁用 Flash、禁用JS、禁止弹窗
7、提示您自定义广告拦截规则,可以在下方的区域编辑规则内容
8、连续N分页,无新增数据停止采集,0表示不限制)
9、数据查看-ID倒序排列、任务运行完成后关闭窗口、任务运行时不显示界面
10、登录爬山虎采集器软件可以记录您抓取的网页数据
11、爬山虎采集器在主界面上显示全部功能,支持新建任务、编辑任务、开始、查看数据、运行任务
主要优势
1.增加插件功能
2.增加导出 txt (一条保存为一个文件)
3.多值连接符支持换行符
4.修改数据处理的文本映射(支持查找替换)
5.修复登陆时的DNS问题
6.修复图片下载问题
7.修复 json 一些问题
∨ 展开