GooSeeker浏览器是一款数据采集软件,可以帮助您将喜欢的数据采集编辑,如果你在浏览一个网站的时候发现有很多资源是自己需要的,这时候就可以通过本软件的爬虫功能获取文章或者是其他资源,从而将该资源转换到自己的编辑软件,对于获取网络资源是非常有帮助的,集搜客网络爬虫通过浏览器的方式运行,支持多线程采集,轻松获取文章内容,获取图片内容,如果你也需要采集网上的数据,就到河东下载集搜客网络爬虫吧!
软件功能
1、集搜客网络爬虫
功能强大,免编程
大批量网页抓取
国内外网站通用
自己动手,丰衣足食
2、可视化免编程
全图形化操作界面,可视化操作,无需编程基础,熟悉电脑操作即可轻松掌握,只需在网页上点点鼠标操作,即可生成抓取规则,抓取结果即时验证
3、模板资源套用
资源库有大量的抓取模板,均经过官方验证,可直接套用,一键抓取即可获得您想要的数据
4、通用网络爬虫
支持所有语言抓取,地域没有限制,网站类型没有限制,动态静态网页采集方法完全一样,资源库提供海外网站的抓取模板
5、会员互助抓取
当需要大批量频繁采集时,在社区以悬赏的方式发布采集任务,接受了任务的会员就会用自己电脑为您分担采集任务,实现异地并行抓取
6、不限深度和厂度
针对大型网站,通过抓取网页中的超链接,爬虫可以深入到所有层级页面抓取所需数据,并转化为结构化的信息
7、手机网站数据抓取
爬虫不仅可以抓取PC网站上的数据,还可以抓取手机网站上的数据,全面把握PC端和移动端最新消息资讯。
软件特色
1、抓指数抓图表
爬虫软件不仅能抓取文本数据、图片、表格,还能模拟鼠标移动并抓取在指数图表上悬浮显示的数据,让整个互联网成为您的数据资源库
2、本地化存储保护隐私
软件在本地电脑上运行,抓取结果文件也存储在本地电脑中,方便您的数据保护和备份,隐私安全有保障
3、自动登录验证码识别
软件具有自动登录功能,可以自动登录帐号、自动识别并输入验证码,有效防止数据抓取中断,无需人工看管
4、定时自启动采集
软件可以设置周期性自动采集,实现持续的增量数据采集,有利于舆情监控、商品比价和大数据挖掘
5、爬虫群并行抓取
当面临大批量采集任务时,可以在同一台电脑启动多个爬虫,同时采集一个或多个网站的数据;还可以把爬虫分布到不同地点的不同电脑上同时抓取,提高抓取效率
6、启动"集搜"多爬虫抓数据
"集搜功能能够支持同一台电脑手工启动并行运行多个爬虫窗口,无需编程,只需在DS打数机的操作界面的抓取规则列表上点击"集搜按钮,就能为该规则启动一个爬虫窗口
安装方法
1、首先您需要在河东下载安装程序GooSeekerSetup_V8.7.0.exe,提示中文设置
2、点击启动安装以后提示您设置一个软件的安装位置C:Program Files (x86)集搜客GooSeeker
3、您可以建立一个软件的快捷方式名字,名字可以保存为“集搜客GooSeeker”
4、提示附加一个桌面图标的功能,如果需要就勾选
5、提示安装信息预览,这里是您刚才设置的安装内容,点击安装即可
6、提示集搜客GooSeeker已经在安装了,等待安装完毕即可使用
7、这里是安装成功的提示,您可以勾选运行中公医考网校客户端,点击完成退出
使用方法
1、打开GooSeeker软件,这里是登录的界面,您需要登录才能得到爬虫的功能
2、您可以在这里点击注册,进入一个设置账号的界面
3、登录完毕,可以在上方输入一个新的地址采集
4、小编输入自己的网站,对本站的资源获取
5、浏览参数配置功能, GooSeeker默认 、Firefox 38.0、 Firefox 45.0、安卓手机 Firefox45.0
6、将所有mime类型设置成直接下载而不询问
此操作将花费几分钟时间。如果询问脚本忙是否继续,请选择继续
7、配置服务器:会员中心网址:如果不填,则使用缺省的会员中心
8、错误控制台,在这里查看错误的信息、警告的信息
9、主题名:抓取规则必须有名字,右边按钮检查是否重名
10、可以输入一些描述性文字,比如,定义规则中使用的技巧,便于以后修改规则时做参考
11、MS谋数台- MetaStudio-根据用户对网页内容的标注自动生成抓取规则
12、DS打数机- DataScraper-协同化海量抓取网页内容并存成结构化结果文件
主要优势
1、用集搜客把微博和其他网站评论爬下来,用打标软件做文本挖掘,做社会心理研究毕业论文写得漂亮。
2、直观标注采数据、不用程序思维,不要技术基础、点击想要的内容给标签起个名字
3、您只管点选软件自动管理所选内容,自动放进整理箱存成xml或者excel结构
4、集搜客软件简单易用,分析师自己拿数据,不用干干停停等程序员小哥了,交互式研究和商业分析一下子变得顺畅了
模块功能
翻页采集
无限级多页采集
图片采集与下载
自定义 xpath提取信息
连续动作:点击、输入、选择、悬浮、滚屏
支持多线程并发采集
支持多线程的管理跟踪
控制采集速度
控制翻页数量
定时自动采数据
支持只抓最新的网页数据
支持自动登陆网站
追踪采集弹窗网页数据
支持1万个关键词自动搜索采集
破解各种验证码连续采数据
专用云服务器,高频调度,实时采集无限制
微博各类数据实时采集
各种网站数据实时采集
多台电脑同时抓取
爬虫群任务数
数据仓库:xmI转 excel
支持Mac版爬虫
送一次线上指导
送全额积分
企业版本
私有服务器、支持内外网、无限数据量、支持任意格式、兼容各种信息系统询价
数据仓库:通过会员中心的数据仓库,可以把xml转为excel数据。(1个仓库:10万条数据)¥30 /月
仓库清扫:当数据仓库达到限制的容量时,可以清理原有数据后,再继续导入新数据。(清扫后,免费版恢复1万的导出额度, 专业版恢复10万的导出额度)¥10 /次
连发弹仓:在连续动作中可以大批量导入关键词,实现关键词自动搜索采集。(1个弹仓可容纳1万个词)¥999 /年
∨ 展开