分类

编程工具

WebMagic

WebMagic 0.7.3 官方最新版

大小:20.1 MB

语言:简体中文系统:WinXP, Win7, Win8, Win10, WinAll

类别:编程工具时间:2017-08-01

  WebMagic是一款可以帮助您创建网页爬虫工具的代码编辑软件,通过本软件,您可以在设计网页抓取工具的时候获取更方面的代码设计工作,对于网页信息捕捉来说,使用爬虫工具抓取是最方便的,但是其设计的代码非常困难,不是专业人士很难在短时间内完成设计,针对这个问题,小编推荐您使用WebMagic软件,他已经内置了一个爬虫编辑方案,所有的源代码都已经设计好了,你只需要将这个代码框架发送到开发软件上,就可以快速建立一个网页爬虫程序!

WebMagic 0.7.3 官方最新版

软件功能

  1、WebMagic是一个网页爬虫代码,可以帮助您抓取网页的信息

  2、您可以将这个代码加载到文本应用程序中,这样就可以设计网页信息抓取的软件了

  3、该软件基于Java开发,主要的目的就是让您可以在设计web抓取工具的时候提高代码编辑速度

  4、通过WebMagic,您可以减少复杂代码的编辑,优化web信息获取的方式

  5、提供多个代码编辑模块,您可以在软件上选择对应对方模块加载到开发环境中使用

  6、灵活性强大,所有发的模块都可以自己编辑,也就是,您可以选择合适自己使用的模块编辑

  7、软件提供多个编辑方式,内置扩展模块的编辑,方便您自己定制爬虫的编写方式

  8、内置webmagic-extension、webmagic-saxon数据包,主要用于调试爬虫的脚本

软件特色

  1 实现PageProcessor

  2 使用Selectable抽取元素

  3 使用Pipeline保存结果

  4 爬虫的配置、启动和终止

  5 Jsoup与Xsoup

  6 爬虫的监控

  7 配置代理

  8 处理非HTTP GET请求

使用方法

  我们这里抽取一个github项目的名称、作者和简介三个信息,所以我们定义了一个Model类。

WebMagic 0.7.3 官方最新版

  在这个例子中,区分方式很简单,因为列表页和目标页在URL格式上是不同的,所以直接用URL区分就可以了!

WebMagic 0.7.3 官方最新版

  一般情况下,Formatter会根据字段类型进行转换,但是特殊情况下,我们会需要手动指定类型。这主要发生在字段是List类型的时候。

WebMagic 0.7.3 官方最新版

  WebMagic的监控使用JMX提供控制,你可以使用任何支持JMX的客户端来进行连接。我们这里以JDK自带的JConsole为例。我们首先启动WebMagic的一个Spider,并添加监控代码。然后我们通过JConsole来进行查看。

WebMagic 0.7.3 官方最新版

  这里我们也可以选择“操作”,在操作里可以选择启动-start()和终止爬虫-stop(),这会直接调用对应Spider的start()和stop()方法,来达到基本控制的目的。

WebMagic 0.7.3 官方最新版

  编译和执行源码

  导入成功之后,应该就没有编译错误了!此时你可以运行一下webmagic-core项目中自带的

WebMagic 0.7.3 官方最新版

更新日志

  通过 Page.isDownloadSuccess 而不是 Page 对象本身为空来判断是否下载失败

  为 PageModel 增加不发现新 URL 的功能 #575

  为 Site 增加了 disableCookieManagement 属性,在不想使用 cookie 时使用 #577

  WebMagic 0.5.3 版本发布,Java 爬虫框架

  WebMagic 0.6.0 版本发布,Java 爬虫框架

  WebMagic 0.6.1 版本发布,Java 爬虫框架

  WebMagic 0.7.0 版本发布,Java 爬虫框架

∨ 展开

网友评论

我要跟帖
取消
所有评论 共 0