XPath2Doc是一款可以从网页上提取采集数据的软件,用户只需要将网页导入XPath2Doc中,然后该软件便可以自动的识别并且生成文字,这款软件可以识别整个网页的文字,但是同样也可以选择一定的段落来识别,目前网络上大多数的资源都是需要收费的,所以其实大家如果使用这款软件便可以省去很多的麻烦,任何网站都可以使用,并且该软件支持英文和中文两种语言的识别,满足不同用户的需求,相信大家都还不是很了解这款软件的用法,那么今天小编就来教教大家如何使用XPath2Doc采集网页上的文字,希望对大家有帮助。
方法步骤
大小:14.6 MB版本:1.0.0.0 免费版环境:WinXP, Win7, Win8, Win10, WinAll
- 进入下载
第一步:首先打开XPath2Doc软件,软件看起来不复杂,但是里面的功能却比较的难懂,相信很多朋友在看到这个界面的时候都比较的烧脑。
第二步:找到我们需要提取文字的网页,然后将网页的链接复制出来。直接在浏览器上方的地址栏中全部选中即可。
第三步:将链接复制到左边的地址栏中。将链接复制到这里,然后按下键盘上的回车键,我们便可以看到刚才我们所选中的网页。
第四步:找到上方的模板过滤,然后点击从企业查看提取企业基本信息。
第五步:找到左上角的创建文档并单击。将网页导入软件后,点击创建文档,软件就会将进一步的解析网页的数据,然后并将它提取出来。
第六步:将文档保存到相应的位置。这里大家可以将文档保存为文档的任意一种格式,但是不管是什么格式,使用电脑上的记事本都能查看内容。
第七步:双击刚才我们保存的文档,这里小编用记事本打开,但是这个文件默认的是word文档的doc格式。
大家在学会这种方法后便可以提取网页中的文字了,但是不足的地方是它不能用于提取图片中或者其他媒介的数据,以上是XPath2Doc采集网页上的文字方法的全部内容,大家有不懂的可以参考以上的教程。