分类

办公软件

XPath2Doc(通用网站数据采集及Doc生成工具)

XPath2Doc(通用网站数据采集及Doc生成工具) 1.0.0.0 免费版

大小:14.6 MB

语言:简体中文系统:WinXP, Win7, Win8, Win10, WinAll

类别:办公软件时间:2019-06-25

  XPath2Doc是一款可以帮助用户在网页上采集数据并且填写doc文件的软件,这款软件使用简单,软件界面没有太多功能,用户点击采集就可以开始查询网页上的数据,从而执行填充,对于需要编辑doc文件的朋友很有帮助,您可以在软件添加需要编辑的doc文件,可以在软件配置需要填充以及需要采集网站数据的的规则,结合XPath语句就可以获取您需要采集的网页内容,软件提供详细的操作桌面,用户可以在帮助界面查看教程!

XPath2Doc(通用网站<a href=https://www.pc0359.cn/s/shujvcaiji/ target=_blank class=infotextkey>数据采集</a>及Doc生成工具) 1.0.0.0 免费版

软件功能

  1、XPath2Doc可以帮助用户在电脑上采集你需要的网页数据

  2、可以立即采集数据填写到文件中,从而完成文件编辑

  3、如果你觉得编辑doc文件很复杂,可以使用这款软件立即采集网站资源

  4、软件可以指定内容采集,软件界面显示网页内容

  5、当您添加网页以后就可以查询指定的内容,仅仅对需要填写的内容采集

  6、支持采集功能,立即在网页界面采集需要的文字内容

  7、可以多次采集内容,一个网页的内容可以多段采集

  8、XPath2Doc帮助用户轻松找到数据所在的位置,从而快速采集

软件特色

  1、XPath2Doc提供网页内容采集功能,在软件轻松读取网页内容

  2、软件提供操作演示,用户可以查看自己需要操作的内容

  3、支持模板设置功能,在软件可以配置用户需要采集的模板

  4、支持采集地址添加,可以在配置文件中添加网页地址

  5、支持指定的数据内容采集,在网页查看到文字以后就可以立即采集

  6、采集的内容自动在软件右边显示,可以另外保存为doc文件

  7、支持打开Word功能,编辑完毕可以在软件打开doc查看填写的内容

  8、结合软件的教程以及操作说明就可以知道如何采集数据

使用说明

  1、打开XPath2Doc软件提示您需要建立配置文件,用户需要在主程序地址找到配置文件并且修改

XPath2Doc(通用网站数据采集及Doc生成工具) 1.0.0.0 免费版

  2、修改界面如图所示,软件使用比较复杂,如果你会设置就可以在这里填写参数

XPath2Doc(通用网站数据采集及Doc生成工具) 1.0.0.0 免费版

  3、可选参数,INI文件所在的路径,例如D:INI,目录路径以结尾。默认为程序所在目录。

XPath2Doc(通用网站数据采集及Doc生成工具) 1.0.0.0 免费版

  4、这里是软件的模板编辑界面,用户下载模板以后编辑新的内容,从而在软件采集数据

XPath2Doc(通用网站数据采集及Doc生成工具) 1.0.0.0 免费版

  5、因为小编没有设置模板所以就不能在软件采集数据

XPath2Doc(通用网站数据采集及Doc生成工具) 1.0.0.0 免费版

  6、小编不知道如何使用这款软件,如果你会使用就可以下载体验

XPath2Doc(通用网站数据采集及Doc生成工具) 1.0.0.0 免费版

  7、这里是软件的采集界面,您可以选择一种模板,小编选择的是开发者提供的模板

XPath2Doc(通用网站数据采集及Doc生成工具) 1.0.0.0 免费版

  8、这里是网页查看界面,在这里可以立即显示网页内容,可以查看多种数据

XPath2Doc(通用网站数据采集及Doc生成工具) 1.0.0.0 免费版

  9、选择数据以后在这里填写需要采集的方式,例如可以将当前的文字内容采集为原告

XPath2Doc(通用网站数据采集及Doc生成工具) 1.0.0.0 免费版

  10、采集的内容就在这里显示,现在就可以查看采集完毕的信息,doc也可以在软件界面显示

XPath2Doc(通用网站数据采集及Doc生成工具) 1.0.0.0 免费版

  11、下方就是doc显示的界面,您需要填写的内容就在这里显示,随后继续采集内容

XPath2Doc(通用网站数据采集及Doc生成工具) 1.0.0.0 免费版

  12、采集完毕就点击创建文件,这样就可以将文档保存,到这里文件数据就采集完毕了

XPath2Doc(通用网站数据采集及Doc生成工具) 1.0.0.0 免费版

  13、提示保存界面,你可以将当前的文档另外保存在新的地方,保存完毕可以打印,也可以在软件界面选择备份

XPath2Doc(通用网站数据采集及Doc生成工具) 1.0.0.0 免费版

工作原理

  网页的每个元素,都可以表示成为XPath语句,所以我们可以读取浏览器打开的网站页面源代码,通过XPath语句得到网页元素中的文本。

  教程:http://www.w3school.com.cn/xpath/index.asp

XPath语句的获取办法

  通常我们可以使用谷歌的Chrome浏览器打开网站页面,按F12调出开发者工具界面,在ELements选项卡下,随着鼠标的移动可以看到网页内容被阴影覆盖,点开三角符号,可以更进一步定位准确的位置,直到找到最终需要的数据位置。在找到的文本上点鼠标右键,在弹出的菜单中,选择Copy-Copy XPath,然后粘贴到记事本即可得到需要的XPath语句。

  这里需要说明一点:如果拷贝出来的XPath语句中有/tbody会影响采集,程序内部对此问题进行了处理,但可能会在某些特殊情况下还是会影响数据采集,可以手工去掉。

  软件运行环境(推荐Widnows10,无需安装组件):

  Windows7 Sp1操作系统请安装下面的组件(重要:VC库如果不安装,本程序无法启动):

  1、.Net Framework 4.5.2。https://www.microsoft.com/en-us/download/details.aspx?id=42642

  2、32位 VC2017(或更高版本)运行库 。 https://support.microsoft.com/zh-cn/help/2977003/the-latest-supported-visual-c-downloads

  下载vc_redist.x86.exe

  在Windows10系统下上述组件一般自带,不需要单独安装。本程序在Windows10 1903运行通过。

  不支持Windows XP操作系统。

软件操作说明

  1、本程序工作需要三个配置文件:General.ini,自定义.ini,自定义模板.docx。后两个文件名自己定义。

  General.ini文件中定义了INI文件和Docx模板文件的存放目录,可以不填,默认是程序所在目录。

  自定义.ini、自定义模板.docx是软件使用者自己创建的网页采集XPath语句及最后生成文件所用的Docx模板,具体设置方法请看ini文件中的说明。注意,Docx模板文件中的“@<#0001#>@”之类的字符是在INI文件中定义的用于替换网页采集内容的标记字符串。ini文件中定义了替换关键字的前后缀和模板文件名。

  2、使用本程序前,请先建立好你自己的INI配置文件和Docx模板文件。(具体可以参见附带的企查查、天眼查两个配置文件和起诉书模板)

  需要说明的是,模板文件支持对文档的不同部分使用不同的网址进行采集,注意Url的设置。目前模板文件暂不支持除Docx以外的格式。(预览窗口支持:.doc、.docx、.rtf、.htm、.html、.xaml、.txt,所以模板文件理论也可以支持这些格式。需要其他格式支持的,请百度联系作者。)

  3、使用方法:

  启动程序--选择模板--点击采集数据按钮旁边的黑色三角符号,点开下拉菜单,点击需要采集的部分。等候浏览器加载网页完毕,手工输入需要查询的内容,点击查询,找到数据的具体页面,然后点击采集数据按钮,观察右侧的列表中是不是已经得到需要的数据。继续点开下拉菜单,选择下一个需要采集的部分,如果网址发生了变化要等候浏览器加载完毕,找到需要的数据页面。点击采集数据按钮观察右侧列表中是不是得到了第二部分的数据。如此反复,直到数据全部采集完毕。

  如果前后两部分的网址相同,在点击下一部分的下拉菜单之前,要先在浏览器中重新查询新的数据,等新数据页面出来之后在点击下拉菜单选择下一部分进行采集。(网址相同的情况下,点击下一部分会直接从网页取数据,如果浏览器没有换页面,数据就错了。)如果某个部分需要重新采集,请先点击下拉菜单中的该部分名称,然后点击采集按钮重复采集该部分(此时可以随意改变浏览器的数据页面,得到的就是不同公司数据)。

  列表中采集得到的数据结果如果有偏差,可以单击自行修改。XPath语句如果有什么错误,也可以自己修改看测试结果(XPath语句在修改后会立即重新抓取浏览器的数据,所以浏览器最好是有效数据页面),在程序中修改的XPath语句,不会保存到INI文件中,请自行手工保存。

  如果列表中数据无误,预览窗口中的Docx模板内容也正确,则可以点击创建文档按钮,填写要生成的文件名,本软件会使用抓取到的网页数据替换模板中的索引字符串,自动生成Docx文档。

  需要说明的是,右下角的Docx预览窗口不能完整的支持Word文档,对不标准的文档可能会出现文本缺失或者错位现象。遇到这种情况,可以忽略,或者将模板文件改成规范的文本格式(单倍行距)。

∨ 展开

网友评论

我要跟帖
取消
所有评论 共 0