风越批量文本提取器是一款功能强大的文本提取软件,可以帮助您在提取文本内容的时候获得更好的操作,该软件可以提取的格式很多,可以选择将一个网页HTML文件添加到软件提取,也可以选择打开一个doc文件提取里面的部分内容,并且内置一个浏览器,你可以输入需要访问的网页地址,随后查看网页的内容是否为自己需要提取的;风越批量文本提取器配置的提取规则很多,每一个项目都有相关的说明,鼠标指向功能标题不动就可以显示对应的提示!
软件功能
批量提取HTML/DOC/RTF/TXT等文件中的文本信息。
支持从其它网站直接提取文本内容,生成所需数据库文件
支持GB2312/UTF-8多种编码
可将提取信息生成文本文件、HTM网页文件、MDB数据库文件。
可设置提取文件的间隔,避免下载网页过快,服务器不响应
提供多种查找、获取信息的方式
提取文件中全部email邮件地址
提取HTML文件中body的文本内容
提取HTML文件中title与body的文本内容
提取HTML文件中textarea的文本内容
软件特色
被提取文件的类型,可使用扩展名,或直接指定文件名用分号(分隔文件名称规则,支持通配符*?
如: .htm:index*.asp?: 1.txt: 2.doc:
选择包含文件列表的TXT来源文件(企业版功能)
可包含本地文件列表与网页文件列表
手工指定网页文件编码,在读取网页时使用。若不指定,则使用默认编码。
如 utf-8、GB2312
为每个源文件生成对应的保存文件
在将一个文件按段提取保存时,应勾选该项
不删除HTML文件中的IMG标签,保留图片
搜索当前网页中链接的其它网页文件的类型
如:*.htm: *.html; *.shtml:*.aspx:*,asp: *.Jsp:*.php
若无扩展名,则使用:*
用于匹配所获相对链接路径的?参数之前的部分,如:
/list.asp?name=liunu
此处类型,将匹配/list.asp部分
使用方法
1、打开风越批量文本提取器软件,这里是软件的执行界面
2、这里是浏览功能,可以输入一个网站查看里面的内容,方便您提取网页内容
3、如图所示,随便输入一个地址例如pc0359.cn,点击转到就可以查看
4、这里是提取设置的界面,可以设置数据来源
5、提示四种来源设置,方式1:选择本地目录方式2:选择列表文件方式3:生成下载列表方式4:输入网页地址
6、输出文件的地址也是可以设置的
7、提取的数据类型,支持MDB数据库、一个Html文件、一个文本文件、对应多个文件
8、网页钻取设置(用于从指定的网页中查找符合下面条件的网页)
9、提取进程设置,显示输出结果以及文件列表
10、下载提取到的文本中包含的文件类型,如:*.gif,*.rar只支持提取网络资源文件
11、在未使用正则表达式时,*表示允许所有符合搜索网页类型的路径,被过滤的路径为:转换后的绝对路径
使用说明
是否分析本地文件、网页文件的编码方,如不选择判断文件编码,则:
1、使用系统默认编码读取文本文件,可提高读取文件的速度
2、可设置下面的“编码”,用于读取网页文件
指定文件来源有4种方式:
1、设置一个文件夹,将列出此目录下所有指定文件
2、设置一个文本文件,将列出此文件中保存的所有文件路径以回车换行来分隔多个文件路径
如需获取互联网的网页内容,可将URL为文件名保存于文本文件中
3、设置网页起始ID,批量生成获取文件的URL路径
4、输入网址
∨ 展开