分类

下载工具

ET采集

ET采集 3.4.5 官方版

大小:18.32 MB

语言:简体中文系统:WinXP, Win7, Win8, Win10, WinAll

类别:下载工具时间:2019-06-20

软件标签:数据采集软件

  EditorTools是一款功能强大的自动采集软件,该软件主要的功能就是帮助用户采集网络中的资源,您可以使用它采集网站中的应用、文章、图片、视频,并将采集的信息全部显示在软件中,支持一键下载采集的资源,他与一般的资源自动搜索软件不一样,在提供资源收集以外,还能自动连接到迅雷、快车、旋风等链接文件,从网址中访问下载站的资源,处理新浪、DZX等假地址图片等,功能非常丰富,让您彻底解放双手,让软件帮助您搜索网页上的各类资源,极大的节约了时间。

ET采集 3.4.5 官方版

软件功能

  设置劫持特征代码;

  很多地区的电信宽带用户在上网时,会被强行在访问信息中,用一些代码替换访问信息,让用户只能通过代码中的框架查看原本要访问的网页,这通常用来显示电信的广告或进行其他隐秘的动作,这种行为被称为劫持浏览器;当出现这种情况时,ET所采集的源码也只能得到这些劫持代码,而不是要采集的网页源码

  设置UserAgent;

  网站通过userAgent来判断当前用户使用的是什么浏览器,并根据这个浏览器能够支持的情况提供相应的功能。浏览器在访问一个网页时通常会传送一个识别字串告诉网站它是什么浏览器软件,我们访问的部分网站会对UserAgent进行限制,我们可以在基本设置中修改UserAgent,也可以点击'获取本机UserAgent'按钮获得本机的IE默认UserAgent

  设置支持语言;

  采集某些网页时,网站可能会检查支持的语言,用户可以在此调整。

  锁定设置

  此功能用于设置打开各个配置窗口时的密码,当设置了锁定密码后,使用 菜单-锁定 功能,即可在用户离开电脑后,防止他人访问操作各项配置。

  数据项设置

  数据项用于定义从采集页面获取的各项信息,除[标题]、[缩略图]、[文章网址](即发布规则中的[文章网址])这三项数据可在列表设置页获取外

  数据项属性编辑区

  [缩略图]、[标题]、[正文]、[文章网址]四个基本数据项的名称不能修改。

  其中[文章网址]数据项的取值为列表规则中文章网址合成的结果。

  [标题]数据项对应列表分析中的[文章标题]标记,默认取值为列表分析获取的文章标题。

  [缩略图]数据项对应列表分析中的[缩略图]标记,默认取值为列表分析获取的缩略图。

软件特色

  1、开机自动运行ET:启动电脑进入系统后,自动运行ET程序;

  2、ET启动后自动工作:ET启动运行后,自动执行上一次使用ET时勾选的工作方案,只有启用本项,才会自动保存当前勾选的工作方案;

  3、启动后最小化:ET启动后,隐藏主窗口,只显示托盘图标;

  4、忽略规则首尾空白:启用本项后,采集配置中的各个规则将自动去除首尾的空格、回车、换行等空白字符,以避免用户多输入空格或换行导致规则分析失败;如果用户需要利用空格或换行来确定规则的首尾边界,则请取消勾选;

  5、方案执行间隔时间:在进行自动工作、选择多个方案时,一个方案的当前列表采集完后,间隔多久更换采集下一个方案;

  6、访问网络超时时间:设定在访问网络时超过多久无响应则强制断开;

  7、访问网络重试次数:设定在访问网络时遇到失败的自动重试次数,例如采集网页、下载文件、ftp上传等,这是2.2版中新增功能;

  8、访问网页失败后自动重启ET:设定在访问网页失败一定次数后自动重启ET,以解决一些可能出现网络阻塞导致无法继续正常工作的问题;本功能仅在自动工作时生效,停止自动工作将重置失败计数,重试访问不计数;这是2.3.7版中新增功能;

使用方法

  我们经常需要把采集目标的图片、软件、视频等各种类型文件下载到自己的网站中,在ET中,无论文件类型是什么,设置方法都一样。

  第一步、设置数据项

  在数据项属性中有“包含文件”和“作为文件网址”两个相关选项,如图所示:

ET采集 3.4.5 官方版

  如果文件是以HTML代码的形式包含在数据项内容里,那么就选择“包含文件”,例如Img图片代码、A链接代码、Embed媒体代码;

  如果数据项的内容就是文件的网址,那么就选择“作为文件网址”;

  注意:正文数据项不能“作为文件网址”,如果要单独采集文件网址,请新建数据项采集。

  第二步、设置文件下载

  首先勾选采集配置-文件下载中的“启用下载”,并做相关设置告诉ET哪些网址是需要下载的文件,如图:

ET采集 3.4.5 官方版

  第三步、参数设置

  如果我们使用的不是正文数据项来采集文件,那么这个数据项必须在发布配置-发布项中被使用,否则它不会被采集。

  这里我们假设该数据项名称为“文件网址”来举例说明。

  1、发布的网站有该数据项对应的参数时,设置如图:

ET采集 3.4.5 官方版

  2、发布的网站没有该数据项对应的参数时,我们要将文件网址合并到正文里发布,设置如图:

ET采集 3.4.5 官方版

  第四步、设置文件显示

  发布配置-基本设置中可以设置文件的子目录和显示URL,具体参数请参考接口说明书,如图:

ET采集 3.4.5 官方版

  第五步、设置文件上传

  如果ET和网站不在同一电脑中,那么需要设置发布配置-文件上传将下载的文件上传到网站中;如果ET和网站在同一电脑中,可以跳过此步,如图:

ET采集 3.4.5 官方版

  第六步、设置本地下载位置

  通常我们不用设置文件下载到本地的什么位置,但如果ET和网站在同一电脑上运行时,我们可以直接下载文件到网站中而不需要设置文件上传,这时需要指定文件的下载位置,该设置在制订方案中,如图:

ET采集 3.4.5 官方版

主要优势

  1、工作记录:

  该栏记录ET的每一步工作过程及状态,包括目录采集和文章处理两大部分,我们通过工作记录可以了解该次采集执行是否正确完成,或是出现了什么问题;当出现问题时,可以根据提示、结合信息栏的其他反馈内容,用户可以迅速准确地找到故障原因并予解决。

  2、采集源码:

  此栏显示执行过程中所采集的文章列表页、文章页面、文章分页等的网页源代码,利用此栏源代码,可以方便的进行规则测试、提供规则定制依据。

  注意,某些网站会根据不同来访浏览器而显示不同的源代码,所以,ET的采集规则定制时,应以此栏的源代码为准,例如采集规则范例中的‘SMF 1.1.5‘,其网站通过IE访问和ET采集获取到的源码就有区别。

  3、分析数据:

  此栏显示文章处理过程中的各个数据项信息,从分析到的原始代码,到整理后的代码,再到经过URL修正后的代码,用户通过查看此栏,可以了解设置的数据项分析规则是否准确、整理组规则是否完善、最终的信息是否符合自己的要求。

  例如:当工作记录栏提示错误‘正文字数大于或小于发布设置‘时,我们可以查看本栏的‘正文‘数据项,了解具体是大于还是小于发布设置,原因是正常还是因为整理组设置不当,从而调整各个设置。

  4、发送代码:

  此栏显示ET向发布网站发送的数据,包括文章检查部分和文章发布部分;

  用户可以通过此栏信息了解通过一系列分析、整理操作,最终向发布网站提交的数据,用以检查自己的采集规则数据项、发布规则的参数设置等是否正确、完整。

  5、返回信息:

  此栏显示ET向发布网站发送数据后发布网站的反馈,包括文章检查反馈和文章发布反馈;

  通过查看此栏,我们可以清晰的了解当采集过程出现问题时的大部分原因。

  一些接口在返回错误信息时,信息可能是HTML代码,不熟悉HTML代码的用户阅读比较吃力,点击WEB浏览按钮,可以在操作系统默认浏览器中方便的查看它们

使用说明

  提示库未注册或无法打开MDB文件的解决办法

  运行ET时出现“库没有注册”的错误提示,通常是因为您的计算机系统有重要DLL文件注册丢失,需要重新注册。

  解决方法如下:

  一、

  在 开始菜单-运行 中 依次输入并运行以下命令:

  regsvr32 scrrun.dll

  regsvr32 jscript.dll

  regsvr32 vbscript.dll

  二、

  若使用上步后,仍有问题,因为无法判断具体是哪一个文件未注册,所以可以将system32下所有DLL文件重新注册一遍,操作如下:

  在 开始菜单-运行 中输入命令 cmd,然后在CMD窗口的命令提示符下输入下列命令后运行即可。

  for %1 in (%windir%system32*.dll) do regsvr32.exe /s %1

  注:

  请在运行此命令的时候关闭其他程序。尤其是杀毒软件的监控。如果内存比较大。速度将很快!

  在CMD窗口中粘贴的技巧:右击CMD窗口在弹出的菜单中选择编辑 - 粘贴。刚才复制的命令内容就已经粘贴到命令行中了。直接回车就开始运行命令了!

  三、

  若以上2个方法都不能解决,那么您很可能是mdac被损坏,请下载mdac 2.8以上版本重新安装;

  如果是XP系统修复安装,方法是在 c:windowsinf 下(c:windows是一般系统目录,操作时按您实际的系统目录)找出mdac.inf 然后点右键->安装。在弹出提示路径选取 c:windowsservicepackfilesi386,再提示需要XP CD的时候放入cd就可以了。

  三、非简体中文Windows操作系统下ET不能正常显示界面的解决办法

  ET是专为中国用户提供服务的软件,目前仅发布了简体中文版本,支持在简体中文windows系列操作系统上使用;

  当在其他语言的windows操作系统上运行时,可能出现软件界面上的文字显示为问号乱码的问题,这是因为该操作系统缺少ET所使用的微软标准简体宋体字库文件,这时请安装该字库即可解决问题,该字库文件名 simsun.ttc ,请从微软简体中文windows安装光盘获取;

  四、UserAgent的说明及在ET中的设置

系统环境

  1、EditorTools 适用于WINDOWS系列简体中文版操作系统;

  包括 windows xp简体中文版、windows 2000简体中文版、windows 2003简体中文版、windows vista简体中文版;

  对于其他语言环境的windows系统,部分可以使用,用户可自行尝试,开发方不提供对应技术支持。

  2、EditorTools 需要计算机上装有如下软件:

  mdac 2.8或以上版本 (最新ADO数据库驱动)

  已注册的scrrun.dll (用于阅读和编写脚本和文本文件)

  已注册的vbscript.dll (VBScript脚本相关支持文件)

  以上软件均为windows系统内置的免费软件,但可能在使用中被损坏或禁用。

常见问题

  1、什么是UserAgent?

  是指网站网页通过userAgent来判断当前用户使用的是什么浏览器,并根据这个浏览器能够支持的情况提供相应的功能。浏览器在访问一个网页时通常会传送一个识别字串告诉网站它是什么浏览器软件。很多统计网站使用它来了解有多少用户使用什么版本的浏览器。

  2、UserAgent在ET中有什么用?

  某些网站会对来访浏览器进行限制,诸如防止搜索引擎爬虫、广告群发、机器人软件、或者其他非法访问等各种原因,导致采集失败,此时,需要对UserAgent进行设置,可以用识别字串冒充其他浏览器,例如:

  QQ的USERAGENT:

  Mozilla/4.0 (compatible; MSIE 5.00; Windows 98)

  FIREFOX3的USERAGENT:

  Mozilla/5.0 (Windows; U; Windows NT 5.2; zh-CN; rv:1.9) Gecko/2008052906 Firefox/3.0

  其他常用USERAGENT:

  Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)

  Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.590; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)

  3、设置Useragent

  在ET中设置UserAgent请参见 使用篇-操作第一步-设置UserAgent ;

  五、DEDE发布提示“首页文件路径错误,无法创建文件”的解决办法

  方法一、修改您的首页生成HTML路径,注意相对路径的区别;

  方法二、 改接口,找到dede接口文件etpost.php中以下代码:

  if($cfg_makeindex=='是'){

  $pv = new PartView();

  $row = $pv->dsql->GetOne("Select * From #@__homepageset");

  $templet = str_replace("{style}",$cfg_df_style,$row['templet']);

  //$homeFile = dirname(__FILE__)."/".$row['position'];

  $homeFile = dirname(__FILE__)."/../".$row['position'];

  $homeFile = str_replace("","/",$homeFile);

  $homeFile = str_replace("//","/",$homeFile);

  $fp = fopen($homeFile,"w") or die("首页文件路径错误,无法创建文件");

  fclose($fp);

  $pv->SetTemplet($cfg_basedir.$cfg_templets_dir."/".$templet);

  $pv->SaveToHtml($homeFile);

  $pv->Close();

  }

  $arc->Close();

  return $reurl;

  把代码

  $homeFile = dirname(__FILE__)."/../".$row['position'];

  替换为

  $homeFile = dirname(__FILE__)."/".$row['position'];

  即可。

  六、如何获得网站完整的Cookies

  一些网站使用了限制访问Cookies的技术,导致在ET中使用 登录获取Cookies 时,无法获取到完整的Cookies,因为 登录采集 或 模拟发布 不能成功。

  当我们遇到此类问题时,可以使用第三方抓包软件(如Http Analyzer)来获取完整Cookies,然后拷贝到“发布配置-模拟发布-发布Cookies” 或 “采集配置-登录设置-当前cookies” 栏中,如下图:

ET采集 3.4.5 官方版

  如果是Phpwind论坛一类的网站,则还需要获得与Cookies匹配的Useragent,将复制的Useragent粘贴到系统菜单-基本设置窗中的Useragent栏即可,如下图:

ET采集 3.4.5 官方版

更新日志

  1、修正:方案每日执行次数不准确的问题。

  2、优化:数据提取准确性、兼容性提高。

  3、优化:SFTP兼容性提高。

∨ 展开

网友评论

我要跟帖
取消
所有评论 共 0