XISE菜刀是一款简单的新闻采集软件,该软件支持新浪、腾讯、网易、搜狐等多家网站的内容搜索,支持批量上传、批量生产内页、批量挂链、批量替换,查找当前站点等,让您在采集数据的时候可以更加方便的管理文件;本软件支持手动添加地址链接,您可以选择、百度真相、百度知道、北京网、天津电视台、西藏模板、广西网-排名好、江苏-好兄弟等多家网站上的地址监控,帮助您将采集的信息及时管理并保存,让您通过关键词就能得出所需的内容,需要的朋友可以下载试试!
软件功能
{htle} 标题标签
{description} 描述标签
{js} JS标签
{ip} 随机变异IP地址转换(需要在生成界面设置)
{tmkeyword} 主关键词标签
{keyword2} 固定关键词标签
{keyword3} 固定关键词标签
{domain} SHELL目录地址
{skeyword} 随机关键词标签
{ncontent} 随机正文标签(由关键词、句子、视频、图片组成的随机性正文)
{time} 当前时间标签
{link} 随机链接标签
{slink} 随机对应关键词超链标签
{number} 随机1~3个数字标签
{char} 随机3~6个字符标签
{pinyin} 随机1~3个汉字拼音标签
{video} 随机视频链接标签
{ylinks} 友链标签,调用外部链接
{newslist} 目录页目录链接
{page} 目录页页数链接
{custom} 自定义内容标签
{custom2} 自定义内容2标签
软件特色
link.txt保存所有shell网址
myads.txt 广告描述
keyword目录可存放多文档关键词
tpl目录可以存放多模板
index1.php 是缓存版 刷新关键词标题都不变
index2.php 是动态版 刷新关键词标题自动变化
远程调用的时候 根据自己的需求选择
使用方法
1、基本设置、教学提示气泡、上传下载线程容量、连接超时时间、shell列表每页条数、同意默认密码
2、被控端管理,可以批量导入、批量导出,编号显示的是代码额语言类型,可以设置语言PHP、ASP、JSP
3、新闻采集,用户搜索网络上的新闻连接,可以设置同时采集的数量、线程数、支持选择新闻来源
4、自定义脚本,可以选择地址、post值,选择以后就会出现相应的代码程序,包括上传下载的地址类型
相关介绍
泛采集:
定向爬虫受限于网页模板,在此基础上加上几个内容分析算法来提取内容,改成通用爬虫。
好多浏览器插件,如印象笔记之类的,有好多类似“只看正文”的功能,点一下只显示当前浏览网页的正文信息,很多人已经把此类算法移植到python、php、java等编程语言上,搜索下便是。
采集内容如何处理?
两个先后过程:
对原始内容的处理
对处理后内容进行组织
对原始内容的处理
百度专利说过,搜索引擎除了根据正文判断内容相似性,也会根据html的dom节点的位置和顺序来判断,如果两个网页正文的html的结构相似,也可能当做重复内容来处理。
∨ 展开