Apache Nutch是款功能全面的Java搜索引擎的框架;它对相关的所有工具进行提供,让用户快捷的完成全文的搜索,包括了web爬虫支持;让用户对内部网的搜索引擎进行建立,也可以对整个的网络完成搜索引擎的建立,并且内置了许多需要使用到的组件,让您的快捷的将URL集合注入需要的系统里面,并且完成对片段文件的生成,也支持对抓取的网页解析,感兴趣的用户不要错过!

软件功能
将需要的起始URL集合注入到您的Nutch系统里面
对片段的文件进行生成,也对各种URL的地址进行抓取
并且根据您得到URL地址来互联网上完成相关内容的抓取
也支持对抓取到的网页进行解析,对里面的数据、文本等内容分析
将新抓取的URL集合自来更新起始的URL集合,并且进行再次的抓取
可以对抓取成功的内容完成索引的创建,快速的生成索引文件
软件特色
只要您有一点的相关基础,就可以完成相关的操作
并且让用户化最少的时间来配置web的搜索引擎
对抓取的网页两大,快捷的完成网页的索引维护
搜索的功能让您快捷的完成索引文件的搜索
结果的质量也相当的高,并且搜索的速度快
使用说明
1、在本站将需要的资源包下载完成之后, 所需软件准备好之后,我们用"FTPFlash"软件把文件上传到Linux服务器,这样可以为安装最好准备;

2、首先用root身份登录"TSlave.Hadoop:192.168.1.11"后在"/usr"下创建"java"文件夹,再把用ftp上传到"/home/hadoop/"下的"jdk-6u31-linux-i586.bin"复制到"/usr/java"文件夹中;

3、接着进入"/usr/java"目录下通过下面命令使其JDK获得可执行权限,并安装JDK;

4、按照上面几步进行操作,最后点击"Enter"键开始安装,安装完会提示你按"Enter"键退出,然后查看"/usr/java"下面会发现多了一个名为"jdk1.6.0_31"文件夹,说明我们的JDK安装结束,删除"jdk-6u31-linux-i586.bin"文件,进入下一个"配置环境变量"环节;

5、接着配置JDK环境变量,编辑"/etc/profile"文件,在后面添加Java的"JAVA_HOME"、"CLASSPATH"以及"PATH"内容。在"/etc/profile"文件的尾部添加以下内容:

6、保存并退出,执行下面命令使其配置立即生效;

7、最后验证一下JDK是否安装成功;

∨ 展开