Apache Nutch下载-Apache Nutch(Java搜索引擎框架) 1.9 官方版

　　Apache Nutch是款功能全面的Java搜索引擎的框架；它对相关的所有工具进行提供，让用户快捷的完成全文的搜索，包括了web爬虫支持；让用户对内部网的搜索引擎进行建立，也可以对整个的网络完成搜索引擎的建立，并且内置了许多需要使用到的组件，让您的快捷的将URL集合注入需要的系统里面，并且完成对片段文件的生成，也支持对抓取的网页解析，感兴趣的用户不要错过！

软件功能

　　将需要的起始URL集合注入到您的Nutch系统里面

　　对片段的文件进行生成，也对各种URL的地址进行抓取

　　并且根据您得到URL地址来互联网上完成相关内容的抓取

　　也支持对抓取到的网页进行解析，对里面的数据、文本等内容分析

　　将新抓取的URL集合自来更新起始的URL集合，并且进行再次的抓取

　　可以对抓取成功的内容完成索引的创建，快速的生成索引文件

软件特色

　　只要您有一点的相关基础，就可以完成相关的操作

　　并且让用户化最少的时间来配置web的搜索引擎

　　对抓取的网页两大，快捷的完成网页的索引维护

　　搜索的功能让您快捷的完成索引文件的搜索

　　结果的质量也相当的高，并且搜索的速度快

使用说明

　　1、在本站将需要的资源包下载完成之后，所需软件准备好之后，我们用"FTPFlash"软件把文件上传到Linux服务器，这样可以为安装最好准备；

　　2、首先用root身份登录"TSlave.Hadoop：192.168.1.11"后在"/usr"下创建"java"文件夹，再把用ftp上传到"/home/hadoop/"下的"jdk-6u31-linux-i586.bin"复制到"/usr/java"文件夹中；

　　3、接着进入"/usr/java"目录下通过下面命令使其JDK获得可执行权限，并安装JDK；

　　4、按照上面几步进行操作，最后点击"Enter"键开始安装，安装完会提示你按"Enter"键退出，然后查看"/usr/java"下面会发现多了一个名为"jdk1.6.0_31"文件夹，说明我们的JDK安装结束，删除"jdk-6u31-linux-i586.bin"文件，进入下一个"配置环境变量"环节；

　　5、接着配置JDK环境变量，编辑"/etc/profile"文件，在后面添加Java的"JAVA_HOME"、"CLASSPATH"以及"PATH"内容。在"/etc/profile"文件的尾部添加以下内容：

　　6、保存并退出，执行下面命令使其配置立即生效；

　　7、最后验证一下JDK是否安装成功；

∨ 展开