1.安装jdk
Jdk版本为1.6, 下载地址:
http://www.sun.com/download/
安装路径:C:\Program Files\Java\jdk1.6.0_05\(安装路径不做硬性要求)
配置PATH环境变量 ;%JAVA_HOME%\bin;%TOMCAT_HOME%\bin
配置JAVA_HOME环境变量 C:\Program Files\Java\jdk1.6.0_05
配置JAVA_BIN环境变量 C:\Program Files\Java\jdk1.6.0_05\bin
配置CLASSPATH环境变量 %JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar
2.安装Tomcat
版本为5.0 (一定要用Tomcat5.0,如果注意下载了Tomcat6.0,会导致运行时的一些不知名的异常:例如 “Attribute value details.getValue("url") is quoted with " which must be escaped when used within the value)
下载地址:
http://tomcat.apache.org/
设置TOMCAT_HOME环境变量 c:\tomcat
3.安装Cygwin.(在windows模拟linux环境)
下载Cygwin
4.安装Nutch
1)下载nutch包,地址为http://lucene.apache.org/nutch/,大约60M。
2)将包nutch-0.9.tar.gz放到cygwin的安装目录根目录下。(例如D:\cygwin)
打开Cygwin的快捷方式,退到根目录,运行dir会看到nutch-0.9.tar.gz.
3)运行tar xvf nutch-0.9.tar.gz进行解包,会在根目录下面生成nutch-0.9文件夹。
4)将该文件改名, mv nutch-0.9 nutch
5)在nutch目录下,建立urls目录,然后建立一个url(不带后缀名哦)文件,在url文件内写入一个希望爬行的url,例如:http://www.sohu.com/ (后面的/不能丢)
6)打开nutch\conf\crawl-urlfilter.txt文件.
将
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
改为
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*sohu.com/(这里要注意哦)
7)打开nutch/conf/nutch-site.xml文件,在<configuration></configuration>内插入以下内容:
<property>
<name>http.agent.name</name>
<value>nutch</value>
<description></description>
</property>
<property>
<name>http.agent.description</name>
<value>hello</value>
<description></description>
</property>
<property>
<name>http.agent.url</name>
<value>http://www.baidu.com</value>
<description></description>
</property>
<property>
<name>http.agent.email</name>
<value>tzhye87@163.com</value>
<description></description>
</property>
注意http.agent.name的value值一定要写上,不能为空,否则会在抓取网页时会报错!
5.用nutch进行爬行
进入nutch目录
$ sh ./bin/nutch crawl urls -dir mydir -depth 2 -threads 4 -topN 50
crawl:通知nutch.jar,执行crawl的main方法。
urls:存放需要爬行的url.txt文件的目录
-dir mydir 爬行后文件保存的位置
-depth 2:爬行次数,或者成为深度,不过还是觉得次数更贴切,建议测试时改为1。
-threads 指定并发的进程 这是设定为 4
-topN 50:一个网站保存的最大页面数。
注意爬网的时候mydir目录不能存在,要不然会出错
6.配置tomcat
1、将nutch-0.9.war复制到到Tomcat 的webapps目录下解压并改名为nutch。
2. 编辑C:\tomcat\webapps\nutch\WEB-INF\classes\nutch-site.xml文件
<configuration>
<property>
<name>searcher.dir</name>
<value>C:\cygwin\nutch\mydir</value>
</property>
</configuration>
注意<value>C:\cygwin\nutch\mydir</value>是爬取网页的目录,一定要注意<value>C:\cygwin\nutch\mydir</value>之间不能有空格,不能写成<value> C:\cygwin\nutch\mydir </value>这样,不然会出现不知名的异常,找个老半天也找不到错在哪,一般会出现译码错误。
6、在Tomcat \webapps\nutch\zh\include 下面新建header.jsp,内容就是复制header.html,但是
前面加上
<%@ page contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%>
在D:\tomcat\webapps\nutch\search.jsp里面,找到并修改为
<jsp:include page="<%= language + "/include/header.jsp"%>"/>
顺便把下面js注释掉
function queryfocus() {
//search.query.focus(); }
7、在Tomcat\conf\server.xml 找到以下段,并修改
<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" debug="0" connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="UTF-8" useBodyEncodingForURI="true" />
注意URIEncoding="UTF-8" useBodyEncodingForURI="true" 这个一定要写上,否则在搜索页面有乱码!
8、重启tomcat,访问 http://localhost:8080/nutch/ 就可以看到搜索主页了,而且搜索支持中文和分词。
相关推荐
我自己对nutch安装开发环境的一些理解,以及遇到问题的解决方法
详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等
Nutch1.6的编译配置过程,详细介绍了Nutch1.6的下载到安装运行过程。
Nutch在windows开发中程序运行环境的配置,可用于Java环境开发
2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 3.1.3 ...
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫
Windows下使用Eclipse配置Nutch2图文详解
windows7的环境下将nutch成功运行 整个安装图片教程: 1 cygwin的安装 2 apache-nutch的安装 3 nutch实例抓取实例
2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 ...
Nutch采用分布式架构,在多台机器上运行多个组件来完成整个爬取流程。核心组件包括Fetcher、Parser、Indexer等,同时还有一些可选组件如URL Normalizer、URL Filter等。这些组件相互协作,通过消息队列来传递数据,...
使用github中最新的nutch-2.x源码,奋战10天拿下的Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3配置攻略,在ubuntu14.04上成功运行本地和分布式爬虫。文档详细描述了三者版本不兼容问题的解决方案以及各个配置文件的详细...
简介Sek - 一个类似 Nutch 的, 基于 Hadoop 的并行式爬虫框架.当前尚处于构思阶段.构思如下:日志功能.参数的可配置.设置种子 URL 时可以进行必要的配置, 如评分, 定义抓取间隔等.基于 正则表达式 的 URL 过滤.URL ...
运行build.sh以检出 Nutch 主干,构建它,并复制必要的配置文件。 完成后, cd dist使用新配置的 Nutch 发行版。 有关更新的配置文件,请参阅和 。 运行命令bin/crawl urls/ CrawlData/ N , 用作抓取的种子,...
BCube Crawler 是 Apache Nutch 项目(1.9 版)的一个分支,经过调整后可以在 Amazon 的 ElasticMapReduce 上运行,并针对 Web 服务和数据发现进行了优化。 动机 建立一个健康的 Hadoop 集群并不总是一件容易的事,...
请注意,Apache Nutch 已经编译,这意味着您不需要在其中运行“ant”命令,但您还需要更改 runtime/local/conf 文件夹中的 nutch-site.xml 文件。 在 ElasticSearch 中,您需要创建一个索引。 该命令是: cr
本书是Hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行Hadoop集群。 目录 第1章 初识Hadoop 数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统...
安装和运行ZooKeeper 示例 ZooKeeper中的组成员关系 创建组 加入组 列出组成员 ZooKeeper服务 数据模型 操作 实现 一致性 会话 状态 使用ZooKeeper来构建应用 配置服务 具有可恢复性的ZooKeeper应用 锁服务 生产环境...
Gecco如何运行 Gecco的初始化和启动通过GeccoEngine完成,GeccoEngine主要负责初始化配置、开始请求的配置和启动爬虫运行,最基本的启动方法: GeccoEngine.create() .classpath("com.geccocrawler.ge » ...
运行项目根目录下的脚本demo-word.bat可以快速体验分词效果 用法: command [text] [input] [output] 命令command的可选值为:demo、text、file demo text 杨尚川是APDPlat应用级产品开发平台的作者 file d:/text.txt...
bigdata-2大数据 二 跑在hadoop平台上的测试代码,和实际运行在平台上的代码有些不同核心功能部分代码的数据准备是利用Nutch 爬取 网易门户网站中各个分类的内容,根据内容进行分词(利用Lucene,配置庖丁解牛包的...