Nutch相关分析探索综述 Nutch是由Doug Cutting发起的开源爬虫项目,在搜索引擎中负责爬取网页,同时自动维护网页的URL信息。nutch孵化了现在大数据处理框架Hadoop。在nutch V 0.8.0 版本之前,Hadoop是nutch的一部分,从nutch V0.8.0开始,HDFS和MapReduce从nutch中剥离出成为Hadoop。v0.8.0之后,nutch就完全构建在Hadoop的基础之上了。 获取基本信息后得知,nutch主要分两个功能模块,网页爬取和爬取后的searcher。本次分析工作,我主要负责searcher方面的分析工作。 代码安装配置完成后,首先分析了项目目录结构: bin:两个文件,一个是nutch,一个是crawl, crawl是对nutch中的命令进行了封装,实现了一站式调用。
conf:里面保存了nutch的基本配置信息,nutch-default.xml nutch-site.xml parse-plugins.xml regex-urlfilter.txt
docs:api文档 lib:存储了nutch的依赖jar包 plugins:存储了nutch使用的插件jar包
下面是索引建立部分的准备工作 1):需要把nutch下的schema-solr4.xml拷贝到solr中
命令:cp /usr/local/nutch/conf/schema-solr4.xml /usr/local/solr-4.10.4/example/solr/collection1/conf
2):删除solr中的默认配置文件schema.xml,在把刚才拷贝过去的文件该名称 cd /usr/local/solr-4.10.4/example/solr/collection1/conf rm schema.xml mv schema-solr4.xml schema.xml
3):在schema.xml中添加一个字段配置
或者也可以动态指定, 例子:crawl -i -D “solr.server.url=http://192.168.1.170:8983/solr” urls crawl 1
1.启动solr
cd /usr/local/solr-4.10.4/example
java -jar start.jar
命令:crawl -i urls crawl 1
-i:表示会对爬取的数据建立索引,默认会在本机solr中建立索引, 如果使用其他服务器上的solr,需要修改nutch-default中solr.server.url的值, 建议在nutch-site.xml中进行覆盖。
3.检验
http://127.0.0.1:8983/solr/ 可以通过query 查看到content的内容
|