IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 2021-09-23 -> 正文阅读

[大数据]2021-09-23

Nutch相关分析探索综述
Nutch是由Doug Cutting发起的开源爬虫项目,在搜索引擎中负责爬取网页,同时自动维护网页的URL信息。nutch孵化了现在大数据处理框架Hadoop。在nutch V 0.8.0 版本之前,Hadoop是nutch的一部分,从nutch V0.8.0开始,HDFS和MapReduce从nutch中剥离出成为Hadoop。v0.8.0之后,nutch就完全构建在Hadoop的基础之上了。
获取基本信息后得知,nutch主要分两个功能模块,网页爬取和爬取后的searcher。本次分析工作,我主要负责searcher方面的分析工作。
代码安装配置完成后,首先分析了项目目录结构:
bin:两个文件,一个是nutch,一个是crawl,
crawl是对nutch中的命令进行了封装,实现了一站式调用。

conf:里面保存了nutch的基本配置信息,nutch-default.xml nutch-site.xml parse-plugins.xml regex-urlfilter.txt

docs:api文档
lib:存储了nutch的依赖jar包
plugins:存储了nutch使用的插件jar包

下面是索引建立部分的准备工作
1):需要把nutch下的schema-solr4.xml拷贝到solr中

    命令:cp /usr/local/nutch/conf/schema-solr4.xml /usr/local/solr-4.10.4/example/solr/collection1/conf

2):删除solr中的默认配置文件schema.xml,在把刚才拷贝过去的文件该名称
cd /usr/local/solr-4.10.4/example/solr/collection1/conf
rm schema.xml
mv schema-solr4.xml schema.xml

3):在schema.xml中添加一个字段配置

或者也可以动态指定,
例子:crawl -i -D “solr.server.url=http://192.168.1.170:8983/solr” urls crawl 1

1.启动solr

cd /usr/local/solr-4.10.4/example
java -jar start.jar

命令:crawl -i urls crawl 1

-i:表示会对爬取的数据建立索引,默认会在本机solr中建立索引,
如果使用其他服务器上的solr,需要修改nutch-default中solr.server.url的值,
建议在nutch-site.xml中进行覆盖。

3.检验

http://127.0.0.1:8983/solr/ 可以通过query 查看到content的内容

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-10-01 16:56:57  更:2021-10-01 16:57:20 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 23:26:16-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码