当前大数据集群的工具选型上, 巨头们都是自研大数据工具, 中小微企业都是开源大数据组件搭积木, 中间层级的厂商或买商业软件(MaxCompute/腾讯云/华为云)或在CDH基础上再集成商业套件(Dataphin之类).
cloudera公司是在2021年2月份启动付费墙后, 之前无论是cdh集群官网archive资源, 还是通过yum方式安装cdh组件, 均会被付费墙拦截, 需要缴费后拿到下载账户才可以执行下载操作. 在此时间节点之前的安装和添加新节点都是没有问题的.
如果现在有个需求, 需要将新采购的3台服务器, 加入CDH集群中, 因需要联网获取parcels包信息, 就被付费墙拦截了.
基于这种场景, 如果下载cloudera的资源时被拦截, 但是我们本地保存有离线的parcels资源的话, 就可以通过搭建私域的http web服务器来提供parcels包的下载.通过这种方式来架设web server服务, 并把这些资源形成URI路径, 安装时指定自己的web资源地址就可以完成后续的集群从0到1的安装, 或添加节点操作了.
步骤①. 安装httpd服务器
1、查看httpd包是否可用:
2、安装Apache
3、配置ServerName
如果没有域名,则:ServerName localhost:80 或者 ServerName 127.0.0.1:80
4 启动
5 停止
6 设置开机自动启动:
chkconfig httpd on
7 安装目录介绍
Apache默认将网站的根目录指向/var/www/html 目录
默认的主配置文件是/etc/httpd/conf/httpd.conf
配置存储在的/etc/httpd/conf.d/目录
步骤②. 按如下目录层级放置parcels数据
[root@cdh01 html]
/var/www/html
[root@cdh01 html]
[root@cdh01 html]
cloudera-repos/
└── cdh5
├── CDH-5.16.2-1.cdh5.16.2.p0.8-el7.parcel -> /data/sys_disk_mirror/cloudera/parcel-repo/CDH-5.16.2-1.cdh5.16.2.p0.8-el7.parcel
├── CDH-5.16.2-1.cdh5.16.2.p0.8-el7.parcel.sha
├── manifest.json
├── repodata
│ ├── filelists.xml.gz
│ ├── filelists.xml.gz.asc
│ ├── other.xml.gz
│ ├── other.xml.gz.asc
│ ├── primary.xml.gz
│ ├── primary.xml.gz.asc
│ ├── repomd.xml
│ └── repomd.xml.asc
└── RPMS
└── x86_64
├── cloudera-manager-agent-5.16.2-1.cm5162.p0.7.el7.x86_64.rpm
├── cloudera-manager-daemons-5.16.2-1.cm5162.p0.7.el7.x86_64.rpm
├── cloudera-manager-server-5.16.2-1.cm5162.p0.7.el7.x86_64.rpm
├── cloudera-manager-server-db-2-5.16.2-1.cm5162.p0.7.el7.x86_64.rpm
├── enterprise-debuginfo-5.16.2-1.cm5162.p0.7.el7.x86_64.rpm
├── jdk-6u31-linux-amd64.rpm
└── oracle-j2sdk1.7-1.7.0+update67-1.x86_64.rpm
4 directories, 18 files
[root@cdh01 html]
CDH 6.1.0 与 5.10.2 版本的 manifest.json文件差异对比:
资源列表:
- https://ro-bucharest-repo.bigstepcloud.com/cloudera-repos/
- https://www.cxymm.net/article/zhumingye/115181682
|