IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 系统运维 -> 机器学习平台kubeflow搭建 -> 正文阅读

[系统运维]机器学习平台kubeflow搭建

机器学习平台kubeflow搭建



前言

首先来一段官网的介绍:Kubeflow项目致力于使Kubernetes上机器学习(ML)工作流的部署变得简单、可移植和可扩展。我们的目标不是重新创建其他服务,而是提供一种直接的方式,为ML部署最佳的开源系统到不同的基础设施。无论你在哪里运行Kubernetes,你都应该能够运行Kubeflow。(谷歌翻译)

kubeflow可以运行在多种云平台基础设施上(如:GKE)。本文的kubeflow安装在自建的k8s平台上。
基础环境如下:

  • k0s: v1.21.5+k0s.1
  • k0sctl: v0.11.3
  • k8s: 1.21.5 (k0s构建单机版)
  • kubeflow: 1.4.0

`官方文档前提条件:

  • kubernetes 版本1.19 (我用的1.21,碰到了问题,文章后面有解决方案)
  • kustomize 版本3.2.0不能用4.X (我用的4.4.1通过,反而3.X的不能通过,估计和k8s版本有关)

注意:kubeflow从1.3版本开始,安装方式出现了变化,具体变化请看manifests项目的 readme


一、搭建流程

1. k0s 构建k8s平台

具体搭建方法请百度。

2. 准备pv

kubeflow的组件需要存储,所以需要提前准备好pv,本次实验存储采用的本地磁盘存储的方式。流程如下:

  1. 准备本地目录
mkdir -p /data/istio-authservice /data/katib-mysql /data/minio /data/mysql-pv-claim
  1. 编写kubeflow-storage.yaml
kind: StorageClass
apiVersion: storage.k8s.io/v1
metadata:
  name: local-storage
provisioner: kubernetes.io/no-provisioner
volumeBindingMode: WaitForFirstConsumer

---
apiVersion: v1
kind: PersistentVolume
metadata:
  name: authservice
  namespace: istio-system
  labels:
    type: local
spec:
  storageClassName: local-storage
  capacity:
    storage: 10Gi
  accessModes:
    - ReadWriteOnce
  hostPath:
    path: "/data/istio-authservice"

---
apiVersion: v1
kind: PersistentVolume
metadata:
  namespace: kubeflow
  name: katib-mysql
  labels:
    type: local
spec:
  storageClassName: local-storage
  capacity:
    storage: 10Gi
  accessModes:
    - ReadWriteOnce
  hostPath:
    path: "/data/katib-mysql"

---
apiVersion: v1
kind: PersistentVolume
metadata:
  name: minio
  namespace: kubeflow
  labels:
    type: local
spec:
  storageClassName: local-storage
  capacity:
    storage: 20Gi
  accessModes:
    - ReadWriteOnce
  hostPath:
    path: "/data/minio"

---
apiVersion: v1
kind: PersistentVolume
metadata:
  name: mysql-pv-claim
  namespace: kubeflow
  labels:
    type: local
spec:
  storageClassName: local-storage
  capacity:
    storage: 20Gi
  accessModes:
    - ReadWriteOnce
  hostPath:
    path: "/data/mysql-pv-claim"
  1. 创建storageclass 和pv
kubectl apply -f kubeflow-storage.yaml

3. 安装kubeflow

  1. 拉取manifest项目
git clone https://github.com/kubeflow/manifests.git
  1. 修改yaml,下面每个文件里面添加 storageClassName: local-storage

    • apps/katib/upstream/components/mysql/pvc.yaml
    • apps/pipeline/upstream/third-party/minio/base/minio-pvc.yaml
    • apps/pipeline/upstream/third-party/mysql/base/mysql-pv-claim.yaml
    • common/oidc-authservice/base/pvc.yaml
  2. 安装kubeflow

cd /path/to/manifests

while ! kustomize build example | kubectl apply -f -; do echo "Retrying to apply resources"; sleep 10; done

二、问题

Q: authservice-0 pod 启动失败:Error opening bolt store: open /var/lib/authservice/data.db: permission denied
A: 通过翻看manifests项目的authservice StatefulSet定义文件 common/oidc-authservice/overlays/ibm-storage-config/statefulset.yaml:

apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: authservice
spec:
  template:
    spec:
      initContainers:
      - name: fix-permission
        image: busybox
        command: ['sh', '-c']
        args: ['chmod -R 777 /var/lib/authservice;']
        volumeMounts:
        - mountPath: /var/lib/authservice
          name: data

authservice服务有个initContainers来解决权限问题,并且赋予777的最大权限,考虑到我们采用的是本地的存储,所以给挂载的磁盘目录赋予最大权限即可:chmod -R 777 /data/istio-authservice


三、总结

本文详细介绍了采用单命令方式安装kubeflow最新1.4.0版本,搭建的过程中碰到了不少的问题,在此记录下来。但同时也遗留了一些问题:

  1. argo目前对non-docker的容器支持的不好,但是k8s本身从1.20版本已经将默认的容器运行时改成了containerd,所以这块如何兼容,需要继续探索。
  2. 安装过程中很多镜像下载很慢甚至无法下载,文档中目前没有看到所有的镜像列表,请有大佬知晓告知我。

搭建的过程中感觉kubeflow越来越稳定和架构简单了,下一步探索下里面的training部分。

  系统运维 最新文章
配置小型公司网络WLAN基本业务(AC通过三层
如何在交付运维过程中建立风险底线意识,提
快速传输大文件,怎么通过网络传大文件给对
从游戏服务端角度分析移动同步(状态同步)
MySQL使用MyCat实现分库分表
如何用DWDM射频光纤技术实现200公里外的站点
国内顺畅下载k8s.gcr.io的镜像
自动化测试appium
ctfshow ssrf
Linux操作系统学习之实用指令(Centos7/8均
上一篇文章      下一篇文章      查看所有文章
加:2021-11-18 11:32:08  更:2021-11-18 11:34:12 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/16 0:33:50-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码