Ceph

DCGM Exporter を用いた Kubernetes における NVIDIA GPU 監視環境の構築

Prometheus & Grafana と DCGM-Exporter を使って NVIDIA GPU を監視するシステムを Kubernetes 上に構築します.

AnsibleではじめるRook/Ceph with TopoLVM

はじめに 使い方 動作環境 構築手順 削除 おわりに はじめに TopoLVMをCSIに用いてRook/CephをK8sクラスタの構築から全自動で行うAnsible-Playbookを作成したので,簡単な使い方などを紹介していきたいと思います. 本PlayBookではHAProxyとKeepalivedを用い…

TopoLVMによるPVC-basedなRook/Ceph with Pod Topology Spread Constraints

はじめに 前提条件 TopoLVMの導入 TopoLVMとは TopoLVM準備 topolvm-schedulerの導入 K8sクラスタの構築 共通事前準備 Control Plane Node Node topolvmのデプロイ 事前準備 helm3 kustomize デプロイ Rook/Cephのデプロイ 事前準備 デプロイ CephFSのデプロ…

Jupyter Lab on Kubernetesでの深層学習環境の構築

はじめに 前回までのお話 Ingress Nginx Ingressとは マニフェストの準備 デプロイ Jupyter-Lab Jupyterとは コンテナイメージの作成 マニフェストの準備 デプロイ L7ルーティング 概要 マニフェストの準備 デプロイ アクセス確認 おわりに はじめに 今回はj…

Rook CephFSでの障害ドメインのカスタマイズ

はじめに 障害ドメインの種類 障害ドメインのカスタム設定 掃除 マニフェストの書き換え デプロイ おまけ 構成の確認 ベンチマーク 補足事項 おわりに はじめに 以前下記の記事でCephFS/Rookを実装しました. tenzen.hatenablog.com その際障害ドメインをホ…

Kubernetesにおけるデータのバックアップ

はじめに CronJobとは 実装 フルバックアップの実装 Persistent Volumeの準備 バックアップ処理用Dockerイメージの作成 フルバックアップ処理用CronJobの実装 差分バックアップ処理用CronJobの実装 今回使用する差分バックアップ マニフェストの準備とデプロ…

Private Docker Registry(プライベートレジストリ) on Kubernetes

はじめに Persistent Volumeの作成 Private Docker Registryデプロイ Private Docker Registry Frontendのデプロイ Ingress Nginx Controller Ingress Nginx Controllerとは Ingressリソースの実装 おわりに はじめに 以前下記の記事でdockerを用いて作成し…

Rook-Cephfs + Nvidia Driver vs てんぜん

はじめに Rookとは 準備 Kernel Imageの変更 Nvidia Driverの更新 時間調整 Rook・Cephの設定 デプロイ PVとしての使用 Ceph DashBoard トラブルシューティング おわりに はじめに RookだらけのAdvent Calenderに一通り目を通して面白そうだと思い やってみ…