多云容器编排 Karmada-Operator 实践( 三 )


多云容器编排 Karmada-Operator 实践

文章插图
这里主要定义KarmadaDeployment、EtcdBackup和EtcdRestore个资源,分别用于Karmada的部署,和etcd的数据备份和恢复 。ansible Operator会根据spec里定义解析成ansible的vars 。status将通过 ansible runner 输出为用户自定义的状态 。也可以通过ansible的k8s_status更新KarmadaDeployment的状态 。当前主要考虑的是在K8s运行Karmada,后面会添加二进制部署模式,当前的CR没有涉及 。
2.4 架构设计
多云容器编排 Karmada-Operator 实践

文章插图
如图所示Karmada Operator提供了容器化和二进制集群部署设计,其中Karmada的容器化部署不需要执行ssh登录,只需通过K8s和k8s_status就可以完成karmada控制面的管控 。Karmada的二进制部署主要通过ssh登录完成Karmada控制平面的管控 。member集群的join和unjoin需要提前提供member集群的kubeconfig文件,也可以设置member的登录权限操作,需要在CR里定义member集群的用户和密钥 。
执行流程如下 。
  1. 用户通过KarmadaDeployment定义Karmada操作
  2. Karmada Operator感知KarmadaDeployment的CR变化,开始进入控制器逻辑
  3. 根据用户的定义,选择是容器化部署或者二进制部署,开始执行安装、扩所容和备份等操作
  4. 执行join/unjoin操作,将member集群注册到Karmada集群或者注销member集群
2.5 Karmada控制平面管理
多云容器编排 Karmada-Operator 实践

文章插图
如上图所示,主要是karmada控制平面生命周期管理,对比当前社区的部署工具我们如下优化:
  1. 标准化证书管理,主要是用openssl生成证书 。其中etcd和Karmada证书单独分开维护,和k8s集群证书命名相同,方便接入我们的监控 。
  2. Karmada-apiserver支持外部负载均衡,不限于当前的k8s service提供的负载均衡 。
  3. 更灵活的升级策略,支持单独组件升级和全量升级 。
  4. 更丰富的全局变量定义,计划支持组件配置变更等 。
2.6 etcd集群管理
多云容器编排 Karmada-Operator 实践

文章插图
etcd集群是Karmada的元数据集群,生产中需要保证etcd集群高可用和故障恢复等 。如上图展示了etcd集群必要的生产要素,如自动扩缩容、升级、备份和etcd集群的故障恢复 。自研了基于ansible的plugins和library, 实现etcd集群管理能力如下:
  1. 添加member到存在的etcd集群 。
  2. etcd集群删除member 。
  3. etcd集群的备份,比如支持cephfs的数据备份 。
  4. etcd集群故障恢复 。
  5. etcd集群健康状态查询 。
这里定义了etcdBackup和etcdRestore的CR,没有合并到KarmadaDeployment里 。主要考虑到etcd集群本身操作的安全性和简化KarmadaDeployment的ansible任务 。其中etcdRestore功能,可以根据etcd集群备份数据,实现导入到新的etcd集群,从而恢复Karmada集群所有的业务状态 。当前主要场景如下:
  1. Karmada集群所在的机房裁撤,需要备份etcd数据,迁移到新的Karmada集群 。
  2. 期望通过Karmada-Operator管理Karmada集群,只需备份etcd数据,实现etcdRestore功能即可 。
  3. Karmada集群故障,可以通过etcd备份数据,结合etcdRestroe实现故障恢复 。
2.7 member集群管理
多云容器编排 Karmada-Operator 实践

文章插图
member集群的生命周期管理主要有注册和注销,上图是执行的流程 。为了处理member集群的注册和注销,这里会动态的生成inventory 。Ansible Inventory 是包含静态 Inventory 和动态 Inventory 两部分的,静态 Inventory 指的是在文件中指定的主机和组,动态 Inventory 指通过外部脚本获取主机列表,并按照 ansible 所要求的格式返回给 ansilbe 命令的 。

经验总结扩展阅读