Kubernetes之基础概念

1、Pod相关概念

  • 在kubernetes中不能直接运行容器。在Kubernetes群集中,只能运行pods。Pods在kubernetes中是部署的原子单位。一个Pod是一个或者多个共存的容器,它们共享着相同的内核命名空间,比如网络命名空间。

  • 当创建一个新的pod时,kubernetes首先创建所谓的pause container,该容器只负责创建和管理命名空间,而命名空间就是给pod中的所有容器共享使用的。 除此之外,它没有其它用处。 Pause容器通过veth0连接着bridge docker0。其它容器使用Docker engine的功能来让其它容器使用已经存在的网络命名空间。

    1633351111096
  • 两个使用相同的Linux内核网络命名空间的容器,它们可以通过localhost做到和对方进行通信,和运行在一个主机上的两个进程通过本地主机通信类似。

StatefulSet

  • StatefulSet是为了解决有状态服务的问题(对应Deployments和ReplicaSets是为无状态服务而设计),其应用场景包括:
    • 稳定的持久化存储,即Pod重新调度后还是能访问到相同的持久化数据,基于PVC来实现。
    • 稳定的网络标志,即Pod重新调度后其PodName和HostName不变,基于Headless Service(即没有Cluster IP的Service)来实现。
    • 有序部署,有序扩展,即Pod是有顺序的,在部署或者扩展的时候要依据定义的顺序依次依次进行(即从0到N-1,在下一个Pod运行之前所有之前的Pod必须都是Running和Ready状态),基于init containers来实现。
    • 有序收缩,有序删除(即从N-1到0)。

DaemonSet

  • DaemonSet确保全部(或者一些)Node上运行一个Pod的副本。当有Node加入集群时,也会为他们新增一个Pod。当有Node从集群移除时,这些Pod也会被回收。删除DaemonSet将会删除它创建的所有Pod。
  • 使用DaemonSet的一些典型用法:
    • 运行集群存储daemon,例如在每个Node上运行glusterd、ceph。
    • 在每个Node上运行日志收集daemon,例如fluentd、logstash。
    • 在每个Node上运行监控daemon,例如Prometheus Node Exporter。

Job & Cron job

  • Job负责批处理任务,即仅执行一次的任务,它保证批处理任务的一个或多个Pod成功结束。
  • Cron Job管理基于时间的Job,即:
    • 在给定时间点只运行一次。
    • 周期性地在给定时间点运行。

service

  • Kubernetes Service从逻辑上代表了一组 Pod,具体是哪些Pod则是由label来挑选。

  • 为一组具有相同功能的容器应用提供一个统一的入口地址,且是将请求进行负载分发到后端的各个容器应用上的控制器。

  • Service有自己IP,而且这个IP是不变的。

    • 客户端只需要访问Service的IP,Kubernetes则负责建立和维护Service与Pod的映射关系。

    • 无论后端Pod如何变化,对客户端不会有任何影响,因为Service没有变。

2、网络通讯方式

  • Kubernetes的网络模型假定了所有Pod都在一个可以直接连通的扁平的网络空间中,这在GCE(Google Compute Engine)里面是现成的网络模型,Kubernetes假定这个网络已经存在。而在私有云里搭建Kubernetes集群,就不能假定这个网络已经存在了。我们需要自己实现这个网络假设,将不同节点上的Docker容器之间的互相访问先打通,然后运行Kubernetes。

    • 同一个Pod内的多个容器之间的通讯:localhost
    • 各Pod之间的通讯:Overlay Network
    • Pod与Service之间的通讯:各节点的Iptables规则
  • Flannel是CoreOS团队针对Kubernetes设计的一个网络规划服务,简单来说,它的功能是让集群中的不同节点主机创建的Docker容器都具有全集群唯一的虚拟IP地址。而且它还能在这些IP地址之间建立一个覆盖网络(Overlay Network),通过这个覆盖网络,将数据包原封不动地传递到目标容器内。

    • ETCD与Flannel说明:
      • Flannel启动后会向ETCD插入可分配的IP地址段资源,同时会记录哪些IP对应哪台机器,从而防止已被分配的网段再次被Flannel利用。
      • Flannel监控ETCD中每个Pod的实际地址,并在内存中建立维护Pod节点路由表。

3、总结

  • 同一个Pod内部通讯:同一个Pod共享同一个网络命名空间,共享同一个Linux协议栈。

  • 不同Pod之间的通讯:

    • Pod1与Pod2不在同一台主机,Pod的地址是与docker0在同一个网段的,但docker0网段与宿主机网卡是两个完全不同的IP网段,并且不同Node之间的通信只能通过宿主机的物理网卡进行。将Pod的IP和所在Node的IP关联起来,通过这个关联让Pod可以互相访问。
    • Pod1与Pod2在同一台机器,由Docker0网桥直接转发请求至Pod2,不需要经过Flannel。
  • Pod至Service的网络:目前基于性能考虑,全部为iptables维护和转发。

  • Pod 到外网:Pod向外网发送请求,查找路由表,转发数据包到宿主机的网卡,宿主网卡完成路由选择后,iptables执行Masquerade,把源IP更改为宿主网卡的IP,然后向外网服务器发送请求。

  • 外网到Pod:通过service。