一、问题现象
# describe不能启动的pod,发现两条关键日志:
A. 0/1 nodes are available: 1 node(s) had taints that the pod didn't tolerate.
说明当前所在work-node资源不容许此pod部署,发生了pod驱逐。
B. The node was low on resource: ephemeral-storage.
说明了发生pod驱逐的原因。
二、问题查证过程
2.1 ephemeral-storage(短暂存储)的概念和作用
ephemeral-storage是为了管理和调度Kubernetes中运行的应用的短暂存储。
在每个Kubernetes的节点上,kubelet的根目录(默认是/var/lib/kubelet)和日志目录(/var/log)保存在节点的主分区上,这个分区同时也会被Pod的EmptyDir类型的volume、容器日志、镜像的层、容器的可写层所占用。ephemeral-storage便是对这块主分区进行管理,通过应用定义的需求(requests)和约束(limits)来调度和管理节点上的应用对主分区的消耗。
我们使用df -h可以看到/var/lib下有很多容器相关的目录,这些都是ephemeral-storage
2.2 image镜像重新下载
pod在启动时要重新下载相关镜像,说明由于磁盘容量不够时,kubernetes会清理镜像文件去腾空磁盘,省出资源去优先启动pod。
符合上述1中所述的“镜像层占用ephemeral-storage”。
2.3 本地pv存储占用磁盘
如2所述,kubernetes中的alli