Система автоматически проверяет состояние воркер-нод каждые 10 минут. Если нода перестает отвечать, автохилер пытается восстановить ее работу:
- выполняется попытка перезапуска ноды (до 2 минут на попытку);
- если нода не восстановилась, попытка повторяется;
- в течение 14 минут автохилер выполняет повторные попытки перезапуска;
- если восстановить ноду не удалось, она будет пересоздана.
Автохилинг можно включить или отключить в настройках группы нод.
Чтобы отключить механизм для конкретной ноды в группе, для которой включен автохилинг, добавьте лейбл:
kube-healer.kubernetes.io/healing-disabled: true
Механизм не применяется к нодам с GPU. Одновременно может обрабатываться не более 10 задач автохилинга.
Была ли статья полезна?
Ваша оценка очень важна
Пока нет комментариев