工作職責
1.設計并搭建大規模 K8S 計算集群,保障數據、訓練、推理等平臺穩定運行。
2.負責 K8S 集群日常運維,包括資源調度、彈性擴縮容、服務部署與版本升級。
3.優化 K8S 集群性能,解決任務調度、彈性容災等技術問題,提升平臺運行效率。
4.監控集群狀態,快速定位并處理故障,制定應急預案,保障業務連續性。
5.研究業內 K8S 運維方案,結合 AI 平臺需求優化運維流程與技術方案。
任職資格
1.計算機相關專業本科及以上學歷,3 年以上 K8S 運維經驗,有 AI 平臺運維經驗優先。
2.精通 K8S 集群架構、網絡、存儲、資源管理,熟練使用 kubectl、Helm 等工具。
3.熟悉 Docker 容器化技術,掌握 Spring Boot、Python 等服務部署與調試。
4.熟悉 Jenkins、Argo 等 DevOps 工具鏈,具備自動化運維、CI/CD 流程搭建經驗。
5.具備良好的問題分析與解決能力,責任心強,能適應高強度運維工作。
6.具備獨立部署redis、rabbitmq、mysql、minio、harbor、es等組件并調優