注意:需接受派駐廣西地區項目或長期出差廣西地區項目
一、核心職責概述
負責企業IT基礎設施和應用系統的全生命周期管理,涵蓋容器化部署、自動化運維、服務監控、安全合規、資源規劃等領域,保障系統高可用性、安全性及穩定性。
二、具體職責范圍1. 應用部署與維護
負責在容器集群(Kubernetes、天翼云容器服務)?、虛擬機(VMware/OpenStack)、物理機等環境中部署、升級和回滾應用系統。
設計容器化部署方案,優化鏡像構建流程(Dockerfile編寫、Harbor鏡像倉庫管理)。
配合開發團隊完成應用環境適配,解決跨平臺部署兼容性問題。
2. 持續集成與持續交付(CI/CD)?
在Jenkins中設計和維護自動化部署流水線(Job配置),支持Java(Maven構建)、Node.js等語言的項目構建與發布。
集成代碼倉庫(GitLab)、制品庫(Nexus)、鏡像倉庫(Harbor)等工具鏈,實現代碼提交到生產環境的全流程自動化。
優化CI/CD流程,提升部署效率,保障發布過程的穩定性。
3. 中間件與工具鏈運維
運維以下核心工具及服務:
?容器生態:Docker、Harbor(鏡像倉庫)
?開發協作:GitLab(代碼倉庫)、Nexus(制品庫)、Minio(對象存儲)
?數據庫與中間件:MySQL、Redis、MongoDB、ELK(日志分析)、RabbitMQ/ActiveMQ(消息隊列)
?微服務組件:Nacos(服務注冊發現)、Keepalived(高可用)、Sentinel(流量控制)、SkyWalking(APM)
負責安裝、配置、監控、擴容、故障排查及版本升級,保障服務可用性。
4. 監控與告警體系建設
基于Prometheus搭建指標監控系統,通過Grafana實現可視化看板配置。
監控容器集群、微服務、中間件的性能指標(CPU/內存/網絡)、業務健康狀態(API成功率、延遲)。
配置告警規則(如Prometheus ************),聯動企業微信/釘釘/Slack等通知渠道,實現異常實時響應。
5. 安全合規與漏洞管理
配合等保測評要求,完成服務器安全基線配置(SSH加固、權限最小化)、漏洞修復(如操作系統補丁、軟件版本升級)。
定期執行安全掃描(如Nessus、OpenVAS),修復高風險漏洞(如Log4j、Fastjson漏洞)。
制定安全加固方案,例如數據庫訪問控制、敏感數據加密(Minio TLS配置)、防火墻策略優化。
6. 基礎設施規劃與優化
參與硬件資源規劃,評估服務器、存儲、網絡資源需求,設計高可用架構(如Kubernetes多節點集群、數據庫主從復制)。
優化云資源使用(如天翼云資源配額管理),配合網絡團隊完成VPC、負載均衡、防火墻規則設計。
推動容器化遷移與資源利用率提升(如HPA自動擴縮容)。
7. 文檔與協作支持
編寫運維操作手冊、故障處理預案、系統架構圖。
協助開發團隊定位線上問題(如通過SkyWalking分析鏈路異常)。
參與跨部門協作,如配合架構師完成微服務治理方案設計。
三、附加能力要求
?技術棧深度:熟悉Linux系統管理、Shell/Python腳本編寫,了解微服務架構(Spring Cloud/Alibaba)。
?問題導向:具備快速定位故障能力(如通過ELK分析日志、通過Redis慢查詢定位性能瓶頸)。
?安全意識:熟悉等保2.0標準,掌握常見漏洞修復方法(如CVE漏洞處理)。
?工具整合能力:能將分散的工具(如Prometheus+************+Grafana)整合為統一監控平臺。
四、工作目標
?穩定性:保障系統全年可用率≥99.95%,平均故障恢復時間(MTTR)≤30分鐘。
?自動化:實現90%以上的日常操作自動化(如日志清理、備份、巡檢)。
?成本優化:通過資源調度策略(如K8s彈性伸縮)降低云資源成本10%-20%。
?安全合規:通過等保測評并持續滿足合規要求