崗位職責:
1、硬件維護
負責GPU服務器的安裝、調試、上架、故障診斷及維修。
定期檢查硬件狀態(GPU、CPU、內存、硬盤、電源等),確保設備穩定運行。
配合供應商處理硬件保修或更換(如GPU燒毀、顯存故障等)。
2、集群與驅動管理
管理大規模GPU集群(萬卡級),支持算力網絡架構(IB/RoCE/NVLink/PCIe),優化集群性能(HPL/HPCG基準測試),解決網絡通信、存儲(Lustre/CephFS)及算力調度(Slurm/PBS)問題。
部署與維護監控系統(Prometheus/Grafana/Zabbix),實時跟蹤GPU利用率、功耗及健康狀態,構建故障預警機制,設計HA測試方案(故障注入/災備切換)。
3、硬件與軟件適配
執行服務器硬件改配(如GPU升級、液冷方案部署)及軟件適配(驅動安裝、BIOS/固件更新),確保與操作系統(Linux/CentOS)、虛擬化平臺(Docker/Kubernetes)及AI框架(CUDA/TensorRT)的兼容性。
參與智算中心交付,配合完成服務器上架、網絡配置及壓力測試,支持異構加速場景(大模型訓練/推理)。
4、文檔與協作
編寫運維手冊、故障處理SOP及巡檢報告,維護維修案例庫,記錄硬件生命周期(故障歷史、配件更換)。
與研發、售前團隊協作,解決復雜技術問題(如硬件兼容性、性能瓶頸),提供客戶技術培訓及方案定制。
探索前沿技術(如Chiplet異構集成、存算一體架構),優化運維自動化工具(Ansible/Python腳本),提升故障處理效率。
任職要求:
1、專業背景
計算機、電子工程、通信等相關專業,本科及以上學歷;3年以上GPU服務器維護或數據中心運維經驗,熟悉NVIDIA/AMD主流顯卡架構(如Hopper/Ada Lovelace)者優先。
2、核心技能
硬件能力:精通GPU服務器拆裝、故障診斷(如錯誤代碼解析),掌握焊接工具(熱風槍、示波器)及備件管理,熟悉服務器BMC管理(IPMI/RedFish)。
軟件與工具:熟練使用Linux命令行,掌握自動化工具(Ansible/Kubernetes)、監控平臺(Prometheus)及集群管理工具(Slurm);熟悉Python/Shell腳本開發。
網絡與架構:理解IB/RoCE網絡協議、RDMA原理,掌握集群文件系統(Lustre/NFS)部署與調優,熟悉PCIe/CXL接口規范。
3、軟技能
具備快速故障定位能力(MTTR優化),能在7×24小時輪值中響應緊急事件;良好的客戶溝通能力,適應定制化服務需求。