崗位工作概述:
1. 負責設計、部署、優化及維護高效、可擴展的AI算力IT系統設施,包括服務器、存儲、網絡及安全設備等;
2. 確保用戶AI研發、模型訓練及推理任務的順利進行;
深入參與從需求分析、架構設計、資源調度、性能優化到故障排查的全過程,為公司的AI算力業務發展提供堅實的算力支撐。
工作經驗:
1.
具備10年以上AI算力系統或高性能計算(HPC)領域的工作經驗,有成功部署和優化大規模AI計算集群的經驗者優先;
2.
在大型互聯網公司、科研機構或AI初創企業從事AI算力系統建設與維護的經驗;
有主導或參與過至少兩個大型AI算力集群的設計、部署與優化項目的優先考慮。
教育水平要求:
1. 計算機科學、信息技術、軟件工程或相關專業本科及以上學歷;
碩士及以上學歷,或在相關領域有深入研究或突出貢獻者,將優先考慮。
崗位技能要求:
1. 架構設計:能夠設計高可用、可擴展的AI算力架構,包括硬件選型、網絡規劃、存儲設計等;
2. 資源調度與優化:熟悉Kubernetes、Docker等容器化技術,以及YARN等資源調度系統,能夠優化資源利用率,提升計算效率;
3. 性能調優:具備深入的系統性能調優能力,包括CPU、GPU、內存、網絡、存儲等各方面的優化;
4. 自動化運維:熟悉Ansible、Puppet等自動化運維工具,能夠編寫自動化腳本提升運維效率;
5. 故障排查與應急響應:能夠快速響應系統故障,準確排查問題根源,并制定有效的解決方案。
工作職責與任務:
1.
系統規劃與設計:根據公司業務需求,規劃并設計AI算力系統的整體架構,包括硬件選型、網絡布局、存儲策略等。
2.
部署與集成:負責AI算力集群的部署、配置與集成,確保系統穩定運行。
3.
性能優化:對AI算力任務進行性能分析,提出并實施優化方案,提升計算效率。
4.
運維管理:負責日常運維工作,包括系統監控、日志分析、故障排查與解決等。
5.
技術創新與研究:跟蹤AI算力領域的最新技術動態,探索并引入新技術,提升系統競爭力。
團隊建設與培訓:指導并培養初級工程師,提升團隊整體技術水平。
其他素質要求:
1. 具備自驅力:具備工作主動性和自我驅動學習能力;
2.
問題解決:具備較強的問題分析和解決能力,能夠獨立或協助解決復雜的技術問題;
溝通能力:良好的溝通能力和團隊合作精神,能夠與不同部門有效協作,推動項目進展。