職位摘要:我們正在尋找一位有才華的AIDC SRE7*24(三班倒班模式)IT值班運維工程師加入我們的團隊,負責輪班維護和改進我們AI數據中心的基礎設施。您將負責確保支持我們的AI應用程序的系統的可靠性、可擴展性和性能。
主要責任:
?監控和管理硬件基礎設施的健康和性能,處理各種7*24支持中的主機,網絡,存儲等設備的問題。
?設計和實施解決方案以提高硬軟件系統的可靠性、可擴展性和性能。
?與網絡,存儲工程師及其他SRE密切合作,排除和解決AIDC相關的問題。
?與各供應商溝通合作,確保提供最佳解決方案來滿足我們的值班需求。
?參與值班輪換,為AIDC基礎設施提供全天候(24/7)支持。
任職資格:
?計算機、電氣、電子等相關領域的統招??萍耙陨蠈W位。
?2年以上擔任IDC值班運維或相關角色的經驗。
?具有IDC硬件、操作系統及應用測試,運維和故障排除方面的相關經驗。
?了解數據中心架構,包括服務器、存儲、網絡和電源系統。
?熟悉Linux服務器常用操作和管理。
?強大的分析和解決問題的能力。
?出色的溝通和團隊合作能力。
優先資格:
?具有人工智能和機器學習硬件(例如GPU,IB交換機,以太交換機)的經驗優先。
?熟悉腳本語言優先,例如Python或Bash。
?熟悉數據中心冷卻和通風系統知識優先。
?善于使用AI工具輔助完成工作。