崗位職責:
1.負責 AI 算力硬件設備,包括 智算服務器、FPGA 集群等的安裝、調試工作,確保設備上線初期穩定運行;
2.負責智算平臺系統的日常運維,包括訓練平臺、調度平臺等系統平臺的維護與監控、故障/客訴問題排查及解決;
3.系統應用及數據的部署;
4.配合開發人員進行系統開發、實施,組織開發過程中的需求討論、變更,跟進系統的故障、程序BUG解決進度等;
崗位要求:
1.本科及以上學歷,計算機相關專業;
2.熟悉linux操作系統命令,具備維護、配置、優化和故障排除能力,和常用ssh工具進行部署和聯調;
3.熟悉nginx、docker等技術棧,掌握k8s集群管理;
4.了解國產算力服務器,可獨立搭建基礎部署環境;
5.具備豐富的AI平臺運維經驗,熟悉AI模型訓練、推理、服務部署及全生命周期管理。