公司致力于人工智能領域前沿技術研發,現因業務擴展需要,誠聘資深大模型系統工程師加入我們的技術團隊,共同推動智能算力基礎設施的創新發展。
工作地點: [西安、成都、貴陽]
崗位職責:
-
負責大模型訓練/推理系統的部署、優化與維護
-
搭建和維護AI基礎設施(GPU/DCU/NPU集群)
-
設計高可用系統架構,優化Linux環境下Docker/Kubernetes等容器化部署方案
-
保障分布式存儲(MinIO)、緩存(Redis)、搜索(Elasticsearch)等中間件的穩定運行
-
開發自動化運維腳本(Shell/Python),提升系統管理效率
-
進行大模型性能調優,解決分布式訓練中的系統級問題
-
維護MySQL/PostgreSQL數據庫集群,保障數據服務可靠性
任職要求:
-
計算機/電子工程相關專業本科及以上學歷
-
5年以上Linux系統運維/架構師經驗,3年以上AI系統相關經驗
-
精通以下技術棧:
? 操作系統:CentOS/Ubuntu等主流Linux發行版
? 容器化技術:Docker/Nginx/K8s深度使用經驗
? 數據庫:MySQL/PostgreSQL至少精通一種
? 硬件加速:英偉達GPU/海光DCU/昇騰NPU部署調優經驗
-
熟練掌握Shell/Python自動化腳本開發
-
具備大模型(LLM)分布式訓練/部署實戰經驗
-
熟悉主流深度學習框架(PyTorch/TensorFlow)部署模式
-
優秀的系統問題定位與性能優化能力
加分項:
-
有大模型落地項目經驗者優先
-
熟悉分布式文件系統(Ceph/GlusterFS)部署
-
具有Kubernetes集群管理認證(CKA/CKAD)
-
掌握Go/C++等系統級開發語言
-
熟悉AWS/Azure/華為云等云平臺AI服務