我們正在招募一名資深存儲與數據運維專家,負責設計、運維和優化智算中心的高性能存儲架構(GPFS、Lustre)及混合存儲體系(GlusterFS、對象存儲等)。您將確保存儲系統高效支撐AI訓練、大規模數據分析等核心業務,同時推動存儲性能調優、智能化運維及跨技術棧協同,保障數據服務的穩定性、高吞吐與低延遲。
??主要職責:??
- ??高性能存儲管理??:
- 部署、維護及調優GPFS、Lustre等高性能并行文件系統,解決AI分布式訓練中的高并發I/O性能瓶頸。
- 設計混合存儲架構(塊/文件/對象存儲),管理GlusterFS分布式存儲、對象存儲(如Ceph S3)的容量規劃與數據分層策略。
- ??存儲自動化與監控??:
- 開發自動化工具管理存儲集群生命周期(擴容、故障自愈、負載均衡),利用Prometheus/Grafana構建實時監控體系,實現性能預警與根因分析。
- 結合AI工具分析存儲日志,預測硬件故障或性能波動,優化存儲資源調度策略。
- ??跨領域協同??:
- 與AI算法團隊協作,優化訓練數據集在GPFS/Lustre上的存儲布局,提升大規模模型訓練效率。
- ??容災與安全??:
- 制定GPFS/Lustre跨集群容災方案,設計對象存儲數據冗余策略,保障PB級數據安全性與業務連續性。
- 參與7×24值班輪換,快速響應存儲相關緊急故障。
??任職資格:??
- ??必備條件??:
- 計算機科學、存儲工程或相關領域本科及以上學歷,1年以上高性能存儲系統(GPFS/Lustre)運維經驗。
- 了解GPFS/Lustre架構設計、參數調優及故障排查,熟悉并行文件系統在AI/HPC場景下的性能優化方法。
- 了解GlusterFS等分布式存儲技術,具備對象存儲(如AWS S3、MinIO)集成管理經驗。
- 熟練使用Python/Go開發存儲自動化腳本,掌握Ansible/Terraform等IaC工具。
- 熟悉存儲硬件生態(如全閃存陣列、NVMe-oF協議)及網絡優化(InfiniBand/RoCE)。
- ??優先條件??:
- 具有IBM Spectrum Scale(GPFS)或Lustre官方認證,或超算中心存儲運維背景。
- 熟悉AI訓練數據流水線(如TensorFlow/PyTorch數據集加載優化)或向量數據庫存儲方案。
- 具備存儲性能分析工具經驗(如GPFS Monitoring、Lustre Monitoring Tool)。
- 了解存儲與計算分離架構,或有GPU加速存儲讀取實踐經驗。
??我們提供:??
- 參與千億參數大模型訓練、多模態AI研發等前沿場景的存儲系統建設。
- 直面EB級數據規模和百GB/s級吞吐挑戰的技術成長環境。
如果您對此職位感興趣,請提交您的簡歷和求職信進行申請。我們期待您的回音!