職位描述
1、負責設計、開發和優化單機/多機多卡GPU互聯軟件棧,如集合通信庫等;
2、負責將通信庫與AI框架進行無縫銜接,實現多機多卡并聯的AI模型推理和訓練;
3、負責協同軟硬件團隊,定位、分析和解決單機/多機多卡互聯的精度和性能問題。
職位要求
1、計算機相關專業,本科及以上學歷, 5年以上相關工作經驗;
2、熟悉芯片互聯和網絡傳輸編程,有PCIe P2P、RDMA、GPU Direct等相關開發經驗;
3、熟悉常用的集合通信原語和集合通信庫,如NCCL 、OpenMPI、Gloo等;
4、熟悉C/C++編程,有良好的編程習慣和較強的問題解決能力;
5、有很好的團隊協作能力與溝通能力,對技術和代碼品質有追求;
6、熟悉CUDA或ROCm軟件棧,有類NCCL通信庫移植、開發經驗者優先;
7、熟悉AI框架與大規模分布式訓練策略,如FSDP/DeepSpeed/Accelerate/Horovod者優先。
工作地點:上海,武漢