1、 負責開發用于承載大模型的高效訓練、推理平臺,并結合特點進行算法與實現的優化;
2、負責大模型(CV、NLP、多模態等方向)技術方案的實現和效果評估,跟進前沿AI大模型研究與效果性能調優;
3、推進分布式訓練中的計算和通信優化,充分利用算力,使用大量加速卡探索性能邊界;
4、打破模型的參數限制,訓練百億、千億參數量級別的超大模型
崗位要求:
1、熟悉Linux開發環境,至少掌握Python、Java、C++等開發語言中的一種,熟悉Pytorch/TensorFlow/MindSpore/huggingface中的一種;
2、數學基礎扎實,熟悉深度學習與分布式算法,能夠清晰理解算法基本原理及實現方法,有大規模分布式算法相關開發經驗者優先;
3、有過深度學習平臺開發或大模型開發相關經驗者優先。