崗位職責:
?1、強化學習算法研發?:
開發基于深度強化學習(DRL)的智能體算法,提升復雜場景(數字人分身、問診等)中的決策能力,優化訓練效率與模型泛化性?;
研究多智能體強化學習(MARL)、模仿學習(Imitation Learning)等技術,推動AI在真實環境中的落地應用?;
參與后訓練階段的Scaling Law研究,包括獎勵模型設計、強化學習訓練及推理優化?。
2、?DeepResearcher框架開發?:
探索真實網絡環境下強化學習訓練框架的優化,支持分布式訓練與高效在線推理?;
結合開源生態(如DeepSpeed、Megatron),構建可擴展的AI研究者模型基礎設施?。
3、?算法工程化與部署?:
負責強化學習模型的訓練加速與推理優化,應用量化、蒸餾等技術實現工業級部署?;
與交付團隊協作,適配昇騰芯片等AI加速硬件,提升模型計算效率?;
4、完成領導交辦的相關工作。
任職要求:
1、學歷與專業?:計算機、人工智能、自動化等相關專業本科及以上學歷?;
?2、技術能力?:
熟悉主流強化學習算法(如PPO、REINFORCE、RLOO)及多智能體協作框架?;
掌握PyTorch/TensorFlow框架,具備Python/C++開發能力,熟悉分布式訓練工具(如DeepSpeed)?;
?3、經驗背景?:
有強化學習項目實戰經驗,熟悉算法從研發到落地的全流程?;
在頂會(ICML、NeurIPS、AAAI等)發表相關論文或參與開源項目(如Stable Baselines3)者優先?。
?4、加分項?:
具備真實環境強化學習訓練經驗(如游戲NPC智能化、機器人控制)?;
熟悉大語言模型(LLM)的強化學習對齊技術(如RLHF)?;
了解AI基礎設施優化(如算子編譯、存儲調度)或芯片級加速開發?。