<noframes id="lx9dz"><form id="lx9dz"></form>
    <address id="lx9dz"></address>

          <em id="lx9dz"><span id="lx9dz"></span></em>
          <span id="lx9dz"></span>
          <noframes id="lx9dz"><form id="lx9dz"></form>
          <address id="lx9dz"></address>

          <noframes id="lx9dz">

            更新于 2025-05-15 00:15:22

            強化學習算法工程師(J10815)

            3-4萬
            • 北京豐臺區
            • 5-10年
            • 本科
            • 全職
            • 招2人

            雇員點評標簽

            • 工作環境好
            • 同事很nice
            • 氛圍活躍
            • 團隊執行強
            • 準時發工資
            • 人際關系好

            職位描述

            深度強化學習DRL智能體算法MARL模仿學習PyTorchTensorFlowPythonDEEPSPEEDPPO多智能體協作框架強化學習實戰經驗
            崗位職責:
            ?1、強化學習算法研發?:
            開發基于深度強化學習(DRL)的智能體算法,提升復雜場景(數字人分身、問診等)中的決策能力,優化訓練效率與模型泛化性?;
            研究多智能體強化學習(MARL)、模仿學習(Imitation Learning)等技術,推動AI在真實環境中的落地應用?;
            參與后訓練階段的Scaling Law研究,包括獎勵模型設計、強化學習訓練及推理優化?。
            2、?DeepResearcher框架開發?:
            探索真實網絡環境下強化學習訓練框架的優化,支持分布式訓練與高效在線推理?;
            結合開源生態(如DeepSpeed、Megatron),構建可擴展的AI研究者模型基礎設施?。
            3、?算法工程化與部署?:
            負責強化學習模型的訓練加速與推理優化,應用量化、蒸餾等技術實現工業級部署?;
            與交付團隊協作,適配昇騰芯片等AI加速硬件,提升模型計算效率?;
            4、完成領導交辦的相關工作。
            任職要求:
            1、學歷與專業?:計算機、人工智能、自動化等相關專業本科及以上學歷?;
            ?2、技術能力?:
            熟悉主流強化學習算法(如PPO、REINFORCE、RLOO)及多智能體協作框架?;
            掌握PyTorch/TensorFlow框架,具備Python/C++開發能力,熟悉分布式訓練工具(如DeepSpeed)?;
            ?3、經驗背景?:
            有強化學習項目實戰經驗,熟悉算法從研發到落地的全流程?;
            在頂會(ICML、NeurIPS、AAAI等)發表相關論文或參與開源項目(如Stable Baselines3)者優先?。
            ?4、加分項?:
            具備真實環境強化學習訓練經驗(如游戲NPC智能化、機器人控制)?;
            熟悉大語言模型(LLM)的強化學習對齊技術(如RLHF)?;
            了解AI基礎設施優化(如算子編譯、存儲調度)或芯片級加速開發?。

            工作地點

            北京豐臺區漢威國際廣場4區3號樓

            職位發布者

            黃春霞/人事經理

            昨日活躍
            立即溝通
            公司Logo南威軟件股份有限公司
            南威軟件集團成立于2002年,行政總部設立于福建泉州,在北京設立全球業務和運營總部,是全國政務服務龍頭企業、行業領先的社會治理科技公司,擁有超百家全資、控股、參股公司,其中包括太極數智、人大金倉、四方偉業、安巽科技、北京友虹等行業標桿企業。南威軟件是福建省首家在上海主板上市的網信企業(股票代碼:603636),全國第993家主板上市公司,是國家數字政府建設聯盟常任副理事長單位、互聯網+政務服務電子證照國家標準制定的組長單位、國家電子文件管理推進聯盟副理事長單位、國家智慧城市標準化總體組十家理事單位之一、福建省軟件行業協會會長單位,聚焦發展數字政府的政務服務、公共安全、城市管理等主營業務,深化發展社會服務運營,創新發展行業實用型芯片與傳感器產業,服務于政府數字化轉型、助力國家治理體系和治理能力現代化。公司擁有九項行業頂級資質,包括國家信息系統建設和服務能力評估四級(國內最高級別)、涉密信息系統集成甲級、CCRC信息安全服務資質一級(安全集成一級、安全運維一級、軟件安全開發一級)、國家建筑智能化系統設計專項甲級、國家電子與智能化工程專業承包壹級、國家安防工程企業設計施工維護能力壹級、CMMI-5國際軟件成熟度認證、ITSS運維服務能力成熟度壹級、國家規劃布局內重點軟件企業(旗下三家)等,并取得了軍工保密資格、國軍標質量管理體系、武器裝備科研生產許可備案等軍工資質,是行業內資質最高最全的企業之一。
            公司主頁
            天天综合色天天综合网