「北京豐臺區強化學習算法工程師(J10815)招聘」_2025年南威軟件股份有限公司招聘-智聯招聘

<noframes id="lx9dz"><form id="lx9dz"></form>

<address id="lx9dz"></address>

<em id="lx9dz"><span id="lx9dz"></span></em> <span id="lx9dz"></span>

<noframes id="lx9dz"><form id="lx9dz"></form>

<address id="lx9dz"></address>

<noframes id="lx9dz">

登錄/注冊我要招人

400-885-9898

更新于 2025-05-15 00:15:22

智聯APP

強化學習算法工程師(J10815)

3-4萬

北京豐臺區
5-10年
本科
全職
招2人

雇員點評標簽

工作環境好
同事很nice
氛圍活躍
團隊執行強
準時發工資
人際關系好

職位描述

深度強化學習DRL智能體算法MARL模仿學習PyTorchTensorFlowPythonDEEPSPEEDPPO多智能體協作框架強化學習實戰經驗

崗位職責:

?1、強化學習算法研發?：

開發基于深度強化學習（DRL）的智能體算法，提升復雜場景（數字人分身、問診等）中的決策能力，優化訓練效率與模型泛化性?；

研究多智能體強化學習（MARL）、模仿學習（Imitation Learning）等技術，推動AI在真實環境中的落地應用?；

參與后訓練階段的Scaling Law研究，包括獎勵模型設計、強化學習訓練及推理優化?。

2、?DeepResearcher框架開發?：

探索真實網絡環境下強化學習訓練框架的優化，支持分布式訓練與高效在線推理?；

結合開源生態（如DeepSpeed、Megatron），構建可擴展的AI研究者模型基礎設施?。

3、?算法工程化與部署?：

負責強化學習模型的訓練加速與推理優化，應用量化、蒸餾等技術實現工業級部署?；

與交付團隊協作，適配昇騰芯片等AI加速硬件，提升模型計算效率?；

4、完成領導交辦的相關工作。

任職要求:

1、學歷與專業?：計算機、人工智能、自動化等相關專業本科及以上學歷?；

?2、技術能力?：

熟悉主流強化學習算法（如PPO、REINFORCE、RLOO）及多智能體協作框架?；

掌握PyTorch/TensorFlow框架，具備Python/C++開發能力，熟悉分布式訓練工具（如DeepSpeed）?；

?3、經驗背景?：

有強化學習項目實戰經驗，熟悉算法從研發到落地的全流程?；

在頂會（ICML、NeurIPS、AAAI等）發表相關論文或參與開源項目（如Stable Baselines3）者優先?。

?4、加分項?：

具備真實環境強化學習訓練經驗（如游戲NPC智能化、機器人控制）?；

熟悉大語言模型（LLM）的強化學習對齊技術（如RLHF）?；

了解AI基礎設施優化（如算子編譯、存儲調度）或芯片級加速開發?。

工作地點

北京豐臺區漢威國際廣場4區3號樓

完善簡歷

完善一份簡歷
1736萬+企業在線搜索，780萬+海量職位精準推薦

相似職位

科技研發崗-25年畢業生7000-10000元·14薪
北京 - 海淀
北京六建集團有限責任公司
圖像深度學習開發工程師1-2萬
北京 - 海淀
北京融德人才咨詢服務有限責任公司
AI先鋒算法工程師（深度學習方向）1.8-2.4萬
北京 - 朝陽
江西愛魅文化科技有限公司北京分公司
AI應用開發工程師1.3-2.5萬
北京 - 海淀
北京三博腦科醫院有限公司
AI人工智能領域實習生100-150元/天
北京 - 朝陽
北京天云融創軟件技術有限公司
Python開發工程師8000-15000元
北京 - 朝陽
北京世紀互聯軟件開發有限公司

查看更多相似職位

職位發布者

黃春霞/人事經理

昨日活躍

立即溝通

南威軟件股份有限公司

南威軟件集團成立于2002年，行政總部設立于福建泉州，在北京設立全球業務和運營總部，是全國政務服務龍頭企業、行業領先的社會治理科技公司，擁有超百家全資、控股、參股公司，其中包括太極數智、人大金倉、四方偉業、安巽科技、北京友虹等行業標桿企業。南威軟件是福建省首家在上海主板上市的網信企業（股票代碼：603636），全國第993家主板上市公司，是國家數字政府建設聯盟常任副理事長單位、互聯網+政務服務電子證照國家標準制定的組長單位、國家電子文件管理推進聯盟副理事長單位、國家智慧城市標準化總體組十家理事單位之一、福建省軟件行業協會會長單位，聚焦發展數字政府的政務服務、公共安全、城市管理等主營業務，深化發展社會服務運營，創新發展行業實用型芯片與傳感器產業，服務于政府數字化轉型、助力國家治理體系和治理能力現代化。公司擁有九項行業頂級資質，包括國家信息系統建設和服務能力評估四級（國內最高級別）、涉密信息系統集成甲級、CCRC信息安全服務資質一級（安全集成一級、安全運維一級、軟件安全開發一級）、國家建筑智能化系統設計專項甲級、國家電子與智能化工程專業承包壹級、國家安防工程企業設計施工維護能力壹級、CMMI-5國際軟件成熟度認證、ITSS運維服務能力成熟度壹級、國家規劃布局內重點軟件企業（旗下三家）等，并取得了軍工保密資格、國軍標質量管理體系、武器裝備科研生產許可備案等軍工資質，是行業內資質最高最全的企業之一。

關于我們: 公司介紹; 聯系我們; 誠聘英才

產品與服務: 人才招聘; 企業招聘

使用與幫助: 賬號注銷; 意見反饋; 發票制度; 防騙指南; 法律協議; 資質公示

智聯招聘更懂你的價值

智聯app小程序官方微信企業版APP

未經 Zhaopin.com 同意，不得轉載本網站之所有招聘信息及作品智聯招聘網版權所有

京ICP備17067871號?合字B2-20210134

京公網安備 11010502030147號?人力資源許可證:1101052003273號

網上有害信息舉報專區?違法不良信息舉報電話:400-885-9898 關愛未成年舉報熱線:400-885-9898-7

朝陽區人力資源與社會保障局監督電話?

網絡110報警服務電子營業執照

天天综合色天天综合网