<noframes id="lx9dz"><form id="lx9dz"></form>
    <address id="lx9dz"></address>

          <em id="lx9dz"><span id="lx9dz"></span></em>
          <span id="lx9dz"></span>
          <noframes id="lx9dz"><form id="lx9dz"></form>
          <address id="lx9dz"></address>

          <noframes id="lx9dz">

            更新于 5月12日

            智算&&算力運維工程師JD

            5000-10000元
            • 唐山路北區
            • 3-5年
            • 本科
            • 全職
            • 招1人

            職位描述

            KUBESPHERERANCHERHELMKARMADA
            該崗位與【唐山新度科技發展有限公司】公司簽訂勞動合同
            薪資5000-35000可面議,特別優秀的可適當放寬條件
            一、崗位職責
            1.負責大規模高性能GPU集群的計算、網絡和存儲系統的穩定運行,能監控、識別并解決各類集群線上問題; 負責多節點GPU集群性能測試與評估,熟練掌握HPL/HPCG/I-test等集群性能評測工具進行性能評估并定位問題; 2.負責監控系統的建設和運維,及時發現系統問題(尤其是GPU故障)并進行解決; 3.建設在IDC搭建大規模集群,提供運維能力和體系,支持云平臺團隊開發并對平臺客戶提供相關技術支持; 4.負責構建和維護一套全面、細致、可靠的測試機制和系統,覆蓋計算硬件、網絡、存儲等端到端各環節的組件;
            二、任職資格
            1.計算機、通信、電子工程等相關專業背景,有3年以上的運維工程師相關經驗; 2.有大規模GPU集群的環境配置及管理經驗優先; 3.熟悉environment-modules, spack, ansible,slurm, PBS Pro, Grafana, Prometheus, Ray#常見AI超算集群運維工具者優先,熟練掌握kubernetes以及Kubesphere, Rancher, Helm,Karmada等相關工具集群運維能力者優先,有大規模kubernetes生產環境運維經驗者優先; 4.熟悉NFS, JuiceFS, CephFS, Lustre等集群文件系統的特性,熟練部署高性能文件系統并能解決性能瓶頸者; 5.熟悉IB/RoCE/NVLink/PCl-e等集群常見的通信協議以及網卡配置; 6.有強烈的工作責任心,較好的溝通能力和自驅力,能夠快速的響應和行動; 7.深入理解操作系統、分布式架構、虛擬化技術、網絡通信等方向上的技術; 8.對在線GPU集群服務的運維和優化上有豐富的經驗,有大型互聯網公司系統開發、測試、運維、應用工作經驗者優先。

            工作地點

            學院北路河北省唐山市路北區學院路與大慶西道交叉口東南300米

            入職公司信息

            • 入職公司: 唐山新度科技發展有限公司
            • 公司地址: 唐山豐潤區河北省唐山市大慶西道河北省唐山市路北區學院路與大慶西道交叉口東南300米
            • 公司人數: 20人以下

            認證資質

            • 勞務派遣經營許可認證

              勞務派遣經營許可證是由國家人力資源與社會保障相關部門頒發,代表人才經紀人所在企業可以合法開展勞務派遣相關業務的資質證件。展示該標簽代表該企業發布此職位時已上傳《勞務派遣許可證》并經由平臺審驗通過。

            職位發布者

            鮑子航/職員

            今日活躍
            立即溝通
            河北興冀人才資源開發有限公司
            河北省人才市場
            公司主頁
            天天综合色天天综合网