崗位職責:
1、針對具身智能大模型,進行數據的采集、爬取、清洗、處理、優化等全流程,對模型預訓練和微調提供高質量數據。最終形成數據-模型閉環。
2、構建數據全鏈路(data-centric)的平臺和工具,統一多模態數據的采集、處理、查詢、管理。
3、利用CV算法、多模態模型等處理視頻、圖片等多模態數據,如物體檢測、視頻描述等等。
4、指導和管理大規模數據標注工作,能夠從數據的角度指導模型訓練。
任職資格:
1、具備較好的模型算法構建能力,能夠借助開源項目獨立訓練CV模型或者多模態模型。對自然語言處理(NLP)、計算機視覺(CV)和多模態模型有深入且全面的了解者優先;
2、有模型推理優化加速的經驗,熟悉量化、減枝等工作,能進滿足業務需求中對大規模推理的需求。熟悉VLLM等推理加速框架;
3、具備一定的前后端能力,能夠做簡單的后端開發。具備利用開源框架streamlit等工具開發demo的能力;
4、熟悉Python、git、linux系統,具備扎實的數據結構和算法基礎,有較好的編程基礎;
5、熟悉計算機網絡、計算機組成原理,具備扎實的數據結構和算法基礎;
6、熟悉Hadoop、Spark、Flink等大數據處理框架,具備實際項目經驗;
加分項:
1、 具備快速學習和掌握新領域知識的能力,以及良好的團隊合作精神 ;
2、計算機科學、軟件工程或相關領域的本科及以上學歷。