崗位職責:
1、負責使用現有的開源大模型(如Hugging Face系列模型),根據指定行業等業務場景和需求進行針對性的訓練和微調,以提高模型在特定任務上的性能和準確性。
2、熟練運用向量數據庫(如Milvus、Faiss),構建高效的推薦系統或搜索引擎,實現大規模數據的快速檢索和匹配。
3、收集、整理和標注百萬級規模的訓練數據以及向量數據,確保數據的質量和一致性,為模型訓練和微調提供高質量的數據支持。
4、使用 Python 編寫數據處理腳本、模型訓練和評估代碼、與向量數據庫交互的接口等,并對代碼進行定期維護和優化,確保代碼的可擴展性和可維護性。
5、持續監測模型在實際應用中的性能表現(如準確率、召回率、延遲等),及時發現問題并進行優化調整(如模型壓縮、量化等),確保模型的穩定性和可靠性。
6、與跨部門團隊緊密合作,理解業務需求并提供技術解決方案,同時分享技術知識和經驗,促進團隊整體技術水平的提升。
任職要求:
專業背景:計算機科學、人工智能、機器學習等相關專業本科及以上學歷。
技術技能:
1、精通 Python 編程,有扎實的編程基礎和良好的代碼規范,熟悉C++或Java者優先。
2、熟悉常見的開源大模型(如BERT、GPT、DEEPSEEK等),有實際訓練和微調這些模型的經驗。
3、熟練掌握向量數據庫的使用(如Milvus、Faiss等),了解向量檢索和存儲的原理,具備數據庫優化經驗者優先。
4、熟悉數據處理和標注的流程和方法,有處理大規模數據集的經驗。
5、了解深度學習框架(如PyTorch、TensorFlow等),具備分布式訓練或模型部署經驗者優先。
項目經驗:具有至少2個與大模型應用相關的項目經驗,能夠展示在模型訓練、微調以及與向量數據庫結合方面的實際成果,項目規模需達到百萬級數據量。