崗位職責:
1、模型架構設計與搭建,針對大規模語言模型(LLM)項目,依據業務需求和技術發展趨勢,主導設計高效且創新的模型架構。結合 Transformer 等基礎架構,通過對網絡層數、神經元數量、連接方式等關鍵要素的精心規劃,搭建初始模型框架,確保模型具備強大的表征學習能力,從架構層面為模型性能奠定基礎。
2、預訓練與微調,負責組織和執行大規模語言模型的預訓練任務,運用海量文本數據,在大規模分布式計算集群上開展訓練工作。精細調整訓練超參數,如學習率、批量大小等,優化訓練流程,提升預訓練效果。針對特定業務場景,開展模型微調工作,通過標注數據和領域知識,使模型能夠精準適配實際應用需求,有效提升模型在特定任務上的性能表現。
3、聚焦于模型性能優化的核心工作,深入研究參數調優策略,運用智能優化算法對模型參數進行迭代優化,以提高模型的準確率和泛化能力。同時,開展損失函數設計工作,結合模型任務特點和數據特性,構建更具針對性的損失函數,引導模型學習更有效的特征表示。積極探索注意力機制的改進方法,通過優化注意力計算方式和權重分配策略,提升模型對長序列文本的處理能力,降低計算復雜度。
4、深入探索模型壓縮、量化、蒸餾等前沿技術,致力于提升模型的推理效率及部署能力。通過模型壓縮技術減少模型參數量,在不顯著損失性能的前提下,降低模型存儲需求和計算成本。運用量化技術將模型參數從高精度數據類型轉換為低精度,加速推理過程。開展模型蒸餾工作,將復雜大模型的知識遷移至輕量級小模型,實現模型在資源受限環境下的高效部署,如移動端、邊緣設備等。
5、密切關注大規模語言模型領域的前沿研究動態和技術發展趨勢,積極探索新的模型架構、訓練算法和優化技術在項目中的應用可能性。與跨部門團隊緊密協作,包括數據科學家、算法工程師、軟件工程師等,共同推動模型從研發到上線的全生命周期管理,為業務發展提供強大的技術支持。
任職要求:
1、碩士及以上學歷,在計算機科學、人工智能、數學等相關領域接受過系統深入的教育,具備扎實的理論基礎,能夠深入理解和研究復雜的大模型技術。
2、計算機科學、人工智能、數學、統計學等相關專業背景,擁有深厚的專業知識儲備,涵蓋算法設計、數據處理、數學建模等方面,為開展大模型研發工作提供有力支撐。
3、精通深度學習基本理論,對神經網絡架構、優化算法、損失函數等有深入理解,能夠將理論知識靈活應用于大規模語言模型的研發實踐中。
4、熟練掌握 Python 編程語言,具備良好的編程習慣和代碼調試能力。精通至少一種主流深度學習框架,如 TensorFlow 或 PyTorch,能夠熟練運用框架實現模型架構設計、訓練、優化及部署等全流程操作。
5、深入理解大規模語言模型的架構設計、預訓練、微調等核心技術,熟悉參數調優、損失函數設計、注意力機制等關鍵環節的優化方法。掌握模型壓縮、量化、蒸餾等技術,能夠有效提升模型的推理效率和部署能力。
6、具備強大的數據處理能力,熟練掌握數據預處理、數據標注、數據增強等技術,能夠處理大規模、高維度的文本數據,為模型訓練提供高質量的數據支持。
擁有深厚的數學功底,精通線性代數、概率論、數理統計等數學知識,能夠運用數學方法解決模型訓練和優化過程中的復雜問題,如模型性能分析、參數估計等。
7、具有豐富的大規模語言模型研發項目經驗,至少主導或參與過一個完整的大規模語言模型項目,在模型架構設計、預訓練、微調、性能優化等方面取得過顯著成果。有成功應用模型壓縮、量化、蒸餾等技術提升模型推理效率和部署能力的實踐經驗,能夠將模型有效應用于實際業務場景,為企業創造價值。