崗位職責:
1、負責公司數據源抓取需求,滿足公司對多源數據采集要求;
2、負責開發分布式爬蟲框架,管理分布式爬蟲服務器,開發任務調度引擎;
3、負責爬蟲核心算法的策略優化研究,提升爬蟲抓取效率和質量,提升網頁抓取的效率和質量;
4、設計爬蟲策略和防屏蔽規則,解決封賬號、封IP、驗證碼、JS加密等難點攻克;
5、利用主流的大數據相關技術,對抓取后的網頁數據進行清洗、存儲等;并持續優化平臺,以便滿足各種爬取業務需求;
6、負責RPA相關開發工作,提升業務能效;
7、負責部分AI(RAG)相關開發工作。
崗位要求:
1、有扎實的數據結構和算法功底;
2、工作認真細致踏實,有較強的學習能力,熟悉常用爬蟲工具;
3、熟悉linux開發環境,熟悉python等,熟悉其他開發語言優先;
4、理解http,熟悉html, DOM, xpath,css,js,ajax;
5、有Python分布式抓取系統的開發、架構經驗,至少熟悉并使用過一種主流爬蟲架構,如Scrapy、Gocolly、Webmagic等;
6、熟悉第三方RPA軟件(弘璣、影刀、UiBot等)優先;
7、熟悉RAG流程優先,熟悉AI模型、RAG框架等優先;
8、熟悉反爬策略的應對,能夠解決封賬號、封IP、驗證碼、JS加密等問題;
9、熟悉Mysql、Redis、MongoDB等數據庫,有過數據庫調優和海量數據存儲經驗者優先。