一、崗位職責
1.負責設計和開發分布式爬蟲和調度系統,爬蟲核心算法和調度策略優化;
2.負責反爬策略研究,代理IP、驗證碼識別等采集支撐服務建設;
3.深入研究不同網站的防御機制和反爬策略,提煉關鍵技術點;
4.負責相關爬蟲技術調研與應用,完成對復雜網站和APP信息抓取;
5.關注數據質量,建立完整的數據獲取、解析、入庫和更新流程,并不斷優化迭代完善。
二、任職要求
1.本科及以上學歷,計算機、軟件工程、信息安全等相關專業,3年及以上爬蟲開發及工作經驗;
2.精通Python語言,熟練掌握主流爬蟲框架scrapy、pyspider等至少一個,熟悉常用數的庫requests/gevent等;
3.掌握http協議,熟悉xpath bs4 jsonpath,正則表達式等常見的數據抽取技術;
4.精通Python爬蟲功能開發,熟悉常見的爬蟲框架及Headless瀏覽器;
5.對目前常見的反爬措施有應對策略,包括但不限于使用代理IP、驗證碼解析、動態JS數據解析等;
6.爬取過新聞類、文章類、官網類的優先,有海外平臺經驗者優先;
7.熟練使用charles、fiddler等抓包工具,熟悉linux操作系統;
8.具備較強的學習能力和自我驅動力,能夠不斷學習和掌握新的技術和知識
上班時間早上10點到晚上19點,適度加班