崗位描述:
1、爬蟲系統的設計及開發,負責指定網站的數據爬取,破解反爬策略并按規定入庫;
2、對數據進行清洗去重入庫,結構化處理,特征提取等數據處理工作;
3、維護和優化已有的爬蟲服務,按需求做增量采集,數據監控,拓展數據源;
4、參與網頁信息抽取、數據清洗等研發和優化工作;
5、與產品項目部門、運營部門對接工作。
任職要求:
1、計算機或相關專業,本科或以上學歷,1年以上爬蟲開發經驗;
2、熟悉網絡爬蟲原理,至少1年以上網絡爬蟲項目開發經驗,有大規模分布式爬蟲相關經驗;
3、熟練使用正則表達式、xpath、beautifulsoup、css path等解析提取數據;
4、熟練使用MongoDB,Mysql數據庫;
5、熟悉開源爬蟲框架,如scrapy、webmagic、nutch、Abot、DotnetSpide等,擅長反爬蟲,驗證碼破解,代理技術等;
6、具有數據挖掘、自然語言處理、數據處理、大數據分析背景者優先;
7、同時掌握Python與Java者優先。