DataEngineer-Crawler(上海黄浦区)
Responsibilities
- 负责垂直网站网页数据的爬取、清洗
- 解决各种反爬取问题,保证爬取进度
- 优化爬取效率,监控数据爬取进展
- 研究网站安全的新技术等
- 数据清洗,数据挖掘等相关研发工作
Requirements
- 两年以上相关开发经验
- 熟悉 Python 或 java 两门语言
- 熟悉 scrapy、pyspider、webmagic、nutch 等任一爬虫框架
- 掌握网页抓取原理及技术,了解基于 Cookie 的登录原理,熟悉基于正则、xpath、cssselector 的网页抽取技术
- 熟悉反爬机制,能解决疑难爬取问题
- 熟悉 Mysql,redis,mongdb,oracle 至少之二,有过数据库调优和海量数据存储经验优先
- 有验证码破解,反爬,分布式爬虫架构,数据挖掘,搭建数据仓库经验者优先
- 具有数据挖掘、自然语言处理、信息检索、机器学习背景者优先
- 良好的英文沟通能力,英文文档写作能力
- 优先考虑有在国际化团队工作经验的候选人