DataEngineer-Crawler

DataEngineer-Crawler(上海黄浦区)


Responsibilities

- 负责垂直网站网页数据的爬取、清洗

- 解决各种反爬取问题,保证爬取进度

- 优化爬取效率,监控数据爬取进展

- 研究网站安全的新技术等

- 数据清洗,数据挖掘等相关研发工作


Requirements

- 两年以上相关开发经验

- 熟悉 Python 或 java 两门语言

- 熟悉 scrapy、pyspider、webmagic、nutch 等任一爬虫框架

- 掌握网页抓取原理及技术,了解基于 Cookie 的登录原理,熟悉基于正则、xpath、cssselector 的网页抽取技术

- 熟悉反爬机制,能解决疑难爬取问题

- 熟悉 Mysql,redis,mongdb,oracle 至少之二,有过数据库调优和海量数据存储经验优先

- 有验证码破解,反爬,分布式爬虫架构,数据挖掘,搭建数据仓库经验者优先

- 具有数据挖掘、自然语言处理、信息检索、机器学习背景者优先

- 良好的英文沟通能力,英文文档写作能力


- 优先考虑有在国际化团队工作经验的候选人

你可能感兴趣的:(DataEngineer-Crawler)