临时笔记

SPT-下载爬虫系统和数据分析(7370)职位描述:


岗位职责:
负责搜索引擎爬虫系统的开发及相关数据的分析挖掘
岗位要求:
2年以上c 编程经验,对算法/数据结构有深刻理解
熟悉linux编程和调试环境
熟悉 socket 网络编程
具备良好的团队协作能力及沟通能力
有大型分布式系统设计开发经验优先
有搜索引擎经验者优先
具有数据挖掘、自然语言处理、信息检索、机器学习、数据统计背景的优先

我们正在创建新一代的智能网页搜索应用。我们在努力寻找优秀的,在文本挖掘、信息抽取、信息检索和自然语言处理等方面的专家级的软件开发人才,帮助我们建立产品数据库来展示我们的“长尾”策略产品。
职责:
1.负责建立业内最大最全的原标签产品目录;
2.在不知名的非主流网站上寻找鲜为人知的与众不同的产品;
3.同团队一起合作为用户提供最完美的体验;
4.汇报给技术总监;
要求:
1.精通信息抓取和整合技术,从结构化的和非结构化的数据中获取信息。
2.熟悉数据分析的统计方法,如PMT,HMM,NaïveBayes等。自然语言处理技巧和经验尤为重要。
3.精通与搜索和个性化相关的机器学习算法,大规模网页聚类,分类和提取摘要。
4.精通大规模推荐系统和内容过滤(largescalerecommendationsystem,contentbasedrecommendationandcollaborativefiltering)。
5.5年以上Java开发经验,超强的编程技巧。
6.精通Java技术,如JDBC,servlet,webservice,最好熟悉Ruby。
7.精通关系型数据库,尤其是MySQL,大数据量的。
8.熟悉大规模网页爬取,深度网页爬取,熟悉nutch、hadoop等爬虫工具尤佳。
9.有测试驱动和敏捷开发经验。
10.能用英文进行日常工作沟通交流。

你可能感兴趣的:(笔记)