基本功
Python 开发
控制语句(if, for, while, pass, assert, with, yield, import, in)
类型(object, list, tuple, dict, set)
表达式(lambda, 列表推导式)
函数(map, reduce, filter, zip, sort, enumrate, isinstance)
面向对象(类成员、实例化、构造函数、析构函数、继承、派生、多态、super)
数值计算(numpy、scipy、pandas、sklearn、gensim)
数据可视化(matplotlib、moviepy)
爬虫(scrapy、beautifulsoup、urllib、requests、selenium)
推荐阅读:《Python手册》、官方文档、《Head First Python》
Git
commit
config
push
pull
diff
checkout
merge
stash
merge request
推荐阅读:《踏潮 Git 使用规范》
传统算法和数据结构
枚举(8皇后问题)
递归(汉诺塔问题、树的前中后序遍历)
分治(求中位数、快排)
贪婪(Dijkstra 求最短路、Prim 最小生成树)
动态规划(背包问题、Floyd 求最短路)
链表(增删改查、循环链表、判环)
栈(用队列模拟栈、售货员卖棒冰找零问题)
队列(用栈模拟队列,双向队列、优先队列)
二叉树(BST、平衡树、线段树)
堆(最小/最大堆、堆排序)
排序(冒泡、选择、插入、快速、归并、堆、桶)
图论(DFS、BFS、最小生成树、最短路、关键路径、流网络)
字符串(KMP、字典树、AC自动机)
计算几何(线性规划、凸包)
推荐阅读:微软 —《编程之美》、《算法导论》
完成 Leetcode 中所有 easy / medium 难度的习题,编程语言 Python / C++ 自选。
数学基础
线性代数(矩阵、特征值、特征向量、秩)
微积分(极限、导数、拉格朗日中值、泰勒级数展开、傅里叶变换)
推荐阅读:吴军 —《数学之美》、大学相关课程教材
统计学基础
相关性分析(相关系数r、皮尔逊相关系数、余弦相似度、互信息)
回归分析(线性回归、L1/L2正则、PCA/LDA降维)
聚类分析(KNN、K-Means)
分布(正态分布、t分布、密度函数)
指标(协方差、ROC曲线、AUC、变异系数、F1-Score)
显著性检验(t检验、z检验、卡方检验)
A/B测试
推荐阅读:李航 —《统计学习方法》
机器学习基础
关联规则(Apriori、FP-Growth)
回归(Linear Regression、Logistics Regression)
决策树(ID3、C4.5、CART、GBDT、RandomForest)
SVM(各种核函数)
推荐(User-CF、Item-CF)
推荐阅读:《集体智慧编程》、Andrew Ng — Machine Learning Coursera from Stanford
广告业务知识
了解各角色(Ad Exchange、DSP、SSP、DMP、监测)
了解广告数据维度
了解部门算法架构
推荐阅读:《踏潮算法培训》
基本功大考核:自主选题完成某一类数据抓取(如淘宝、携程、大众点评、58同城、百度竞价广告、世纪佳缘、链家等),对其进行统计分析并做 Presentation。
参考:
chenqin 答过的问题
小龙虾是怎么火遍全国的? - 数据冰山 - 知乎专栏
黄焖鸡米饭是怎么火起来的? - 何明科的回答
RIO是如何席卷大江南北的? - 数据冰山 - 知乎专栏
统一出品的调味茶饮料“小茗同学”能热卖有哪些因素? - 何明科的回答
特定岗位所需
系统工程师
Linux 基本命令及 Bash Shell
推荐阅读:《鸟哥的Linux私房菜》
C/C++
代码规范
C++11新特性
推荐阅读:《踏潮C++代码规范》、《Effective C++/STL》
RPC框架
Thrift
Protobuf
Web框架
Nginx with FastCGI
Apache
Django
数据存储
MySQL
MongoDB
Redis
Hadoop
HBase
Kafka
网络编程
多线程同步
进程通信
流处理
分布式
数据同步
Master-Slave
竞选机制
算法工程师
Linux 基本命令及 Bash Shell
C/C++
代码规范
C++11新特性
推荐阅读:《踏潮C++代码规范》、《Effective C++/STL》
回归计算
最大似然估计
随机梯度下降
分布式计算
MapReduce
并行计算
加速比评测
可扩放性标准
PRAM模型
POSIX Threads
CUDA基础
数据挖掘工程师
数据转换
无量纲化
归一化
哑编码
数据清洗
判断异常值
缺失值计算
特征工程
可用性评估
采样
PCA/LDA
衍生变量
L1/L2正则
SVD分解
提升
Adaboost
加法模型
xgboost
SVM
软间隔
损失函数
核函数
SMO算法
libSVM
聚类
K-Means
并查集
K-Medoids
KNN
聚谱类SC
EM算法
Jensen不等式
混合高斯分布
pLSA
主题模型
共轭先验分布
贝叶斯
停止词和高频词
TF-IDF
词向量
word2vec
n-gram
HMM
前向/后向算法
Baum-Welch
Viterbi
中文分词
数据计算平台
Spark
Caffe
Tensorflow
推荐阅读:周志华——《机器学习》