转载自:数据比赛资料(杂合)https://blog.csdn.net/touristcwl/article/details/72972741
自动调超参项目源码
https://github.com/maxpumperla/hyperas
spark ml 算法原理剖析以及具体的源码实现分析
https://github.com/endymecy/spark-ml-source-analysis
苍老师 quora 开源代码
https://github.com/qqgeogor/kaggle-quora-solution-8th
算法导论公开课视频
https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-046j-introduction-to-algorithms-sma-5503-fall-2005/video-lectures/
配套代码
http://interactivepython.org/courselib/static/pythonds/SortSearch/TheMergeSort.html?highlight=merge%20sort
大数据架构和模式(一)大数据分类和架构简介
http://kb.cnblogs.com/page/510978/
http://kb.cnblogs.com/page/510979/
http://kb.cnblogs.com/page/510980/
http://kb.cnblogs.com/page/510982/
http://kb.cnblogs.com/page/510984/
经典:一个大数据项目的架构设计与实施方案
http://www.toutiao.com/i6427339963980841474/
利用KMeans聚类进行航空公司客户价值分析 萤火虫推荐
http://www.cnblogs.com/itdyb/p/5691958.html
贝叶斯平滑方法及其代码实现
http://www.cnblogs.com/Leo_wl/p/6392194.html
Python有哪些好用的语言翻译方法
http://www.cnblogs.com/tgyf/p/6936221.html
Kaggle机器学习之模型融合(stacking)心得
https://zhuanlan.zhihu.com/p/26890738?utm_medium=social&utm_source=qq
最好的九张机器学习&深度学习代码速查表
机器之心 - 工程师必备,最好的九张机器学习&深度学习代码速查表(分享自知乎网)
https://zhuanlan.zhihu.com/p/27202488?utm_source=qq&utm_medium=social
xgboost之spark上运行-scala接口
http://blog.csdn.net/luoyexuge/article/details/71422270
商用深度学习分布式环境
https://deeplearning4j.org/cn/overview
http://nd4j.org/cn/backend.html
stacking 的资料
https://www.kaggle.com/c/two-sigma-connect-rental-listing-inquiries/discussion/31765
大神IJCAI的代码
https://tianchi-gitlab.aliyun.com/race231591/gitlab-u2323?spm=5176.8366600.0.0.hi4i1q
IJCAI-17大神分享之神雕侠侣的优胜秘籍!代码地址
https://github.com/Jessicamidi/Solution-to-IJCAI17-Sales-Volume-Prediction-on-Koubei-Platform
小水大神分享:神经网络方面的东西
https://www.kaggle.com/danijelk/keras-starter-with-bagging-lb-1120-596
闭关修炼的木相分享:大神的机器学习框架
http://blog.kaggle.com/2016/07/21/approaching-almost-any-machine-learning-problem-abhishek-thakur/
书籍搜索网址(英文的)
http://bookzz.org/
数据挖掘应用案例:RFM模型分析与客户细分
http://shenhaolaoshi.blog.sohu.com/201923838.html
RFM模型及R语言实现
http://blog.csdn.net/wa2003/article/details/48265783
kaggle 比赛汇总
http://ndres.me/kaggle-past-solutions/
苍老师分享,深度学习,由浅入深论文
搜deep learning papers reading roadmap一溜串的论文由浅入深。
贝叶斯推断及其互联网应用
http://blog.csdn.net/dingyaguang117/article/details/7861783
【特征工程】特征选择及mRMR算法解析
http://www.jianshu.com/p/04d965e35b6d
萤火虫分享:在SPARK上将谷歌的深度学习库进行尺度变换
http://blog.csdn.net/u013886628/article/details/51819646
一个流行的分布式数据库,
http://www.cnblogs.com/skyme/p/5779885.html
基于Spark自动扩展scikit-learn(spark-sklearn)
http://blog.csdn.net/sunbow0/article/details/50848719
https://github.com/xiaozhouwang这个是真大神
GBDT基本理论及利用GBDT组合特征的具体方法(收集的资料)
http://blog.csdn.net/chris__kk/article/details/51384276
利用GBDT模型构造新特征
https://breezedeus.github.io/2014/11/19/breezedeus-feature-mining-gbdt.html#fn:fbgbdt
腾讯大数据:CTR预估中GBDT与LR融合方案
http://www.cbdio.com/BigData/2015-08/27/content_3750170.htm
这里有一个优化cv的方法FCV 简直吊炸天
http://www.jianshu.com/p/798c5de306e6
数据挖掘(七)---异常检测
数据挖掘(七)---异常检测
http://blog.163.com/zhoulili1987619@126/blog/static/353082012015211114642546/
如果单纯的统计法的话 3神格吗 ZSCORE法 当然你可以基于聚类算法来处理 我记得sklearn 里面有一个IsolationForest
【干货】Kaggle 数据挖掘比赛经
http://url.cn/48UoPHS
【干货】Kaggle 数据挖掘比赛经验分享
新发现的小工具
https://github.com/jundongl/scikit-feature
https://github.com/reiinakano/scikit-plot
http://featureselection.asu.edu/algorithms.php
Spark机器学习库(MLlib)官方指南手册中文版
http://blog.csdn.net/liulingyuan6/article/details/53582300
hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建
1.1 JDK
参见博文:http://www.cnblogs.com/liugh/p/6623530.html
1.2 Hadoop
参见博文:http://www.cnblogs.com/liugh/p/6624872.html
1.3 Scala
参见博文:http://www.cnblogs.com/liugh/p/6624491.html
1.4 Spark安装
http://www.cnblogs.com/lexiaofei/p/6763948.html
伪分布
http://blog.csdn.net/cs724112663/article/details/63256052
GBDT完全调参指南
https://www.analyticsvidhya.com/blog/2016/02/complete-guide-parameter-tuning-gradient-boosting-gbm-python/
学习 ensemble learning 要如何开始呢?
【学习 ensemble learning 要如何开始呢?】城东:引自我的博文 2…
https://www.zhihu.com/question/29036379/answer/111637662?utm_source=qq&utm_medium=social (分享自知乎网)
【一文读懂】机器学习最新主战场迁移学习,从原理、方法到应用
https://zhuanlan.zhihu.com/p/25979886?utm_medium=social&utm_source=qq
sklearn导出树
http://stackoverflow.com/questions/20224526/how-to-extract-the-decision-rules-from-scikit-learn-decision-tree
sklearn 输出树模型
http://scikit-learn.org/stable/modules/generated/sklearn.tree.export_graphviz.html#sklearn.tree.export_graphviz
从稀疏表示到低秩表示(四)
http://blog.csdn.net/tiandijun/article/details/41608797
ijcai开源代码
https://tianchi-gitlab.aliyun.com/race231591/gitlab-u2323/blob/master/%E8%A7%A3%E6%B1%BA%E6%96%B9%E6%A1%88%E8%AA%AA%E6%98%8E.MD
https://tianchi-gitlab.aliyun.com/race231591/gitlab-u3844/blob/master/readme.md
超级碗的肺癌第九名开源的解决方案
https://eliasvansteenkiste.github.io/machine%20learning/lung-cancer-pred/
关于深度学习的机理,优化和网络结构
https://zhuanlan.zhihu.com/p/22067439?utm_medium=social&utm_source=qq?utm_medium=social&utm_source=qq
深度学习调参有哪些技巧
https://www.zhihu.com/question/25097993?utm_source=qq&utm_medium=social
使用Apriori算法和FP-growth算法进行关联分析
http://www.cnblogs.com/qwertWZ/p/4510857.html
评分卡模型剖析之一(woe、IV、ROC、信息熵)
http://blog.csdn.net/goodhuajun/article/details/39582761py里面重要性是这个
重要性=∑(errOOB2-errOOB1)/Ntree
r里面默认的是gini
9行Python代码搭建神经网络
https://zhuanlan.zhihu.com/p/25640834
深度学习和机器学习知识体系资料下载
https://github.com/songrotek/Deep-Learning-Papers-Reading-Roadmap
https://github.com/JustFollowUs/Machine-Learning
xgboost详细介绍最新博文
http://www.pengfoo.com/machine-learning/2017-03-03
prophet 时序预测神奇
BLOG:http://blog.csdn.net/sinat_26917383/article/details/57419862
官网网址:https://facebookincubator.github.io/prophet/
github网址:https://github.com/facebookincubator/prophet
论文:《Forecasting at Scale // Sean J.Taylor and Benjamin Letham》
案例数据下载:http://download.csdn.net/detail/sinat_26917383/9764537
机器学习相关知识
http://www.cnblogs.com/thinkml/p/4170326.html
TF大会完整视频
链接: https://pan.baidu.com/s/1dE6qjsd 密码: qya4 TF大会的完整视频,总时长8个多小时,分为18段,有18位大神讲不同的方面
关于样本采样
http://m.blog.csdn.net/article/details?id=52304670
多输出参考 Scikit-learn 中的决策树 LR multiout
https://my.oschina.net/Bettyty/blog/774706
https://mp.weixin.qq.com/s/I0WU5izCIWlbZPbKSEaO3w
http://scikit-learn.org/stable/modules/multiclass.html
cs231n - assignment1 - softmax 梯度推导
http://blog.csdn.net/yc461515457/article/details/51924604
时间序列ARIMA模型详解:python实现店铺一周销售量预测
http://www.10tiao.com/html/284/201608/2652390079/1.html
西瓜书概念整理(chapter 1-2)熟悉机器学习术语
http://www.cnblogs.com/hellocwh/p/6390769.html
剑宗的“独孤九剑”(Tensorflow函数)
http://mp.weixin.qq.com/s/ZeMSGEbNr5qHxdMlxKDR7Q
清华大学微积分教程,推荐看看
链接:http://pan.baidu.com/s/1i5lyRtV 密码:ow6t
链接:http://pan.baidu.com/s/1pKUrBJl 密码:jtaw
keras、 tensor flow 教程
【keras]http://keras-cn.readthedocs.io/en/latest/getting_started/concepts/,
[tensorflow] http://blog.csdn.net/zouxy09/article/details/8777094
tensoflow 官方:https://www.tensorflow.org/tutorials/
[AI学习http://www.studyai.cn/index.html
【keras】学习文档 重要】https://github.com/fchollet/keras-resources
Python中利用LSTM模型进行时间序列预测分析
http://www.cnblogs.com/arkenstone/p/5794063.html
常用推荐算法(50页干货)
http://mp.weixin.qq.com/s?__biz=MzAwNjM1ODkxNQ==&mid=2650887061&idx=1&sn=6aebe2140ee14a3077cb7800035391ad&chksm=80fb6179b78ce86fd7920efda56ec2754d850168a8ba6013238331c8ec98bd37cb4b34a1bc0f&mpshare=1&scene=23&srcid=0124i2zkJaujFls9NIXGyX1y#rd
spark机器学习算法研究源码
https://github.com/endymecy/spark-ml-source-analysis
PCA的数学之美
http://mp.weixin.qq.com/s/6xsXjUEUm8dB5y6-dInT_w
PrimalEstimatedsub-GrAdientSOlverforsvm
http://www.cnblogs.com/murongxixi/p/3556860.html
2016 CCF大数据与计算智能大赛的开源资料整理
https://zhuanlan.zhihu.com/p/24877060
blending跟stacking 中译本 和 原版
http://mlwave.com/kaggle-ensembling-guide/
http://m.blog.csdn.net/article/details?id=53054686
今天我彻底理解了如何从MLE和MAP推到linear regression,ri
今天我彻底理解了如何从MLE和MAP推到linear regression,ridge regression和lasso,
https://www.zhihu.com/question/20447622
理解 LSTM 网络
http://m.open-open.com/m/lib/view/1440843534638.html
GAN(Generative Adversarial Nets)研究进展
http://mt.sohu.com/20170107/n478023102.shtml
tensorflow
http://blog.topspeedsnail.com/archives/10377
statsmodels.stats.outliers_influence.var
statsmodels.stats.outliers_influence.variance_inflation_factor 可以检测方差膨胀因子 进行多重共线性的检测
LASSO,非常擅长处理多重共线性
keras深度学习包学习总结 mark
http://blog.sina.com.cn/s/blog_61c463090102w51x.htmlhttp://blog.csdn.net/hjimce/article/details/49095199
http://keras-cn.readthedocs.io/en/latest/getting_started/sequential_model/
wepon o2o 第一名代码开源
强烈推荐天池选手们,关注一下 wepon的github,里面有好几次比赛的代码,包括这次 O2O比赛的全部代码,他们是这次 O2O比赛的一等奖。 大家别忘记点 start . 同时感谢wepon,天音和charles的贡献! https://github.com/wepe/O2O-Coupon-Usage-Forecast
不平衡数据分类算法介绍与比较
http://m.blog.csdn.net/article/details?id=52304670
为什么在实际的 kaggle 比赛中 gbdt 和 random forest
http://www.zhihu.com/question/51818176/answer/127637712
Kaggle大赛:债务违约预测冠军作品解析
http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651645347&idx=1&sn=d8ccabbf22e3d28b4857cbb2549fcb05&chksm=bd4dc2308a3a4b26d94a9f67e644190cc58aa19a24e77609922be9b27a72a9ffb996d0262819&mpshare=1&scene=1&srcid=1020vQBiKKUxfyqZCDwK1LDs#rd
使用sklearn进行集成学习——实践
http://blog.csdn.net/sun_shengyun/article/details/52678799?locationNum=2
http://blog.csdn.net/sun_shengyun/article/details/52605611
https://www.zhihu.com/question/20448464/answer/20039077
使用sklearn进行集成学习——理论
http://blog.csdn.net/sun_shengyun/article/details/52672252?locationNum=13
用python参加Kaggle的些许经验总结
http://www.jianshu.com/p/32def2294ae6
如何成为一名数据科学家
http://www.zhihu.com/question/21592677我自己粗浅的理解为需要以下几个方面:
1. 业务知识
2. 数理统计和数据分析
3. 计算机相关知识
3.1 数据处理与收集(ETL?)
3.2 机器学习和数据挖掘
这几方面完全是自己的一个猜测,恳请大牛们不惜赐教!
http://chuansong.me/n/511792241648
特征工程:数据科学家的秘密武器!
用Python做单变量数据集的异常点分析
http://www.tuicool.com/articles/qiA3Mr
http://www.wtoutiao.com/p/3736fSh.html
http://jingyan.baidu.com/article/cdddd41c6a2f2553cb00e13b.html
http://blog.csdn.net/liuyuan_jq/article/details/51946655
一篇文章,带你明白什么是过拟合,欠拟合以及交叉验证
http://blog.csdn.net/er8cjiang/article/details/50981426
adaboost xgboost gbdt 三个boosting方法整理
http://blog.csdn.net/zr459927180/article/details/52329013?locationNum=10
用 Python 实现 各种排序算法
http://www.linuxidc.com/Linux/2015-05/117836.htm
深入理解FFM原理与实践
http://mt.sohu.com/20160309/n439884382.shtml
http://www.csie.ntu.edu.tw/~cjlin/libffm/
https://github.com/guestwalk/libffm
数据挖掘岗面试总结
http://blog.csdn.net/bryan__/article/details/52672912
机器学习入门——浅谈神经网络
http://www.17bigdata.com/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%85%A5%E9%97%A8-%E6%B5%85%E8%B0%88%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C.html
把这些题刷完,任何面试的算法题都很easy
http://hihocoder.com/problemset
把这些题刷完,任何面试的算法题都很easy的拿下
阿里音乐代码参考
https://github.com/implus/alimusic
分享个FTRL的轮子 可以直接调用
https://github.com/comadan/FM_FTRL
Ensemble Learning 之 Boosting 与 Adaboost
http://www.cnblogs.com/ooon/p/5663975.html
风险狗的数据分析之路
https://zhuanlan.zhihu.com/loan-analytics
python中日期和时间格式化输出的方法小结
http://www.jb51.net/article/62518.htm
用 Python 进行贝叶斯模型建模
http://python.jobbole.com/85954/
http://python.jobbole.com/85996/
http://python.jobbole.com/85987/
http://python.jobbole.com/85991/
http://python.jobbole.com/85796/
大数据/数据挖掘/推荐系统/机器学习相关资源
https://github.com/Flowerowl/Big_Data_Resources
scipy插值函数
http://docs.scipy.org/doc/scipy/reference/tutorial/interpolate.html
bryan大神的宝贵经验
http://bbs.pkbigdata.com//static/348_detail.html
阿里音乐流行趋势预测大赛 #13解决方案
http://blog.csdn.net/lujiandong1/article/details/51933158
统计师的Python日记【第七天:数据清洗(1)】
http://sanwen8.cn/p/1f7STnT.html
1. 删除重复
2. 异常值监测
3. 替换
4. 数据映射
5. 数值变量类型化
6. 创建哑变量
机器学习中的规则化范数(L0, L1, L2, 核范数)
http://www.cnblogs.com/TenosDoIt/p/3708996.html
Precision和Recall
http://blog.csdn.net/pirage/article/details/9851339
ROC和AUC介绍以及如何计算AUC
https://m.douban.com/note/284051363
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见[这里]
xgboost dropout防止过拟合风险
http://xgboost.readthedocs.io/en/latest///parameter.html
http://dmlc.ml/xgboost/2016/07/02/support-dropout-on-xgboost.html?utm_source=tuicool&utm_medium=referral
xgboost大神公布参数和调参经验
https://www.kaggle.com/hetong007/otto-group-product-classification-challenge/xgboost-starter-code-with-r
win7+python2.7下安装spark
http://blog.csdn.net/yiyouxian/article/details/51020334
http://blog.csdn.net/korder/article/details/45340317
推荐算法
http://geek.csdn.net/news/detail/91818
贝叶斯-阮一峰
http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html
利用python对新浪微博用户标签进行分词并推荐相关用户
http://www.cnblogs.com/wuren/archive/2012/12/14/2818780.html
[Machine Learning & Algorithm]决策树与迭代决策树
http://www.cnblogs.com/maybe2030/p/4734645.html
BP入门
http://neuralnetworksanddeeplearning.com/
细细品味Hadoop
http://www.cnblogs.com/xia520pi/category/346943.html
pyspark 安装参考网页
http://www.ynpxrz.com/n1032979c2029.aspx
http://www.powerxing.com/spark-quick-start-guide/
http://www.linuxidc.com/Linux/2015-08/122284p2.htm
解密SVM系列(一):关于拉格朗日乘子法和KKT条件
http://blog.csdn.net/on2way/article/details/47729419
http://blog.csdn.net/on2way/article/details/47729827
http://blog.csdn.net/on2way/article/details/47730367
http://blog.csdn.net/on2way/article/details/47731455
http://blog.csdn.net/on2way/article/details/47733861
机器学习笔记:朴素贝叶斯方法(Naive Bayes)原理和实现
http://blog.csdn.net/tanhongguang1/article/details/45016421
支持向量机(SVM)的详细推导过程及注解(一)
http://blog.sina.cn/dpool/blog/s/blog_4298002e010144k8.html?vt=4
谷歌技术"三宝"之MapReduce
http://blog.csdn.net/opennaive/article/details/7514146
MapReduce初级案例
"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。
http://www.open-open.com/lib/view/open1387965082078.html
最小二乘、极大似然、梯度下降有何区别?
http://www.zhihu.com/question/24900876
一步一图一代码,一定要让你真正彻底明白红黑树
http://blog.csdn.net/chenhuajie123/article/details/11951777ok,首先,以下几点,你现在应该是要清楚明白了的:
I、红黑树的五个性质:
1)每个结点要么是红的,要么是黑的。
2)根结点是黑的。
3)每个叶结点,即空结点(NIL)是黑的。
4)如果一个结点是红的,那么它的俩个儿子都是黑的。
5)对每个结点,从该结点到其子孙结点的所有路径上包含相同数目的黑结点。
knn 和 k均值这种算距离的 特征要不要标准化
武传营-福大-硕
数据量纲差太多,一般是需要的
零
我感觉是需要的 要不然都不在一个量级啊 10000的距离和10的距离怎么比较。。
零
10的距离就被淹没了
风轻云淡
归一化应该是为了在同一量级上进行计算
Nathaniel.
像这种 特征调参是不是只要把特征值乘一个常数 就行了
风轻云淡
归一化之后要进行反归一化还原数据
Silence为了防止不同量级的数据产生的偏差
Silence
比如你工资和年龄这两个的话欧氏距离明显差很多
http://blog.csdn.net/czp11210/article/details/51161501
炼数成金--大数据的统计学基础
http://pan.baidu.com/share/link?uk=2970711085&shareid=1547082001
本群国王推荐 两本书 矩阵分析 和 the matrix cookbook
数学之美番外篇:平凡而又神奇的贝叶斯方法
http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/
具体还可以参考 PRML 1.2概率论
我们需要做两件事情:1. 算出各种不同猜测的可能性大小。2. 算出最靠谱的猜测是什么。第一个就是计算特定猜测的后验概率,对于连续的猜测空间则是计算猜测的概率密度函数。第二个则是所谓的模型比较,模型比较如果不考虑先验概率的话就是最大似然方法。P(B|A) = P(A|B) * P(B) / [P(A|B) * P(B) + P(A|~B) * P(~B) ]
收缩起来就是: P(B|A) = P(AB) / P(A)
其实这个就等于:
P(B|A) * P(A) = P(AB)
难怪拉普拉斯说概率论只是把常识用数学公式表达了出来。
然而,后面我们会逐渐发现,看似这么平凡的贝叶斯公式,背后却隐含着非常深刻的原理。