2015-7-14 收集资料

Rapid Distance-Based Outlier Detection via Sampling [PDF][BibTeX][Supplemental][Reviews]

"How to give a good research talk" by Simon Jones 视频：O网页链接html版讲义：O网页链接此公关于如何写作的讲义与视频以前推荐过，同时深受@刘洋THU@黄亮-算法时代大神的推崇

【Recommendation System】 推荐系统之协同过滤（CF）算法详解和实现】O网页链接

【大数据分析悉力助推物联网解决水污染】在世界许多地方，对水的需求已经超过能负荷的程度，而且有许多地区也濒临水资源利用之不平衡，所以我们要珍惜水资源。水行业信息化面临重重挑战，中国水源污染严重，旱涝灾害尤其频繁。我国水资源管理和水环境保护问题也日益突出。O网页链接

收集核函数-Kernel Function，总结了各种各样的核函数，赞！O网页链接

【大数据(及其决策)的非公平性】《How big data is unfair - Understanding sources of unfairness in data driven decision making》O网页链接

【Nature(论文)摘要写作指南】(via: Trevor A. Branch)

【近似最近邻搜索】《Searching for Approximate Nearest Neighbours》O网页链接参阅：O爱可可-爱生活

Gimhoy(电子书、音乐下载，免费图床)：O网页链接

资源电子书（pdf epub mobi 下载，搜索功能较差）：O网页链接

【LightLDA提供了一种超大规模矩阵分解的轻量级方案...这种随机采样的算法特别是相对于梯度下降算法来做矩阵分解通信开销更小】O微软亚洲研究院 随机梯度下降SGD是解决带L2正则经验风险最小化问题的常用技术，对于大规模问题，分布式实现又是必要的，由此带来的通信开销需要额外考虑。 [Communication Efficient Coresets for Empirical Loss Minimization, Reddi,uai15] 基于coreset概念，并据此分析了LR和SVM收敛性。O网页链接

Tez刚刚在sigmod上发了篇文章 Apache Tez: A Unifying Framework for Modeling and Building Data Processing ApplicationsO网页链接 Hive on Tez, Hive on Spark, Spark SQL, Impala这些系统的区别和优缺点O如何选择满足需求的SQL on Hadoop系统

【Python Packaging User Guide】O网页链接

【开源:Kaggle's CrowdFlower竞赛优胜方案】"Winning solution to the kaggle's CrowdFlower challenge" by Chenglong ChenO网页链接GitHub:O网页链接doc:O网页链接其实不做这这一步也能过0.72（甚至更好，我Doc里面Figure 2有35个sub的性能），只不过这个比赛数据有点小，另外kappa不太稳定，ensemble可以降低variance//@洒板是条狗:ensemble of 35 best Public LB submissions!//@尘绳聋:这个比赛的性能指标是kappa，除了常用的regression/softmax/pairwise ranking外，我还尝试了使用XGBoost直接优化kappa（softkappa），以及实现了Hsuan-Tien Lin老师的两个Ordinal Regression算法，虽然单模型效果比不上regression，但对ensemble有所帮助。这部分也在Github上。多谢多谢。也恭喜你成为kaggle Top 10的大牛！这次比赛竞争异常激烈，半个月前top3的差距不到0.0001，最后我们在运气上稍占优势：）

卡耐基梅隆大学及微软研究院的研究人员研发出了一种可以根据上下文，自动匹配合适的表情回复的算法。让使用者瞬间增强网络幽默感。#我觉得俺这种完全跟不上时代的落后群众有救了##颜文字那波错过了，现在流行的Meme愈加苦手#O网页链接

Kddcup2015的结果终于揭晓，我和@MachineLearner，以及国外数家公司的大牛们组成的跨三大洲的联队“Intercontinental Ensemble”在全球八百多支队伍中获得第一名。感谢@学堂在线@清华MOOCs举办的精彩的比赛，感谢所有队友和对手的不懈努力，期待kdd会议上的交流学习。

如何计算F检验中效应量的置信区间？O网页链接当学术期刊都开始要求报告效应量和置信区间时，才发现计算置信区间的工具如此缺乏，Smithson (2001)提供的SPSS脚本，对于学用ANOVA的人来说，是一个非常不错的选择。

【Walking in L.A.-道路人行危险评估热力图】由洛杉矶时报制作（图1-2）。基于各个路口的交通事故数据（涉及行人）O网页链接，定义评估体系，利用开源软件QGIS进行处理，再制作Leaflet图进行互动展示（图3-6）。作者详细披露了制作方法O网页链接成果链接O网页链接

Google Scholar统计NLP会议近5年论文被引排序。COLING中哈工大LTP列第6位，清华朱小燕老师组评论摘要列第16位；ACL中人大赵鑫Twitter关键词抽取列第28位；NAACL中朱老师组实体链指列第26位；EMNLP中赵鑫MaxEnt-LDA列第19位，我们关键词抽取工作列23位。国内单位继续加油。O网页链接

石文昌: 数据关联分析是价值也是威胁

微软的云服务已经支持Spark on Azure HDInsight了。

哪一种RNN的架构比较好？谷歌的ICML论文对比了LSTM和GRU：O网页链接 GRU的结构更简单，实验效果也不错，但不是LSTM可以通过简化参数得来的特例，所以Cho et al的设计是有技术含量的//@鲁东东胖:JS 说GRU是LSTM的一个special case, 不知道是不是真的... GRU的结构更简单，实验效果也不错，但不是LSTM可以通过简化参数得来的特例，所以Cho et al的设计是有技术含量的

《From Autoencoders to Autoregressive Models (Masked Autoencoders ICML Paper)》O网页链接【From Autoencoders to Autoregressive Models】 (Masked Autoencoders ICML Paper) O网页链接 Ferenc Huszár的相关文章

【论文+Theano代码:自回归分布估计掩模自动编码器MADE】《MADE: Masked Autoencoder for Distribution Estimation》M Germain, K Gregor, I Murray, H Larochelle (2015)O网页链接GitHub:O网页链接

【DL 代码工具比较】【DL工具哪家强？】O网页链接| 本文显示Torch和Theano相比速度上略胜一筹。你问什么，那Caffe是什么水平？他说Caffe是DL应用层的，Torch和Theano才是专业人士研究DL用的

Markov Mixed Membership Models 【Empirical results demonstrate that Markov M3 performs well compared with tree structured topic models, and can learn meaningful dependency structure between topics】【nCRP/nHDP 见OPoetNiu】

使用EM算法推导主题模型pLSA主题分布的答疑帖，关于EM中用隐变量的条件分布求期望问题：O网页链接

【开发者成功玩转机器学习的十大诀窍！】开发者不同于数据工程师，这里分享十个小窍门，助开发者快速掌握机器学习~O网页链接

Towards Effective Codebookless Model for Image ClassificationO网页链接 arXiv [1507.02385]

Introduction to Gaussian ProcessesO网页链接

欢迎关注Berkeley BDAS的新项目Splash。Splash提供了一套简单的编程框架，它允许用户实现单线程的SGD、Gibbs Sampling等各类流式算法。而系统在Spark框架内实现单线程算法的自动并行化。介绍：O网页链接；项目主页：O网页链接；相关论文：O网页链接

Hive on Tez, Hive on Spark, Spark SQL, Impala这些系统的区别和优缺点O如何选择满足需求的SQL on Hadoop系统 spark sql 向着数据科学和机器学习领域发展，而不是数仓。

玩了一下Facebook的快速原型开发工具origamiO网页链接还蛮好用的

《Deep down the rabbit hole: CVPR 2015 and beyond》MIT研究人员T. Malisiewicz在CVPR'15上关于Deep Learning的一些感想，值得一读，ConvNet的Baseline，扯到Caffe和Torch之争，还有百度的ImageNet违规事件等等。

Locally Non-linear Embeddings for Extreme Multi-label LearningO网页链接

Rethinking LDA: moment matching for discrete ICAO网页链接【前有graphical-model approximate techniques, variational inference or Gibbs sampling, 新生tensor-based moment matching techniques as strong competitors due to computational speed and theoretical guarantees】

"计算广告技术之大数据下的短文本相关性计算"O网页链接在计算广告系统中，受到计算文本过短、文字歧义较大、长尾问题过多、准确率和覆盖率要求过高等因素的制约，用户查询词和广告之间相关性计算始终是巨大的挑战。搜狗搜索广告研发部高级经理王峰，在#QCon北京2015#就《计算广告技术之大数据下短文本相关性计算》的具体应用进行探讨。O网页链接

【用DIGITS2/多GPU实现深度学习性能翻倍】《Easy Multi-GPU Deep Learning with DIGITS 2》O网页链接提供的译文《DIGITS 2支持多GPU自动扩展实现深度学习性能倍增》O网页链接

【10大要点帮开发者用好机器学习】《10 keys to successful machine learning for developers》O网页链接提供的译文《开发者成功使用机器学习的十大诀窍》O网页链接

【Pandas对象介绍】《Introducing Pandas Objects - Python Data Science Handbook: Early Release》by Jake VanderPlasO网页链接节选自《Python Data Science Handbook》

【网络表示与分析在线交互介绍】《Introduction to Network Analysis and Representation》by Elijah Meeks and Maya KrishnanO网页链接GitHub:O网页链接

【算法公正性】《What does it mean for an algorithm to be fair?》O网页链接

【免费书:零基础数据科学与分析入门】《Data Science and Analytics for Ordinary People》by Jeffrey Strickland (2015)O网页链接云:O网页链接

【R数据可视化综合指南】《Comprehensive Guide to Data Visualization in R》O网页链接

《爱可可老师今日视野(15.07.14)》（分享自@）O网页链接

【Google Sparsehash高效使用sparsetable的介绍】《How Google Sparsehash achieves two bits of overhead per entry using sparsetable》O网页链接

【ECML PKDD 2015接收论文列表】"Accepted papers at ECML PKDD 2015"O网页链接

【博士数据科学职位申请指南】《What PhDs do wrong (and right!) when applying for Data Science jobs》O网页链接

【用R做数据新闻相关资源推荐】《Resources for doing data journalism with R》O网页链接GitHub:O网页链接

【论文:基于Network Lasso的大规模图聚类和优化】《Network Lasso: Clustering and Optimization in Large Graphs》D Hallac, J Leskovec, S Boyd [Stanford] (KDD2015)O网页链接

【对数据流形排序的思考】《PageRank meets vectorial representations – “Ranking on Data Manifolds”》O网页链接源自文章《Ranking on Data Manifolds》D Zhou, J Weston, A Gretton, O Bousquet (2004)O网页链接

Ferenc Huszár的相关文章《From Autoencoders to Autoregressive Models (Masked Autoencoders ICML Paper)》O网页链接【论文+Theano代码:自回归分布估计掩模自动编码器MADE】《MADE: Masked Autoencoder for Distribution Estimation》M Germain, K Gregor, I Murray, H Larochelle (2015)O网页链接GitHub:O网页链接

【免费书:面向计算机科学的数学基础】《Mathematics for Computer Science》Eric Lehman and Tom Leighton (2004)O网页链接云:O网页链接

【"文本网络(可视化)"系列】《Text networks》Part 1. PrimerO网页链接Part 2: Co-occurrence networksO网页链接Part 3: Dependency networksO网页链接

【视频:Matplotlib最佳颜色的选取】《A Better Default Colormap for Matplotlib | SciPy 2015 | Nathaniel Smith and Stéfan van der Walt》O网页链接云:O网页链接

【(R)NN敏感度分析】《Sensitivity analysis for neural networks》O网页链接pdf:O网页链接

CIKM 2015 Accepted Papers – Draft, July 13, 2015O网页链接

2015-7-14 收集资料

你可能感兴趣的:(2015-7-14 收集资料)