各种机器学习的应用场景分别是什么?例如,k近邻,贝叶斯,决策树,svm,逻辑斯蒂回归和最大熵模型。
如何评价Python的深度学习框架DeepPy?
Logit回归模型中的那个函数形式F是怎么被发现的?
为什么基于贝叶斯优化的自动调参没有大范围使用?
概率图模型(PGM)有必要系统地学习一下吗?
如何用简单易懂的例子解释隐马尔可夫模型?
【基于ConvnetJS的图像前/背景分割】O网页链接GitHub:O网页链接
【幻灯+笔记:数据启示 vs. 数据驱动】《Why data-informed beats data-driven》by Greg Reda, PyData Seattle 2015O网页链接云:O网页链接
【"Deep Learning for NLP: progress, challenges and opportunities"】经过报告人同意,7月30日晚@鲁东东胖在清华的报告《Deep Learning for NLP@Noah: progress, challenges and opportunities》演示文稿可以在此下载:OTsinghuaTalkJ_July30.pdf感谢正东的精彩报告,感谢到场的同学们。:)
【高效的Python数据分析框架Ibis】O网页链接GitHub:O网页链接通过IPN了解Ibis:O网页链接 Slide:《Ibis: Scaling the Python Data Experience》O网页链接云:O网页链接
【论文+代码:面向网络级规模的并行流标记EM-tree聚类算法】《Parallel Streaming Signature EM-tree: A Clustering Algorithm for Web Scale Applications》C Vries, L Vine, S Geva (WWW2015)O网页链接LMW-tree:O网页链接GitHub:O网页链接
【幻灯:(nVIDIA深度学习课程)GPU深度学习介绍】《Introduction To Deep Learning With GPUs》O网页链接云:O网页链接
【免费书:机器学习资源精选汇编】《The Machine Learning Salon Starter Kit》by Jacqueline Isabelle ForienO网页链接云:O网页链接
【可重现数据驱动研究平台REP】全称是Reproducible Experiment Platform,统一封装TMVA, Sklearn, XGBoost, Uboost等分类实现,进行大数据集共享一致性对比试验,可在集群上完成并行训练 GitHub:O网页链接 REP(Reproducible Experiment Platform)文档:O网页链接
【狄利克雷分布/狄利克雷过程笔记】《Notes on the Dirichlet Distribution and Dirichlet Process》O网页链接ipn:O网页链接
《爱可可老师今日视野(15.07.29)》( 分享自@)O网页链接
【数据降维技术完全指南】《A Complete Guide To Dimension Reduction Techniques》O网页链接
【NYT:用算法判定人品】《Using Algorithms to Determine Character》O网页链接@TECH2IPO提供的译文《对抗偏见:用算法判定你的人品》O网页链接
【视频:深度学习在自动问答系统中的应用】《(@infoQ)深度学习在自动问答系统中的应用》by 李成华O网页链接
【目标:又快又好的代码】《Moving Fast With High Code Quality》by Nikhil Garg, QuoraO网页链接
【Reasoning about Linguistic Regularities in Word Embeddings using Matrix Manifolds】"O网页链接Reasoning about Linguistic Regularities in Word Embeddings using Matrix Manifolds@刘知远THU之前刘老师在鹅厂讲座时有提到embedding和mainfold这类思路,相比而言,当然我的idea简直弱爆了。。
【IPN:基于PyMC的Python概率编程】《Probabilistic Programming in Python using PyMC》O网页链接 Slide: 《Probabilistic Programming in Python with PyMC3》O网页链接云:O网页链接
【(Trello)数据科学资源专题】O网页链接
【论文:"NoBackTrack" RNN】《Training recurrent networks online without backtracking》Y Ollivier, G Charpiat (2015)O网页链接
【论文+演示+代码+数据:简笔画自动识别】《How Do Humans Sketch Objects?》M Eitz, J Hays, M Alexa (SIGGRAPH 2012) GitXiv:O网页链接O网页链接Project Page:O网页链接Code:O网页链接
"在线最优化求解(Online Optimization)"系列+FTRL详解 关于LR的稀疏性问题,发现几个比较好的链接,非常清晰明了,O网页链接,O网页链接,O网页链接,O网页链接,O网页链接,O网页链接
【Word2Vec实战教程】《Word2Vec: an introduction》by Folgert KarsdorpO网页链接ipn:O网页链接
【"技术债"综述】《A Field Study of Technical Debt》by Neil ErnstO网页链接参阅:O爱可可-爱生活
【(Python)深度学习框架/库/工具汇总介绍】《Frameworks and Libraries for Deep Learning》Theano/Pylearn2/Blocks/Keras/LasagneO网页链接
【避免误用交叉验证】《Cross Validation done wrong》by Alfredo MottaO网页链接
【论文:深度学习模型演进】《Evolution of Deep learning models》 Ajit Jaokar (2015)O网页链接pdf:O网页链接
【《Learning to Generate Chairs with Convolutional Neural Networks》Alexey Dosovitskiy, Jost Tobias Springenberg, Thomas Brox】 通过训练卷积神经网络(CNN),自动生成对象指定类型、角度和颜色的图像 arXiv:O网页链接PDF:O网页链接 GitXiv:O网页链接Code(Caffe):O网页链接
【来自Facebook的图像自动生成】《The Eyescream Project - NeuralNets dreaming natural images》by Soumith, Emily, Arthur & RobO网页链接参阅O爱可可-爱生活 GitXiv:O网页链接Code(Torch):O网页链接//@爱可可-爱生活: 【(Lua)The Eyescream Project】GitHub:O网页链接
【基于Pandas/Matplotlib的高收入数据分析】《Exploring the Top Incomes Database with Pandas and Matplotlib》by Ramiro GómezO网页链接
【免费书:经济学者的差分方程指南】《Difference Equations for Economists》by Klaus Neusser (2015)O网页链接
【论文+代码:面向图像分类的多列深度网络(MCDNN)】《Multi-column Deep Neural Networks for Image Classification》D Cireşan, U Meier, J Schmidhuber (CVPR2012)O网页链接Code(Theano):O网页链接
【数据可视化框架/库/软件大列表】"Awesome dataviz"O网页链接
【基于Lasagne/nolearn的Kaggle's Diabetic Retinopathy Detection竞赛第二名方案分享】《Team o_O Solution Summary》O网页链接参阅:O爱可可-爱生活O爱可可-爱生活
【R语言文本处理】《Text Processing in R》O网页链接
【时序分析之序列相关/自相关】《Serial Correlation In Time Series Analysis》O网页链接
【基于遗传算法察言观色自选字体/图像/布局的数字广告】《The artificial intelligence advert that writes itself》O网页链接
【(Python)三行代码实现Hinton's Dropout】《Hinton's Dropout in 3 Lines of Python - How to install Dropout into a neural network by only changing 3 lines of python》by TraskO网页链接
【IPN:基于Sony Lifelog API数据的位置聚类/预测】《Using machine learning to cluster and predict locations from Sony Lifelog API》O网页链接
论文《Navigating the massive world of reddit: Using backbone networks to map user interests in social media》O网页链接介绍了其实现思路,值得借鉴 《Navigating the massive world of reddit: using backbone networks to map user interests in social media》的最新版本:O网页链接 【可视化】《redditviz - reddit interest network》O网页链接Reddit的聚类网络化浏览,
【GoogLeNet类可视化】《Visualizing GoogLeNet Classes》O网页链接GitHub(DeepDraw):O网页链接
【Kaggle's Taxi Trajectory Prediction竞赛第一名访谈(深度学习的"非主流"应用)】《Taxi Trajectory Winners' Interview: 1st place, Team》O网页链接
【"A Generative Word Embedding Model and its Low Rank Positive Semidefinite Solution"】终于刷出我们的paper:A Generative Word Embedding Model and its Low Rank Positive Semidefinite Solution的录用通知,多亏一个reviewer在rebuttal之后把3改成了4…先把code放出来吧:O网页链接,有train好的vector,欢迎大家试用
【Digital Research Tools (DiRT)的文本挖掘工具列表】O网页链接
【视频:深度学习并行训练算法浅析】@InfoQ发布的《如何让机器学习得更快——深度学习并行训练算法浅析》by 鹿晓亮O网页链接
《爱可可老师今日视野(15.07.30)》( 分享自@)O网页链接
我们将在EMNLP 2015报告两个成果:一个探索了如何在知识表示中考虑关系路径信息,显著提高了关系抽取等任务的性能,草稿已放在O网页链接。另一个Online Learning of Interpretable Word Embeddings探索了可解释词表示的在线学习方法。稍后将呈上论文代码和数据。欢迎交流。第一个成果由一年级直博生林衍凯完成,他今年初已在AAAI 2015报告过TansR算法,并发布了TransE/TransH/TransR源码:O网页链接。第二个成果由我组大三本科生罗鸿胤完成。青年才俊啊。
【视频:Hinton在Cambridge介绍深度学习及其最新进展的报告】《(Cambridge)Deep Learning: Professor Geoffrey Hinton FRS, 25 June 2015》O网页链接 云:O网页链接
【开源:(Python)方便的"One Pass"统计/回归计算库RunStats】"RunStats: Computing Statistics and Regression in One Pass"O网页链接
【Chainer新增计算图生成功能build_computational_graph()】《Visualization of Computational Graph》(附图为inception in GoogLeNet示例)O网页链接
【视频:Hinton在Cambridge介绍深度学习及其最新进展的报告】《(Cambridge)Deep Learning: Professor Geoffrey Hinton FRS, 25 June 2015》O网页链接 讲座给我的感觉:ReLU+dropout+反向传播基本实现了神经系统中信号传播和学习方法的精髓,后面重点在网络体系结构,和更多的数据及计算能力。不知道Hinton是不是真有这么乐观。
【论文:基于段向量的文档表示】《Document Embedding with Paragraph Vectors》AM Dai, C Olah, QV Le, GS Corrado (2014)O网页链接笔记《Notes on Document Embedding with Paragraph Vectors》O网页链接参考向量表示总结:O爱可可-爱生活 arXiv:O网页链接参阅:OCopper_PKU
Text, Topics, and Turkers: A Consensus Measure for Statistical TopicsO网页链接
【幻灯:(PyData 2015)机器学习系统观】《PyData 2015 Keynote: "A Systems View of Machine Learning"》by Joshua BloomO网页链接云:O网页链接
【对Stanford命名实体标注工具NER Tagger的测试(和比较)】《Named Entity Recognition: Examining the Stanford NER Tagger》O网页链接
【数据爬取核心技术系列】《Science of Crawl series》Part1.Deduplication of Web ContentO网页链接Part2.Content FreshnessO网页链接
【Kaggle代码(Python):分类问题重要变量的筛选和可视化】《Visualizing important variables》by saihttam in Caterpillar Tube PricingO网页链接
【(多媒体处理/信息抽取/数据挖掘/机器学习/...)国家安全局(NSA)专利集】"NSA Patents - A Searchable, Interactive and Fully-Visualizable Database of Patents Filed by the National Security Agency"O网页链接
【布朗层次聚类调优】《Tuning Brown Clustering》O网页链接Paper:O网页链接
【Python/dlib/OpenCV玩儿"变脸"】《Switching Eds: Face swapping with Python, dlib, and OpenCV》O网页链接GitHub:O网页链接
【用Python实现带排序的搜索引擎】《Implementing a Search Engine with Ranking in Python》by Aakash JapiO网页链接GitHub:O网页链接
【Google翻译为移动终端带来深度学习能力】《How Google Translate squeezes deep learning onto a phone》O网页链接
【如何检验网络数据质量】《How to Test the Quality of Web Data》O网页链接
【DeepFace vs. DeepDream】《Defeating Facebook’s DeepFace with Deep Dreams》O网页链接GitHub:O网页链接
【幻灯:数据科学家之测试观】《Testing for data scientists》O网页链接
【开源:(Python)马尔可夫链蒙特卡罗(MCMC)绘图包】"Python package to plot MCMC samples"O网页链接
【决策树缺点与应对(优化)策略】《Decision Trees – Tree Development and Scoring》O网页链接
【R/H2O集成学习预测社交网络影响力】《Predict Social Network Influence with R and H2O Ensemble Learning》O网页链接
【"Dependency Graph-to-String Translation"EMNLP2015】:都柏林城市大学(DCU)博士生李良友Liangyou Li的论文Dependency Graph-to-String Translation被录用。该论文提出了一种基于Synchronous Edge Replacement Grammar的机器翻译模型,该方法将依存树转换成图形式,表达能力优于依存树到串模型,在中英和德英上的实验都显著超过目前最好模型。
【spaCy+Scikit-Learn的NLP实例介绍】《Intro to NLP with spaCy - An introduction to spaCy for natural language processing and machine learning with special help from Scikit-learn》O网页链接
【论文:面向知识库/文本推理的显层特征vs.潜层特征】《Observed versus latent features for knowledge base and text inference》K Toutanova, D Chen (2015)O网页链接pdf:O网页链接
【面向数据重建(补齐)的树模型】《Tree Models for Data Imputation》O网页链接
【基于arrows/Pandas/TextBlob/Seaborn/Cartopy的美国大选候选人Tweets的时/空/语言分析】《Geospatially, Temporally, and Linguistically Analyzing Tweets about Top U.S. Presidential Candidates with Pandas, TextBlob, Seaborn, and Cartopy》O网页链接GitHub:O网页链接
【视频:David Silver(DeeMind)的强化学习课程】《Reinforcement Learning course by DeeMind's David Silver》O网页链接云:O网页链接Slides&Info:O网页链接 Clip.mn标注的版本:O网页链接
【(R)rvest/dplyr/ggplot2/GGally数据采集+分析实例】《r got good at scraping》O网页链接
《爱可可老师今日视野(15.07.31)》( 分享自@)O网页链接
【Python调参优化库Optunity】GitHub:O网页链接Doc:O网页链接 SVM with RBF kernel调参实例:O网页链接
【开源:集成Stanford NER/DBpedia/OpenCalais/Zemanta/Freebase的自然语言解析/标注/实体抽取服务(API)Parserbot】"Web-based synthesis of nifty NLP and entity extraction services"O网页链接
【(Python)matplotlib/seaborn绘制NBA投篮情况统计分析图】《How to Create NBA Shot Charts in Python》O网页链接
【预测模型银弹——广义可加模型(GAM)】《GAM: The Predictive Modeling Silver Bullet》by Kim LarsenO网页链接
【(MetaMind) Dynamic Memory Network(DMN)介绍】《Ask it anything: new deep learning model understands and answers questions》O网页链接
【课程资料:(UC San Diego)数据挖掘与预测分析】《CSE 255: Data Mining and Predictive Analytics》by Julian McAuley 讲义/源码:O网页链接笔记:O网页链接课程设计集锦:O网页链接
【Stanford社交网络与信息网络分析课程资料+课设+数据】《CS224W: Social and Information Network Analysis - Autumn 2014》by Jure LeskovecO网页链接讲义+阅读材料(很多经典论文):O网页链接学期课程设计(2014):O网页链接数据集+代码:O网页链接 《Social and Information Network Analysis - Autumn 2013》的课设集锦:O网页链接
【John Wittenauer的IPython notebooks系列】内容包括数据科学常用库使用/Andrew Ng机器学习课程练习/edX上Spark课程练习等,很不错O网页链接
【最新一期TalkingMachines:面向体育/政治和实时预测的机器学习】《Machine Learning for Sports and Real Time Predictions》O网页链接
【数据科学8种Bias及应对策略】《How Do I Avoid Bias In My Data Science Work?》O网页链接
【李滔:搜狐基于Spark的新闻和广告推荐实战】@CSDN云计算O网页链接
【数据分析、机器学习与物联网】via@InfoQO网页链接原文《 Analytics, Machine Learning, and the Internet of Things》O网页链接
【CPPN-NEAT的JS实现(with karpathy's recurrent.js)】《Neurogram》by 大トロO网页链接参阅《Compositional Pattern Producing Networks: A Novel Abstraction of Development》O网页链接
【90行python搭一个音乐搜索工具 —— Song Finder】by@郑淇木-COYGO网页链接GitHub:O网页链接参阅O爱可可-爱生活
【开源:跨语言(Python/Java/Go)布隆过滤器实现inbloom】"Cross language bloom filter implementation" GitHub:O网页链接
【幻灯:数据流挖掘的问题与挑战】《Mining from Data Streams: Issues and Challenges》by Jo˜ao GamaO网页链接云:O网页链接
【面向数据科学的NumPy/SciPy/Pandas使用速查表】《NumPy/SciPy/Pandas Cheat Sheet》O网页链接云:O网页链接
【开源:跨语言(Python/Java/Go)布隆过滤器实现inbloom】"Cross language bloom filter implementation" GitHub:O网页链接 说道bloomfilter在实用起来我个人推荐O网页链接又快又好用,顺道推荐一下
【Python/Pandas/Bokeh数据分析/可视化实例】《Data Analysis with Python, Pandas, and Bokeh》by Chris MetcalfO网页链接GitHub:O网页链接
【论文:空间变化网络(ST-CNN)】《Spatial Transformer Networks》M Jaderberg, K Simonyan, A Zisserman, K Kavukcuoglu [Google Deepmind] (2015)O网页链接 《Spatial Transformer Networks》Code:O网页链接GitXiv:O网页链接
【Spark快速入门】《The Essential Spark Cheat Sheet》O网页链接云:O网页链接
【八个工具看Python数据生态圈的最新趋势】《Eight Tools That Show What’s on the Horizon for the Python Data Ecosystem》by Bo Moore Including:SFrame&SGraph/Bokeh/Dask/Ibis/Splash/Petuum/Flink/PyxleyO网页链接
【开源:基于variational autoencoders (VAEs)的"渐变脸"】"Morphing Faces"O网页链接Demo:O网页链接GitHub:O网页链接
【幻灯:图的量子游走】《Quantum walks on graphs》by Andrew ChildsO网页链接
"On Explainability of Deep Neural Networks"On Explainability of Deep Neural Networks,深度神经网络的可解释性O网页链接
【Kaggle代码:上班时间vs.收入水平】《Wake me up, before you go go...》O网页链接
【IPN:反向传播梯度下降及其(Python)实现】《Gradient Descent with Backpropagation》O网页链接
【视频:(RLDM 2015)David Silver的深度强化学习教程】《Tutorial on "Deep Reinforcement Learning"》 by David Silver at RLDM 2015O网页链接
【视频:(RLDM 2015)计算强化学习入门】《Basics of Computational Reinforcement Learning》 by Michael Littman at RLDM 2015O网页链接
【开源:(Python)NLP快速流程(原型)库broca】"a Python library for rapidly experimenting with new natural language processing (NLP) approaches"O网页链接GitHub:O网页链接
《爱可可老师今日视野(15.08.01)》( 分享自@)O网页链接
【视频+讲义:MLSS Sydney 2015】《Machine Learning Summer School Sydney 2015》O网页链接(云端版稍后奉上) "MLSS Sydney 2015"视频 云:O网页链接
【文本分析七个实用领域】《The Seven Practice Areas of Text Analytics》O网页链接摘录自《Practical Text Mining and Statistical Analysis for Non-Structured Text Data Applications》by G. Miner, D. Delen, J. Elder, A. Fast, T. Hill, and R. Nisbet, Elsevier, 2012
【开源:基于Theano的CNN实现(dropouts/adagrad/momentum/max-margin layer/...)】O网页链接
【多层感知器反向传播训练过程交互可视化(XOR Example)】O网页链接
【CPPN-NEAT的JS实现(with karpathy's recurrent.js)】《Neurogram》by 大トロO网页链接参阅《Compositional Pattern Producing Networks: A Novel Abstraction of Development》O网页链接 More Sample Neurograms:O网页链接
【专访IBM苏中:认知计算关键技术解读】via:@CSDN云计算O网页链接
【工业互联网需要更多的方法:Essence使得这些方法更强大】工业互联网将对所有工业和商业产生巨大影响,现有软件将进行修改和重新设计,并需要重新开发大量新软件。一个直接结果就是软件行业需要更新更好的开发方法。本文将通过案例来说明未来需要多种而不是单一的开发方法。O网页链接
【A Visual Introduction to Machine Learning】O网页链接在机器学习中,计算机应用统计学习技术自动识别数据模式。这些技术可以用来作出非常准确的预测。本文将机器学习的要素用可视化方式进行展示。转需!A Visual Introduction to Machine LearningO网页链接
The Brain vs Deep Learning Part I: Computational Complexity — Or Why the Singularity Is Nowhere Near | Deep LearningO网页链接
【论文:面向非凸优化的递归分解(IJCAI15杰出论文)】《Recursive Decomposition for Nonconvex Optimization》 A Friesen, P Domingos (IJCAI2015)O网页链接IJCAI2015最佳论文给了 A Friesen和 P Domingos 的《Recursive Decomposition for Nonconvex Optimization》,论文观察到the local modes of the objective function有combinatorial结构, 提出用combinatorial 优化方式来解决局部最优问题。Domingos就是牛啊,多个工作都非常有开创性
【Kaggle's CrowdFlower搜索结果相关性竞赛第一名访谈】《CrowdFlower Winner's Interview: 1st place, Chenglong Chen》O网页链接 转一发吧。为了ensemble,前期花了很多时间在代码重构方面,慢慢分离出来preprocessing,feature extraction,model building,model evaluation这个pipeline,这个是挺有帮助的。
零代码玩儿数据!COS沙龙第29期,李栋博士两个小时的分享! 查看纪要以及幻灯片,请移步:O网页链接
Detecting diabetic retinopathy in eye images,神一般的20多层的深度神经网络O网页链接
CMU课程:Statistical Machine Learning 10-702/36-702O网页链接
The Next Wave Of Enterprise Software Powered By Machine LearningO网页链接
【一个著名但容易遗忘的诀窍: 对象池化】O网页链接对象池是一种设计模式,和一组预先初始化的实体打交道,而不是根据需要处置或者重建这些实体。每当对象池的客户使用完对象,把这个对象还给对象池以便循环使用。比如线程池、连接池都有广泛应用。好文章,推荐
Open Access 和 Open Source 的亲密接触,我们可能熟悉arXiv,更熟悉GitHub,现在有一个这样的模式:当在arXiv 发表一篇计算机类的论文后,几天后在GitHub上就出现了开源实现,这样就促生了 GitXiv: arXiv和GitHub链接体,arXiv + Github + Links + Discussion 模式, 不用看了,没生物信息类
Gaussian process,in PythonO网页链接
Research Blog: How Google Translate squeezes deep learning onto a phone# Google翻译##深度学习#O网页链接
Frameworks and Libraries for Deep Learning - Creative PunchO网页链接
Cross Validation done wrong | Alfredo MottaO网页链接
【Development Workflow using Docker and Docker Compose】O网页链接介绍在Linux和Mac OSX平台上利用Docker和Docker Compose搭建Hackathon开发环境的过程。转需!
O网页链接hpages一小步,#ChIPseeker#一大步,现在做一个超过800M的bed file注释,竟然5分钟不到就完成了,高手太给力。
【Karatsuba乘法算法详解】O网页链接Karatsuba乘法是一种快速乘法。此算法在1960年由Anatolii Alexeevitch Karatsuba 提出,并于1962年得以发表。此算法主要用于两个大数相乘。普通乘法的复杂度是n2,而Karatsuba算法的复杂度仅为3nlog3≈3n1.585(log3是以2为底的)。转需!
【John Horton Conway: 世界上最有魅力的数学家】O网页链接约翰·何顿·康威(John Horton Conway,1937年12月26日-),生于英国利物浦,数学家,活跃于有限群的研究、趣味数学、纽结理论、数论、组合博弈论和编码学等范畴。都来看看他传奇的故事吧!
【A Gentle Introduction to Lockless Concurrency】O网页链接本文描述了Java里的无锁的问题,一个相当有用并容易忽视的主题。实现无锁算法和数据结构需要一些基本原理的直觉,好吧,让我们从简单的开始吧!
科学网—泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器@西瓜大丸子汤@算文解字@好东西传送门@白硕SH@王伟DL@zhazhabaO网页链接 我在讨论中对parsing并未有负面看法,只是对设置parsing单独环节的准确率指标是否有意义提出质疑。
O网页链接Reasoning about Linguistic Regularities in Word Embeddings using Matrix Manifolds@刘知远THU之前刘老师在鹅厂讲座时有提到embedding和mainfold这类思路,相比而言,当然我的idea简直弱爆了。。 纠正一下 应该是词的语义结构 类似于KB和ontology那类//@Copper_PKU: 恩 像这类Linguistic Regularities, log-bilinear model应该足够了 但我感觉像embedding这类方法应该还要加Linguistic rules做正则,不然扁平model只是reveal了扁平的词法结构//@刘知远THU: 简单的反而可能更好。
Word Embedding大家都会训练,但是在很多句子级别的任务中,如何更有效地使用词级别的嵌入?我会在9月里斯本的#EMNLP2015#上介绍一种很简单有效的词嵌入Data Augmentation方法来自动增加有监督学习的训练数据。另外,我们还通过推特进行了计算行为学的研究,分析了最让别人讨厌的行为。论文稍后送上。
ECML-PKDD2015 Accepted Papers List,ECML PKDD会议接收论文列表O网页链接
我们将在EMNLP 2015报告两个成果:一个探索了如何在知识表示中考虑关系路径信息,显著提高了关系抽取等任务的性能,草稿已放在O网页链接。另一个Online Learning of Interpretable Word Embeddings探索了可解释词表示的在线学习方法。稍后将呈上论文代码和数据。欢迎交流。第一个成果由一年级直博生林衍凯完成,他今年初已在AAAI 2015报告过TansR算法,并发布了TransE/TransH/TransR源码:O网页链接。第二个成果由我组大三本科生罗鸿胤完成。青年才俊啊。
Document Embedding with Paragraph Vectors, Quoc 又把P2V拉出来遛弯了。O网页链接
[1507.06947] Fast and Accurate Recurrent Neural Network Acoustic Models for Speech RecognitionO网页链接谷歌在语音搜索方面的工作,有跳过音素直接把语音识别成单词的初步结果。虽然错词率仍不低,但例子中那几个相近词猜得还是挺像回事的。
[1507.07636] Reasoning about Linguistic Regularities in Word Embeddings using Matrix ManifoldsO网页链接用格拉斯曼流形上的测地线来研究词向量之间的关系,好高大上的学科交叉啊!
【大脑 vs. 深度学习 Part I:计算复杂度】《The Brain vs Deep Learning Part I: Computational Complexity — Or Why the Singularity Is Nowhere Near》O网页链接 此文在 redditO网页链接上引起了热烈的讨论。上月一篇长文O网页链接的作者 jcannell 持相反观点,但尚未和本文作者 timdettmers 直接辩论
【视频:Hinton在Cambridge介绍深度学习及其最新进展的报告】《(Cambridge)Deep Learning: Professor Geoffrey Hinton FRS, 25 June 2015》O网页链接 讲座给我的感觉:ReLU+dropout+反向传播基本实现了神经系统中信号传播和学习方法的精髓,后面重点在网络体系结构,和更多的数据及计算能力。不知道Hinton是不是真有这么乐观。
Toward a reproducible machine learning community:O网页链接非常好, 大家把自己最新的research paper放到 arXiv上, 然后把code放到 github上, 所以就有了这个社区 gitxiv, 致力于可重复的实验。上面有著名的 skip-thought, deepDream, neural machine translation, char-rnn的实现...
[1507.06149] Data-free parameter pruning for Deep Neural NetworksO网页链接通过合并权重相近的神经元,大大降低网络模型的规模。比如用在 MNIST 训练出的 LeNet 上,约85%的参数可以去掉。
【在线最优化求解(Online Optimization)"系列+FTRL详解】【LR的稀疏性问题】,发现几个比较好的链接,非常清晰明了,O网页链接,O网页链接,O网页链接,O网页链接,O网页链接,O网页链接 基本上都是在 Mirror Descent 的框架下做
【Python之父Guido谈Python】O网页链接Guido在EuroPython 2015O网页链接高度评价了Django Girls运动。被问到喜欢的文本编辑器:主要用emacs,偶尔也用vi。除了Python外最喜欢的编程语言:C。
【pgcli:可自动补齐输入和语法高亮的MySQL的开源命令行接口】O网页链接Mycli 支持 MySQL, MariaDB 和 Percona。源代码GitHub托管地址:O网页链接附图是效果演示动画。@Linux中国@伯乐头条@linux命令行精选网
#rust#各种编程语言终究逃脱不了 bioinformatics 的魔掌,Rust 也下手了 , rust-bio 提供了很多生物信息数据结构和算法实现,比如Suffix arrays 、BWT变换 、 FM/FMD-Index、Smith Waterman 算法、各种匹配算法, IO 这块包括了 FASTA/FASTQ/BED 的接口,Rust 雄起!O网页链接 当然社区比较好的, 比如 Python/R 解决问题第一位,性能第二位,兴趣第三位。
On Explainability of Deep Neural Networks,深度神经网络的可解释性O网页链接
最近用大数据的方法,我跟朋友合伙在上海开了家精致火锅店。看食品工程+大数据+生命科学如何颠覆传统餐饮业。大数据选题、选址、运营。店内定期有大数据沙龙和行业人士会晤。颇辣渝味火锅,虹井路乐虹坊精致生活广场2楼。闵行区美食大类综合评价排名第二。欢迎光临。
最强大的模型往往最简单,每每看到把机器学习吹得巨高深巨复杂的人,我就塞一句其实Google广告系统的主模型就是一个log regression, 你咬我啊。
Logistic Regression实现简单、训练快、较容易并行化、可以online learning、轻松加任何特征,实乃居家旅游必备的......
悉尼机器学习暑期学校MLSS 2015的PPT和视频,O网页链接
近期一篇新的技术Paper《Occlusion Coherence Detecting and Localizing Occluded Faces》,在FDDB测试结果表明可以提高当前人脸检测的性能。该文提出一种级联可变形部件模型(HPM)来进行人脸探测和关键点定位,该模型显式的对部分遮挡进行了建模。Paper、Code、数据集下载参见:O网页链接
Percentage of Natives across the US,Census Data Exploration,大Neveda亮瞎了#Kaggle#O网页链接
《规模要素:数据平台的组成和扩展》 演讲很棒,PPT更赞,连我这个作客户端的都一个字一个字的读完了O网页链接
【Docker Misconceptions】O网页链接Docker大张旗鼓地袭击了传统的系统领域,尽管它取得令人激动不已的进步,但是目前围绕它存在许多误解。点击前面链接了解详情。
【在国际学术会议上如何社交?】羽田中山:1. 大牛们 各场大会报告(Plenary / Keynote)的大牛们一定要在coffee break期间捕捉住,用自己导师的title去打招呼,寒暄几句即可,他们没空鸟你。 2. 小牛们 这个…O网页链接(分享自@知乎)
【Cinatra:高性能现代C++ Web框架】Cinatra是由C++开源社区purecpp发起的一个开源项目,是一个现代C++写的Web框架,旨在给用户提供一个易用、灵活和高性能的Web框架,让用户能完全专注于核心逻辑而无需关注http细节。O网页链接
大家有没有好的基于室内rgbd的平面检测(plane detection)工作介绍?
paper is here:O网页链接 很赞的paper,只用了单张rgb, model architecture挺有意思。目前我想做的是从单张的depth去做室内平面检测,特别是地面
【如何让机器学习得更快——深度学习并行训练算法浅析】近几年,语音识别、图像识别等感知智能的核心效果得到了长足的进展,然而其背后的超大规模深度学习平台还不为众人所知,本演讲为大家揭开基于深度神经网络人工智能的深度学习平台的神秘面纱。O网页链接
福利:GATK 2013年 研讨会幻灯片,O网页链接Dropbox 地址:O网页链接内容讲的很多,可以系统的学习下GATK 百度盘了 跟大家共享O网页链接
ACL2015的最佳论文奖得主好像不懂Pearson Correlation有什么问题... 也不知道Spearman是nonparametric的。我建议大家了解一下Pearson和Spearman的区别和异同:O网页链接 没有啊,我在大会上当着1000人的面问了她Spearman correlation啊。回头你们可以看视频。纯属个人的看法,我没有觉得这篇最佳论文特别的出色。对regression问题的评价大家都知道用MAE和Pearson吧。
【How to Create NBA Shot Charts in Python】O网页链接本文介绍了如何抽取NBA球员的投篮数据然后用matplotlib和seaborn绘制统计图。转需!
【通过Mesos、Docker和Go,使用300行代码创建一个分布式系统】虽然Docker和Mesos已成为不折不扣的Buzzwords,但是对于大部分人来说它们仍然是陌生的,下面我们就一起领略Mesos、Docker和Go配合带来的强大破坏力,如何通过300行代码打造一个比特币开采系统。O网页链接
Toward a reproducible machine learning community:O网页链接非常好, 大家把自己最新的research paper放到 arXiv上, 然后把code放到 github上, 所以就有了这个社区 gitxiv, 致力于可重复的实验。上面有著名的 skip-thought, deepDream, neural machine translation, char-rnn的实现...
【Game Analytics 开源自己的Erlang集群调度器】O网页链接该库实现了一个通用的调度程序,用于处理集群中的任务。任务的生成和处理是专门为特定的应用程序。客户端通过一个回调来执行,并返回一个消息,指示任务的状态。
《一起写一个Web服务器(3)》在本系列第二部分,你已经创造了一个可以处理基本的 HTTP GET 请求的 WSGI 服务器。我还问了你一个问题,“怎么让服务器在同一时间处理多个请求?”在本文中你将找到答案。O网页链接(高世界 译,欢迎加入翻译组:O网页链接)
【Switching Eds: 应用Python,dlib和OpenCV切换面孔】O网页链接本文描述了如何编写一个200行代码的Python脚本自动将第二个脸孔图像的面部特性替换掉第一个面孔图像的面部特性。源代码GitHub地址:O网页链接有意思!
EMNLP2015:都柏林城市大学(DCU)博士生李良友Liangyou Li的论文Dependency Graph-to-String Translation被录用。该论文提出了一种基于Synchronous Edge Replacement Grammar的机器翻译模型,该方法将依存树转换成图形式,表达能力优于依存树到串模型,在中英和德英上的实验都显著超过目前最好模型。
开源大户Facebook又公布了一个开源项目——超高速数据传输工具WDT。可被视为一个嵌入式的库或命令行工具,试图利用多个TCP路径提高两个系统间传送文件的效率。据透露,在Facebook内部传输系统之间的RocksDB快照时,WDT通过长距离和高延迟的传输链路提供了高达600MB/s的传输速率。O网页链接
刚读到一篇关于metagenome的 Data Note 文章, GigaScience 做了一个很好的尝试,基因组/元基因组的项目使用工具比较多,可重复性真的是个问题, 那好,把所有的东西都扔到Docker里完成运行整个流程,把Dockerfile 提交到 Docker Hub Registry,把脚本扔到Github,随便重复,O网页链接 这样意味着科研服务这块尽可能使用开源/免费的应用可以增强可重复性,该Docker流程里出现了一个这样的问题: KEGG 数据库商业版本不能放进去,总感觉有瑕疵!
【论文:基于段向量的文档表示】《Document Embedding with Paragraph Vectors》AM Dai, C Olah, QV Le, GS Corrado (2014)O网页链接笔记《Notes on Document Embedding with Paragraph Vectors》O网页链接参考向量表示总结:O爱可可-爱生活 在6月版里arXiv实验的最好结果是50维LDA,正确率85.8%。发上arXiv这版LDA就从100维开始做,正确率85%,然后结论是和段向量持平。话说这样好吗?//@爱可可-爱生活: arXiv:O网页链接参阅:OCopper_PKU
【Visualizing GoogLeNet Classes 】O网页链接想没有想过深度神经网络应该是样子?醉经发表一个帖子,描述如何使用深度神经网络来产生类的可视化和利用inceptionism方法来修改图像。通过此方法也发表他们修改图像,但是,他们没有发表本帖显示的类可视化的代码。转需!
AI还远没实现,但保护组织已经有了,请善待强化学习算法!petrl.orgO网页链接