机器学习数据挖掘-软件、网站、课程资源知识点汇总

机器学习知识点学习

http://blog.csdn.net/zouxy09

在学习机器学习的有关知识时,搜索到JerryLead的cnblog中的MachineLearning专栏,里面对于机器学习的部分算法和知识点讲解地很经典和透彻。所以Mark在这,多多学习!偏最小二乘法回归(增强学习(线性判别分析(ICA主成分分析(在线学习(EM算法)TheEMAlgorithm

MixturesofGaussians)和EM算法

聚类算法

Regularizationandmodelselection)

SMO算法

SVM(二)

SVM(一)

logistic回归和一般回归的认识


什么是数据科学

  • 数据科学家和传统统计学家的不同?


在线课程


DataBootcamp,Strata2011

  • LookingatData


书籍


Lies,damnedliesandstatistics(aboutTEDTalks)
TheJoyofStats

  • ====================================================================================



    1.Lemur/Indri
    http://www.lemurproject.org/
    Lemur'slatestsearchengine
    ApacheLuceneisahigh-performance,full-featuredtextsearchenginelibrarywrittenentirelyinJava.
    http://lucene.apache.org/

    GNUWgetisafreesoftwarepackageforretrievingfilesusingHTTP,HTTPSandFTP,themostwidely-usedInternetprotocols.Itisanon-interactivecommandlinetool,soitmayeasilybecalledfromscripts,cronjobs,terminalswithoutX-Windowssupport,etc.

    1.EGYPT:AStatisticalMachineTranslationToolkit
    包括GIZA等四个工具
    http://www.fjoch.com/GIZA++.html
    FranzJosefOch先后在德国Aachen大学,ISI(南加州大学信息科学研究所)和Google工作。GIZA++现已有Windows移植版本,对IBM的model1-5有很好支持。
    http://www.isi.edu/licensed-sw/pharaoh/

    4.OpenNLP
    :
    包括Maxent等20多个工具
    btw:这些SMT的工具还都喜欢用埃及相关的名字命名,像什么GIZA、PHARAOH、Cairo等等。Och在ISI时开发了GIZA++,PHARAOH也是由来自ISI的PhilippKoehn开发的,关系还真是复杂啊
    MINIPARisabroad-coverageparserfortheEnglishlanguage.AnevaluationwiththeSUSANNEcorpusshowsthatMINIPARachievesabout88%precisionand80%recallwithrespecttodependencyrelationships.MINIPARisveryefficient,onaPentiumII300with128MBmemory,itparsesabout300wordspersecond.
    http://www.cs.ualberta.ca/~lindek/minipar.htm
    http://wordnet.princeton.edu/
    WordNetwasdevelopedbytheCognitiveScienceLaboratoryatPrincetonUniversityunderthedirectionofProfessorGeorgeA.Miller(PrincipalInvestigator).
    WordNet的在线版本是
    8.StatisticalLanguageModelingToolkit
    www.eng.cam.ac.uk/~prc14/toolkit.html


    9.SRILanguageModelingToolkit
    SRILMisatoolkitforbuildingandapplyingstatisticallanguagemodels(LMs),primarilyforuseinspeechrecognition,statisticaltaggingandsegmentation.IthasbeenunderdevelopmentintheSRISpeechTechnologyandResearchLaboratorysince1995.
    10.ReWriteDecoder
    TheISIReWriteDecoderRelease1.0.0abyDanielMarcuandUlrichGermann.Itisaprogramthattranslatesfromonenaturallangugeintoanotherusingstatisticalmachinetranslation.
    http://gate.ac.uk/

    1.YASMET:YetAnotherSmallMaxEntToolkit(StatisticalMachineLearning)
    由FranzJosefOch编写。此外,OpenNLP项目里有一个java的MaxEnt工具,使用GIS估计参数,由东北大学的张乐(目前在英国留学)port为C++版本
    2.LibSVM
    http://www.csie.ntu.edu.tw/~cjlin/libsvm/

    3.SVMLight

    http://svmlight.joachims.org/
    4.CLUTO
    asoftwarepackageforclusteringlow-andhigh-dimensionaldatasets

    5.CRF++

    YetAnotherCRFtoolkitforsegmenting/labellingsequentialdata

    http://www.cs.cornell.edu/People/tj/svm_light/svm_struct.html
    SVMstructisaSupportVectorMachine(SVM)algorithmforpredictingmultivariateoutputs.Itperformssupervisedlearningbyapproximatingamapping
    usinglabeledtrainingexamples(x1,y1),...,(xn,yn).
    SVMstructcanbethoughtofasanAPIforimplementingdifferentkindsofcomplexpredictionalgorithms.Currently,wehaveimplementedthefollowinglearningtasks:
    SVMcfg:Learnsaweightedcontextfreegrammarfromexamples.Trainingexamples(e.g.fornaturallanguageparsing)specifythesentencealongwiththecorrectparsetree.Thegoalistopredicttheparsetreeofnewsentences.
    SVMhmm:LearnsaMarkovmodelfromexamples.Trainingexamples(e.g.forpart-of-speechtagging)specifythesequenceofwordsalongwiththecorrectassignmentoftags(i.e.states).Thegoalistopredictthetagsequencesfornewsentences.
    http://notepad-plus.sourceforge.net
    winmerge.sourceforge.net/
    open-perl-ide.sourceforge.net/

    http://www.sleepycat.com/
    BerkeleyDB(libdb)isaprogrammatictoolkitthatprovidesembeddeddatabasesupportforbothtraditionalandclient/serverapplications.Itincludesb+tree,queue,extendedlinearhashing,fixed,andvariable-lengthrecordaccessmethods,transactions,locking,logging,sharedmemorycaching,databaserecovery,andreplicationforhighlyavailablesystems.DBsupportsC,C++,Java,PHP,andPerlAPIs.
    casestudy:
    MicrosoftusesBerkeleyDBfortheGroovecollaborationsoftware
    HitachiusesBerkeleyDBinitsdirectoryservicesserverproduct.
    HewlettPackardusesBerkeleyDBinserveralproducts,includingstorage,securityandwirelesssoftware.
    MotorolausesBerkeleyDBtotrackmobileunitsinitswirelessradionetworkproducts.
    11.R
    Risalanguageandenvironmentforstatisticalcomputingandgraphics.ItisaGNUprojectwhichissimilartotheSlanguageandenvironmentwhichwasdevelopedatBellLaboratories(formerlyAT&T,nowLucentTechnologies)byJohnChambersandcolleagues.RcanbeconsideredasadifferentimplementationofS.Therearesomeimportantdifferences,butmuchcodewrittenforSrunsunalteredunderR.
    OneofR'sstrengthsistheeasewithwhichwell-designedpublication-qualityplotscanbeproduced,includingmathematicalsymbolsandformulaewhereneeded.Greatcarehasbeentakenoverthedefaultsfortheminordesignchoicesingraphics,buttheuserretainsfullcontrol.
    R统计软件与MatLab类似,都是用在科学计算领域的。
    http://kapoc.blogdriver.com/kapoc/1268927.html
    以下转载自:http://www.cvchina.info/2011/05/01/website-machinelearning/#comment-1868,最初来源据说是这里搜集了一些常见的和GaussianProcesses
    • CarlEdwardRasmussen的NonparametricBayesianMethods

      • ProbabilisticGraphicalModel

        • KevinMurphy所维护的关于Bayesianbeliefnetworks的介绍,含有最基本的概念、相关的文献和软件的链接。罕见的UCB出来的不是Jordan的学生(老板是StuartRussel)。

        • http://www.inference.phy.cam.ac.uk/hmw26/crf/是关于ConditionalRandomFields方面论文和软件的收集,由HannaWallach维护。

        http://csmr.ca.sandia.gov/~tgkolda/pubs/index.html关于tensor的一些偏数学的文章。

      http://www.cs.berkeley.edu/~jordan/kernels.html是Jordan维护的关于kernelmethods的文章列表。

    本文转载自:

    第一个是“

    而今天看到的这篇文章是我在wikipedia浏览至今觉得最好的。文章名为《人工智能的历史》,顺着AI发展时间线娓娓道来,中间穿插无数牛人故事,且一波三折大气磅礴,可谓"事实比想象更令人惊讶"。人工智能始于哲学思辨,中间经历了一个没有心理学(尤其是认知神经科学的)的帮助的阶段,仅通过牛人对人类思维的外在表现的归纳、内省,以及数学工具进行探索,其间最令人激动的是HerbertSimon(决策理论之父,诺奖,跨领域牛人)写的一个自动证明机,证明了罗素的数学原理中的二十几个定理,其中有一个定理比原书中的还要优雅,Simon的程序用的是启发式搜索,因为公理系统中的证明可以简化为从条件到结论的树状搜索(但由于组合爆炸,所以必须使用启发式剪枝)。后来Simon又写了GPS(GeneralProblemSolver),据说能解决一些能良好形式化的问题,如汉诺塔。但说到底Simon的研究毕竟只触及了人类思维的一个很小很小的方面――FormalLogic,甚至更狭义一点DeductiveReasoning(即不包含InductiveReasoning,TransductiveReasoning(俗称analogicthinking)。还有诸多比如CommonSense、Vision、尤其是最为复杂的Language、Consciousness都还谜团未解。还有一个比较有趣的就是有人认为AI问题必须要以一个物理的Body为支撑,一个能够感受这个世界的物理规则的身体本身就是一个强大的信息来源,基于这个信息来源,人类能够自身与时俱进地总结所谓的Common-SenseKnowledge(这个就是所谓的EmboddiedMind理论。),否则像一些老兄直接手动构建Common-SenseKnowledgeBase,就很傻很天真了,须知人根据感知系统从自然界获取知识是一个动态的自动更新的系统,而手动构建常识库则无异于古老的ExpertSystem的做法。当然,以上只总结了很小一部分我个人觉得比较有趣或新颖的,每个人看到的有趣的地方不一样,比如里面相当详细地介绍了神经网络理论的兴衰。所以我强烈建议你看自己一遍,别忘了里面链接到其他地方的链接。

    人工智能

    ”(ArtificialIntelligence)。当然,还有

    1.《ProgrammingCollectiveIntelligence》,近年出的入门好书,培养兴趣是最重要的一环,一上来看大部头很容易被吓走的:P

    4.《FoundationsofStatisticalNaturalLanguageProcessing》,自然语言处理领域公认经典。

    7.《InformationTheory:InferenceandLearningAlgorithms》,参考书吧,比较深。

    2.矩阵数学:《矩阵分析》,RogerHorn。矩阵分析领域无争议的经典。

    老书,牛人。现在看来内容并不算深,很多章节有点到为止的感觉,但是很适合新手(当然,不能"新"到连算法和概率都不知道)入门。比如决策树部分就很精彩,并且这几年没有特别大的进展,所以并不过时。另外,这本书算是对97年前数十年机器学习工作的大综述,参考文献列表极有价值。国内有翻译和影印版,不知道绝版否。

    大约也是01年左右的大块头,有影印版,彩色。没读完,但如果想深入学习ML和IR,前三章(介绍,贝叶斯学习,线性分类器)必修。

    说一本名气很大的书:《DataMining:PracticalMachineLearningToolsandTechniques》。Weka的作者写的。可惜内容一般。理论部分太单薄,而实践部分也很脱离实际。DM的入门书已经不少,这一本应该可以不看了。如果要学习了解Weka,看文档就好。第二版已经出了,没读过,不清楚。

    信息检索方面的书现在建议看Stanford的那本《IntroductiontoInformationRetrieval》,这书刚刚正式出版,内容当然uptodate。另外信息检索第一大牛Croft老爷也正在写教科书,应该很快就要面世了。据说是非常pratical的一本书。

    对信息检索有兴趣的同学,强烈推荐翟成祥博士在北大的暑期学校课程,这里有全slides和阅读材料:maximzhao同学推荐了一本机器学习:

    另一本是《BoundedRationality:TheAdaptiveToolbox》

    1.谁是BoundedRationality

    3.这本书讲啥的:

    我一直觉得人类的决策与判断是一个非常迷人的问题。这本书简单地说可以看作是《决策与判断》的更全面更理论的版本。系统且理论化地介绍人类决策与判断过程中的各种启发式方法(heuristics)及其利弊(为什么他们是最优化方法在信息不足情况下的快捷且鲁棒的逼近,以及为什么在一些情况下会带来糟糕的后果等,比如学过机器学习的都知道朴素贝叶斯方法在许多情况下往往并不比贝叶斯网络效果差,而且还速度快;比如多项式插值的维数越高越容易overfit,而基于低阶多项式的分段样条插值却被证明是一个非常鲁棒的方案)。

    在此提一个书中提到的例子,非常有意思:两个团队被派去设计一个能够在场上接住抛过来的棒球的机器人。第一组做了详细的数学分析,建立了一个相当复杂的抛物线近似模型(因为还要考虑空气阻力之类的原因,所以并非严格抛物线),用于计算球的落点,以便正确地接到球。显然这个方案耗资巨大,而且实际运算也需要时间,大家都知道生物的神经网络中生物电流传输只有百米每秒之内,所以computationalcomplexity对于生物来说是个宝贵资源,所以这个方案虽然可行,但不够好。第二组则采访了真正的运动员,听取他们总结自己到底是如何接球的感受,然后他们做了这样一个机器人:这个机器人在球抛出的一开始一半路程啥也不做,等到比较近了才开始跑动,并在跑动中一直保持眼睛于球之间的视角不变,后者就保证了机器人的跑动路线一定会和球的轨迹有交点;整个过程中这个机器人只做非常粗糙的轨迹估算。体会一下你接球的时候是不是眼睛一直都盯着球,然后根据视线角度来调整跑动方向?实际上人类就是这么干的,这就是heuristics的力量。

    相对于偏向于心理学以及科普的《决策与判断》来说,这本书的理论性更强,引用文献也很多而经典,而且与人工智能和机器学习都有交叉,里面也有不少数学内容,全书由十几个章节构成,每个章节都是由不同的作者写的,类似于paper一样的,很严谨,也没啥废话,跟《PsychologyofProblemSolving》类似。比较适合geeks阅读哈。

    另外,对理论的技术细节看不下去的也建议看看《决策与判断》这类书(以及像《别做正常的傻瓜》这样的傻瓜科普读本),对自己在生活中做决策有莫大的好处。人类决策与判断中使用了很多的heuristics,很不幸的是,其中许多都是在适应几十万年前的社会环境中建立起来的,并不适合于现代社会,所以了解这些思维中的缺点、盲点,对自己成为一个良好的决策者有很大的好处,而且这本身也是一个非常有趣的领域。

    <Pstyle=""font-family:'lucida">(完)


你可能感兴趣的:(数据挖掘,网站,资源,软件,知识点,课程)