chinaliping

机器学习与数据挖掘

周志华

南京大学计算机软件新技术国家重点实验室，南京 210093

“机器学习”是人工智能的核心研究领域之一，其最初的研究动机是为了让计算机系统具有人的学习能力以便实现人工智能，因为众所周知，没有学习能力的系统很难被认为是具有智能的。目前被广泛采用的机器学习的定义是“利用经验来改善计算机系统自身的性能”[1]。事实上，由于“经验”在计算机系统中主要是以数据的形式存在的，因此机器学习需要设法对数据进行分析，这就使得它逐渐成为智能数据分析技术的创新源之一，并且为此而受到越来越多的关注。

“数据挖掘”和“知识发现”通常被相提并论，并在许多场合被认为是可以相互替代的术语。对数据挖掘有多种文字不同但含义接近的定义，例如“识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程”[2]。其实顾名思义，数据挖掘就是试图从海量数据中找出有用的知识。大体上看，数据挖掘可以视为机器学习和数据库的交叉，它主要利用机器学习界提供的技术来分析海量数据，利用数据库界提供的技术来管理海量数据。

因为机器学习和数据挖掘有密切的联系，受主编之邀，本文把它们放在一起做一个粗浅的介绍。

1 无处不在

随着计算机技术的飞速发展，人类收集数据、存储数据的能力得到了极大的提高，无论是科学研究还是社会生活的各个领域中都积累了大量的数据，对这些数据进行分析以发掘数据中蕴含的有用信息，成为几乎所有领域的共同需求。正是在这样的大趋势下，机器学习和数据挖掘技术的作用日渐重要，受到了广泛的关注。

例如，网络安全是计算机界的一个热门研究领域，特别是在入侵检测方面，不仅有很多理论成果，还出现了不少实用系统。那么，人们如何进行入侵检测呢？首先，人们可以通过检查服务器日志等手段来收集大量的网络访问数据，这些数据中不仅包含正常访问模式还包含入侵模式。然后，人们就可以利用这些数据建立一个可以很好地把正常访问模式和入侵模式分开的模型。这样，在今后接收到一个新的访问模式时，就可以利用这个模型来判断这个模式是正常模式还是入侵模式，甚至判断出具体是何种类型的入侵。显然，这里的关键问题是如何利用以往的网络访问数据来建立可以对今后的访问模式进行分类的模型，而这正是机器学习和数据挖掘技术的强项。

实际上，机器学习和数据挖掘技术已经开始在多媒体、计算机图形学、计算机网络乃至操作系统、软件工程等计算机科学的众多领域中发挥作用，特别是在计算机视觉和自然语言处理领域，机器学习和数据挖掘已经成为最流行、最热门的技术，以至于在这些领域的顶级会议上相当多的论文都与机器学习和数据挖掘技术有关。总的来看，引入机器学习和数据挖掘技术在计算机科学的众多分支领域中都是一个重要趋势。

机器学习和数据挖掘技术还是很多交叉学科的重要支撑技术。例如，生物信息学是一个新兴的交叉学科，它试图利用信息科学技术来研究从 DNA 到基因、基因表达、蛋白质、基因电路、细胞、生理表现等一系列环节上的现象和规律。随着人类基因组计划的实施，以及基因药物的美好前景，生物信息学得到了蓬勃发展。实际上，从信息科学技术的角度来看，生物信息学的研究是一个从“数据”到“发现”的过程，这中间包括数据获取、数据管理、数据分析、仿真实验等环节，而“数据分析”这个环节正是机器学习和数据挖掘技术的舞台。

正因为机器学习和数据挖掘技术的进展对计算机科学乃至整个科学技术领域都有重要意义，美国NASA-JPL实验室的科学家 2001 年 9 月在《Science》上专门撰文[3]指出，机器学习对科学研究的整个过程正起到越来越大的支持作用，并认为该领域将稳定而快速地发展，并将对科学技术的发展发挥更大的促进作用。NASA-JPL实验室的全名是美国航空航天局喷气推进实验室，位于加州理工学院，是美国尖端技术的一个重要基地，著名的“勇气”号和“机遇”号火星机器人正是在这个实验室完成的。从目前公开的信息来看，机器学习和数据挖掘技术在这两个火星机器人上有大量的应用。

除了在科学研究中发挥重要作用，机器学习和数据挖掘技术和普通人的生活也息息相关。例如，在天气预报、地震预警、环境污染检测等方面，有效地利用机器学习和数据挖掘技术对卫星传递回来的大量数据进行分析，是提高预报、预警、检测准确性的重要途径；在商业营销中，对利用条形码技术获得的销售数据进行分析，不仅可以帮助商家优化进货、库存，还可以对用户行为进行分析以设计有针对性的营销策略；……。下面再举两个例子。

公路交通事故是人类面临的最大杀手之一，全世界每年有上百万人丧生车轮，仅我国每年就有约 10 万人死于车祸。美国一直在对自动驾驶车辆进行研究，因为自动驾驶车辆不仅在军事上有重要意义，还对减少因酒后、疲劳而引起的车祸有重要作用。2004 年 3 月，在美国 DARPA（国防部先进研究计划局）组织的自动驾驶车辆竞赛中，斯坦福大学的参赛车在完全无人控制的情况下，成功地在 6 小时53 分钟内走完了 132 英里（约 212 公里）的路程，获得了冠军。比赛路段是在内华达州西南部的山区和沙漠中，路况相当复杂，有的地方路面只有几米宽，一边是山岩，另一边是百尺深沟，即使有丰富驾驶经验的司机，在这样的路段上行车也是一个巨大的挑战。这一结果显示出自动2 驾驶车辆已经不再是一个梦想，可能在不久的将来就会走进普通人的生活。值得一提的是，斯坦福大学参赛队正是由一位机器学习专家所领导的，而获胜车辆也大量使用了机器学习和数据挖掘技术。

Google、Yahoo、百度等互联网搜索引擎已经开始改变了很多人的生活方式，例如很多人已经习惯于在出行前通过网络搜索来了解旅游景点的背景知识、寻找合适的旅馆、饭店等。美国新闻周刊曾经对 Google 有个“一句话评论”：“它使得任何人离任何问题的答案之间的距离只有点击一下鼠标这么远”。现在很少有人不知道互联网搜索引擎的用处，但可能很多人并不了解，机器学习和数据挖掘技术正在支撑着这些搜索引擎。其实，互联网搜索引擎是通过分析互联网上的数据来找到用户所需要的信息，而这正是一个机器学习和数据挖掘任务。事实上，无论 Google、Yahoo 还是微软，其互联网搜索研究核心团队中都有相当大比例的人是机器学习和数据挖掘专家，而互联网搜索技术也正是机器学习和数据挖掘目前的热门研究话题之一。

2 雄关漫道

机器学习是人工智能研究发展到一定阶段的必然产物。从 20 世纪50 年代到 70 年代初，人工智能研究处于“推理期”，人们认为只要给机器赋予逻辑推理能力，机器就能具有智能。这一阶段的代表性工作主要有 A. Newell 和 H. Simon 的“逻辑理论家”程序以及此后的“通用问题求解”程序等，这些工作在当时取得了令人振奋的成果。例如，“逻辑理论家”程序在 1952 年证明了著名数学家罗素和怀特海的名著《数学原理》中的 38 条定理，在 1963 年证明了全部的 52 条定理，而且定理 2.85甚至比罗素和怀特海证明得更巧妙。A. Newell和 H. Simon因此获得了 1975 年图灵奖。然而，随着研究向前发展，人们逐渐认识到，仅具有逻辑推理能力是远远实现不了人工智能的。E.A. Feigenbaum等人认为，要使机器具有智能，就必须设法使机器拥有知识。在他们的倡导下，20 世纪 70 年代中期开始，人工智能进入了“知识期”。在这一时期，大量专家系统问世，在很多领域做出了巨大贡献。E.A. Feigenbaum 作为“知识工程”之父在 1994 年获得了图灵奖。但是，专家系统面临“知识工程瓶颈”，简单地说，就是由人来把知识总结出来再教给计算机是相当困难的。于是，一些学者想到，如果机器自己能够学习知识该多好！

实际上，图灵在 1950 年提出图灵测试的文章中，就已经提到了机器学习的可能，而 20 世纪 50年代其实已经开始有机器学习相关的研究工作，主要集中在基于神经网络的连接主义学习方面，代表性工作主要有 F. Rosenblatt 的感知机、B. Widrow 的 Adaline 等。在 20 世纪 6、70 年代，多种学习技术得到了初步发展，例如以决策理论为基础的统计学习技术以及强化学习技术等，代表性工作主要有 A.L. Samuel 的跳棋程序以及 N.J. Nilson 的“学习机器”等，20 多年后红极一时的统计学习理论的一些重要结果也是在这个时期取得的。在这一时期，基于逻辑或图结构表示的符号学习技术也开始出现，代表性工作有 P. Winston的“结构学习系统”、R.S. Michalski等人的“基于逻辑的归纳学习系统”、E.B. Hunt 等人的“概念学习系统”等。

1980 年夏天，在美国卡内基梅隆大学举行了第一届机器学习研讨会；同年，《策略分析与信息系统》连出三期机器学习专辑；1983 年，Tioga出版社出版了R.S. Michalski、J.G. Carbonell和T.M. Mitchell主编的《机器学习：一种人工智能途径》[4]，书中汇集了 20 位学者撰写的 16 篇文章，对当时的机器学习研究工作进行了总结，产生了很大反响a；1986 年，《Machine Learning》创刊；1989 年，《Artificial Intelligence》出版了机器学习专辑，刊发了一些当时比较活跃的研究工作，其内容后来出现在J.G. Carbonell主编、MIT出版社 1990 年出版的《机器学习：风范与方法》[5]一书中。总的来看，20 世纪 80 年代是机器学习成为一个独立的学科领域并开始快速发展、各种机器学习技术百花齐放的时期。

R.S. Michalski等人[4]中把机器学习研究划分成“从例子中学习”、“在问题求解和规划中学习”、“通过观察和发现学习”、“从指令中学习”等范畴；而E.A. Feigenbaum在著名的《人工智能手册》b中[6]，则把机器学习技术划分为四大类，即“机械学习”、“示教学习”、“类比学习”、“归纳学习”。机械学习也称为“死记硬背式学习”，就是把外界输入的信息全部记下来，在需要的时候原封不动地取出来使用，这实际上没有进行真正的学习；示教学习和类比学习实际上类似于R.S. Michalski等人所说的“从指令中学习”和“通过观察和发现学习”；归纳学习类似于“从例子中学习”，即从训练例中归纳出学习结果c。20 世纪80 年代以来，被研究得最多、应用最广的是“从例子中学习”（也就是广义的归纳学习），它涵盖了监督学习（例如分类、回归）、非监督学习（例如聚类）等众多内容。下面我们对这方面主流技术的演进做一个简单的回顾。

在 20 世纪 90 年代中期之前，“从例子中学习”的一大主流技术是归纳逻辑程序设计（Inductive Logic Programming），这实际上是机器学习和逻辑程序设计的交叉。

它使用 1 阶逻辑来进行知识表示，通过修改和扩充逻辑表达式（例如Prolog表达式）来完成对数据的归纳。这一技术占据主流地位与整个人工智能领域的发展历程是分不开的。如前所述，人工智能在 20 世纪 50 年代到 80 年代经历了“推理期”和“知识期”，在“推理期”中人们基于逻辑知识表示、通过演绎技术获得了很多成果，而在知识期中人们基于逻辑知识表示、通过领域知识获取来实现专家系统，因此，逻辑知识表示很自然地受到青睐，而归纳逻辑程序设计技术也自然成为机器学习的一大主流。归纳逻辑程序设计技术的一大优点是它具有很强的知识表示能力，可以较容易地表示出复杂数据和复杂的数据关系。尤为重要的是，领域知识通常可以方便地写成逻辑表达式，因此，归纳逻辑程序设计技术不仅可以方便地利用领域知识指导学习，还可以通过学习对领域知识进行精化和增强，甚至可以从数据中学习出领域知识。事实上，机器学习在 20 世纪80 年代正是被视为“解决知识工程瓶颈问题的关键”而走到人工智能主舞台的聚光灯下的，归纳逻辑程序设计的一些良好特性对此无疑居功至伟d。S.H. Muggleton主编的书[7]对 90年代中期之前归纳逻辑程序设计方面的研

究工作做了总结。然而，归纳逻辑程序设计技术也有其局限，最严重的问题是由于其表示能力很强，学习过程所面临的假设空间太大，对规模稍大的问题就很难进行有效的学习，只能解决一些“玩具问题”。因此，在 90 年代中期后，归纳程序设计技术方面的研究相对陷入了低谷。

注：

a Morgan Kaufmann出版社后来分别于1986年和1990年出版了该书的续篇，编为第二卷和第三卷。

b该书共4卷，分别由E.A. Feigenbaum与不同的学者合作编写而成。

c“归纳学习”有狭义的解释和广义的解释。前者要求从训练数据中学得概念，因此也被称为“概念学习”或“概念形成”；后者则对学习结果是否是可理解的概念不做要求。

d“归纳逻辑程序设计”这个名字其实是1991年S. Muggleton才提出的。

20 世纪 90 年代中期之前，“从例子中学习”的另一大主流技术是基于神经网络的连接主义学习。连接主义学习技术在 20 世纪 50 年代曾经历了一个大发展时期，但因为早期的很多人工智能研究者对符号表示有特别的偏爱，例如H. Simon曾说人工智能就是研究“对智能行为的符号化建模”，因此当时连接主义的研究并没有被纳入主流人工智能的范畴。同时，连接主义学习自身也遇到了极大的问题，M. Minsky和S. Papert在1969 年指出，（当时的）神经网络只能用于线性分类，对哪怕“异或”这么简单的问题都做不了。于是，连接主义学习在此后近 15 年的时间内陷入了停滞期。直到1983 年，J.J. Hopfield利用神经网络求解TSP问题获得了成功，才使得连接主义重新受到人们的关注。1986 年，D.E. Rumelhart和J.L. McClelland主编了著名的《并行分布处理—认知微结构的探索》[8]一书，对PDP小组的研究工作进行了总结，轰动一时。

特别是D.E.Rumelhart、G.E. Hinton和R.J. Williams重新发明了著名的BP算法e，产生了非常大的影响。该算法可以说是最成功的神经网络学习算法，在当时迅速成为最流行的算法，并在很多应用中都取得了极大的成功。与归纳逻辑程序设计技术相比，连接主义学习技术基于“属性-值”的表示形式（也就是用一个特征向量来表示一个事物；这实际上是命题逻辑表示形式），学习过程所面临的假设空间远小于归纳逻辑程序设计所面临的空间，而且由于有BP这样有效的学习算法，使得它可以解决很多实际问题。事实上，即使在今天，BP仍然是在实际工程应用中被用得最多、最成功的算法之一。然而，连接主义学习技术也有其局限，一个常被人诟病的问题是其“试错性”。简单地说，在此类技术中有大量的经验参数需要设置，例如神经网络的隐层结点数、学习率等，夸张一点说，参数设置上差之毫厘，学习结果可能谬以千里。在实际工程应用中，人们可以通过调试来确定较好的参数设置，但对机器学习研究者来说，对此显然是难以满意的。

20 世纪 90 年代中期，统计学习粉墨登场并迅速独占鳌头。其实早在 20世纪 6、70年代就已经有统计学习方面的研究工作，统计学习理论[9]在那个时期也已经打下了基础，例如V.N. Vapnik早在1963 年就提出了“支持向量”的概念，他和A.J. Chervonenkis在 1968 年提出了VC维，在 1974年提出了结构风险最小化原则等，但直到 90 年代中期统计学习才开始成为机器学习的主流技术。这一方面是由于有效的支持向量机算法在 90 年代才由B.E. Boser、I. Guyon和V.N. Vapnik提出，而其优越的性能也是到 90 年代中期才在T. Joachims等人对文本分类的研究中显现出来；另一方面，正是在连接主义学习技术的局限性凸显出来之后，人们才把目光转向了统计学习。事实上，

统计学习与连接主义学习有着密切的联系，例如RBF神经网络其实就是一种很常用的支持向量机。

注：

e实际上，P. Werbos在他1974 年哈佛大学的博士学位论文中曾经发明了这个算法，但由于当时正处于连接主义的“冰河期”，因此没有得到应有的重视。

在支持向量机被普遍接受后，支持向量机中用到的核（kernel）技巧被人们用到了机器学习的几乎每一个角落中，“核方法”也逐渐成为机器学习的一种基本技巧。但其实这并不是一种新技术，例如Mercer定理是在 1909年发表的，核技巧也早已被很多人使用过，即使只考虑机器学习领域，至少T. Poggio在 1975 年就使用过多项式核。如果仔细审视统计学习理论，就可以发现其中的绝大多数想法在以往机器学习的研究中都出现过，例如结构风险最小化原则实际上就是对以往机器学习研究中经常用到的最小描述长度原则的另一个说法。但是，统计学习理论把这些有用的片段整合在同一个理论框架之下，从而为人们研制出泛化能力f有理论保证的算法奠定了基础，与连接主义学习的“试错法”相比，这是一个极大的进步。然而，统计学习也有其局限，例如，虽然理论上来说，通过把原始空间利用核技巧转化到一个新的特征空间，再困难的问题也可以容易地得到解决，但如何选择合适的核映射，却仍然有浓重的经验色彩。另一方面，统计学习技术与连接主义学习技术一样是基于“属性-值”表示形式，难以有效地表示出复杂数据和复杂的数据关系，不仅难以利用领域知识，而且学习结果还具有“黑箱性”。此外，传统的统计学习技术往往因为要确保统计性质或简化问题而做出一些假设，但很多假设在真实世界其实是难以成立的。如何克服上述缺陷，正是很多学者正在关注的问题。

如前所述，机器学习之所以备受瞩目，主要是因为它已成为智能数据分析技术的创新源之一。但是机器学习还有一个不可忽视的功能，就是通过建立一些关于学习的计算模型来帮助人们了解“人类如何学习”。例如，P. Kanerva在 20世纪 80 年代中期提出SDM（Sparse Distributed Memory）模型时并没有刻意模仿人脑生理结构，但后来的研究发现，SDM的工作机制非常接近于人类小脑，这为理解小脑的某些功能提供了帮助。自然科学研究的驱动力归结起来无非是人类对宇宙本源、物质本性、生命本质、自我本识的好奇，而“人类如何学习”无疑是一个有关自我本识的重大问题。从这个意义上说，机器学习不仅在信息科学中占有重要地位，还有一定的自然科学色彩。与此不同，数据挖掘[11]则是一个直接为实际应用而生的学科领域。20 世纪 60 年代，早期的数据库问世，人们开始利用计算机对数据进行管理；到了 70 年代之后，随着关系数据库的出现和发展，人们管理数据的能力越来越强，收集存储的数据也越来越多。如果只利用数据库进行一些简单的事务处理，显然没有对数据进行充分的利用，从数据中挖掘出有用的知识，才可以更好地实现数据的价值。

注：

f提高泛化能力（generalization ability）是机器学习中最重要的问题之一。泛化能力表征了机器学习系统对新事件的适用性，简单地说，泛化能力越强，系统对新事件的适用能力（例如做出正确预测的能力）就越强。

1989年 8 月，第 11 届国际人工智能联合会议（IJCAI’89）在美国底特律举行，GTE实验室的G. Piatetsky-Shapiro在J.G. Carbonell、W. Frawley、K. Parsaye、J.R. Quinlan、M. Siegel、R. Uthurusamy等人的支持下，组织了一个名为“在数据库中发现知识”的研讨会，这个研讨会后来被认为是数据挖掘成为一个领域的标志。早期人们一直称其为“数据挖掘与知识发现”，但随着该领域的发展壮大，越来越多的人直接称其为数据挖掘g。值得注意的是，数据挖掘的对象早就不限于数据库，而可以是存放在任何地方的数据，甚至包括Internet上的数据。

数据挖掘受到了很多学科领域的影响，其中数据库、机器学习、统计学无疑影响最大[12]。粗糙地说，数据库提供数据管理技术，机器学习和统计学提供数据分析技术。由于统计学界往往醉心于理论的优美而忽视实际的效用，因此，统计学界提供的很多技术通常都要在机器学习界进一步研究，变成有效的机器学习算法之后才能再进入数据挖掘领域。从这个意义上说，统计学主要是通过机器学习来对数据挖掘发挥影响，而机器学习和数据库则是数据挖掘的两大支撑技术。

从数据分析的角度来看，绝大多数数据挖掘技术都来自机器学习领域。但能否认为数据挖掘只不过就是机器学习的简单应用呢？答案是否定的。一个重要的区别是，传统的机器学习研究并不把海量数据作为处理对象，很多技术是为处理中小规模数据设计的，如果直接把这些技术用于海量数据，效果可能很差，甚至可能用不起来。因此，数据挖掘界必须对这些技术进行专门的、不简单的改造。例如，决策树是一种很好的机器学习技术，不仅有很强的泛化能力，而且学得结果具有一定的可理解性，很适合数据挖掘任务的需求。但传统的决策树算法需要把所有的数据都读到内存中，在面对海量数据时这显然是无法实现的。为了使决策树能够处理海量数据，数据挖掘界做了很多工作，例如通过引入高效的数据结构和数据调度策略等来改造决策树学习过程，而这其实正是在利用数据库界所擅长的数据管理技术。实际上，在传统机器学习算法的研究中，在很多问题上如果能找到多项式时间的算法可能就已经很好了，但在面对海量数据时，可能连O(n3)的算法都是难以接受的，这就给算法的设计带来了巨大的挑战。

另一方面，作为一个独立的学科领域，必然会有一些相对“独特”的东西。对数据挖掘来说，这就是关联分析。简单地说，关联分析就是希望从数据中找出“买尿布的人很可能会买啤酒”这样看起来匪夷所思但可能很有意义的模式h。如果在 100 位顾客中有 20 位购买了尿布，购买尿布的 20位顾客中有 16 位购买了啤酒，那么就可以写成“尿布→啤酒 [支持度=20%，置信度=80%]”这样的一条关联规则。挖掘出这样的规则可以有很多用处，例如商家可以考虑把尿布展柜和啤酒展柜放到一起以促进销售。实际上，在面对少量数据时关联分析并不难，可以直接使用统计学中有关相关性的知识，这也正是机器学习界没有研究关联分析的一个重要原因。关联分析的困难其实完全是由海量数据造成的，因为数据量的增加会直接造成挖掘效率的下降，当数据量增加到一定程度，问题的难度就会产生质变，例如，在关联分析中必须考虑因数据太大而无法承受多次扫描数据库的开销、可能产生在存储和计算上都无法接受的大量中间结果等，而关联分析技术正是围绕着“提高效率”这条主线发展起来的。在R. Agrawal等人首先对关联规则挖掘进行研究之后，大批学者投身到这方面的研究中并产生了很多成果，代表性工作有R. Agrawal和R. Srikant的Apriori算法以及J. Han等人的FP-Growth算法等，有兴趣的读者可以参考一些相关书籍[11][13]。

注：

g“数据挖掘”这个词其实很久以前就在统计学界出现并略带贬义，但由于数据挖掘领域的发展壮大，这个词目前已经没有贬义了。

h“尿布和啤酒”的故事可能是对数据挖掘最好的宣传策划。对“买尿布的人很可能会买啤酒”的一个解释是说，婴儿出世后母亲在家照管孩子，父亲在下班回家的路上买尿布，会顺手捎几瓶啤酒回家。

3 坐看云起

机器学习和数据挖掘在过去10 年经历了飞速发展，目前已经成为子领域众多、内涵非常丰富的学科领域。“更多、更好地解决实际问题”成为机器学习和数据挖掘发展的驱动力。事实上，过去若干年中出现的很多新的研究方向，例如半监督学习、代价敏感学习、流数据挖掘、社会网络分析等，都起源于实际应用中抽象出来的问题，而机器学习和数据挖掘领域的研究进展，也很快就在众多应用领域中发挥作用。值得指出的是，在计算机科学的很多领域中，成功的标志往往是产生了某种看得见、摸得着的系统，而机器学习和数据挖掘则恰恰相反，它们正在逐渐成为基础性、透明化、无处不在的支持技术、服务技术，在它们真正成功的时候，可能人们已经感受不到它们的存在，人们感受到的只是更健壮的防火墙、更灵活的机器人、更安全的自动汽车、更好用的搜索引擎……

由于机器学习和数据挖掘技术的重要性，各国都对这方面的研究非常关注。例如，美国计算机科学研究的重镇——卡内基梅隆大学 2006 年宣布成立“机器学习系”。而美国DARPA从 2003 年开始启动 5 年期的PAL（Perceptive Assistant that Learns）计划[14]，首期 1-1.5 年投资即达 2千 9 百万美元，总投资超过 1 亿美元。从名字就可以看出，这是一个以机器学习为核心的计划。具体来说，该计划包含两个子计划，一个称为RADAR，由卡内基梅隆大学单独承担，其目标为研制出一种软件，它“通过与其人类主人的交互，并且通过接收明晰的建议和指令来学习”、“将帮助繁忙的管理人员处理耗时的任务”。另一个子计划称为CALO，牵头单位为斯坦福国际研究院，参加单位包括麻省理工学院、斯坦福大学、卡内基梅隆大学、加州大学伯克利分校、华盛顿大学、密歇根大学、德克萨斯大学奥斯汀分校、波音公司等 20 家单位，首期投资即达 2 千2 百万美元。显然，CALO是整个PAL计划的核心，因为其参加单位不仅包含了美国在计算机科学和人工智能方面具有强大力量的主要高校以及波音公司这样的企业界巨头，其经费还占据了PAL计划整个首期投资的 76%。DARPA没有明确公布CALO的目标，，但从其描述[15]可见端倪：“CALO软件将通过与为其提供指令的用户一起工作来进行学习…… 它将能够处理常规任务，还能够在突发事件发生时提供协助”，考虑到911 之后美国对突发事件处理能力的重视，以及波音公司对该计划的参与，该计划的（部分）成果很可能会用于反恐任务。DARPA还说[15]，“CALO的名字源于拉丁文calonis，含义是‘战士的助手’”，而且DARPA 曾在网站上放置了这样一幅军官与虚拟参谋人员讨论战局的画面，可以预料，该计划的（部分）成果会直接用于军方。从上述情况来看，美国已经把对机器学习的研究上升到国家安全的角度来考虑。

如果要列出目前计算机科学中最活跃的研究分支，那么机器学习和数据挖掘必然位列其中。随着机器学习和数据挖掘技术被应用到越来越多的领域，可以预见，机器学习和数据挖掘不仅将为研究者提供越来越大的研究空间，还将给应用者带来越来越多的回报。

对发展如此迅速的机器学习和数据挖掘领域，要概述其研究进展或发展动向是相当困难的，感兴趣的读者不妨参考近年来机器学习和数据挖掘方面一些重要会议和期刊发表的论文。在机器学习方面，最重要的学术会议是 NIPS、ICML、ECML和 COLT，最重要的学术期刊是《Machine Learning》和《Journal of Machine Learning Research》；在数据挖掘方面，最重要的学术会议是SIGKDD、ICDM、SDM、PKDD和 PAKDD，最重要的学术期刊是《Data Mining and Knowledge Discovery》和《IEEE Transactionson Knowledge and Data Engineering》。此外，人工智能领域的顶级会议如 IJCAI和 AAAI、数据库领域的顶级会议如 SIGMOD、VLDB、ICDE，以及一些顶级期刊如《Artificial Intelligence》、《Journal ofArtificial Intelligence Research》、《IEEE Transactions on Pattern Analysis and Machine Intelligence》、《NeuralComputation》等也经常发表机器学习和数据挖掘方面的论文。

参考文献

[1] T. M. Mitchell. Machine Learning, New York: McGraw-Hill, 1997.

[2] U. Fayyad, G. Piatetsky-Shapiro, R. Smyth. Knowledge discoveryand data mining: Towards a unifying framework. In: Proc. KDD’96, Portland, OR,82-88.

[3] E. Mjolsness, D. DeCoste. Machine learning for science: State ofthe art and future prospects. Science, 2001, 293(5537): 2051-2055.

[4] R. S. Michalski, J. G. Carbonell, T. M. Mitchell, eds. MachineLearning: An Artificial Intelligence Approach, Palo Alto, CA: Tioga PublishingCo., 1983.

[5] J. G. Carbonell, ed. Machine Learning: Paradigms and Methods,Cambridge, MA: MIT Press, 1990.

[6] P. R. Cohen, E. A. Feigenbaum, eds. The Handbook of ArtificialIntelligence, vol.3, New York: William Kaufmann, 1983.

[7] S. H. Muggleton, ed. Inductive Logic Programming, London:Academic Press, 1992.

[8] D. E. Rumelhart, J. L. McClelland, eds. Parallel DistributedProcessing: Explorations in the Microstructure of Cognition, Cambridge, MA: MITPress, 1986.

[9] V. N. Vapnik, Statistical Learning Theory, New York: Wiley,1998.

[10] T. G. Dietterich. Machine learning research: Four current directions.AI Magazine, 1997, 18(4): 97-136.

[11] J. Han, M. Kamber, Data Mining: Concepts and Techniques, 2ndedition, Singapore: Elsevier, 2006.

[12] Z.-H. Zhou. Three perspectives of data mining. ArtificialIntelligence, 2003, 143(1): 139-146.

[13] P.-N. Tan, M. Steinbach, V. Kumar, Introduction to Data Mining,Reading, MA: Addison-Wesley, 2006.

[14] DARPA News Release. DARPA, Jul. 2003.9 [15] CALO Overview.DARPA, 2003.

你可能感兴趣的:(机器学习与数据挖掘)

【机器学习与数据挖掘实战】案例15：基于LDA模型的电商产品评论数据情感分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘人工智能 LDA主题模型情感分析文本分析 python
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
【机器学习与数据挖掘实战】案例14：基于随机森林分类器的汽车公司客户细分预测 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘随机森林人工智能分类算法
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
机器学习与数据挖掘：决策树（知识点总结） KE.WINE 机器学习机器学习数据挖掘决策树
决策树叶节点对应于决策结果，内部节点表示一个特征或属性。基本流程决策树算法递归返回的三个条件：当前结点包含的样本全属于同一类别，无需划分;当前属性集为空,或是所有样本在所有属性上取值相同，无法划分;*将当前节点标记为叶节点，将其类别设定为该节点所含样本最多的类别；当前结点包含的样本集合为空，不能划分；*将当前节点标记为叶节点，将其类别设定其父节点所含样本最多的类别；划分选择决策树学习算法包括3部分
【机器学习与数据挖掘实战】案例11：基于灰色预测和SVR的企业所得税预测分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘灰色预测 SVR 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
《机器学习与数据挖掘》学习笔记（二）-续产品扫地僧
沿着PAC学习理论，讨论有限假设空间的样本复杂度，并用Hoeffding不等式来界定概率边界。假设空间的样本复杂度PAC可学习性很大程度上由所需的训练样本数量决定。随着问题规模的增长所带来的所需训练样本的增长称为学习问题的样本复杂度（samplecomplexity）。在多数实际问题中，最限制学习器成功的因素是有限的可用的训练数据。我们通常都喜欢能与训练数据拟合程度更高的假设，当一个学习器在可能时
牛人（周志华）推荐的人工智能网站城市中迷途小书童
AIURLs(maintainedbyZhi-HuaZhou)**北京大学视觉与听觉信息处理实验室北京邮电大学模式识别与智能系统学科复旦大学智能信息处理开放实验室IEEEComputerSociety北京映象站点计算机科学论坛机器人足球赛模式识别国家重点实验室南京航空航天大学模式识别与神经计算实验室-PARNEC南京大学机器学习与数据挖掘研究所-LAMDA南京大学人工智能实验室南京大学软件新技术国
1.5 The Leaming Problem-Machine Leaming and other Fields|机器学习基石（林轩田）-学习笔记努力奋斗的durian
文章原创,最近更新：2018-06-27学习链接:1.5TheLeamingProblem-MachineLeamingandotherFields1.MachineLearningandDataMining(机器学习与数据挖掘)讲完了机器学习完整的流程,下面将一下机器学习与其他相关领域的关系第一个讲的领域就是数据挖掘,数据挖掘与机器学习有什么不一样,如下:机器学习是用资料找出一个假说g,然后跟我
毕业设计选题 - 计算机毕业设计（论文）选题合集 weixin_55149953 毕业设计人工智能毕业设计毕设目标跟踪计算机视觉大数据算法
目录前言选题背景意义毕业设计选题深度学习与神经网络计算机视觉与图像处理机器学习与数据挖掘数据分析和大数据处理选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光,一边要忙着准备考研,考公,考教资或者实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。大四的同学马上要开始毕业设计,对选题有疑问可以问学长哦!以下整理了适合不同方向的计算机专业的毕业设计选题对毕设有任何疑问
DataFunSummit：2023年数据科学在线峰会-核心PPT资料下载百家峰会大数据数据治理数据科学大数据数据科学数据治理
一、峰会简介数据会说谎？如何正确的挖掘并使用数据？前沿的科学实验如何做？实验又是如何欺骗你的？数据中台如何发挥功效？用户增长有捷径吗？数据科学的最佳实践有哪些？本次峰会共包含了：机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大论坛。机器学习与数据挖掘方向的核心目标是通过机器学习的建模方式解决人与物的匹配问题，以及通过对人行为数据的建模或挖掘研究，
【机器学习】学习笔记01-概论 NRbene 机器学习机器学习学习数据挖掘
机器学习简介文章目录机器学习简介机器学习辨析深度学习与机器学习机器学习与数据挖掘机器学习与统计学习机器学习与传统编程机器学习概念适用条件挑战模型的稳定性模型的可解释性历史符号主义贝叶斯学派连接主义其他概念基本概念三要素模型策略算法归纳偏好证明机器学习的目标欠拟合和过拟合泛化误差(重点)缓解过拟合深入理解泛化误差基本概念方法总结机器学习一般流程机器学习分类按有无标签分类按输出空间分类按模型分类按算法
《机器学习与数据挖掘》学习笔记（一）产品扫地僧
从刚注册时强迫自己写文章时的拖延，到现在有了想法不自觉的想记录下来，是好的转变。最近开始对数据挖掘很感兴趣，在网易公开课上开始学加州理工的《机器学习和数据挖掘》，还可以顺便练练英语听力。第一课《学习问题》只要从问题引入，介绍什么是机器学习，以及常见的学习分类。在人类的认知中一些显而易见的结论，对机器而言是一个却是无限靠近的过程，比如婴儿可以快速识别一张脸的情绪等。课中介绍了银行信贷审批的例子。阐述
机器学习与数据挖掘第三、四周 Joy T 机器学习数据挖掘人工智能机器学习
为什么第二周没有呢……因为刚换老师，自学要适应一段时间。本课程作者之后的学习目标是：实操代码，至少要将作者参加数学建模中用到的数据处理方法都做一遍。首先，作者复习一下李宏毅老师的两节课程。机器学习概述机器学习就是让机器帮我们找一个函数！而这个函式，其实就是类神经网络！这个函式的输入可以是向量、矩阵和序列。矩阵往往用于表示图像。语音往往可以被表示为序列。输出可以是数值regression、类别cla
数分面试题1-牛客海星？海欣！面试问题 python 数据分析
1、python中你常用的包包名+作用+哪里使用过numpy:主要用来做多维数组的运算，高效的数值计算与数组操作，之前在推荐系统的项目中使用过pandas：用于数据处理与分析，提供了灵活的数据结构与数据操作功能matplotlib：数据可视化，比如想看数据的分布情况-箱线图，还有热力图、直方图、面积图、雷达图、极坐标图、等高线图等sklearn：用于机器学习与数据挖掘项目，提供多种机器学习算法与工
【AI】机器学习——绪论 AmosTian AI #机器学习人工智能机器学习 AI
文章目录1.1机器学习概念1.1.1定义统计机器学习与数据挖掘区别机器学习前提1.1.2术语1.1.3特点以数据为研究对象目标方法——基于数据构建模型SML三要素SML步骤1.2分类1.2.1参数化/非参数化方法1.2.2按算法分类1.2.3按模型分类概率模型非概率模型逻辑斯蒂回归1.2.4基本分类监督学习分类符号表示形式化特征无监督模型特征符号表示形式化强化学习半监督学习主动学习1.2.5按技巧
加州理工学院公开课：机器学习与数据挖掘_Epilogue（第十八课-终结篇）飞天狐213 机器学习机器学习 Aggregation 贝叶斯
课程简介:这是该课程的最后一课，作者首先总结了有关机器学习的理论、方法、模型、范式等。最后介绍了贝叶斯理论和Aggregation（聚合）方法在机器学习中的应用。课程提纲:1、机器学习的地图。2、贝叶斯理论。3、Aggregation（聚合）。1、机器学习的地图有关机器学习的方法、模型等非常多，简直令人目不暇接。比如下图列出来的。然而不建议一一学习这些方法、模型，否则容易迷失在这些方法里无法自拔。
大咖观点| AIGC与因果推断的双向赋能九章云极DataCanvas AIGC 人工智能大数据
近日，由DataFun主办的第三届数据科学在线峰会盛大举办。聚焦机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大数据科学主题，数十位国内外一线数据科学家围绕数据科学前沿技术成果和应用实践经验深入分享和交流。九章云极DataCanvas公司深度参与峰会，并分享前沿数据科学技术的最新研究进展。峰会上，九章云极DataCanvas公司AI架构师何刚发表
Python机器学习及实践_从零开始通往KAGGLE竞赛之路PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书胡萝卜须_aee2
点击获取提取码：i5nwimage.pngPython机器学习及实践面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，逐步带领读者熟悉并且掌握当下流行的机器学习、数据挖掘与自然语言处理工具，如Scikit-learn、NLTK、Pandas、gensim、XGBoost、GoogleTensorflow等。全书
大咖观点| AIGC与因果推断的双向赋能 aigc
近日，由DataFun主办的第三届数据科学在线峰会盛大举办。聚焦机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大数据科学主题，数十位国内外一线数据科学家围绕数据科学前沿技术成果和应用实践经验深入分享和交流。九章云极DataCanvas公司深度参与峰会，并分享前沿数据科学技术的最新研究进展。峰会上，九章云极DataCanvas公司AI架构师何刚发表
机器学习与数据挖掘的学习路线图 thousand_
https://my.oschina.net/siiiso/blog/810554正式学习之前，你所需要的预备知识（主要是数学）应该包括：微积分（偏导数、梯度等等）、概率论与数理统计（例如极大似然估计、中央极限定理、大数法则等等）、最优化方法（比如梯度下降、牛顿-拉普什方法、变分法（欧拉-拉格朗日方程）、凸优化等等）——如果你对其中的某些名词感到陌生，那么就说明你尚不具备深入开展数据挖掘算法学习的
通关秘籍！Pandas最新官方教程中文版 Python数据之道
大家好，感谢大家一路以来的关注和支持，今天给大家强烈推荐我的好友云朵君的公众号『数据STUDIO』，强烈推荐大家关注～‍☠️宝藏级‍☠️原创公众号『数据STUDIO』内容超级硬核。公众号以Python为核心语言，垂直于数据科学领域，包括可戳Python｜MySQL｜数据分析｜数据可视化｜机器学习与数据挖掘｜爬虫等，从入门到进阶！云朵君为大家整理和筛选了大量火爆全网的Python数据科学学习资料，全
机器学习（面试题）及知识点菜田的守望者机器学习机器学习面试题
文章目录文章目录文章目录1，什么是机器学习2，机器学习与数据挖掘的区别3.什么是机器学习的过度拟合现象4.过度拟合产生的原因5.如何避免过度拟合6.什么是感应式的机器学习？7.什么是机器学习的五个流行的算法？9.在机器学习中，建立假设或者模型的三个阶段指的是什么？10.什么是监督学习的标准方法？11.什么是训练数据集和测试数据集？12.机器学习的方法？13.非机器学习有哪些类型？14.什么是非监督
python语法基础知识案例_Python 语法速览与实战清单 weixin_39860064 python语法基础知识案例
本文是对于现代Python开发：语法基础与工程实践的总结，更多Python相关资料参考Python学习与实践资料索引；本文参考了PythonCrashCourse-CheatSheets，pysheeet等。本文仅包含笔者在日常工作中经常使用的，并且认为较为关键的知识点与语法，如果想要进一步学习Python相关内容或者对于机器学习与数据挖掘方向感兴趣，可以参考程序猿的数据科学与机器学习实战手册。基
if i have five million dollars 云想飘飘
假如我有五百万我首先要还清我的房贷然后买辆车然后在村里盖个舒服的房子给父母然后想不到了抽个时间去考个机器学习与数据挖掘研究生然后努力工作。。。。
python竞赛之路_Python机器学习及实践：从零开始通往Kaggle竞赛之路 PDF高清完整版... weixin_39900468 python竞赛之路
Python机器学习及实践：从零开始通往Kaggle竞赛之路PDF高清完整版作者:范淼/李超出版社:清华大学出版社副标题:从零开始通往Kaggle竞赛之路出版年:2016-10-1定价:49元装帧:平装ISBN:9787302442875内容简介······本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，
Python机器学习及实践+从零开始通往Kaggle竞赛之路喜欢安静的程序猿 python 经典书籍
内容简介本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，逐步带领读者熟悉并且掌握当下最流行的机器学习、数据挖掘与自然语言处理工具，如Scikitlearn、NLTK、Pandas、gensim、XGBoost、GoogleTensorflow等。全书共分4章。第1章简介篇，介绍机器学习概念与Python
机器学习与数据挖掘，机器学习算法简介明月说数据数据挖掘算法大数据
什么是数据挖掘数据挖掘就是从大量的数据中去发现有用的信息，然后根据这些信息来辅助决策。听起来是不是跟传统的数据分析很像呢？实际上，数据挖掘就是智能化的数据分析，它们的目标都是一样的。但是，又有很大的区别。传统的数据分析和数据挖掘最主要的区别就是在揭示数据之间的关系上。传统的数据分析揭示的是已知的、过去的数据关系，数据挖掘揭示的是未知的、将来的数据关系。它们采用的技术也不一样，传统的数据分析采用计算
机器学习算法之LightGBM The king always the king 机器学习
LightGBM在很多方面会比XGBoost表现的更为优秀。它有以下优势：更快的训练效率低内存使用更高的准确率支持并行化学习可处理大规模数据支持直接使用category特征从下图实验数据可以看出，LightGBM比XGBoost快将近10倍，内存占用率大约为XGBoost的1/6，并且准确率也有提升。LightGBM的应用LightGBM在机器学习与数据挖掘领域有着极为广泛的应用。据统计Light
机器学习第一章（引言）罗辑罗辑机器学习
“假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则意味着关于T和P，该程序对E进行了学习”机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能，从而在计算机上从数据中产生“模型”，依此来对新的未知的情况进行判断。机器学习与数据挖掘的关系：图1.机器学习与数据挖掘的关系机器学习中的基本术语：数据、任务、泛化能力机器学习中的假设空间、归
python手写数字识别教学_6手写数字识别_python机器学习与数据挖掘_Python视频-51CTO学院... 职业生涯规划师 python手写数字识别教学
爬虫Python基础、数据分析扩展包Numpy、pandas、matplotlib，Python读取MySQL数据，Python爬虫及Scrapy框架，无监督机器学习算法聚类分析等，以及案例：互联网金融行业客户价值分析等。机器学习机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有
Python多元线性回归、机器学习、深度学习在近红外光谱分析中的应用 PhyliciaFelicia 深度学习遥感医学影像 python 线性回归深度学习
导师：郁磊副教授，主要从事MATLAB编程、机器学习与数据挖掘、数据可视化和软件开发、人工智能近红外光谱分析、生物医学系统建模与仿真，具有丰富的实战应用经验，主编《MATLAB智能算法30个案例分析》、《MATLAB神经网络43个案例分析》相关著作。已发表多篇高水平的国际学术研究论文。基于Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用第一章：Python入门基础1、Pyt
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key