喜欢打酱油的老鸟

关于机器学习的领悟与反思（张志华北大数学系教授）

张志华教授：机器学习——统计与计算之恋
COS访谈第十九期：张志华教授
张志华老师教学之感悟
部分共享资料见链接: https://pan.baidu.com/s/1bpGc0nP 密码: 49ei
◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆

张志华
北京大学数学学院教授，北京大数据研究院高级研究员。曾在浙江大学和上海交通大学计算机系任教。主要从事机器学习与应用统计等领域的教学与科研工作。
张志华老师主页
张志华老师实验室
◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆

近年来，人工智能的强势崛起，特别是去年AlphaGo和韩国九段棋手李世石的人机大战，让我们深刻地领略到了人工智能技术的巨大潜力。数据是载体，智能是目标，而机器学习是从数据通往智能的技术、方法途径。因此，机器学习是数据科学的核心，是现代人工智能的本质。

通俗地说，机器学习就是从数据中挖掘出有价值的信息。数据本身是无意识的，它不能自动呈现出有用的信息。怎样才能找出有价值的东西呢？第一步要给数据一个抽象的表示；接着基于表示进行建模；然后估计模型的参数，也就是计算；为了应对大规模的数据所带来的问题，我们还需要设计一些高效的实现手段，包括硬件层面和算法层面。统计是建模的主要工具和途径，而模型求解大多被定义为一个优化问题或后验抽样问题，具体地，频率派方法其实就是一个优化问题。而贝叶斯模型的计算则往往牵涉蒙特卡罗(Monte Carlo) 随机抽样方法。因此，机器学习是计算机科学和统计学的交叉学科。

借鉴计算机视觉理论创始人马尔 (Marr) 的关于计算机视觉的三级论定义，我把机器学习也分为三个层次：初级、中级和高级。初级阶段是数据获取以及特征的提取。中级阶段是数据处理与分析，它又包含三个方面：首先是应用问题导向，简单地说，它主要应用已有的模型和方法解决一些实际问题，这可以理解为数据挖掘；其次，根据应用问题的需要，提出和发展模型、方法和算法以及研究支撑它们的数学原理或理论基础等，这则是机器学习学科的核心内容；第三，通过推理达到某种智能。高级阶段是智能与认知，即实现智能的目标。数据挖掘和机器学习本质上是一样的，其区别是数据挖掘更接近于数据端，而机器学习则更接近于智能端。

统计与计算

今年刚被选为美国科学院院士的卡内基梅隆大学统计系教授沃塞曼 (Larry Wasserman) 写了一本名字非常霸道的书：《统计学完全教程》(All of Statistics)。这本书的引言部分有一个关于统计学与机器学习非常有趣的描述。沃塞曼认为，原来统计是在统计系，计算机是在计算机系，这两者是不相来往的，而且互相都不认同对方的价值。计算机学家认为那些统计理论没有用，不解决问题，而统计学家则认为计算机学家只是在“重新发明轮子”，没有新意。然而，他认为现在情况改变了，统计学家认识到计算机学家正在做出的贡献，而计算机学家也认识到统计的理论和方法论的普遍性意义。所以，沃塞曼写了这本书，可以说这是一本为统计学者写的计算机领域的书，为计算机学者写的统计领域的书。

现在大家达成了一个共识：如果你在用一个机器学习方法，而不懂其基础原理，这是一件非常可怕的事情。正是由于这个原因，目前学术界对深度学习还是心存疑虑的。尽管深度学习已经在实际应用中展示出其强大的能力，但其中的原理目前大家还不是太清楚。

让我们具体讨论计算机与统计学之间的关系。计算机学家通常具有强大的计算能力和解决问题的直觉，而统计学家擅长于理论分析和问题建模，因此，两者具有很好的互补性。Boosting、支持向量机 (SVM)、集成学习和稀疏学习是机器学习界也是统计界在近十年或者是近二十年来最为活跃的方向，这些成果是统计界和计算机科学界共同努力成就的。例如，数学家瓦普尼克 (Vapnik) 等人早在20 世纪60 年代就提出了支持向量机的理论，但直到计算机界于90 年代末发明了非常有效的求解算法，并随着后续大量实现代码的开源，支持向量机现在成为了分类算法的一个基准模型。再比如，核主成分分析(Kernel Principal Component Analysis, KPCA) 是由计算机学家提出的一个非线性降维方法，其实它等价于经典多维尺度分析(Multi-Dimensional Scaling, MDS)。而后者在统计界是很早就存在的，但如果没有计算机界重新发现，有些好的东西可能就被埋没了。

计算机界和统计界的通力合作，成就了机器学习从20世纪90年代中期到21世纪00年代中期的黄金发展时期，主要标志是学术界涌现出一批重要成果，比如，基于统计学习理论的支持向量机、随机森林和Boosting等集成分类方法，概率图模型，基于再生核理论的非线性数据分析与处理方法，非参数贝叶斯方法，基于正则化理论的稀疏学习模型及应用等等。这些成果奠定了统计学习的理论基础和框架。

机器学习现在已成为统计学的一个主流方向，许多著名大学的统计系纷纷从机器学习领域招聘教授，比如斯坦福大学统计系新进的两位助理教授来自机器学习专业。计算在统计领域已经变得越来越重要，传统多元统计分析是以矩阵分解为计算工具，现代高维统计则是以优化为计算工具。

最近有一本尚未出版的书《数据科学基础》(Foundation of Data Science )，作者之一霍普克洛夫特 (John Hopcroft) 是图灵奖得主。在这本书前言部分，提到了计算机科学的发展可以分为三个阶段：早期、中期和当今。早期就是让计算机可以运行起来，其重点在于开发程序语言、编译技术、操作系统，以及研究支撑它们的数学理论。中期是让计算机变得有用，变得高效，重点在于研究算法和数据结构。第三个阶段是让计算机具有更广泛的应用，发展重点从离散类数学转到概率和统计。我曾经和霍普克洛夫特教授交谈过几次，他认为计算机科学发展到今天，机器学习是核心。而且他正致力于机器学习和深度学习的研究和教学。

现在计算机界戏称机器学习为“全能学科”，它无所不在。除了有其自身的学科体系外，机器学习还有两个重要的辐射功能。一是为应用学科提供解决问题的方法与途径。对于一个应用学科来说，机器学习的目的就是把一些难懂的数学翻译成让工程师能够写出程序的伪代码。二是为一些传统学科，比如统计、理论计算机科学、运筹优化等找到新的研究问题。因此，大多数世界著名大学的计算机学科把机器学习或人工智能列为核心方向，扩大机器学习领域的教师规模，而且至少要保持两、三个机器学习研究方向具有一流竞争力。有些计算机专业有1/3甚至1/2的研究生选修机器学习或人工智能。

然而，机器学习是一门应用学科，它需要在工业界发挥作用，能为他们解决实际问题。幸运的是，机器学习切实能被用来帮助工业界解决问题。特别是当下的热点，比如说深度学习、AlphaGo、无人驾驶汽车、人工智能助理等对工业界的巨大影响。当今IT的发展已从传统的微软模式转变到谷歌模式。传统的微软模式可以理解为制造业，而谷歌模式则是服务业。谷歌搜索完全是免费的，服务社会，他们的搜索技术做得越来越极致，同时创造的财富也越来越丰厚。

财富蕴藏在数据中，而挖掘财富的核心技术则是机器学习，因此谷歌认为自己是一家机器学习公司。深度学习作为当今最有活力的机器学习方向，在计算机视觉、自然语言理解、语音识别、智力游戏等领域的颠覆性成就，造就了一批新兴的创业公司。工业界对机器学习领域的人才有大量的需求。不仅仅需要代码能力强的工程师，也需要有数学建模和解决问题的科学家。

机器学习发展启示

机器学习的发展历程告诉我们：发展一个学科需要一个务实的态度。时髦的概念和名字无疑对学科的普及有一定的推动作用，但学科的根本还是所研究的问题、方法、技术和支撑的基础等，以及为社会产生的价值。

“机器学习”是个很酷的名字，简单地按照字面理解，它的目的是让机器能像人一样具有学习能力。但在其十年的黄金发展期，机器学习界并没有过多地炒作“智能”或者“认知”，而是关注于引入统计学等来建立学科的理论基础，面向数据分析与处理，以无监督学习和有监督学习为两大主要的研究问题，提出和开发了一系列模型、方法和计算算法等，切实地解决了工业界所面临的一些实际问题。近几年，因为大数据的驱动和计算能力的极大提升，一批面向机器学习的底层架构先后被开发出来。神经网络其实在20 世纪80年代末或90年代初就被广泛研究，但后来沉寂了。近几年，基于深度学习的神经网络强势崛起，给工业界带来了深刻的变革和机遇。深度学习的成功不是源自脑科学或认知科学的进展，而是因为大数据的驱动和计算能力的极大提升。

机器学习的发展诠释了多学科交叉的重要性和必要性。然而这种交叉不是简单地彼此知道几个名词或概念就可以的，是需要真正的融会贯通。已故的布莱曼(Leo Breiman) 教授是统计机器学习的主要奠基人，他是众多统计学习方法的主要贡献者，比如Bagging、分类回归树(CART)、随机森林以及非负garrote 稀疏模型等。莱曼教授经历传奇，他从学术界转到工业界从事统计的实际应用十多年，然后又回到学术界。布莱曼是乔丹(Michael Jordan) 教授的伯乐，当初是他力主把乔丹从麻省理工学院引进到伯克利分校的。乔丹教授既是一流的计算机学家，又是一流的统计学家，而他的博士专业为心理学，他能够承担起建立统计机器学习的重任，为机器学习领域培养了一大批优秀的学者。

斯坦福大学教授弗莱德曼(Jerome Friedman) 早期从事物理学研究，但弗莱德曼是优化算法大师，他特别善于从优化的视角来研究统计方法，比如由此提出了多元自适应回归(Multivariate Adaptive Regression Splines, MARS) 和梯度推进机(Gradient Boosting Machines, GBM) 等经典机器学习算法。多伦多大学的辛顿教授是世界最著名的认知心理学家和计算机科学家。虽然他很早就成就斐然，在学术界久负盛名，但他依然始终活跃在一线，自己写代码。他提出的许多想法简单、可行又非常有效，被称为伟大的思想家。正是由于他的睿智和身体力行，深度学习技术迎来了革命性的突破。

总之，这些学者非常务实，从不提那些空洞无物的概念和框架。他们遵循自下而上的方式，从具体问题、模型、方法、算法等着手，一步一步实现系统化。

可以说机器学习是由学术界、工业界、创业界（或竞赛界）等合力造就的。学术界是引擎，工业界是驱动，创业界是活力和未来。学术界和工业界应该有各自的职责和分工。学术界的职责在于建立和发展机器学习学科，培养机器学习领域的专门人才；而大项目、大工程更应该由市场来驱动，由工业界来实施和完成。

我国机器学习发展现状和出路

机器学习在我国得到了广泛的关注，也取得了一定的成绩，但我觉得大多数研究集中在数据挖掘层面，我国从事纯粹机器学习研究的学者屈指可数。在计算机学术界，理论、方法等基础性的研究没有得到足够重视，一些理论背景深厚的领域甚至被边缘化。而一些“过剩学科”、“夕阳学科”则聚集了大量的人力、财力，这使得我国在国际主流计算机领域中缺乏竞争力和影响力。

统计学在我国还是一个弱势学科，最近才被国家定为一级学科。我国统计学处于两个极端，一是它被当作数学的一个分支，主要研究概率论、随机过程以及数理统计理论等。二是它被划为经济学的分支，主要研究经济分析中的应用。而机器学习在统计学界还没有被深度地关注。统计学和计算机科学仍处于沃塞曼所说的“各自为战”阶段。

我国计算机学科的培养体系还基本停留在早期发展阶段，如今的学生从小就与计算机接触，他们的编程能力和国外学生相比没有任何劣势。但由于理论知识一直没有被充分重视，而且统计学的重要性没有被充分认识到，这些造成了学生的数学能力和国外著名高校相比差距很大。我国大多数大学计算机专业的本科生都开设了人工智能课程，研究生则开设了机器学习课程，但无论是深度、宽度还是知识结构都落后于学科的发展，不能适应时代的需要。因此，人才的培养无论是质量还是数量都无法满足工业界的迫切需求。

目前数据科学专业在我国得到了极大的关注，北京大学、复旦大学和中国人民大学等依托雄厚的统计学实力纷纷建立了数据科学专业或大数据研究院，并已经开始招收本科生和研究生。但是目前还没有一所大学开设机器学习专业。机器学习对其他应用或理论学科有辐射作用，也是连接两者的纽带。一方面它可以为理论端储备人才，另一方面可以结合不同领域问题，比如医疗数据、金融数据、图像视频数据等，为应用端输送人才。因此，我认为在计算机科学和应用数学本科专业中，增加机器学习的训练是必要的。

机器学习集技术、科学与艺术于一体，它有别于传统人工智能，是现代人工智能的核心。它牵涉到统计、优化、矩阵分析、理论计算机、编程、分布式计算等。因此，建议在已有的计算机专业本科生课程的基础上，适当加强概率、统计和矩阵分析等课程，下面是具体课程设置和相关教材的建议：
加强概率与统计的基础课程，建议采用莫里斯·德格鲁特(Morris H.DeGroot) 和马克·舍维什(Mark J.Schervish) 合著的第四版《概率论与数理统计》(Probability and Statistics) 为教材。

在线性代数课程里，加强矩阵分析的内容。教材建议使用吉尔伯特·斯特朗(Gilbert Strang) 的《线性代数导论》(Introduction to Linear Algebra)。吉尔伯特·斯特朗在麻省理工学院一直讲述线性代数，他的网上视频课程堪称经典。后续建议开设矩阵计算，采用特雷费森·劳埃德(Trefethen N.Lloyd) 和戴维·鲍(David Bau lll) 著作的《数值线性代数》(Numerical Linear Algebra) 为教科书。

开设机器学习课程。机器学习有许多经典的书籍，但大多不太适宜做本科生的教材。最近，麻省理工学院出版的约翰·凯莱赫(John D.Kelleher) 和布瑞恩·麦克·纳米(Brian Mac Namee) 等人著作的《机器学习基础之预测数据分析》(Fundamentals of Machine Learning for Predictive Data Analytics )，或者安得烈·韦伯 (Andrew R.Webb) 和基思·科普塞(Keith D.Copsey) 合著的第三版《统计模式识别》(Statistical Pattern Recognition ) 比较适合作为本科生的教科书。同时建议课程设置实践环节，让学生尝试将机器学习方法应用到某些特定问题中。

此外，我建议设立以下课程作为本科计算机专业的提高课程或者荣誉课程。特别是，国内有些大学计算机专业设立了拔尖人才项目，我认为以下课程可以考虑列入该项目的培养计划中。事实上，上海交通大学ACM 班就开设了随机算法和统计机器学习等课程。

开设数值优化课程，建议参考教材乔治·诺塞达尔(Jorge Nocedal) 和史蒂芬·赖特(Stephen J.Wright) 的第二版《数值优化》(Numerical Optimization ) ，或者开设数值分析，建议采用蒂莫西·索尔的《数值分析》(Numerical Analysis) 为教材。

加强算法课程，增加高级算法，比如随机算法，参考教材是迈克尔·米曾马克(Michael Mitzenmacher) 和伊莱·阿普法(Eli Upfal) 的《概率与计算：随机算法与概率分析》(Probability and Computing: Randomized Algorithms and Probabilistic Analysis)。

在程序设计方面，增加或加强并行计算的内容。特别是在深度学习技术的执行中，通常需要GPU 加速，可以使用戴维·柯克 (David B.Kirk) 和胡文美(Wen-mei W.Hwu) 的教材《大规模并行处理器编程实战》（第二版）(Programming Massively Parallel Processors:A Hands-on Approach,Second Edition ) ；另外，还可以参考优达学城(Udacity) 上英伟达(Nvidia) 讲解CUDA 计算的公开课。

我认为以计算机科学为主导，联合统计和应用数学专业，开设机器学习研究生专业是值得考虑的。研究生专业应该围绕理论机器学习、概率与随机图模型、贝叶斯方法、大规模优化算法、深度学习等基础机器学习领域。建议开设理论机器学习、概率图模型、统计推断与贝叶斯分析、凸分析与优化、强化学习、信息论等课程。在附录我列出了一些相应书籍供参考。

结语

在AlphaGo和李世石九段对弈中，一个值得关注的细节是，代表AlphaGo方悬挂的是英国国旗。我们知道AlphaGo是由deep mind团队研发的，deep mind是一家英国公司，但后来被google公司收购了。科学成果是世界人民共同拥有和分享的财富，但科学家则是有其国家情怀和归属感的。
位低不敢忘春秋大义，我深切地认为我国人工智能发展的根本出路在于教育。只有培养出一批批数理基础深厚、动手执行力极强，有真正融合交叉能力和国际视野的人才，我们才会有大作为。
◆ ◆ ◆ ◆
附录：参考书籍
ShaiShalew-ShwartzandShaiBen-David.Understanding Machine Learning:from Theory to Algorithms.Cambridge University Press.2014
George Casella and Roger L.Berger.Statistical Inference, second edition.The Wadsworth Group,2002.
Andrew Gelman et al.Bayesian Data Analysis,Third edition.CRC,2014.
Daphne Koller and Nir Friedman.Probabilistic Graphical Models:Principles and Techniques.MIT,2009.
Jonathan M.Borwein and Adrian S.Lewis.Convex Analysis and Nonlinear Optimization:Theory and Examples,second edition.Springer,2006.
Avrim Blum,John Hopcroft,and Ravindran Kannan.Foundation of Data Science.2016.
Richaerd S.Sutton and Andrew G.Barto.Reinforcement Learning:An Introduction.MIT,2012.
Thomas M.Cover and Joy A. Thomas.Elements of Information Theory.John Wiley & Sons,2012.

本文是根据在统计之都微博发布的《机器学习：统计与计算之恋》和中国计算机学会通讯发表的《机器学习的发展历程及启示》修订而成。

——2017年1月9日修订于静园6院

--------------------- 本文来自帅气的弟八哥的CSDN 博客，全文地址请点击：https://blog.csdn.net/jiandanjinxin/article/details/54378945?utm_source=copy

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
活给自己看，笑容才灿烂听着了么
白岩松说“有时候，我们活得很累，并非生活过于刻薄，而是我们太容易被外界的氛围所感染，被他人的情绪所左右。”心情是自己的。若只是活在别人的眼里、嘴里，便掌握不了让自己开心的主动权。人活着，不是为了活给别人看的，唯有做最真实的自己，活给自己看，笑容才灿烂。诚然，世事纷繁复杂，人人都有一张嘴，管也管不了。永远有人欣赏你，也永远有人批评你，不可能做到让所有人都满意，开心做自己才是最重要的。人生苦短，有太多
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
春季养肝正当时 dxn悟
重温快乐2023年2月4日立春。春天来了，春暖花开，小鸟欢唱，那在这样的季节我们如何养肝呢？自然界的春季对应中医五行的木，人体五脏肝属木，“木曰曲直”，是以树干曲曲直直地向上、向外伸长舒展的生发姿态，来形容具有生长、升发、条达、舒畅等特征的食物及现象。根据中医天人相应的理念，肝五行属木，喜条达，主疏泄，与春天相应，所以春天最适合养肝。养肝首先要少生气，因为肝喜条达恶抑郁。人体五志肝为怒，生气发怒最
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
2018-12-29 枫叶红时总多离别
2018年12月29日星期六昨天老师就告诉我们，今天下午不用上课，是图书漂流活动会。我觉得很兴奋，好期待。到了下午，我帮好忙就到外面去买书，刚一出去，就有一大帮的大哥哥、大姐姐围着我问要不要买书，买一本书送一颗糖。我看到了一本《小老虎比上树》的书，问大姐姐多少钱，大姐姐说这本书原价13块，现在便宜4块钱也就是9块钱卖给你，我就把一张10块钱给她找，她找了我一块钱。我现在想想我今天只带了10块钱，现
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
似乎老是忘记什么东西灰台
S带上了耳机，眼前的一切都与她隔绝开来。虽是初春的好天气，花都开的正鲜艳，行人也都驻足欣赏，还有不少怀着好心情的年轻人在花树下打闹。不过S似乎并不在意这些，连耳机传来的rap也没有调动起她的兴致。一瞬间，心脏好像变成了黑洞，“啊，我身边还有几个人呢，似乎没有了吧”。阳光的温度覆盖到了脖子上，S抬头看了看开满花的树，“我妈好像还挺喜欢花的”，S随手拍了一张照片，微信发到自己一家三口的群里。过了一会，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
119:虚惊一场追梦的小蚂蚁
医院体检结果出来了。老a被通知再次去复查，又复查了一遍，结果还是不理想。老a心里有点不痛快了，难不成饭吃到头了？这人生最悲剧的事情就是人没了，钱还没花完。我从明天开始想吃的想喝的一毛都不省，天天抽华子。上班期间，老a掏出华子给人散。老c：“这发什么横财了？都整上了华子了？”老a：“别tm废话，抽不？不抽我装上了！”老c：“哥哥，肯定抽啊，拿来。”老a：“就凭这个哥哥，以后给你天天发华子！”老c：“
虚张声势六月荷清香
绵绵密密的细雨不间断地下个不停，给这初冬的天气添了几份清冷和寂寥。午后的菜市场内没有一个顾客光顾，几个分肉的屠户望着案板上那些没有分完的肉，还在期待着来一个主顾将它们一起买走。贩卖小菜的女人一边漫不经心地择着菜，一边不时打个哈欠，这样的时光正是好睡觉的时候，可是一天的工作没有完成，还是要坚守岗位。喜欢开玩笑的屠户不时说几句黄段子，调侃着胖胖的卖鸡老板娘，大家说说笑笑着以打发这无聊的时光。张屠户打了
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
《感恩日志》第八天祖乐
1.感恩武老师给姑娘朋友的宝宝起了名字。2.感恩张淑珍老师及时发的红包让我和杜姐能按时听课学习。3.感恩今天所有的遇见
戴先华2021.4.18《我的第129篇幸运作业》 39f4298779c4
2021.4.18今天小宝和大表姐出去玩，我和婆婆在烧饭，突然小宝冲了进来，告诉奶奶说：“奶奶，奶奶姐姐在亭子里倒了”我一下子看出小宝的紧张，马上跑了出去，发现大外甥女又患了病，看起来心疼极了，整个人面朝地下的倒下了，在地上不停的抽搐，额头摔了一个大泡，整张脸都是紫色的，眼睛边上都出血了，真的是非常紧张，这么多年姐姐两夫妻就这样看着自己的孩子一次次晕倒，姐夫这么多年，年年都拿不出钱回家，使得家一次
疯丫头（四岁）明媚如月
妞妞在姥姥家呆了十多天，姥爷问她，想不想爸爸，妞妞说想，姥爷说，我把你送回去吧，妞妞说，不行，我要等爸爸来接我。让妞妞吃东西，她不吃，说再吃会吃成大胖子。妞妞不喜欢上幼儿园，马上要开学了，我引导她，说一些幼儿园的趣事儿，她打断我，说，别说啦！好吧，我闭嘴。还总说，妈妈不上班，陪她玩儿。我总说她长了张女孩儿脸，内心住着个女孩子，甚至是个猴子，淘的不要不要的。大中午的，晒着毒辣的大太阳在院子里玩儿水，
《华杉讲透王阳明传习录》微微微微神
〔5〕希渊问：“圣人可学而至。然伯夷伊尹于孔子，才力终不同。其同谓之圣者安在”？先生曰，“圣人之所以为圣，只是其心纯乎天理，而无人欲之杂。犹精金之所以为精，但以其成色足而无铜铅之杂也。人到纯乎天理方是圣。金到足色方是精。然圣人之才力，亦有大小不同。犹金之分两有轻重。尧舜犹万镒。文王孔子犹九千镒。禹汤武王犹七八千镒。伯夷伊尹犹四五千镒。才力不同，而纯乎天理则同。皆可谓之圣人。犹分两虽不同，而足色则同
乡愁誰家今夜扁舟子
从前乡愁是一张张火车票我在这头故乡在那头而现在乡愁是一张张核算检测证明我在这头故乡说：你就在那头吧，别回这头！
【347】脊梁式普通教师——《教育的100种可能（上）》（5）向日葵_1f86
用心是一节课，敷衍也是一节课，但是我们的尽心与否，很可能会改变一个孩子的人生轨迹。——李镇西学生张春银李镇西老师说：张春银不是“全国劳模”“特级教师”，但他真正代表了绝大多数的平凡教师、普通劳动者，这就是我要写张春银的原因。张春银老师是乡村教育的默默守望者，用他的爱守护着每一个孩子，上好每一堂课，用自己的青春去呵护孩子们的快乐成长。因为教育行走，我们也听到了更多乡村教师的故事，他们也都是用自己的爱
张芝华49天共修 - 草稿李娟AINI
祈禱、靜心、源代碼編程、觀想發願四根支柱，運用靈性能量的助力，讓夢想和渴望在最大向度中輕鬆實現。共修群指定书籍:1.能断金刚麦克格西2.新世界：灵性的觉醒埃克哈特·托尔3.爱是一切的答案芭芭拉迪安吉莉思4.完美的爱,不完美的关系约翰•威尔伍德5.爱的业力法则麦克格西6.漫画《金刚经》蔡志忠7.蔡志忠典藏国学漫画系列(套装共6册)作业:全部在共修群里完成，并请保存好自己的作业。l一周三次共修觉察作业
《前夫如龙》王昊江琼（独家小说）精彩TXT阅读海边书楼
《前夫如龙》王昊江琼（独家小说）精彩TXT阅读主角：王昊江琼简介：离婚那天，她视他如泥土。谁曾想，消息一出，天下震动！可关注微信公众号【风车文楼】去回个书号【203】，即可免费阅读【前夫如龙】全文！江芸并未听出华少龙声音里的冷漠，依旧一脸笑容道：“是啊，那个废物哪儿配得上我姐？这些年，我姐对他仁至义尽了。以后，华少爷可以多跟我姐接触接触，只有华少爷这样的人，才配得上我姐啊！”江琼低着头，微微有些娇
离奇的投毒案（七）蜗居山人
（接上文）庭审很快开始了，李妹坐在旁听席的第一排，她想看看丈夫到底是不是害死儿女的凶手。公诉人宣读起诉书后，审判长询问张春对起诉书指控的犯罪事实是否承认，张春矢口否认，当庭翻供。李妹心中一阵得意：“我早就判断丈夫不是凶手！刑警队弄错了，这下看武队长如何收场！这可是公开审理。”审判长问：“你怎么在公安机关承认犯罪事实呢？”“他们刑讯逼供，没有办法我只能承认。”李妹心里嘟囔：“俺丈夫爱我和孩子胜过爱他
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

关于机器学习的领悟与反思（张志华北大数学系教授）

你可能感兴趣的:(人工智能,机器学习,张志华)