BAAIBeijing

林宙辰：实现机器学习科研从 0 到 1，没有什么比一个好的理论更加实用

智源导读：林宙辰，是北京大学教授、智源学者，在机器学习和计算机视觉领域颇有建树，谷歌学术引用 1.8万余次。曾先后就读于南开大学、北京大学以及香港理工大学，并在微软亚洲研究院视觉计算组工作多年，2012年入职北京大学，并成立 ZERO 实验室，在学生培养上有独到见解。

近期【极市平台】采访了林宙辰教授，分别围绕其研究经历、对科研的看法、对实验室建设的见解，以及对机器学习前沿的认识等进行问答。

智源社区转载本文，供读者参考。

来源：极市平台

林宙辰与微软亚洲研究院的故事

在博士毕业前，林宙辰教授与微软亚洲研究院曾有过一段有趣的经历：

微软亚洲研究院成立于1998年11月。彼时，还在北大读博士二年级的林宙辰教授非常关注这件事情。当时他的一位即将毕业的同学想去参加应聘副研究员的笔试，但不知道微软亚洲研究院的地理位置，于是林宙辰教授就带着他去。到了之后，因为笔试的入场条件较为宽松，因此，怀着为自己一年后的找工作做预备的打算，林宙辰教授临时参加了这场考试。

虽然没有任何准备，但因为扎实的数学功底，林宙辰教授在这场参与者约200人的微软亚洲研究院招聘笔试中考取了第二名的好成绩。于是时任视觉计算组主管的沈向洋博士邀请林宙辰教授做实习生。第二年，林宙辰教授博士毕业后就非常顺利地加入了微软亚洲研究院，一干就是十二年。

何谓好的机器学习论文

在微软亚洲研究院视觉计算组担任主管研究员期间，林宙辰教授曾写过一篇关于学术论文写作的文章：《好论文是如何炼成的》，系统地解答了：“为什么要写论文”、“什么样的论文才是好论文”、“好论文是如何写出来的”三个问题。

在本次访谈中，林宙辰教授再次为我们表达了他对于定义好的机器学习与计算机视觉科研论文的标准：

林宙辰：

我一直认为，论文有两种：一种是有趣的论文，一种是有用的论文。可能大部分人都会倾向于选择有用的论文，认为它能够解决问题。但是我个人还是比较倾向于有趣的论文。当然，有用可能更好，但是有趣这个因素也不可或缺。

那么，什么是有趣的论文？我认为，有趣是指我这篇论文背后有很好的数学理论和数学模型，我也能够阐明其原理。我们不需要像纯数学那么严格地进行证明，只要能够从直观上说明算法后面的机理，能够让别人相信我的这个算法或模型是有效的，这样就能算作一篇有趣的论文。如果只是单纯靠实验来论证，缺乏理论的支撑，我个人不是特别欣赏。

因此，作为一篇好的机器学习与计算机视觉科研论文，首先要有很好的问题背景，不能是为了灌水来写的，而是要的确洞察到了目前领域中所面临的关键性的问题。当然，这个问题可大可小，如果解决一些特别关键的问题，就是一个非常大的突破了。也可以是一个小的关键问题，如果能解决，就会给现有的技术或者知识做出实质性的贡献。这样就是一个很好的写论文的动机。

接下来，需要有较好的数学模型，能用于描述这篇论文所提出来的思想和方法。最后，还要有一些分析，可多可少，我们希望这些分析能有一定的指导作用。另外，在逻辑组织方面，读起来要能顺应大家的正常思维，不能过于跳跃。文字是否优美是其次的，重点是要在逻辑上保持流畅。另外，也不要有英文上的常见错误。对于实验结果，我自己的很多文章，其实结果都没有特别惊艳，但只要结果能够与我的数学模型和理论预测能够吻合，我觉得就足够了。会有其他人替我改进实验结果。

林宙辰与他的实验室：ZERO

在访谈过程中，林宙辰教授向我们展现出他作为一位机器学习科研工作者特有的风趣幽默而又严谨细致的形象。林宙辰教授实验室的名字叫ZERO（Zeal, Excellence, Reliability and Openness），他为我们解释了这个十分有趣的名字的由来：

林宙辰：

实验室名字叫“ZERO”其实有多方面原因。首先考虑到名字要朗朗上口，而我自己就姓“林”。当时我们也没有想要按研究方向来命名，所以就以我名字的谐音命名为“ZERO”。这其中蕴涵着我们对于做原创性研究的目标，我们希望从零出发，努力实现从零到一。然后我们再考虑如何更进一步来解释“ZERO”这个词语，也是建立我们实验室的文化。

我认为“Zeal”、“Excellence”、“Reliability”和“Openness”这几个词语非常符合我对学生的预期：

“Zeal”是指对所做的事情要有热情。我对学生做事情时的热情以及自我驱动看得非常重，因为这是超越智力的。有些同学非常聪明，但是他没有把绝大部分时间放在研究上面，那么他可能做不出有价值、有深度的研究成果。平时我们实验室不打卡，学生全靠积极性，实验室的位置也是流动的，学生可以不在实验室做研究，在宿舍或者图书馆都可以，全都是靠我的学生自觉地工作。同时在我们实验室内部，学生之间会有一些以学生为主的讨论。我在其中承担的角色则是在研究课题方面对他们进行引导。

“Excellence”是指我们要做出色的工作，要做有影响力的工作，而不是做‘差不多就行了’的工作。说得俗一点，我们的论文都要瞄准A类会议和A类期刊。当然并不是说要唯论文，但这也能起到较好的激励或者引导作用，希望我们论文能够发在最有影响力的地方，能够被大家所尊重。这也是一种目标。

“Reliability”是指做人说话要可靠，做的实验也要可靠。我希望我的学生，当我把任务布置下去的时候，能够自我驱动，把它尽量完成，实验不要掺杂虚假成分。虽然我们是偏理论的研究，大部分属于验证性实验，但我们也希望报告真实情况，而不是挑一些对我们有利的结果来汇报。当然，代码也不允许有任何不实成分。

“Openness”的意思是我鼓励同学们进行内部合作，也欢迎跟外界进行合作，不能仅仅把自己的想法藏在我们内部。我们希望通过合作，能够把研究做得更对、更深入、也更广泛。另外，“Openness”也指希望同学们在生活中也能更开放，交更多的朋友。这样在读研的过程以及未来科研的过程中，就能够走得更加顺利一点。

我们实验室的研究主要通过同学之间的互相促进，并不靠我给他们压力。我跟我的学生说过，打个武侠小说中的比方，当年全真七子跟欧阳锋打架，全真七子每个人都打不过欧阳锋。但是他们连在一起，一个人接着一个人的时候，欧阳锋就推不动了。我有那么多学生，如果全靠我去推，我肯定是推不动的。只有他们自己有足够的动力，我才能帮助他们跑得更远、跳得更高。

对数学的热爱

作为一个机器学习领域的学者，林宙辰教授对于数学的热爱体现在他科研的各个方面。谈到数学基础对于机器学习与计算机视觉的重要性，林宙辰教授有这些观点：

林宙辰：

我认为数学在计算机科学领域的研究中，起到了非常大的基础性作用。如果数学基础不好，就会限制一个人的创造性、洞察力以及能达到的高度。虽说人工智能有很多较为工程的研究方向，但是从理论深度方面来看，数学还是起到了决定性作用。尤其是在以统计学、计算机科学，还有优化算法作为支撑的机器学习领域，它往往需要建立数学模型。因此，如果数学比较薄弱的话，就很难玩得动机器学习，更不要说成为机器学习领域的引领者。不过对于当前的计算机视觉而言，它相对机器学习更加偏工程一些，可能对数学的要求就没那么高。尽管如此，数学对于研究的深度和广度，还是会有很大帮助的。

因此，我也希望学生能打好数学基础。事实上，我不太鼓励在本科阶段就赶紧发论文、发顶会。因为像数学这种基础学科，本科期间的学习是个非常好的一个修炼机会，错过了以后可能就不会再有了，而论文迟早都会有的。简言之，基础知识如果没有在合适的时间掌握好的话，将来就很难补上了。

没有什么比好的理论更加实用

除了对数学的热爱，林宙辰教授在他多年的机器学习研究工作中，一直遵从Vladimir N. Vapnik 的名言：“Nothing is more practical than a good theory.”（没有什么比一个好的理论更加实用）。

为什么以这句话作为研究理念？对此，林宙辰教授这样回答：

林宙辰：

我非常认可这句名言。如果没有理论，就很难确定你的方法什么时候能行，什么时候不行，它与仅仅只是在工程上的经验是截然不同的。比如，深度神经网络分析是非常难的问题，目前也有不少严肃的学者在研究深度学习背后的机理。但现在的很多深度学习方法，都陷入了一个缺乏理论指导的困境。而以我本人这么多年的研究经历来看，我觉得我做的东西，总得有一些数学理论和数学模型作为支撑，否则做起来没有感觉。因此，我现在要求我的学生读论文、写论文时，要有一定篇幅的数学推导或证明。

当然，理论不能解决所有问题。对数学模型或算法进行分析时，我们希望能在适当简化之后保持其本质特征。如果实验结果能够与理论相匹配，那我就会对这项工作非常有信心。否则，就会心里觉得不踏实，总觉得更换数据集之后，效果就可能得不到保证。

高维复杂数据的低秩模型理论与方法

今年十月，林宙辰教授团队的项目《高维复杂数据的低秩模型理论与方法》获得了2020年CCF科学技术奖自然科学一等奖。从人工智能领域高维复杂数据的低秩性出发，利用低秩分析、谱图理论等技术，从低秩模型提取、高效优化算法、高维数据分析方面做出了多个重要的理论发现，对高维数据的建模提供了新的理论工具和技术方案。在本次访谈中，林教授为我们介绍了这个项目的研究背景、动机以及所解决的问题：

林宙辰：

大家都知道，一个项目如果能获奖，那它不是短期内就能完成的，都是长期以来的工作成果。事实上，我们的这个工作早在2010年就开始做了，后来陆陆续续做到2018年。18年之后，低秩方面的工作就慢慢减少下来。我们的目的是为了解决高维数据中，怎么解决缺失数据和明显偏离正常值的例外值的问题，也就是要处理现实世界中不完美的情况。

举个例子，假定社会上都是好人，那么社会就很好，一切都很完美，大家互相帮助。但是会有些坏人，专门搞破坏、干扰秩序的人，就会对社会造成滋扰。在科学界中也是一样，我们拿到了一些数据，都不是非常完美的，都带有一些噪声、缺失值，还有一些例外值。那么在这种情况下，如果直接用的话，就会对后续任务造成非常大的干扰，也就是你算出来的结果可能并不是你所需要的。那么，我们通过引入‘低秩’这么一个概念，对整个数据集起到很强的整体约束作用。这样，一些例外值就可以检测得出来，同时也能补齐一些缺失值和去除噪声。经过我们的这种方法处理之后，后续任务的性能就会得到非常明显的提升。

另外，我们跟其他研究者做得不一样的一点是，我们提供了非常深刻的理论分析，以此来保证我们所提出来数学模型在现实中的有效性，即如果满足我们的条件，我们就可以确保算出来的结果是正确的，这是在模型方面。另一方面，如果一个模型不能快速求解的话，那么它的实用性就比较差。于是在算法方面，我们还提出了一些比较实用的快速算法，来保证我们所提出的这些数学模型能够快速有效地求解。

因此，这次我们就把这些年来的工作进行了总结，得出了净化高维复杂数据、提取其内在结构的系统性方法。低秩模型在深度学习之前是一个非常受欢迎的研究领域，国内很多同行对我们的工作也有一定的了解，所以在这次评选过程中得到了他们的支持，在这里我特别感谢他们。

对机器学习优化算法领域研究的前沿观点

作为机器学习优化算法领域的知名学者，在这次访谈中，林宙辰教授也谈到了他对于机器学习优化算法领域值得研究的课题，以及机器学习理论与工程实践的结合应用方面的一些观点：

林宙辰：

在机器学习优化算法领域，我认为值得研究的有分布式算法和随机算法这两个方面。

因为当面临高维、海量的数据时，要能有效地计算的话，分布式优化和随机优化这两类算法基本上是不可避免的。那么传统的优化算法可能就不够实用。在算法复杂性这一方面，传统算法往往有一个明确的复杂度下界，复杂度不可能比这个下界低。所以我们最近在做一些基于学习的优化，能够把数据的一些特性吸收到算法内部，极大地加速算法的收敛性，而且在理论上能够保证它是正确的。

还有一个值得研究的内容是双层优化。双层优化基本是专门为机器学习领域定制的，但是大家可能没有太意识到。双层优化的上层是在验证集上的错误率，下层优化则是在训练集上的错误率。上层要找超参，下层则是在给定的超参之下优化模型本身的一些可训练的参数。所以双层优化是天然地在机器学习中随处可见的。但是这方面的研究在前几年比较欠缺，这两年大家可能又开始关注起来。所以我认为随机、分布式、基于学习的优化、还有双层优化都是比较值得探索的。传统优化还有一些理论方面的硬骨头，我个人不是特别喜欢去啃。如果对产业有影响的话，我觉得还是应该考虑我刚才说的四个方向。

关于这些理论工作如何与工程实践相结合的问题，事实上机器学习中的优化理论与算法的应用性都是比较强的。某个算法如果比较快的话，大家都会马上用它，在一些特定的问题上进行测试和检验。但是有些算法的分析可能比较宽泛，虽然在阶上有一定的提升，但是实际效果上未必那么好。比如做梯度下降，有些算法声称它的复杂度有阶的下降，但是在现实中，比如用在深度神经网络的训练中，可能就没有看到有明显的加速，因为我们在做有限步运算的时候，这些阶前面的常数可能起很大的作用。我认为，如果不是分析算法复杂度这种特别理论的内容，绝大部分机器学习优化算法都可以直接应用到不同的问题中，我个人对此是比较乐观的。

点击左下角“阅读原文”，了解更多！

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。

林宙辰：实现机器学习科研从 0 到 1，没有什么比一个好的理论更加实用

你可能感兴趣的:(算法,机器学习,人工智能,深度学习,大数据)