Tom Hardy

专访 Swin Transformer 作者胡瀚：面向计算机视觉中的「开放问题」

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

文 | 刘冰一、Echo

编辑 | 极市平台

胡瀚，湖北潜江人，本博均毕业于清华大学自动化系，曾就职于百度研究院深度学习实验室，目前任职于微软亚洲研究院视觉计算组。近期他和团队的“ Swin Transformer：Hierarchical Vision Transformer Using Shifted Windows ” 摘得 ICCV 2021 马尔奖（最佳论文奖）。

#1 从看闲书谈起

科研人员闲暇做什么？也许千人千面。胡瀚在微软亚洲研究院工作，周末他偏好窝在家里看书作消遣。此外，他在工作日早晚也会挤出一段时间用来阅读。最近在看先秦两汉时代的书，翻着翻着他脑海里会闪现一些和工作中的互通之处。比如，那时诸子百家百花齐放，制度创新层出不穷，但这些思想和制度的创新大都是在前人的基础上进行的改进，以此适应最新的社会经济变化。他感慨做研究最好要做到心中有基准线，了解历史的演进过程以及目前支撑技术和生态的变化，这样才能更好地指引研究前进的方向。

《送东阳马生序》中有一句话：「幼时即嗜学，家贫，无从致书以观」。胡瀚的情况跟这有些相似，他从小便喜欢读书，兴趣浓时废寝忘食，索性村里小学的图书馆加一张床，每天泡在书海里。虽然后来学了理科，但他的阅文比较广泛，古今中外兼容并包，他最爱在历史书中索趣，他认为梳理历史脉络有助于树立“大局观”和“联系思维”。

“全局意识”对他学业和科研助益颇深。在思考问题的时候，他常常能够从眼前孤立的局部跳出来，探讨在更大的图景中对正确方向的把握。比如博士期间做视觉分割问题，他打破常规的纯工程角度，试图从人的视觉机制中寻找灵感，以指导和启发新算法的设计，这样最终形成的博士论文不再是纯工程模块的罗列，而是形成了更体系性和前瞻性的思考。

胡瀚对历史有许多自己的思考。说起喜欢的历史人物，他钦佩对人类思想变革有贡献的人，比如宣扬知行合一的王阳明；从底层做起、人格完整的的富兰克林，他的价值观智慧且实在；以及杰斐逊，时值美国建国思想大变革之际，他的政治理念和实践对人类社会的贡献功不可没。开卷有益，博览群书，无功利目的地海量阅读，使他形成了宽厚的知识塔基和灵敏的心智结构，从而在科研输出时尽量“知识自由”“引证自由”。

《卡萨布兰卡》里写到，「你如今的气质里，藏着你走过的路，读过的书和热爱的人。」践行知行合一，胡瀚把书里学到的应用在日常中，他向思想先锋们看齐，勇担最新鲜、最坦率的青年之责。

#2 勇于尝试，向优秀的人学习

胡瀚觉得自己属于理解和适应能力比较好的一类人，运气也比较好，凭借悟性和幸运考入清华。校园里厉害的人太多了，他也不拧巴，成长过程一切顺其自然。

身边的人优秀，会刺激自己变得更优秀，但不会对自己预期过高，我是个普通人，跟天才还是有差距的，并不会因为看到比自己厉害的人而心态失衡。

就像人工智能中的模仿学习，他认为这是最高效的一种学习方式，他不断向身边的人学习好的经验，也学习失败教训。这也是他自认为比较幸运的地方，求学生涯能在最好的学校里向最优秀的同学们学习，工作以后则能在做人工智能研究和工程实践最好的机构向优秀的同事和前辈学习，自己进步很快。

另一方面，就像人工智能中的强化学习，他在试错中成长，也逐渐发现自己擅长和喜欢的事业。清华园里本博十年光阴，就成了他试错、充电的最佳时机。

大学期间，会有意识地积极参加班级活动，也担任过学习委员、班长和团支书的职务，这虽然会占用自己的学习时间，但也通过为班里同学服务补足了自己一些能力方面的欠缺。事实上，刚上大学时，由于年龄偏小，又从比较封闭的农村出来，内心会有不自信并且有社交障碍，积极担任这些职务，也使自己克服了这些短板。

大三，胡瀚跟着周杰老师实验室的一位师兄做 SRT （Student Research Training）项目。正是因为这一次项目经历，他顺利进入了周杰老师实验室并随其读博。读博第一年，他便中了实验室五年以来第一篇 CVPR，这篇文章给了当时的他很大的鼓励，也成为了他科研的一个起点。

我的人生路径不是一开始就规划好的，而是一步一步的往前走，慢慢地发现自己的热爱和擅长之路，导师和师兄也在一直帮助我，我觉得是一件蛮幸运的事。

胡瀚喜欢做一些新的尝试。因为自己从农村里面考出来，想知道基层公务员是什么状态，也想了解国家和基层公务员在农村建设方面更宏观的想法和实践。于是趁着博士阶段的社会实践，他去了往四川绵阳一个小县城的发改局。在此之前，他做了充分地调研和准备，读了三十多本关于中国新农村建设、土地财政税制相关的文科硕博士论文，并给当地政府工作人员分享了许多自己的理解。当地工作人员实践经验丰富，但很少接触相关理论和更广泛范围的实践经验，不少工作人员反馈听完分享后豁然开朗，而自己也很有成就感。

他在博士期间还前往了宾夕法尼亚大学交流。这次经历对他来说是一段新奇又很有帮助的体验，让他感受到了一些国内外科研方式的不同。

我在国外的导师对每位学生项目的技术细节指导地很细致，更 hands-on（亲力亲为）一些，而在国内的导师则会给我很多大方向上的指导和建议，并给与我充分的研究自由度。

这两种不同的风格也影响了他今后在研究工作中和学生的合作和培养模式，他选择去尝试兼顾自由度和亲力亲为。当时他所在的中心主攻机器人方向，20 多位老师里只有 3 位做纯粹的计算机视觉研究，但中心的老师都可以给自己建议和启发。他们在方法论上的引导，一定程度上培养了他的一种问题意识：重要的是提出问题（挖坑），以及在填坑过程中寻找新的重要问题。

博士毕业以后他去了百度研究院的深度学习实验室，该研究院由余凯（现地平线的创始人）挂帅，成为国内最早开启深度学习研究的先锋军之一。他第一个项目是在关于一种新的广告展示样式。以前的搜索引擎广告仅是一个文本链接，不够生动。为了吸引用户点击，团队想到给每个链接配一个优质关联图，这是一个体量很大的工作，他在其中负责将图片裁剪成展示所需比例这个技术模块。从计算机视觉研究来说，这不是一个核心任务，但从商业来看，这一技术却最终带来了令他感到惊讶的巨大价值：促使点击率上升5个百分点，这也意味着百度年利润能提升35亿人民币的规模。这次经历彻底刷新了他的认知，也丰富了他看问题的维度。

在百度刷新认知的事情经常上演，这里相比此前在学校里的研究工作更靠近商业和技术前沿，他也得以迅速提升了自己的工程能力、business sense（商业敏感）、问题研判能力、以及拓宽了思考维度。凭借出色能力他很快被安排去承担 tech leader 的角色，但不久以后的他重新为自己的人生做了一次选择：去微软亚洲研究院视觉计算组，做回一名一线的研究员。

现在回头来看这个选择无疑是正确的。当时他在百度的工作更多地偏向业务落地，主要考量技术能否为企业的商业目标服务；而微软亚研偏向做基础研究，而且他所去的这个团队刚做出来ResNet这一革命性的工作。对他而言这是一次机会，因为可以在最顶级的研究团队里学习和成长，同时这也是一个挑战，主要在于从业务应用重回基础研究的不确定感，不清楚自己能否做出一些真正具有长远影响的基础研究工作。幸运的是，微软亚洲研究院视觉计算组无愧被称为计算机视觉界的“黄埔军校”，不仅研究做的厉害，更重要的是这里很善于培养年轻的研究员，在这个组里的锻炼让他做研究的能力上了一个台阶。

在胡瀚看来，MSRA 有两点很特别，一个是自由的学术氛围，二是很好的传承。MSRA 科研之树长青，智慧代际传承。正是因为有着孙剑、何恺明、华刚、梅涛、王井东、代季峰、危夷晨、Steve Lin 等在科研品味和科研素质方面的培养和训练，例如如何产生一个好想法并将它付诸实践、对实验的严谨苛刻、写作逻辑与细节的把控要求等等，让每一位加入MSRA 的视觉研究者都受益匪浅。而这些资深的研究员则是受更早的如沈向洋、张宏江、郭百宁、汤晓鸥、马毅等前辈研究员的指导而取得的巨大成长。现如今，胡瀚也感受到了一种传承的使命感，希望将这两个特别的地方传承下去，以期为公司和整个社会培养更多的人才。

#3 一个好的科研想法的台前与幕后

胡瀚所在的组里有几位年轻的研究员，还有 10 位左右博士生，这些博士生主要是微软和高校联合培养项目的博士生。

很多工作看起来是灵感迸发、幸运之至，但背后可能是整个团队多次郁塞地尝试。

Swin Transformer 的提出就有一段这样的经历。在两三年前，胡瀚和团队做过一个关于局部关系网络（Local Relation Networks）的研究，这一工作被 ICCV 2019 所接收。在做这个工作时，他们就尝试了第一个完全基于自注意力而无需卷积的骨干网络，但基于滑动窗口的自注意单元对GPU显存访问不太友好，使得计算速度较慢不太实用。正是因为有这样的经验，在设计Swin Transformer时，他们直接跳过了滑动窗口，选择了不重叠窗口。而移位的思想则是受到了胡瀚四年前的另一个未发表的工作的启发。

不重叠窗口以及移位的设计也是 Swin Transformer 能从众多视觉 Transformer 中脱颖而出的亮点所在。利用移动窗口对分层 Transformer 的表征进行计算，并通过将自注意力计算限制在不重叠的局部串口，同时在不同的层中允许跨窗口连接。这种分层结构可以灵活地在不同尺度上建模，并使得计算复杂度和图像大小线性相关。下图为在 Swin Transformer 架构中利用移位窗口计算自注意力的示意图：

与开放问题对话一直是胡瀚在做研究上的一大追求。“以前的Transformer只能做图像分类，但它能不能解决更多的视觉问题？”“当Transformer能用于更多视觉问题的时候，到底未来应该选CNN还是Transformer？”为了回答这些问题，团队花了很大精力把Swin Transformer的性能调优，使得它在一些重要的评测集上面能够超出CNN三个点。这时他们发现，在尝试寻找第一个开放问题的答案时，很自然地、顺利地就找到了接下来需要解答的重要问题。

能回答一些重要问题的工作总是很难得，胡瀚觉得碰到默契的团队是非常幸运的。在研究中，团队每一个人都能发挥自己的特长。论文投稿前最后一个月，他们每个人都在想怎样把方法和结果做到极致，调用自己 120% 的精力。

在大家共同的努力下，Swin Transformer 实现了颇具竞争力的性能表现，在目标检测、实例分割和语义分割等几个重要的视觉任务中显著超越了此前最好的基于卷积神经网络的方法。10月13日，两年一度的计算机视觉顶会 ICCV 2021 优秀论文评选结果揭晓，Swin Transformer 收获了一个在计算机视觉领域非常有分量的认可——摘得马尔奖（最佳论文奖）。

在获得马尔奖后，胡瀚和团队瞄准了下一个重要的问题：视觉领域能如NLP领域一样开启大模型的时代吗？如何才能有效地稳定训练视觉大模型？不久前他们尝试回答这些问题，并给出了肯定的答案，发现视觉大模型也能给各种视觉问题带来广泛且显著的提升。

SwinT 证明 Transformer 在几种典型的视觉任务均能显著超越 CNN，胡瀚对 Transformer 的未来发展是非常的看好的，他认为不论是生态层面还是技术层面，Transformer都将很快全面取代CNN。

Transformer具有更强的建模能力、和卷积形成互补、对大模型和大数据有更好的扩展性、且能够更好地连接视觉和语言。

他相信视觉 Transformer 将开启计算机视觉建模的新时代。事实上，Transformer 自提出以来，在计算机视觉领域也一直存在不同的声音，有很多人认为 CNN 在改进训练方式后性能将可以和 Transformer 比肩，以及 CNN 在移动端性能上仍是更优的选择等等。对于学术观点差异，胡瀚一直以一种拥抱和欢迎的态度面对。「这是个好事情，学术界没有多样性就很难有创新。」他很乐意听到不同的思考，帮助发现自己观点的好坏，在辩论和碰撞中才能得到更正确的认知。

在胡瀚看来，做研究的目标不仅仅是去发明新的更好的工程实践，更重要的目标是探索一个领域更正确的认知，以及指引更正确的前进方向。他在自己的科研中践行着这样的目标，他认为这可能是他和团队能幸运取得这些研究成果最重要的原因之一。当然他也坦承这并不容易，需要投入大量时间和经历，对此，胡瀚提到，做研究很多时候是一种自我驱动，是追求自己内心深处的一种使命感，因此常常会将很多本应给家人的时间也投入到了研究中，想到这一点，他特别感谢家人的理解和支持。

“志之所趋，无远弗届，穷山距海，不能限也。”赤子之心至诚，希望赶路人乘风破浪至远！

本文仅做学术分享，如有侵权，请联系删文。

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

专访 Swin Transformer 作者胡瀚：面向计算机视觉中的「开放问题」

你可能感兴趣的:(卷积,大数据,人工智能,微软,机器学习)