QbitAl

AI前沿：数据智能产品与技术漫谈

创新奇智数据智能产品团队投稿
量子位报道 | 公众号 QbitAI

背景：大数据是AI时代的基石。企业与政府大力加强业务智能、决策智能发展，其中，数据相关的基础设施、应用与服务建设一直是焦点所在。人工智能公司创新奇智的数据智能团队依托Orion自动化机器学习平台，在制造、金融、零售等场景中，积累了不少实践经验。本文以问答方式，与创新奇智的数据智能产品总监、技术总监探讨了数据智能领域的产品与技术实践规律及前沿趋势。

问：如何理解“数据智能”？在行业市场上，数据智能是一个常用于产品宣传，却又缺乏清晰定义的一个术语。该如何看待这个概念的本质？

答：企业和政府信息化部门做了多年的大数据建设，这个领域概念繁多，脉络复杂。经常看到不同背景的人在一起谈数据智能，说的却不是一件事。根据我们的理解：

数据智能的本质是——由高价值大数据有效驱动的智能业务。

从行业客户的业务视角来看，当然是先有业务需求，再有数据智能产品或解决方案。例如，我需要智能营销，自然就引发有关客户画像的机器学习需求，而机器学习类的算法需求又必然引发对高质量数据样本、数据标签等的依赖。

从产品与解决方案的系统视角看，数据智能需要先打下良好的地基——大数据平台，然后在其基础上建设机器学习算法领衔的人工智能平台，以支撑应用层的业务功能，实现客户的业务规划和产出预期。

整个大数据体系的理论基础早在 2004 年前后就已经建立起来了。过去一二十年，行业先解决的是“有没有数据”的问题，即“数字化”“信息化”等老问题。数据在平台内的表现形式经过几次迭代，从单纯的结构化数据，到结构化与非结构化数据的共生，再到多模态数据以及与特定应用类型相关的数据视图，等等。

接下来，完成了信息化建设的行业客户开始把注意力集中到数据本身的价值问题上，即“数据有没有用”的问题。

很长一段时间里，似乎人人都在谈“大数据”，可大多数时候只是“数据大”，很多数据并不知道该如何发挥价值。

其实，真正的大数据不是单纯说数据量有多大，而是要考察数据本身是否蕴含了足够的聚合价值、信息价值、业务价值。一些企业花费资源建了大数据中心，数据量不可谓不大，但遇到业务问题时，要么找不到数据，要么发现数据不合用，要么发现系统缺乏利用数据的有效接口……光有数据而没有应用，这就很难支撑起数据智能的摩天大厦了。

再进一步，当行业客户拥有了高价值的大数据基础后，必然要追求大数据在智能业务中的使用效率和价值回报。最近几年人工智能热度高，不少客户尝试使用机器学习系统来解决业务问题，但数据基础、机器学习算法和业务应用之间往往难以形成良性循环，数据与算法和业务之间的关联度不高，人工智能技术未能深入到核心业务链条中，很难达到一个最佳的投入产出比。

好的数据智能产品必须能解决这些问题，至少，应能做到以下三点：

降低客户积累与聚合高价值大数据的整体成本；
在保障数据安全的基础上，大幅提高客户数据的流转效率和使用效率；
发挥客户大数据中蕴含的信息价值和业务价值，利用智能算法提高客户业务效率。

问：许多客户反映，他们在数据智能建设上的最大痛点是经常发现数据不可见、不好用、噪音多、难聚合、难提炼、难生效。数据智能产品该如何避免这些痛点？

答：从大数据到人工智能的建设链路周期很长。很多客户也是在建设中边摸索、边改进需求、边升级业务流程的。

如果用割裂的方式，分别考察和采购数据库、大数据平台、机器学习算法、业务应用软件等，就很容易导致上述痛点问题的出现。反之，如果能在一个整体思路下，仔细评估数据智能产品与客户当前工具链、价值链的匹配度，项目的成功概率就大了很多。

在工具链层面，客户要采购的数据智能产品必须和今天客户环境中的相关软硬件工具协同工作。技术上，新产品是否能从已有产品中顺利导入导出数据，能否和现有IT运维人员的能力匹配，是否能和已有的数据存储平台兼容等，都是工具链层面需要考察的重点问题。

在价值链层面，数据智能产品与客户的业务有多好的连接度，能同时支持多少业务的运行，能在业务运行时提供多少效率提升或价值提升，最终的投资回报是多少——这些问题不想清楚，上述痛点必然反复出现。

举个例子，我们在为某家银行做智能风控业务时发现，该银行曾经尝试过一个机器学习算法支撑的风控模型，但实施过程中客户自己发现，无论如何优化，该风控模型的“增益”就是上不去，很难在业务层面体现出可见的价值回报。客户回过头来调研后得到结论：

机器学习模型效率不高，是因为从大数据层提取的样本特征质量不高；
样本特征质量不高，是因为大数据层聚合的原始数据噪音较多；
原始数据噪音较多，最明显的原因是已有的大数据平台是与上层的机器学习模型分别建设的，数据虽多，却难以用机器学习算法期待的方式参与上层的风控模型。

简单说，这家银行采购的大数据平台与风控模型之间缺乏可连接性，丰富的数据资源难以发挥效力。我们为这家银行提供的解决方案，就更像是一条能够将大数据平台与智能风控模型联通的自动供应链——其实就是从业务视角出发，将大数据平台的数据在更高一层的视图上进行再次清洗、对齐和平展化，然后在工具链中，增加一个自动特征工程的层级，利用机器学习算法自动完成特征生成、特征价值评估和特征筛选。经过这样的系统改进，最上层的风控模型拿到的样本特征质量获得大幅提高，业务价值也逐渐凸显出来。

问：从大数据到智能决策的整个产品链条，未来的发展趋势是什么？

数据智能的整体产品设计经历了三个发展阶段。我们把各阶段的典型产品形态总结成三种“数据智能范式”：

一、传统范式——以业务单元为核心

由业务需求带动数据需求的模式——早期的数据类应用以业务需求为单元，单独建设，隔离发展。每个业务模块拥有自己独立的数据支撑和应用支撑。

二、流行范式——以数据整合为核心

先有数据汇聚，再共享给不同业务来使用的模式——业务形态的多样化以及客户对投入产出比的高要求必然带来数据层面的整合与业务层面的整合。今天的大多数数据智能系统建设都采用了数据整合、业务整合的思想。例如，数据湖是典型的数据整合层，中间件是典型的业务共享单元层，流行的数据中台则试图将数据与业务的可扩展性容纳到一个统一的体系内。

三、未来范式——以数据资源按需流转为核心

单纯的数据整合与业务整合可以解决资源共享的基本问题，但不易达到数据使用效率的最大化。我们认为，未来更好的数据智能范式，应该是自上而下围绕业务价值建立的数据按需供给、自动响应、安全流转的新范式。

在未来的数据智能范式中，客户对业务价值的要求体现在整个系统架构的设计思路里。自底向上，系统逐层提供数据支撑和业务灵活度：

未来范式的基础是“数据资产地图”。“数据资产”和传统“数据”这两个概念间的最大不同是前者强调数据的可用性，后者强调数据的技术形态。所有数据都可能形成数据资产。我们可以通过智能技术，将数据的潜在价值挖掘出来，例如，将实体间的关系揭示出来，将隐藏在信息背后的深层知识抽取出来，将数据中蕴含的样本特征提炼出来，将数据在高维空间的分布规律描绘出来，等等。我们还可以在非常细的粒度上，为每一“份”数据标记它的来源、位置、交换方式、“健康”状况等。由此，上层算法或应用不仅可以快速找到所需的数据，还可以随时知晓这份数据该如何用，是否可用等。在数据资产地图中，每份数据都是“有生命的”。

未来范式的中间层级是“数据供应链”。这个概念和此前强调数据聚集与使用关系的“数据仓库”以及强调通用业务单元的“中间件”不同。数据供应链更强调数据与不同业务应用之间的无缝衔接和数据在整个业务流程中的安全、有序流转。简单说，未来的大数据不应是静态的数据聚合与共享，而应该是动态的，可以根据业务流程的变化而变化，“按需匹配”完成数据供应的技术体系。

最后，统一的数据资产地图和高效的数据供应链支撑起顶端的数据决策引擎。引擎可以有针对性地调度、获取和应用数据资源，利用机器学习技术为客户业务提供强有力的支持。

拿图书馆来打比方：传统范式下的数据管理就像是每个图书馆各自管理图书，各扫门前雪；流行范式下大集中的数据管理就像是把全国各地图书馆里的书都调过来，统一存在超大规模的库房里。这两种方式各有各的挑战。而在上面谈到的未来范式下，图书本身是不一定要物理集中的，集中和流转的有可能是图书的摘要，有可能是图书的索引，有可能是图书中提取的知识脉络或内容纲要，也有可能是表明图书目前状态和使用价值的元数据。读者可以在任何时候、任何地点，快速定位需要的信息或知识。读者需要什么样的知识组织形式，图书馆就可以按照什么样的形式来重新组织和包装知识——这是知识的按需供应。

所谓“数据供应链”，本质是一种价值传导。很多大数据工程是先搭好数据平台，然后等着业务过来使用，就像图书馆先把图书摆在书架上，等着读者来借阅。如果用动态的思路来看待这个问题，我们完全可以用更低的成本，更聪明地组织好数据资产中的定位信息和元数据，每当一个新的需求方提出了数据访问要求，就很快通过一个灵活的配置文件，将所需的数据组织好，供给到需求方——这是数据价值的按需供应。

问：数据库，数据仓库，数据湖，数据中台，数据集市，数据治理，大数据操作系统，AI操作系统，智能决策引擎……这些相关但内涵又非常不同的概念之间，是否反映了某种技术和产品演进规律？

答：在行业解决方案这个大背景下，技术和产品概念的演进必然是市场需求与技术迭代两者相互作用、相互助力的结果。早期的概念更偏向对技术价值的展现，中后期，这一类概念逐渐转向业务需求驱动，更偏向对业务价值的展现。

例如，很多年前，数据仓库、数据ETL（抽取、转换、加载）的概念更多是从技术侧演进的，基本上源于技术人员在解决那些简单关系型数据库力不从心的任务时的深入思考与高层设计。单点的业务需求和单点的技术积累一旦拓展到不同的数据维度，不同的数据分析方式，就必然引发更高层次的架构组合与技术抽象。

而晚些出现的数据湖、数据集市、数据中台等概念，则更加深刻地体现了系统对业务价值的支撑。产品和技术人员搭建的平台已经从数据库、数据仓库等要解决的“如何存”“如何查”等基础问题，上升到了“不同模态的业务数据如何聚合”“数据如何被业务使用”“业务如何扩展”等问题。后面这些问题显然与业务价值更近。

当然，也有一些概念是纯粹针对市场的包装。比如很多产品声称自己是“AI操作系统”，可业界对什么是“AI操作系统”的理解并不一致，机器学习所代表的AI算法集合与管理计算资源、输入输出设备的操作系统之间也缺乏技术上的可比性。这样的概念有很大的市场营销空间，但可能很难在产品与技术领域沉淀下来。

问：技术和工程层面，今天数据智能相关的热点技术有哪些？

举例来说，多模态数据的处理是一个难点，也是今天的技术热点。今天各类行业客户业务相关的大数据环境里，数据本身的形态复杂度急剧增加。文本、语音、图像、视频等数据和传统的结构化数据相比，单条数据的体积更大，信息密度也更低，但是事实性更强。体积更大会导致存储成本更高，进而会导致在实际环境中其存储的时间更短，处理时消耗的计算资源更多，处理的时间更长；信息密度更低，使得我们在使用时一般会基于场景做一些信息抽取的过程，转换成结构化数据使用；事实性更强，所以在做基于多模态数据的综合判断时，这些非结构化数据的结论权重会更高。

深度学习技术的迅猛发展为解决类似问题提供了很好的技术支撑。最近两年非常火的基于Transformer的预训练模型可以跨数据形态，用类似的方式学习到文本、语音、图像、视频中蕴含的信息或知识。比如，2021年3月阿里巴巴与清华大学联合发布的业界最大的中文多模态预训练模型M6，就可以适用于广泛的多模态任务，包括产品描述生成、视觉问答、诗歌生成等，还专门支持文本引导的图像生成任务。

此外，如何用人工智能的前沿技术，自动清洗数据，如何自动将不同来源、不同字段规范的数据相互对齐，如何从数据背后发现隐藏的更有价值的信息或知识，如何从一个领域数据处理快速迁移到另一个领域等，都是未来几年数据智能领域需要投入大量研发资源的地方。

当然，人工智能不是万能的，不是一件拿着锤子就可以到处敲钉子的工作。好的人工智能技术要落地，必须结合具体业务，将算法的应用范围限定在一定的场景内。即，人工智能落地非常依赖于“有限场景”。简单讲，如果不限定领域，从所有文本中评估两个实体间的相关度肯定是非常难的，但如果限定金融领域的文本，这时再评估两个金融术语之间的相关度，问题就会容易不少。

问：数据可视化技术在数据智能中的作用如何？如何设计一个成功的数据可视化产品？

答：数据可视化是借助视觉表达方式，将枯燥专业的，不直观的数据内容，浅显直观的传达给数据使用者的一种手段，是数据智能的重要组成部分。

一个成功的数据可视化产品，最重要的是找准数据可视化产品的定位，即数据可视化产品的受众。数据可视化需要匹配受众的专业背景知识，并能够让受众轻松快速地查看和使用数据，同时还要充分考虑受众对数据呈现基本原理的熟悉程度，以及是否需要经常定期查看图表等因素。受众的不同会影响到数据可视化的数据的层次、数据粒度、数据的类型、图表的使用、示例说明的详细程度以及交互的程度。在一个针对多受众的数据可视化产品中，会基于不同的受众决策采用不同的数据可视化展现方案，并保持可视化的一致性。

例如，将一组无序的离散数值型数据做可视化时，如果受众几乎没有统计学相关的知识，我们可以按照数值区间分组，然后通过饼图或者南丁格尔玫瑰图来显示；如果稍微有一点点统计学的知识，则可以通过箱型图来显示；如果有一定的统计学背景，就可以选择用直方图了；如果统计学知识很深厚，则可以进一步在直方图上拟合出概率质量函数。

当然这些还仅仅只是从数据视角出发考虑的问题，从艺术视角来看，针对统计学知识比较少的受众，在一些报告类的数据可视化产品中可以用一些更个性化、更酷炫的方式展现饼图、南丁格尔玫瑰图或者箱型图中的数据；从设计的视角来看，针对有丰富统计学知识的受众，在直方图和概率质量函数拟合时可以提供丰富的配置方法，让用户可以非常方便的选择和调节背后的算法公式。

问：自动化机器学习（AutoML）可以在数据智能系统中扮演什么角色？在企业应用中引入自动化机器学习，有哪些需要注意的地方？

AutoML技术最吸引人之处在于它能够实现更便捷、更高质量的AI智能应用搭建，从而实现人工智能这种社会基础动力的普及。识别、预测等各类与机器学习相关的业务需求，都可以通过AutoML来不断降低搭建门槛、提升效率和质量。

建设AutoML系统时，一方面，为了提升便捷性，要考虑整个AI智能应用搭建的全流程。例如，场景化AutoML平台在机器学习建模过程之外，涵盖模型搭建前的业务分解、数据评估以及后续的智能应用部署实施和更新等流程，形成完整的自动化流程，满足客户从业务到任务、从任务到流程、从流程到模型以及从模型到最终应用的全流程需求。另外，采用无代码或低代码的开发方式以及友好的用户界面，加以对自动化环节的可解释性展示，最终达到用户便捷无忧的实际体验。

另一方面，AutoML结果的高质量是依赖先进算法以及高质量模型和知识的丰富积累来实现的。如创新奇智的场景化AutoML平台，在采用业界最先进的自动化特征工程、模型选择、参数优化、模型融合等算法技术的同时，基于元学习和经验概化理论，首创了基于实际场景迁移的AutoML方法，实现了一整套场景化AutoML方法论和算法工具，从而最大化人工智能引擎的最终效果。

问：如何高效管理数据智能平台涉及的各类计算资源，特别是深度学习高度依赖的GPU资源？

举例讲讲单GPU训练和多GPU训练的资源调度问题。

该如何高效利用好单张 GPU 的算力资源？GPU 的架构模型与 CPU 有很大不同，很多时候难以沿用 CPU 虚拟化的方案。我们常需要针对 GPU 的特点，构建一种适用的虚拟化方案。除了 Nvidia 的商业方案外，随着云原生的发展和开放，还有很多基于 K8s 的技术方案可供选择。其中有两个主要技术：调度技术解决是否允许将任务分配到某张 GPU 卡上的问题，隔离技术解决同张 GPU 卡上不同任务之间不互相影响的问题。

该如何提升GPU 集群的分布式训练效率？训练任务规模的增长要求分布式的训练方式，而分布式训练必然会涉及到模型参数的同步和分发，技术上既有基于参数服务器的 PS 架构，也有从 HPC领域发展而来的基于 MPI 通信原语的 Ring AllReduce、Binary Blocks 等架构，这些架构除了解决分布式训练过程中模型参数的同步问题外，还在降低参数同步所带来的性能损耗方面做出努力。这样，对于分布式训练任务，用户仅需指定资源需求、Worker节点数量，提供训练代码，就可实现像单机训练任务一般简单的分布式训练。

从客户角度讲，数据智能平台的基础资源管理部分最好能提供一种同时兼容单GPU训练和分布式GPU训练的任务、资源调度方案。在客户业务初期试验阶段，任务规模一般较小，通过虚拟化方案，客户可以实现在一张 GPU 上同时训练多个任务；而在业务应用阶段，单机训练无法承载生产级别的数据量和模型规模，需要借力分布式训练，最大程度的发挥 GPU集群的整体效率。

问：创新奇智在数据智能领域提供的Orion系列产品和解决方案有何特点？

创新奇智的Orion自动化机器学习平台是一套符合未来数据智能范式的，拥有可灵活选择、配置的三层结构，面向行业客户，以私有化部署为主的系列产品和解决方案。Orion数据智能引擎主要包括三大产品单元：

Orion IRC：智能资源调度管理，提供计算资源管理和数据资产地图。
Orion DAC：智能数据融合管理，支持数据动态融合，实现数据供应链。
Orion AML：自动化机器学习，基于数据完成智能决策。

从设计初衷上说，Orion自动化机器学习平台主要希望帮客户解决两件事：如何用好数据，如何提高数据决策能力。

首先，要“让数据会说话”。获取、清晰、存储、加工、管理这些数据基础操作都只是手段而不是目的，最终目的是能让客户从数据中获取足够的使用价值。这里面最关键的因素是如何“盘活”数据资产。数据越来越多，但只有“盘活”了数据与业务之间的供需关系，真正建成了“数据供应链”，客户业务才能有提升。

继而，要“让数据会决策”。数据智能引擎必须在数据建设的基础上，用有效的、面向业务目标的机器学习能力，帮助客户提高从信息中获取知识，从知识中预测趋势，从趋势中洞见未来的能力。有了这样的能力，客户的决策才能真正升级到数据驱动的层次上。

Orion自动化机器学习平台的核心使命就是利用前沿技术盘活客户数据，实现数据价值，赋能客户业务。

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

点这里????关注我，记得标星，么么哒～

加入AI社群，拓展你的AI行业人脉

量子位「AI社群」招募中！欢迎AI从业者、关注AI行业的小伙伴们扫码加入，与50000+名好友共同关注人工智能行业发展&技术进展：

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
前端 NPM 包的依赖可视化分析工具推荐前端视界前端艺匠馆前端 npm arcgis ai
前端NPM包的依赖可视化分析工具推荐关键词：NPM、依赖管理、可视化分析、前端工程、包管理、依赖冲突、性能优化摘要：本文将深入探讨前端开发中NPM包依赖可视化分析的重要性，介绍5款主流工具的使用方法和特点，并通过实际案例展示如何利用这些工具优化项目依赖结构、解决版本冲突问题以及提升构建性能。文章将帮助开发者更好地理解和掌控项目依赖关系，提高开发效率和项目可维护性。背景介绍目的和范围本文旨在为前端开
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
GoView 强势入驻 GitCode：拖拽低代码，打造高颜值数据大屏 GitCode 代码君 gitcode 低代码开源
信息可视化时代，数字大屏日益成为展示核心KPI、运营状态、监控预警的主流形式。然而，用传统方式开发一个定制化数字大屏需要解决多少问题？1.繁复的数据源集成，各种不同的协议和格式……2.让人晕头转向的可视化逻辑，调动艰难的样式、布局、动画，和往往难以统一的风格3.牵一发而动全身的代码结构，就想换个主题色结果开启的全局CSS大冒险……现在，一个开源项目即可搞定上述问题——拖拽式低代码数字可视化平台Go
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
Tomcat：Java Web应用的幕后英雄互联网动态分析 tomcat
在当今数字化浪潮中，Java作为一门成熟且广泛应用的编程语言，支撑着无数企业级应用和互联网服务的稳定运行。而在JavaWeb开发领域，Tomcat无疑是一个举足轻重的存在，它宛如一位默默耕耘的幕后英雄，为众多Web应用提供了可靠的运行环境。Tomcat的起源与发展Tomcat的故事始于1999年，当时SunMicrosystems（后被Oracle收购）与Apache软件基金会合作，旨在为Java
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?