Z1Y492Vn3ZYD9et3B06

数据湖：存储全量数据，快速实现洞察

“数仓出局，中台已凉，数据湖将称王！”目前，市场上出现了这样一种说法，估计大多数人很难评断真伪。

既便是专业人士，也不会武断地做出这样的研判，毕竟数据湖并不是为了取代数仓而生的。同时广大的用户更看重的是应用价值，而不是新名词或者换汤不换药的噱头。

毫无疑问，数字经济时代，数据已成为企业的核心资产。数据湖（Data Lake）已经成为继数据库、数据仓库之后敏捷处理数据、提升数据洞察力的又一标志性的技术。摸清家底，搞清方向，应用数据湖才能心里有谱。

数据湖是开疆拓土不是替代既有产品

1）数据湖通常是企业中全量数据的单一存储。

2010年，Pentaho创始人兼首席技术官James Dixon首次提出了数据湖概念。

经过多年的发展，中国软件网发现，数据湖是以集中方式存储各种类型数据，提供弹性的容量和吞吐能力，能够覆盖广泛的数据源，支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台。从结果来看，数据湖能够实现数据分析、机器学习，以及数据访问和管理等细粒度的授权、审计等功能。

数据湖通常是企业中全量数据的单一存储，对存取的数据没有格式类型的限制，可以存储结构化数据（如关系型数据库中的表），半结构化数据（如 CSV、JSON 、XML、日志等），非结构化数据（如电子邮件、文档、PDF 等）以及二进制数据（如图形、音频、视频等）。数据产生后，可以按照数据的原始内容和属性，直接存储到数据湖，无需在数据上传之前对数据进行任何的结构化处理。

2）数据湖的主要特征日益明显。

数据特征。能够实现全量数据的单一存储，通常存储原始格式的对象块或者文件，可与企业业务数据库和数据仓库无缝集成，扩展现有数据应用。同时并非将数据移动到单个存储库中，在数据原本存储的地方访问数据并动态执行数据转换和汇总。

数据规模。数据湖技术支持超大规模存储及可扩展的大规模数据处理能力，可根据企业的业务需求提供可大可小的弹性扩充。

数据类型。不管是传统数仓承载的结构化数据，还是数仓不能存储的半结构化数据、非结构化数据、二进制数据等任意类型的数据，数据湖都可以轻松实现采集、存储和分析。

赋能用户。数据湖无需任何预处理即可对数据进行采集、存储和分析，还能消除数据采集和存储的复杂性，加速应用数据，赋能广大研发者、数据科学家、分析师，实现对跨平台、跨语言、跨领域的所有数据进行高效分析和处理。

多样化分析能力。可以运行从控制面板和可视化到大数据处理、实时分析和机器学习等不同类型的分析，深度挖掘数据价值，进行预测分析，并保证了数据一致性、可治理和安全性的实现。

3）数据库、数据仓库、数据湖是数据技术不断发展的结果，是传承不是取代。

数据仓库是一个经过优化的数据库，用于分析来自事务系统和业务线应用程序的关系型数据，因此数据仓库存储的都是结构化数据。数据经过了清理、丰富和转换，因此可以充当用户可信任的“单一信息源”。

数据仓库对数据提供高效地存储，便于用户通过报表、看板和分析工具来获取查询结果，从数据中获得洞察力、决策指导。

对应起来看，数据湖存储着来自业务线应用程序的关系型数据，以及来自移动应用程序、IoT 设备和社交媒体的非关系型数据。

用户可以对数据使用不同的方式如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习等，来获得对数据的深入了解。

当不清楚某些数据存在的价值时，将数据以原生格式天然沉积在数据湖。数据来源不尽相同，能够同时存储结构化和非结构化数据。同时，可以使用不同的过程将数据注入到数据湖中。最终，都是为了帮助用户，根据自己的需要更好地处理数据。

4）数据湖技术架构发展经历了三个发展阶段。

第一阶段是自建开源Hadoop数据湖架构。不过随着数据量激增、应用场景的丰富，导致Hadoop的问题凸显。因此，越来越多的方案开始向数据湖转型，解决靠单一Hadoop所没能解决的问题。

第二阶段是上托管Hadoop数据湖架构，底层物理服务器和开源软件版本由云厂商提供和管理，企业需要自己运维和管理。

第三阶段采取云上数据湖架构，即云上纯托管的存储系统，引擎丰富度不断扩展，分离后的存储系统可独立扩展，完成存算分离。

目前，数据湖应用正处于第二和第三阶段，云上纯托管的存储系统，正成为数据湖的存储基础设施。

数据湖市场的增速超出预想

虽然数据湖的概念提出仅仅只有十年的时间，但是数据湖市场的增长速度却超出了许多人的预想，带来意外的惊喜。

1）到2024年数据湖市场将突破200亿美元

市场研究机构MarketsandMarkets发布的研究报告显示，2019年全球数据湖市场规模为79亿美元。同时该机构预测，到2024年，市场规模将达到201亿美元，预测期内（2019～2024年）的复合年增长率为20.6%。

中国软件网分析，全球数据湖市场的增长主要取决于以下几个因素：

一是新型数字化企业的需求得到了激发，传统企业以前因为成本、技术和环境限制的需求也得到释放，越来越需要从不断增长的数据量中进行分析从而获得更深入的内容。

二是公有云服务商的大量介入，以及开源技术的应用，将数据湖应用的成本和技术实现难度大幅降低，基于云的数据平台转变有利于管理和减轻数据问题，增加了市场的发展机会。

三是在数据湖上新增的与数据分析相关的功能有望得到更大的丰富。到2021年，将数据湖和数据仓库良好融合的企业，在实际应用中可以支持多30%的业务使用场景。

2）北美将占据最高份额，亚太市场增长最快。

MarketsandMarkets的报告显示，从地域来看，预计北美将占据最高的全球数据湖市场份额和高增长率，源于大数据技术的使用增加，跨行业、垂直行业的数据量不断增加，公司对数据湖解决方案的投资不断增加，以及数据湖技术的不断进步等。

在欧洲，一方面政府采取了更多的措施来推动数据湖解决方案的采用，如英国。法国越来越注重研发和来自全球玩家和投资者的大量资本流入，推动法国市场的增长。

而亚太地区(APAC)，在预测期（2019～2024年）内的年复合增长率将达到最高。中国加强人工智能、物联网和大数据技术的整合，推动数据湖解决方案在中国的应用。

3）市场发展呈现四大特点。

一是数据湖组件市场分析中的数据发现、解决方案、数据集成和管理、数据湖分析、数据可视化等几大重要组件迅速发展，快速赢得市场和用户。

二是运营部门年复合增长率最高。从业务功能来看，数据湖具有市场营销、销售、运营、金融和人力资源五大业务功能。MarketsandMarkets预测，运营业务功能年复合增长率最高，市场营销业务功能将占据最大的市场规模。数据湖使公司能够提高运营效率，降低成本。

三是基于云部署模式的数据湖解决方案快速增长。从部署模式来看，数据湖具有本地部署和云部署两种部署模式。MarketsandMarkets报告认为，数据湖市场的大多数供应商都提供基于云的数据湖解决方案，以实现利润最大化和设备维护过程的有效自动化。同样，基于云部署模式的数据湖解决方案增长快速。

四是数据湖行业应用发展迅速。数据湖解决方案被广泛应用在银行、金融服务和保险、IT、零售、医疗、制造生产、能源和公共事业、媒体和娱乐、政府以及教育等多个垂直领域当中。

云服务商已经是数据湖市场最大的赢家

作为大数据的变革新生力量，数据湖技术一经问世，便深受不同领域企业的拥戴。目前，数据湖市场主要有三类供应商：

1)开源数据湖的四大项目

目前市面上流行的三大开源数据湖方案分别为：Apache Delta、Apache Iceberg和Apache Hudi。开源项目的优势包括：头部企业提出的开源项目，技术可行性强；群策群智，发展迅速；商业化版本也比较多，方便选择等。

由于Apache Spark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的Delta Lake也显得格外亮眼。

Delta Lake项目于2019年通过Apache License开放源码，是Databricks解决方案的重要组成部分。Delta定位为数据湖存储层，集成流式和批处理，支持更新/删除/合并，为Apache Spark和大数据工作负载提供ACID事务能力。一些关键特性包括：支持多重分析引擎、廉价存储、支持流批读写、支持Python接口等。

Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目，后提供Apache License开放源码。该项目在Apache社区非常活跃，2020年4月取得了最高项目地位。Hudi提供的fast upsert/delete以及compaction等功能，精准命中用户的痛点。其在文件管理、索引、表类型、查询类型、Hudi工具等关键特性特色鲜明。

Netflix的数据湖原先是借助Hive来构建，但在发现Hive设计上的诸多缺陷之后，开始转为自研Iceberg，并最终演化成Apache下一个高度抽象通用的开源数据湖方案。

Apache Iceberg目前社区关注度暂时比不上Delta，功能也不如Hudi丰富，但因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

Apache CarbonData是由华为贡献给开源社区的数据湖项目，助力华为云产品的数据平台和数据湖解决方案应对PB级负载。除了支持更新、删除、合并操作、流式采集外，它还拥有大量高级功能，如时间序列、物化视图的数据映射、二级索引，并且还被集成到多个AI平台，如Tensorflow。

2）云服务商的数据湖产品与服务

亚马逊云科技、微软、谷歌云、阿里云、华为云、腾讯云等纷纷推出自己的数据湖解决方案和相关产品，同时一些传统企业如IBM也推出类似的项目，但是影响力甚微。

专家认为，云服务商数据湖服务弹性分析可以满足企业业务潮汐带来了资源波动，按试用付费，也让企业无需先期购买服务器、存储等硬件设备，降低了运维成本使用成本，大大提高了资金利用率；同时，能够实现与企业现有技术的深度融合，支持数据多元集成和迁移，大幅带动提升了企业原有分析和治理系统的性能优化等。

亚马逊云数据湖，率先基于AWS Lake Formation，构筑了一套以S3为中心化存储、Glue为元数据服务，E-MapReduce、Athena为引擎、针对AI优化的AWS Sagemaker的开放协作式的产品解决方案，普及了数据湖的概念。

AWS Lake Formation是一个管理性质的组件，与其他AWS服务互相配合，来完成整个企业级数据湖构建功能。其中，采用Amazon S3作为整个数据湖的集中存储，按需扩展/按使用量付费。AWS Glue完成元数据抓取、ETL和数据准备。使用Amazon EMR进行数据的高级处理分析，或者基于Amazon EMR、Amazon Kinesis来完成流处理任务。数据通过Athena/Redshift来提供基于SQL的交互式批处理能力，通过 Amazon Machine Learning、Amazon Lex、Amazon Rekognition进行深度加工。

AWS Lake Formation工作原理

微软Azure数据湖解决方案，包括数据湖存储、接口层、资源调度与计算引擎层，其中存储层是基于Azure object Storage构建的，对结构化、半结构化和非结构化数据提供支撑；接口层为WebHDFS，在Azure object Storage实现了HDFS的接口；在资源调度上，Azure基于YARN实现；计算引擎上，Azure提供了U-SQL、hadoop和Spark等多种处理引擎。

Azure基于visual studio提供给了客户开发的支持。实现多计算引擎的适配，包括SQL、 Apache Hadoop和Apache Spark，提供多种不同引擎任务之间的自动转换能力。

腾讯云数据湖。今年年5月13日，腾讯云首次展示了云原生数据湖体系，并发布两款“开箱即用”数据湖产品——数据湖计算服务DLC和数据湖构建DLF。

腾讯云的云原生智能数据湖产品矩阵包括数据湖存储、数据湖算力调度、数据湖大数据分析、数据湖AI能力、以及数据湖应用和云上基础服务六个层面，提供一体化的全方位服务。

两款“开箱即用”数据湖新品DLC和DLF核心功能是更简单地让数据入湖、统一管理数据信息，通过DLC数据湖计算让用户在数据分析时可以即时编写SQL，随时发起集群查询，降低运维门槛。其中，数据湖计算服务采用的是无服务器架构设计，计算性能提升35.5%，构建效率提升60%，业务增长量提升可达75%。

数据湖构建则能帮助用户快速高效的构建企业数据湖技术架构。借助数据湖构建，用户可以极大提高数据入湖准备的效率，资源成本节省超30%，湖构建时间减少60%，运维工程师人数降低100%。

华为数据湖基于DLI Serverless构建，DLI完全兼容Apache Spark、Apache Flink生态和接口，是集实时分析、离线分析、交互式分析为一体的Serverless大数据计算分析服务。

华为云提供了DAYU智能数据湖运营平台，DAYU涵盖了整个数据湖治理的核心流程，并对其提供了相应的工具支持。

据介绍，华为数据湖拥有逻辑统一、类型多样、汇聚原始纪录三大特点，提出数据入湖的6项标准，包括明确数据Owner、发布数据标准、定义数据密级、明确数据源、数据质量评估、元数据注册，保证入湖的数据都有明确的业务责任人，各项数据都可理解，同时都能在相应的信息安全保障下进行消费。同时提供了5种数据入湖的技术手段，包括批量集成、数据复制同步、消息集成、流集成、数据虚拟化等。

阿里云提供多种数据湖服务与产品，如基于EMR开源生态和云原生服务构建数据湖，云原生数据湖分析-DLA方案、构建分层模式混合数据湖等。其中云原生数据湖分析DLA一站式提供数据库入湖、元数据管理、元数据自动发现、Serverless SQL分析与 Serverless Spark 计算等能力解决此类问题。

阿里云数据湖解决方案有三大特色：强大的数据存储引擎，阿里云的数据湖底层基于阿里云自研的分布式存储引擎搭建，提供体系化的数据采集能力，支持结构化/半结构化/非结构化数据源。

与云原生平台的深入结合。数据湖可以对接多种差异性的计算引擎，运行在不同负载之上，多种计算引擎都共享同一套存储系统，打破数据孤岛，洞察数据价值。

内部及外部的有效验证。阿里巴巴集团首先是阿里云数据湖产品的最佳实践者，后者首先支撑了阿里巴巴集团内部的电商、移动办公、文娱、物流、本地生活等各种复杂业务，建立了完善的自我实践机制，产品和方案得到有效的验证。同时，阿里云的数据湖方案也支撑了在线教育、互联网广告、新媒体、网络游戏等行业用户在快速发展过程中的实际业务需求，实现了技术的有效赋能。

3)创新型企业

Databricks 开源了其数据湖的关键技术Delta Lake。同时Delta Lake、Apache Spark 和 Databricks 统一分析平台的进步，不断提高了架构的功能和性能。

Delta Lake是一个开放格式存储层，可为数据湖提供可靠性、安全性和性能，用于流媒体和批量操作。Delta Lake通过将数据孤岛替换为结构化、半结构化和非结构化数据的单个住宅，成为一个具有成本效益、高度可扩展的湖屋Lakehouse的基础。

其优势包括：支持 ACID 交易和架构执行，提供了传统数据湖所缺乏的可靠性；Delta Sharing是业界首个安全数据共享的开放式协议，无论数据位于何处，与其他组织共享数据都变得简单，与Unity Catalog 的本地集成允许企业集中管理和审核跨组织的共享数据；在Apache Spark下，提供更大规模和速度；所有数据都以开放式 Apache Parquet 格式存储，允许任何兼容的API读取数据;Delta Live Tables,一个简单的方法来建立和管理数据;通过启用数据治理的细粒度访问控制来降低风险等。

Dremio 是美国一家数据即服务平台（DaaS），致力于加快分析时间，并提供数据湖及其他功能。Dremio 作为新一代数据湖引擎，直接在云数据湖存储中进行实时的、交互式的查询释放数据价值，主要应用于三大场景：商业智能，无需依赖 IT 或数据工程，直接针对数据湖存储提高即席和报告查询速度；数据科学上，使用工具利用数据价值，加速数据发现、挖掘潜在关系；数据化的现代化上，针对现代化云数据湖存储方案面临的复杂任务，通过语义层使迁移期间的分析工作负载无缝运行。

数据湖企业附录表格

CDEC2021深圳站扫码参会

9月9日不见不散

加入海比研究院交流群 | 获取更多报告

请添加小助手微信：kaizhuo007

景联文科技入选中国信通院发布的“人工智能数据标注产业图谱” 景联文科技科技人工智能
近日，由中国信息通信研究院、中国人工智能产业发展联盟牵头，联合中国电信集团、沈阳市数据局、保定高新区等70多家单位编制完成并发布《人工智能数据标注产业图谱》。景联文科技作为人工智能产业关键环节的代表企业，入选图谱中技术服务板块。图谱按照国家数据局技术创新、行业赋能、生态培育、标准应用、人才就业、数据安全等六个方面任务展开，由上游资源提供方、中游数据标注核心服务方、下游配套支撑方三部分组成。其中上游
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
SQLMesh SCD Type 2 深度解析：时间戳与列级跟踪的实战指南梦想画家数据分析工程 #python 数据工程分析工程 sqlmesh
在数据仓库架构中，缓慢变化维度（SlowlyChangingDimensions,SCD）是处理历史数据追踪的核心技术。SQLMesh作为新一代数据编织平台，其支持的SCDType2模型通过valid_from和valid_to双时间戳机制，为开发者提供了灵活的历史状态管理能力。本文将深入解析SQLMeshSCDType2的两种实现模式（基于时间戳与列级变更检测）、关键配置项及删除操作处理逻辑，让
Jira获取story信息更新子任务状态脚本技术实现吾爱乐享 w w w w .f e n
title:Jira获取story信息更新子任务状态脚本技术实现tags:-Jiracategories:-Jira一、项目背景在Jira项目管理系统中，当story主任务处于特定状态（如“READYFORPM”或“已关闭”）时，需要对其所有子任务的状态进行更新。为了实现这一自动化操作，编写了一个Python脚本，以提高工作效率和准确性。二、技术选型编程语言：Python，因其简洁易读的语法和丰富
今日行情明日机会——20250321 人大博士的交易之路人工智能区块链数学建模数据挖掘分类涨停回马枪大数据
后续投资机会分析结合2025年3月21日盘面数据（涨停56家，跌停31家），市场呈现结构性分化行情，海洋经济成为绝对主线，机器人概念局部活跃，人工智能表现较弱。以下是具体方向与策略建议：1.海洋经济（核心主线，政策+事件驱动）核心逻辑：板块23家涨停，梯队完整（七板至一板），神开股份（七板）打开高度，叠加海洋资源开发、碳中和政策（如海上风电、深海装备）催化，资金深度介入。大连重工（三板，海洋工程装
在虚拟机上安装Hadoop 杜清卿 hadoop
基本步骤与安装java一致:先用finalshell将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面，然后解压,最后配置环境变量。1.使用finalshell上传。这里直接鼠标拖动操作即可。2.解压。进入到Hadoop安装包路径下，cd/opt/software/，再解压安装文件到/opt/module下，对应的命令是:tar-zxvfhadoop-.1.3
hadoop集群配置-scp拓展使用杜清卿 hadoop 服务器大数据
任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。分析：使用scp进行拉取操作：先登录到hadoop2使用命令：scp-rroot@hadoop101:/opt/module/hadoop-3.1.3/opt/module/任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目
人工智能革命：技术演进图谱与人类文明重构路径 A达峰绮人工智能重构经验分享图形绘制数据处理 AI
当GPT-4在2023年3月通过注册会计师考试时，其财务分析模块展现的推理能力已超越85%的人类考生。这个标志性事件背后，折射出人工智能正在突破认知型工作的最后防线。我们正在见证的，不仅是技术迭代，更是人类文明范式的根本性转变。一、算力奇点降临：AI基础设施的指数级进化量子计算与神经形态芯片的融合正在重塑算力边界。IBM最新数据显示，其量子体积（QuantumVolume）从2020年的64跃升至
Qt for WebAssembly程序中文乱码问题处理过程 muren Qt c++qt wasm 开发语言
一、环境操作系统DeepinV23Qt版本6.8.2编程语言C++二、问题现象QtforWebAssembly应用在浏览器页面上英文字母显示正常，中文显示为乱码。经测试分析原因为默认字体不能正常显示汉字。三、处理过程1.准备中文字体文件从Windows下复制宋体简体字体文件。C:\Windows\Fonts\simsun.ttc2.添加资源文件resources.qrcsimsun.ttc3.Qt
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
比较分析：Windsurf、Cody、Cline、Roo Cline、Copilot 和通义灵码张3蜂开源编程语言与开发技术选型与架构设计 copilot c#AI编程
随着人工智能技术的快速发展，开发者工具变得越来越智能化，特别是在代码生成、辅助编程等领域，市面上涌现了多种AI驱动的工具。本文将从开源性、集成能力、功能覆盖范围、支持的编程语言、生态兼容性、成本、学习曲线、响应速度、离线支持以及与.NETCore的适配性等十个维度对以下几种产品进行比较：Windsurf、Cody、Cline、RooCline、Copilot和通义灵码。1.开源性Windsurf:
使用Aim追踪LangChain执行 bavDHAUO langchain python
在现代人工智能应用中，调试和可视化自动化工作流变得越来越重要，Aim正是为此而生。通过Aim，你可以轻松地追踪LangChain中语言模型(LLM)和工具的输入输出，以及代理的动作，从而在执行过程中快速定位和解决问题。此外，Aim还支持并排比较多个执行流程，使之成为调试中的得力助手。Aim是一个完全开源的项目，你可以在GitHub上找到更多关于Aim的信息。在本文中，我们将展示如何启用和配置Aim
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
基于Qt的连连看游戏开发 CodeJolt qt 数据库 java QT
连连看是一种经典的益智游戏，它的目标是通过消除相同的配对图标来清空游戏界面。在本文中，我将向您展示如何使用Qt框架开发一个基于Qt的连连看小游戏。我们将使用C++编程语言和Qt库来实现游戏的逻辑和界面。首先，让我们创建一个新的Qt项目。在QtCreator中，选择"新建项目"，然后选择"QtWidgets应用程序"模板。为项目指定一个名称，然后点击"下一步"。在下一个对话框中，您可以选择项目的位置
Java基础笔记（小白友好版）代码什么的真不会呀 java 笔记开发语言
Java基础笔记（小白友好版）1.Java简介Java是一种广泛使用的计算机编程语言，由詹姆斯·高斯林（JamesGosling）在1995年创建Java的口号是"一次编写，到处运行"（WriteOnce,RunAnywhere）Java程序需要先编译成字节码（.class文件），然后在Java虚拟机（JVM）上运行主要特点：面向对象：一切皆对象，代码更清晰易懂平台无关性：可以在Windows、M
css预编译风不在乎前端 css css 前端 scss less stylus
前言定义我们使用css来编写样式，但是随着样式效果的多样化以及复杂化，css变量常量的缺失、语法的呆板等一成不变的写法就会十分臃肿难以维护。所以基于css扩展了一套属于自己的语法，通过专门的编程语言，扩展css的编程能力，在编译成css。常见的库有less、scss/sass、stylus等。特点完美兼容css代码，结构清晰便于扩展支持css定义变量常量、代码嵌套提供函数，支持循环语句支持模块化，
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
分享12个国内AI对话聊天的免费网站（含DeepSeek大模型）码上飞扬人工智能语言模型 DeepSeek
在人工智能领域，基于对话的语言模型已成为当前研究的热点，其中以ChatGPT为代表的模型凭借其卓越的语言理解与交互能力备受瞩目。为帮助用户更好地选择和使用这类AI工具，本文将介绍12个国内可直接体验对话聊天功能的平台，为用户提供实用参考。1、腾讯元宝地址：https://hunyuan.tencent.com/bot/chat腾讯混元大模型是由腾讯全链路自研的通用大语言模型，拥有超千亿参数规模，预
《今日AI-人工智能-编程日报》-源自2025年3月21日小亦编辑部人工智能
一、AI编程领域最新动态AI编程工具崛起，程序员职业面临挑战Anthropic首席执行官DarioAmodei预言，未来一年内，90%的代码将由AI生成，传统程序员的工作可能被大幅替代。最新发布的AI编程模型（如Claude3.7、Sonnet3.7）在初级开发评估中表现优异，得分率超过60%，部分模型甚至在全球程序员排名中位列前0.1%。字节跳动的Trae海外版接入Claude3.7和GPT-4
《今日AI-人工智能-编程日报》-源自2025年3月19日小亦编辑部每日AI-人工智能-编程日报人工智能
1.豆包AI编程功能迎来三项重磅升级豆包平台今日宣布其AI编程功能迎来三项重要升级，包括：HTML实时预览：支持用户在编写HTML代码时实时查看网页效果，显著提升前端开发效率，尤其适用于小游戏和网页制作。Python代码直接运行与一键修复：用户可直接运行Python代码，并在出错时一键修复，极大降低了编程门槛，提升了开发效率。生成完整项目：新增生成完整项目的功能，帮助用户快速创建应用程序，缩短开发
普通人学习AI应该如何入手？2025年最新AI大模型学习路线+全套学习资料，适合新手小白！小城哇哇人工智能学习大数据语言模型 AI大模型 agi ai
引言随着人工智能（AI）技术的飞速发展，越来越多的人开始意识到掌握这项技能的重要性。然而，对于许多没有编程背景或数学基础的人来说，进入AI领域似乎是一个遥不可及的梦想。但实际上，通过合理的规划和适当的学习资源，任何人都可以逐步掌握AI的核心知识，并应用到实际工作中去。本文将为普通读者提供一份详细的2025年最新AI大模型学习路线图，并附带一套完整的自学资料，帮助您从零基础起步，顺利开启AI学习之旅
如何通过Python实现自动化任务：从入门到实践小弟有话说1.0 python 自动化开发语言
在当今快节奏的数字化时代，自动化技术正逐渐成为提高工作效率的利器。无论是处理重复性任务，还是管理复杂的工作流程，自动化都能为我们节省大量时间和精力。本文将以Python为例，带你从零开始学习如何实现自动化任务，并通过一个实际案例展示其强大功能。一、为什么选择Python实现自动化？Python作为一种简单易学、功能强大的编程语言，已经成为自动化领域的首选工具。以下是Python在自动化中的几大优势
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
知识蒸馏：让大模型“瘦身“而不失智慧的魔术一休哥助手人工智能人工智能
引言：当AI模型需要"减肥"在人工智能领域，一个有趣的悖论正在上演：大模型的参数规模每年以10倍速度增长，而移动设备的算力却始终受限。GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。这种矛盾催生了一项神奇的技术——知识蒸馏（KnowledgeDistillation），它就像给AI模型进行"脑外科手术"，将庞然大物的智慧浓缩到轻量模型中。第一章
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

数据湖：存储全量数据，快速实现洞察

你可能感兴趣的:(数据仓库,大数据,编程语言,hadoop,人工智能)