阿里云大数据AI技术

阿里云Hologres助力好未来网校实时数仓降本增效

客户介绍

好未来（NYSE：TAL）是一家以智慧教育和开放平台为主体，在全球范围内服务公办教育，助力民办教育，探索未来教育新模式的科技教育公司。好未来的前身学而思成立于 2003年，2010年在美国纽交所正式挂牌交易。好未来以“爱和科技让教育更美好”为使命，致力成为受尊敬的教育机构。当前，好未来已构建起从工具、平台到内容的多元化教育生态，满足从-1岁到 24岁各年龄段人群个性化学习需求。目前，好未来旗下拥有学而思素养、学而思网校、彼芯、美校、学而思国际、学而思文创出版中心、学而思大学生、妈妈帮等品牌，并战略投资了赫石少儿体能等多个品牌。集团业务覆盖素质教育、技术服务、海外教育服务、数字内容出版、教育硬件、托管服务等领域。

学而思网校，纽交所上市公司好未来旗下在线教育品牌，为6-14岁的孩子提供素质教育服务。2008年成立至今，积累了十余年教研经验和学习数据，陪伴千万孩子成长，在家长间口口相传。学而思网校首创“直播+辅导”的双师教学模式，大力投入AI和全真互联网等前沿技术，持续推动教育创新。2021年学而思网校全面升级素养体系，推出人文美育、科学创想、编程与机器人等热门素养课程。

网校实时数仓发展背景介绍

网校实时数仓1.0从2019年开始搭建，基于Kudu OLAP引擎构建，前期承载业务不多，任务量不大，运行稳定、性能也很高，比较适合前期的技术选型；自2020年后，网校进入业务快速发展期，实时开始承接更多的业务需求，包括营销域、交易域、教学域等数据域的建设以及实时大屏，随着需求增多，实时数仓任务量、数据量也不断攀升，Kudu开始遇见技术瓶颈，无法快速满足业务需求，运维难、成本贵等问题也开始凸显。

与此同时，2021年7月教育行业遭受“双减”，公司业务开始面临业务缩减以及转型等业务变化，大量学科类、无效任务空跑，造成资源的极大浪费，成本治理提升日程，开始着手调研建设成本更低的实时数仓OLAP引擎。经过市面上几款OLAP引擎的对比，最终选型Hologres，并于2022年1月开始实时数仓升级，经过半年多的成本治理以及数仓建设，网校实时数仓迈入2.0阶段，相比于1.0版数仓，更加稳定、可靠，建设成本也更低。此次升级主要是针对实时数仓的底层OLAP引擎的升级，使用阿里云Hologres替换Kudu，实现实时数仓降本增效，助力业务更加精细化增长。

实时数仓1.0：以Kudu为OLAP引擎，技术瓶颈凸显

1、网校实时数仓1.0全景图

实时数仓1.0支撑着网校大部分的线上数据，用于报表分析，精准营销等多个场景，其业务数据流程如下图：

ODS层主要存储日志、业务库同步过来的原始数据，包括用户行为等埋点日志以及业务数据等。
ODS层数据清洗后，写入DWD层，并在DWD层对根据业务需求数据做细分，分为教学、交易、营销等明细数据。
DWS层将DWD数据与学员、课程、班级、讲次信息等维表进行关联，生成业务宽表或者业务模型汇总等数据。
ADS层从DWS获取数据，面向应用层，主要是使用MSQL、Polardb作为查询引擎，根据业务场景对接实时看板、实时大屏、实时接口等，赋能实时销量、转化、续报、在线、出勤、完课等场景。

2、基于Kudu架构的场景方案

整个实时数仓1.0都是基于Kudu来建设的。其背后的技术架构如下图：

根据业务的时效性，将网校的场景分为分钟级场景和实时秒级场景。

1）准实时数仓模型（分钟级）：

在分钟级实时数仓中，会通过Spark/Flink对数据进行预处理后写入Kudu，并在Kudu中根据ODS、DWD、DWS分层计算，然后将数据写入ADS层的PolarDB或者MySQL，最后对接实时大屏、报表等业务。

2）实时数仓模型（实时秒级）：

在实时秒级的场景中，对数据的时效性要求非常高，采用Flink+Kafka架构，DWD明细数据同时会落地一份到Kudu，DWS层计算过程中关联Kudu维表、以及历史DWD数据来完成汇总模型构建，输出结果数据到ADS层的PolarDB、MySQL、Kafka消息队列等，最后对接线上服务。

网校实时80%左右场景，使用分钟级实现；20%场景使用秒级实时链路实现。当然也有部分场景可能使用混合链路实现，比如实时在线、出勤，Flink程序实时接入心跳明细数据到数仓DWD层，然后在DWS层进行分钟级汇总班级出勤、在线等数据，在ADS层进行数据的输出。

3、业务挑战：Kudu技术瓶颈凸显，业务成本治理刻不容缓

实时数仓1.0中，Kudu作为底层OLAP引擎，使用Impala进行数据加载、运算，当业务上量时，Kudu的技术瓶颈开始凸显，主要表现在以下几个方面：

业务发展后期，Impala服务器内存压力较大，内存不足问题频发：网校80%的业务使用分钟级数仓实现且都是每隔5分钟计算一次，Impala承载Kudu数据的加载、计算，大量复杂计算的Sql任务在同一时间瞬时打到服务器，导致Impala节点内存压力较大，甚至出现部分批次任务执行失败情况。
运维困难：缺乏Kudu专业运维同学，当某个数据指标计算出现问题，或者集群不稳定时，有比较长的运维流程和修订流程，严重影响实时服务的稳定性，无法保证实时数据的SLA，使得用户体验非常不好。
故障恢复时间长，当出现节点故障的时候，为了快速恢复业务，短期靠扩容节点来暂时解决问题，导致运维和成本压力逐步增大。
“双减”原因，急需对成本进行治理，迫切需要将Kudu切换到建设成本更低、更稳定、可靠的OLAP引擎。

综上，基于Kudu实时数仓，正逢“双减”，面临着业务快速变化、成本压力以及运维困难等一系列的内、外部挑战，我们迫切的希望能够找到一款OLAP产品将Kudu进行替换，解决当前遇见的各种问题，搭建一个更加简洁、易用、运维便捷、资源动态伸缩容的数仓底座。

实时数仓2.0：Hologres读写分离部署全面替换Kudu

基于实时数仓1.0的技术痛点，在对市面上的多种OLAP引擎进行调研以及对比后，我们最终选择了阿里云Hologres替换Kudu搭建网校实时数仓，即实时数仓2.0版本。

1、OLAP引擎技术选型需求：高吞吐、高可用

根据业务，我们梳理了对OLAP引擎的需求如下：

强大的OLAP能力
支持SQL，支持更新、删除、Upsert操作
高吞吐、高可用
运维方便，资源伸缩便捷

同时我们也对比了市面上常见的OLAP引擎，如下表所示，最终选择了Hologres为新的OLAP引擎

2、Hologres全面替换Kudu作为主OLAP引擎

选择了Hologres作为实时数仓的主OLAP引擎之后，通过Hologres替换了Kudu的所有数据处理链路，同时也通过Hologres读写分离部署的方式，以只读从实例（简称从库）替换了原PolarDB/MySQL等查询引擎，以此构成了实时数仓2.0。数据链路如下：

数据分为离线和实时两部分。离线部分数据源数据通过集团采集工具T-Collect接入Hologres ODS层，实时部分通过Flink实时接入MySQL Binlog、埋点日志等数据入仓。
在Hologres中对数仓分为ODS、DWD、DWS、ADS等4层，每一层的数据通过集团T-Data平台分钟级调度、清洗，并最后由Hologres从库提供线上服务出口。
实时和离线数据统一由Hologres存储，并由从库作为查询引擎统一提供线上数据出口，支撑的业务场景包括实时看板、实时大屏、实时接口服务、实时推送等场景。

3、查询引擎统一切换到Hologres从实例

实时数仓1.0计算在Kudu中，算完之后把结果同步到查询引擎PolarDB或者MySQL中，实时链路相对来说比较长，而且数据移动成本也很高，对实时数据的稳定性有一定的影响。

实时数仓2.0中，我们采用Hologres共享存储多实例的高可用部署方案，Hologres主实例承载数据的加载、计算，从库共享主库的所有表和数据承载数据查询，实现读写分离方案，并且从库作为实时数仓唯一的数据出口，统一数仓技术架构。这种方案的好处是减少了ADS层数据同步导出链路的维护，降低了开发成本。

Hologres的共享存储多实例的高可用部署方案如下图所示：

实时数仓2.0查询引擎统一升级切换到Hologres从库后的数据流转图前后对比如下：

同时，我们计划对外开放Hologres从库ADS层，分析师或者懂SQL的产品老师后期可通过集团T-Query平台查询工具对实时数据进行探索、分析，自满足部分临时需求，减少人工需求、释放实时数仓开发人力。

助力数仓业务升级，完成降本增效

实时数仓2.0经过半年多的建设，在成本治理上取得了非常好的效果，同时基于Hologres的实时数仓架构在集团推广应用上也有比较成功的案例：

1、百万级写入和毫秒级查询能力

实际业务中，Hologres的写入能力达到百万行+/秒，业务就能快速拿到数据并查询。同时在查询上不仅能支持秒级OLAP分析，还能支持在线服务毫秒级响应，使得业务探索数据的效率变得更快。
通过Hologres多子实例的部署方式，天然的就支持了网校实时数仓的多个查询场景，统一了数据的出口，简化了数仓的使用。并且写入和查询之间互不影响，非常有效的做到了读、写分离。

2、降低成本近百万/年

实时数仓底座升级Hologres后，无需维护多套系统，通过Hologres一套系统支持了实时数仓的全部场景，OLAP引擎成本相比Kudu节约了近百万/年的费用。
公司业务转型背景下，通过数据治理、任务治理等任务数下降80%，Yarn队列资源成本节约几十万/月，数据冗余存储减少90%，提升了数据的利用率。

3、减少运维压力

通过Hologres替换Kudu后，依托阿里强大的技术运维能力，很大程度减少了我们在运维层面上的压力，更加专注于业务开发，有更多精力去做好实时数据的稳定性、准确性、及时性，把用户体验做好。
周末、暑假等业务高峰资源不足时，可随时进行扩容；业务低峰时，可以对资源进行缩容处理，做到很好的一个资源伸缩和成本控制。

4、集团内Hologres实时数仓架构推广

网校实时数仓天然带有K9基因，希望学成功复制网校实时数仓2.0架构，并承载核心实时数据服务，比如实时续报、转化、企微等

未来规划和期望

未来规划：

网校实时数仓的持续建设
数据治理：元数据、数据质量、数据资产、数据安全等
流批一体技术探索

最后谈一谈，在Hologres使用过程中碰到一些问题以及对Hologres的期待

Hologres暂时还不支持自定义函数，系统自带函数满足不了部分特殊需求，自定义函数这块可以同阿里的技术伙伴一起去共建、推动此功能的实现、上线。
其次是Hologres权限配置问题，目前支持简单权限模型、专家权限模型和Schema级别权限模型三种模式，专家模型功能最强大（支持细粒度表级别权限控制），但配置比较复杂，需要执行的命令细节多，从而运维不方便，线上使用的是简单权限模型，权限要控制到schema、表级别，需要在应用系统层面加一层库、表权限管理系统，增加了开发成本；开源Hadoop离线数仓有Range等权限控制框架，能做到精准库、表等权限控制，期望Hologres以后能把权限模型优化得更加简单易用，更多白屏化操作，方便上手。
同时，我们期待Hologres后面可以支持查询开源架构Hive表的数据，这样的话做流批一体可以有更加便捷、简单的实现方案。

相信Hologres未来会变得越来越好用，变成一款功能更全面、更加强大的OLAP引擎！我们也希望通过Hologres建设出更加优秀的实时数仓，赋能更多的业务。

作者：刘标新，好未来网校实时数仓开发工程师、负责人。王洋，好未来网校实时数仓开发工程师

参考文章：

学而思网校：https://touch.xueersi.com/

实时数仓Hologres核心技术揭秘：https://developer.aliyun.com/article/779118

实时数仓Hologres共享存储实例介绍：https://help.aliyun.com/document_detail/360394.html

你可能感兴趣的:(阿里云,大数据,云计算)

“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
OpenEuler kinit报错找不到文件的解决办法久违的太阳其他故障处理服务器运维
客户一套华为大数据集群平台,在一台arm平台openEuler服务器上面安装完集群客户端之后,使用kinit认证出现报错Nosuchfileordirectory:最终定位是操作系统/lib64缺少ld包导致,执行下面的命令恢复：ln-sv/lib/ld-linux-aarch64.so.1/lib64/ld-linux-aarch64.so.1
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
ROS CDK魔法书：建立你的游戏王国（JavaScript篇）阿里云CloudOps 资源编排 ROS 游戏 javascript 开发语言阿里云 ROS CDK
引言在虚拟游戏的世界里，数字化的乐趣如同流动的音符，谱写着无数玩家的共同回忆。而在这片充满创意与冒险的乐园中，您的使命就是将独特的游戏体验与丰富的技术知识相结合，打造出令人难以忘怀的作品。当面对如何实现这一宏伟蓝图时，您或许会想：如何将一款简单而富有趣味的游戏部署到云端，使更多玩家共享这份乐趣？别担心，现在您手中握有一把开启无限可能的大门钥匙——阿里云资源编排服务（ResourceOrchestr
为了拯救minerU镜像制作过程给大家带来的痛苦，我决定放一个备份到阿里云上几道之旅人工智能智能体及数字员工人工智能
文章目录第零步，如果你只是想用这个镜像，那你后面的都不用看。第一步，搜索阿里云，并进入官网第二步，把光标放在产品上，就会出现所有的产品目录第三步容器中，选择容器镜像服务第四步，点击“免费试用，就会让你登录”第五步，点击管理控制台第六步，示例列表中，选择个人版第七步，访问凭证中，设置固定密码第八步，在命名空间中，创建命名空间第九步：创建一个镜像仓库第十步，它会直接跳转到一个说明文档，告诉你具体该怎么
基于Wasm的边缘计算Pandas：突破端侧AI的最后一公里——让数据分析在手机、IoT设备上飞驰 Eqwaak00 Pandas 人工智能 wasm 边缘计算 pandas 架构深度学习
引言：边缘计算的算力觉醒在智能家居设备每秒产生数万条传感器数据、手机App需要实时分析用户行为的今天，传统云计算模式面临高延迟、隐私风险、带宽成本三大挑战。本文将揭示如何通过WebAssembly（Wasm）+Pandas的技术组合，在边缘设备上实现零云端依赖的实时数据分析，并通过智慧工厂设备预测性维护案例，展示从理论到工程的全链路实现。一、技术架构设计1.1边缘计算范式演进mermaid：gra
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
CentOS 7系统中hadoop的安装和环境配置代码小张z centos hadoop linux
1.创建Hadoop安装解压路径：mkdir-p/usr/hadoop2.进入路径：cd/usr/hadoop3.下载安装包（我这里用的是阿里云镜像压缩包）：wgethttps://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz4.解压安装包到hadoop文件路径：tar-zxvf/usr/hadoo
详解离线安装Python库爱编程的喵喵 Python基础课程 python 离线安装 requirements
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了详解离线安装Python库，希望能对
云牧场智能环境控制系统的设计与实现雲明
本文还有配套的精品资源，点击获取简介：本文详细探讨了基于云牧场的智能环境控制系统的构建、功能及实现原理。系统的硬件由传感器和执行器组成，软件平台负责数据分析处理与环境控制设备的自动调整。系统包括数据采集、实时监控、自动控制、预警与报警以及数据分析与决策支持等核心功能模块。此外，文章还分析了云计算与物联网技术的应用、系统安全性与可靠性，并通过实际案例说明了该系统对提高畜牧业生产效益的重要性。1.云牧
基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）计算机程序设计(接毕设) 推荐算法机器学习毕业设计 python 人工智能
摘要IABSTRACTII第1章引言1研究背景及意义1研究背景1研究意义1国内外研究现状2智慧旅游3旅游大数据3研究内容4本章小结4第2章相关技术概述5基于内容的推荐算法5基于内容的推荐算法原理5基于内容的推荐算法实现5协同过滤推荐算法6协同过滤算法原理6协同过滤算法实现7SpringBoot框架9SpringBoot简介9SpringBoot特性10SpringBoot工作原理10Vue.js框
云原生边缘计算：分布式智能的时代黎明桂月二二云原生边缘计算分布式
引言：从集中式算力到万物智联的范式裂变AT&T边缘节点部署超5000个，特斯拉自动驾驶系统每节点200TOPS算力。国家电网通过边缘计算实现毫秒级电网故障隔离，菜鸟物流分拣效率提升400%。IDC预测2027年边缘基础设施支出将达亿，宝马汽车工厂设备预测性维护准确率达9亿运维成本。一、边缘计算范式进化论1.1算力拓扑结构演变世代大型主机中心化云计算分布式雾计算去中心化边缘计算泛在化神经形态计算体计
开源模型应用落地-qwen模型小试-调用Qwen2-7B-Instruct-进阶篇（十二）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言经过前五篇“qwen模型小试”文章的学习，我们已经熟练掌握qwen大模型的使用。然而，就在前几天阿里云又发布了Qwen2版本。无论是语言模型还是多模态模型，均在大规模多语言和多模态数据上进行预训练，并通过高质量数据进行后期微调以贴近人类偏好。本文将介绍如何使用Transformers库进行模型推理（相较于qwen1系列，使用方式上有较大的调整），现在，我们赶紧跟上脚步，去体验一下新版本模型
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
AI让奥运报道一键跨越，见证新华社新科技云计算视频云音视频
媒体智能与巴黎奥运的一场邂逅。随着巴黎奥运会开幕式为全世界掀起一场文艺浪潮，塞纳河畔也从浪漫艺术的盛宴，转向体育竞技的击攘。让全世界不可错过巴黎前方的每刻高光，更需要一场多媒体技术的迎赶革新。于是，我们看到另一场媒体技术舞台，浮出塞纳河的水面。新华社作为国际奥委会认可的唯一非西方的国际通讯社，此次启用由阿里云和山东广电信通联合打造的重大报道共享系统，以AI领先应用，助力巴黎奥运报道。图示：新华社在
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
NET Core 大数据处理 Gene Z .Net C#c#
在.NETCore里处理10万条以上的大数据时，可采用以下几种方式，同时也适用于不同的应用场景。1.批量处理方式借助批量操作一次性处理大量数据，从而减少与数据库或外部系统的交互次数，提高性能。例如，在向数据库插入大量数据时，可使用批量插入操作。应用场景适用于数据导入、数据迁移等场景。比如将CSV文件中的大量数据批量导入到数据库中。2.并行处理方式运用并行编程技术（像Parallel.ForEach
火山云与腾讯云的优势对比苹果企业签名分发腾讯云云计算
首先，我需要确定用户的需求是什么。可能他们是在选择云服务提供商，或者在做市场调研。用户可能是企业的IT决策者，或者是开发人员，需要了解哪个平台更适合他们的项目。接下来，我得收集火山云和腾讯云的基本信息。火山云是字节跳动旗下的，虽然进入市场较晚，但可能有字节的技术支持，比如大数据和AI方面的优势。腾讯云作为老牌厂商，生态完善，产品线全，尤其在游戏、社交等领域有优势。需要对比的方面包括：背景与市场地位
Flume与Couchbase集成原理与实例 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Flume与Couchbase集成原理与实例作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业对数据存储和处理的效率要求越来越高。在数据采集、存储、处理和分析的各个环节，都需要高效、可靠的技术支持。Flume和Couchbase正是这样两种优秀的工具，前者擅长于数据采集和传输，后者擅长于键值存储和文
PHP接入阿里云图片审核骑着蜗牛闯宇宙 xiao php 阿里云开发语言
多个service使用接口ImageBatchModerationgetenv("ALIBABA_CLOUD_ACCESS_KEY_ID"),//必填，请确保代码运行环境设置了环境变量ALIBABA_CLOUD_ACCESS_KEY_SECRET。"accessKeySecret"=>getenv("ALIBABA_CLOUD_ACCESS_KEY_SECRET")]);//Endpoint请参考
大数据最新大数据StarRocks(七)：数据表创建(2) 2401_84182271 程序员大数据
2.1表分为内部表和外部表默认未内部表，3.0版本开始集成外部数据建议使用catalog，外部表的建表方式将被弃用2.2列定义语法：col_namecol_type[agg_type][NULL|NOTNULL][DEFAULT"default\_value"][AUTO_INCREMENT][ASgeneration_expr]col_name：列名称注意，在一般情况下，不能直接创建以以__op
k8s 配置私有镜像仓库认证狗贤 Kubernetes kubernetes 容器
1.创建Docker注册表的Secret首先，创建一个类型为dockerconfigjson的Secret，用于存储Docker注册表的认证信息。方法1:使用DockerCLI和kubectl不适用于阿里云格式不一样登录Docker注册表：dockerlogin这会生成一个包含认证信息的配置文件，通常位于~/.docker/config.json。创建Secret：kubectl-npromcre
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
腾讯云与阿里云，哪个更好些？云计算开发者小李阿里云腾讯云
借用一部电视剧的名字：都挺好！根据IDC最新的数据统计显示，国内前二的云计算平台分别是阿里云、腾讯云，分别背靠阿里、腾讯两大互联网集团，接下来我们就简单的介绍下两大平台。阿里云：国内最早成立的云计算平台，并且一开始就是独立运营，马爸爸宣称每年投入10亿，连续投入10年，最终阿里云的发展没有让阿里人失望，目前已成长为超千亿美元的独角兽，阿里云也由最早的带有明显淘系特色的云平台成长为综合性的云计算平台
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他