字节数据平台

如何快速构建企业级数据湖仓？

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群

本文整理自火山引擎开发者社区技术大讲堂第四期演讲，主要介绍了数据湖仓开源趋势、火山引擎 EMR 的架构及特点，以及如何基于火山引擎 EMR 构建企业级数据湖仓。

数据湖仓开源趋势

趋势一：数据架构向 LakeHouse 方向发展

LakeHouse 是什么？简言之，LakeHouse 是在 DataLake 基础上融合了 Data Warehouse 特性的一种数据方案，它既保留了 DataLake 分析结构化、半结构化、非结构化数据，支持多种场景的能力，同时也引入了 Data Warehouse 支持事务和数据质量的特点。LakeHouse 定义了一种叫我们称之为 Table Format 的存储标准。Table format 有四个典型的特征：

支持 ACID 和历史快照，保证数据并发访问安全，同时历史快照功能方便流、AI 等场景需求。
满足多引擎访问：能够对接 Spark 等 ETL 的场景，同时能够支持 Presto 和 channel 等交互式的场景，还要支持流 Flink 的访问能力。
开放存储：数据不局限于某种存储底层，支持包括从本地、HDFS 到云对象存储等多种底层。
Table 格式：本质上是基于存储的、 Table 的数据+元数据定义。

具体来说，这种数据格式有三个实现：Delta Lake、Iceberg 和 Hudi。三种格式的出发点略有不同，但是场景需求里都包含了事务支持和流式支持。在具体实现中，三种格式也采用了相似做法，即在数据湖的存储之上定义一个元数据，并跟数据一样保存在存储介质上面。这三者相似的需求以及相似的架构，导致了他们在演化过程中变得越来越相似。

可以看到，三种数据格式都基本能覆盖绝大部分特性。

下表给出了三种格式在生态方面的支持情况（截止 2022/8/18）：

最后考虑的问题点：Table Format 是不是一个终极武器？我们认为答案是否定的。主要有几方面的原因：

使用体验离预期有差距：由于 Table Format 设计上的原因，流式写入的效率不高，写入越频繁小文件问题就越严重；
有一定维护成本：使用 Table Format 的用户需要自己维护，会给用户造成一定的负担；
与现有生态之间存在 gap：开源社区暂不支持和 Table format 之间的表同步，自己做同步又会引入一致性的问题；
对业务吸引不够：由于以上三点原因，Table Format 对业务的吸引力大打折扣。

如何去解这些问题呢？现在业界已经有基于 Table Format 应用的经验、案例或者商业公司，比如 Data Bricks、基于 Iceberg 的 Tabluar 以及基于 Hudi 的 OneHouse 公司。

通过这些公司的商业产品，底层组件、运维和优化都交由商业产品解决，有效减轻负担。而且商业公司还有能力提供上层的 ETL 管道等产品，使得用户可以更容易从原有架构迁移。因此，LakeHouse 并不等于 Table Format，而是等于 Table Format 加上一些上层建筑。这些上层建筑由商业公司提供，但除此之外也期望能来来自社区。

趋势二：计算向精细化内存管理和高效执行方向发展

数据湖的本质是起 task ，然后做计算。当引擎逐渐完善之后，对于性能需求逐步上升，不可避免地要朝精细化的内存管理以及高效执行方向发展。目前，社区出现了两个趋势：Native 化和向量化（Vectorized)。

第一，Native 化。

Native 化有两个典型的代表。

Spark：去年官宣的 Photon 项目，宣称在 tpcs 测试集上达到 2X 加速效果。
Presto： Velox native 引擎。Velox 引擎现在不太成熟，但是根据 Presto 社区官方说法，可以实现原来 1/3 的成本。由此可猜测，等价情况下能获得 3X 性能提升。

除了以上两者，近几年热门的 ClickHouse 和 Doris 也是 Native 化的表现。

第二，向量化。

Codegen 和向量化都是从数据仓库，而不是 Hadoop 体系的产品中衍生出来。

Codegen 是 Hyper 提出的技术，而向量化则是 MonetDB 提出的，所以计算引擎的精细化也是沿着数仓开辟的路子在走。Spark 等 Hadoop 体系均走了 Codegen 的道路，因为 Java 做 Codegen 比做向量化要更容易一些。

但现在，向量化是一个更好的选择，因为向量化可以一次处理一批数据，而不只是一条数据。其好处是可以充分利用 CPU 的特性，如 SIMD，Pipeline 执行等。

趋势三：多模计算，即组件边界逐渐模糊，向全领域能力扩展

Spark ，最早为批处理引擎，后补了 Streaming 和 AI 的能力；Trino 为 OLAP 引擎，现在也在大力发展批式计算；Flink 为流引擎，后补了批式计算和 AI 能力；Doris 则在加强 multi-catalog……

各家引擎都在拓展用户场景。这种多模计算产生的结果是，对于各个领域内差别不大的场景，技术会逐渐收敛到一个最优解，最终只有一两个引擎获得成功。差别比较大的场景，则在每个场景形成一两个寡头，寡头跨场景的能力则竞争力很弱。

趋势四：分析实时化

大数据最早是批式计算的形式，但理想状态是纯流式方式。分析实时化的表现有（近）实时引擎和流引擎。

（近）实时引擎

ClickHouse：近实时 OLAP 引擎，宽表查询性能优异

Doris：近实时全场景 OLAP 引擎

Druid：牺牲明细查询，将 OLAP 实时化，毫秒级返回
流引擎

Flink：流计算逐步扩大市场份额

Kafka SQL：基于 Kafka 实现实时化分析

Streaming Database：Materialize 和 RisingWave 在开发的一种产品形态，效果类似于 Data Bricks 的 Data Live Table

企业构建数据湖仓的挑战

企业在构建数据湖仓时面临的挑战分为以下 5 个方面：

整体数据链路复杂：即使是开发一个小的 APP，要搭建整个数据链路也很复杂，比如数据回流需要写数据库；日志要回流，要基于回流数据做指标计算，回流数据还需要转储以及 CDC；基于转储数据还要做 ETL 分析。
湖仓需求多样：如果存在机器学习需求，即要完成特征工程等一系列步骤，这些步骤也催生了数据湖仓的多种需求，包括支持批式、流失计算和交互式数据科学等各种场景。
湖仓数据来源广泛：包括业务交易数据、业务资产数据、用户行为数据、上下游产生的中间数据等。
数据开发中参与角色众多：包括管理者、一线业务人员、业务开发、基础设施参与人员等等。
企业往往需要根据平台进行二次开发：基础设施无法直接对接业务，根据业务特点灵活定制平台，解决方案平台化、产品化等。

由此衍生出一系列问题，包括稳定性、扩展性、功能、性能、成本、运维、安全、生态这 8 个方面。企业如果要单方面解决这些问题，哪怕是其中一个，可能也要花费巨大的人力物力。

火山引擎 EMR 即是这样一个平台。下一部分将主要介绍，火山引擎 EMR 如何帮助用户解决这些挑战以及如何基于 EMR 构建企业级数据湖仓。

基于火山引擎 EMR 构建企业级数据湖仓

火山引擎 EMR

一句话总结，火山引擎 EMR 是开源大数据平台 E-MapReduce，提供企业级的 Hadoop、Spark、Flink、Hive、Presto、Kafka、ClickHouse、Hudi、Iceberg 等大数据生态组件，100% 开源兼容，支持构建实时数据湖、数据仓库、湖仓一体等数据平台架构，能帮助用户轻松完成企业大数据平台的建设，降低运维门槛，快速形成大数据分析能力。火山引擎 EMR 有以下 4 个特点：

开源兼容 &开放环境：100% 兼容社区主流版本，满足应用开发需求；同时提供半托管的白盒环境，支持引导操作与集群脚本能力。
引擎企业级优化：引入了 Spark、Flink 等核心引擎的企业级特性优化及安全管理。
Stateless 云原生湖仓：把状态外置做成存算分离的架构。
云上便捷运维：提供一站式云托管运维的能力与组件，让用户能够分钟级地创建和销毁集群，同时提供精细化的集群运维监控告警能力。

Stateless、瞬态集群

Stateless 是指把所有有状态的数据外置，让用户的计算集群变成无状态的集群。这些有状态的组件包括：History Server、表的元数据、平台的元数据、审计日志、中间数据等。完全外置的 Stateless 集群可以达成极致的弹性伸缩状态。状态外置有两个重要的组件，Hive Metastore 和各个 Public History Server。

Hive Metastore Service: 中心化元数据托管服务

Hive Metastore 定位为公共服务，用户可以选择独占或共享 Metastore 实例。如果用户期望节省成本，或者为公司用户，那么两个部门之间可以使用一个 Hive Metastore service；而对于一些要求比较高的部门，可以单独建一个 Metastore Service 的实例。

持久化的 History Server 服务

YARN、Spark、Flink、Presto 等几种 History Server 都从引擎中被剥离出来，形成 Public History Server 服务。该服务有几个特点：

独立于集群之外运行的常驻服务；
提供持久化的 History 数据存储。当该集群销毁之后，历史数据还可保存 60 天；
提供原生 History Server UI，用户不会感觉生疏；
租户间 History 数据隔离；
更友好的使用体验：相对于组件内置 History Server，独立服务需要绑定公网并开放 8443 端口才能访问，Public History Server 真正做到了开箱即用，无需其它额外配置。同时集成 IAM SSO 准入认证，通常情况下用户从 EMR 管控端跳转到 Public History Server 可以实现无感 SSO 认证登录，无需再次输入用户登录凭证。

存算分离，弹性伸缩

火山引擎 EMR 具备 CloudFS 和 TOS 两个数据存储层，冷数据可以存储在对象存储 TOS 上。CloudFS 则构建在 TOS 层之上，提供兼容 HDFS 语义存储，提供缓存加速功能，可以把温数据放在 CloudFS 。在引擎内部内置一些本地缓存，用于缓存热数据。分层缓存能够弥补企业上云之后，数据因保存在对象存储所造成的性能损失。另外 Cloud FS 提供 HDFS 的语义，可便于开源组件切入。

云托管，易运维

在管控层面，火山引擎 EMR 提供了很多工具，便于管理员管理整个集群，包括集群管理、服务管理、节点管理、日志中心、配置中心、用户权限、弹性伸缩等，用户可以到火山引擎上建一个最小规格集群体验。

用户友好

在用户侧，火山引擎 EMR 提供了作业管理界面，提供全局视角查看集群资源消耗、异常情况等。同时该界面提供一键查看作业详情，作业诊断等功能，包括不限于异常探测、运行资源消耗、优化建议等。未来，期望能够基于作业提供优化建议，比如参数调整等。

构建企业级数据湖仓的最佳实践

接下来我们通过几个案例来看看基于火山引擎 EMR 构建的企业级数据湖仓最佳实践。

案例 1：多元化分析平台

多元化分析指兼具离线分析场景与交互式分析的场景，以及高性能场景，以便支持应用层直接使用数据集市中的数据。以某互联网企业平台部门距离，用户期望基于业务数据构建分析平台，支持多种分析负载，包括可视化大屏、报表系统、自助分析以及开发分析应用等。

要搭建这种多元化分析平台，用户可以通过 DataLeap 进行数据开发，让数据通过离线方式或实时同步的方式流入数据库仓。然后，基于 Spark/Hive/Presto/Trino 进行批式数据分析和交互式分析。对于流式处理，可以把数据转储到 Cloud FS 和 TOS，基于流式做出一个计算结果，上传到 Clickhouse 和 Doris 来满足一些高性能分析的场景。

案例 2：高性能实时数仓

某头部直播业务的实时数仓达到 100+W/s 数据入仓速度，且支持横向扩展。通过流式计算引擎计算后，明细数据进入 Doris 集群 ODS 层，数据聚合计算后进入 DWS 层，数据指标经计算后存入 ADS 层，且数据支撑在线更新。由 Doris 对数据应用层提供服务，支持在线、离线查询分析，支持几十万级 QPS。

该业务数据量比较大，同时对数据分析的时间性要求高，希望业务人员能通过实时查看业务指标的变化快速做出反应，达到精准营销的效果。

该方案是通过 Flink 把数据直接流入 Doris，即原始数据直接到 Doris 的 ODS 层。由于 Doris 本身性能可以提供时延很短的查询体验，因此基于 Doris 完成 ODS > DWD > DWS > ADS 的转化。

案例 3：实时计算

对性能要求高的场景，目前推荐使用实时计算方式，让数据省略中间各层。在 Flink 里完成计算，结果直接写入 RDS/ Redis。以某车联网公司为例，实时采集运营的 500 辆新能源汽车行驶和电池数据进行实时分析和告警，每 5 分钟采集一次，日增量在 10GB，数据通过消息队列 Kafka 或 Pulsar 汇聚到大数据平台，使用 Flink 流计算引擎进行毫秒级实时指标计算，计算结果存储到 RDS 中供平台进行实时数据展示。

案例 4：在线机器学习

在在线机器学习场景下，数据通过离线的方式存到数据湖仓。离线数据可以通过 Spark 进行特征抽取及特征工程，并把提取出来的特征返存到湖仓或者 HBase 等键值存储。

基于离线的数据可以进行离线训练，如通过 Spark MLlib 搭建传统的机型学习模型，或者通过 TensorFlow 进行深度模型的训练，把深度训练出来的模型部署到模型服务中。在在线方面，数据通过 Kafka 流入 Flink 进行在线特征抽取，然后把在线特征放在 Redis。同时在线部分的增量数据可用 TensorFlow 进行增量训练，把增量模型也导入模型服务里。模型服务根据原来批式训练出来的模型和增量模型做成实时的 AI 服务，可满足实时风控等对时间要求比较高的场景。

火山引擎 EMR 湖仓方向未来规划

最后与大家分享火山引擎 EMR 在湖仓方向未来的规划。

数据加速：期望进一步加速数据分析。企业上云之后，痛点之一为数据放到对象存储之后性能是否会下降。要解决该问题，主要在数据缓存（包括文件级 Cache 和 Page 级 Cache）和索引方面（包括 Bitmap、Bloom Filter）做一些工作。
解决刚需痛点场景：分析 CDC 数据和多路径，解决数据湖仓割裂的问题。对于后者，可以尝试：

Doris 直接加速访问 HMS 中的 Hive/Iceberg/Hudi 表，实现湖仓互通。

持续优化基于 Iceberg 数据湖方案，使得性能接近仓的体验。
拥抱开源：希望将工作合入到开源社区，包括 Data Block Alluxio 的功能和性能优化；Doris MultiCatalog、元数据服务化、冷热分离优化；Iceberg 二级索引等。
AI4Data（数据智能管家）：我们长期规划是成为一个智能数据管家，具体包括：

自动诊断高频低性价比 SQL 及作业；

自动优化用户 SQL 及作业，智能地从数据分布、Cache、Index、物化视图等维度来优化用户账单；

智能运维：

集群负载过高时，自动扩容；负载降低时，自动收缩。

集群节点故障时，做到用户完全无感知地 Failover。

自动地实现数据均衡分布。
产品打磨：在产品侧，第一目标是打磨产品，先把产品底座做坚实，并在管控方面（包括创建集群体验优化、弹性伸缩优化等）、作业开发与管理方面与周边生态方面做进一步打磨。

活动推荐

12 月 20 日 19:00，《火山引擎 VeDI 数据中台架构剖析与方案分享》

本期直播分享将聚焦字节跳动数据中台建设经验，在存算分离、湖仓一体、ServerLess 等技术发展趋势下，从企业数仓架构选择、数据湖解决方案与应用实践，以及一站式数据治理等角度，为企业构建自身数据中台提供思路和启发。

戳链接，立即进群、观看直播、赢取好礼：11dr.cn/d/5xvloe9D7

点击跳转火山引擎 E-MapReduce官网
了解更多

第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
如果做到轻松在股市赚钱？只要坚持这三个原则。履霜之人
大A股里向来就有七亏二平一赚的说法，能赚钱的都是少数人。否则股市就成了慈善机构，人人都有钱赚，谁还要上班？所以说亏钱是正常的，或者说是应该的。那么那些赚钱的人又是如何做到的呢？普通人能不能找到捷径去分一杯羹呢？方法是有的，但要做到需要你有极高的自律。第一，控制仓位，散户最大的问题是追涨杀跌，只要涨起来，就把钱往股票上砸，然后被套，隔天跌的受不了，又一刀切，全部割肉。来来回回间，遍体鳞伤。所以散户首
没想到，真没想到一棵落花的树
生活中，每一件小事都蕴藏着他的道理。有些令你意外，却能让你收到更为意外的结果。那一次，我真没想到的事，让我收获了爱。记忆的雨飘落下来，扰乱了我平静的心湖。那是一次数学考试，我破天荒地考了“99”分。我不禁沾沾自喜，这成绩我可不容易得到，妈妈一定会好好表扬我的。回到家，我想妈妈得意的报出成绩，妈妈只是淡淡的说：“嗯，等会儿试卷拿给我看看。”做完作业，我把试卷拿给了妈妈。只见妈妈捧着试卷，眯着眼睛盯着
2019-11-04复盘——飞来山上千寻塔，闻说鸡鸣见日升。那一叶秋
1、大盘篇先上老图，看习惯了，也就知道走势了图1上证指数日线图还是那张老图，自己可以在自己的相关软件上画出来，快变盘了。2、个股篇未加仓、未减仓。分析量能的时候，突然发现这么一个东西：“放量突破年线，缩量回调。”合众科技日线图其实，最近的N只个股，在技术分析上，都到了变盘的临界时候。结合这么久的走势，特别是ZJH不断放开IPO的申请，本质上说是融资难度变大，或者说是为企业的融资开创便利。但现在市场
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
安徽省这个湖,比西湖大8倍,称是安徽的北戴河, 合肥的后花园旅游小号角
旅游爱好者都知道，安徽省是一个旅游资源十分丰富的省份，且不说黄山、九华山、天柱山这三大名山，单说湖泊就不比其它省份少，今天我们一起走遍世界将为大家说说一个号称安徽北戴河，合肥后花园的湖泊，看看到底是哪个湖泊？话说，这个湖泊位于安徽省六安市舒城县境内，东距合肥50千米，大约一个小时左右的车程，它号称是合肥的后花园，安徽的北戴河。相传，湖畔石壁之上有一奇石神似观音临湖，湖中漂动众多小岛栩栩如佛子，宛若
古风原创慕白漓
【江南月】词:慕白漓曲:《庐州月》西厢一语惊醒梦中月光佳人为何素眉不添淡妆抚帕刺秀绵缎一缕清香南望飞雁又归西方城外又闻秋稻泛黄成殇细雨纷飞里春又归乡离家而去的你是否迷失彷徨一句诺言永记心上家书一封道尽咏平常青草才青暮色又飘扬等也难当回又何妨古拙的山水今又细水流长江南月光照耀湖旁如今的情也已不在心上十载月晃容颜覆黄问一句你今在他乡何方江南月光苏州城隍孤单的你可还记得夜凉西厢人忘你是否还在独唱却唱不出
骑昆明到北海—119 砚山县 61清风i
从十年前第一次长途骑行青海湖开始每年一次长途骑行看风景，尝各地美食，探访异域文化，记录途中美食美景美事，已逐渐形成习惯。每年春季详细规划好线路，夏季出行，2020年因为疫情迟迟不能确定线路和行程。总算到了暑期疫情逐渐消失，规划了50多天的云南昆明—广西北海计划。本次行程从云南昆明出发到广西北海市结束，五十一天骑行二千多公里线路昆明-官渡古镇-环滇池--澄江市一抚仙湖—路居镇--江川区--通海县—龙
果冻宝盒邀请码怎么填好，附6个顶级有效邀请码小小编007
在当今的电商时代，返利app已经成为了很多网购达人的必备工具。其中，果冻宝盒作为一款备受好评的返利软件，吸引了大量用户。而对于一些新手用户来说，填写果冻宝盒的邀请码可能会让他们感到困惑。本文将详细介绍果冻宝盒返利app，并指导用户如何正确填写邀请码。一、果冻宝盒返利app简介果冻宝盒是一款集折扣、返利、分享为一体的购物app。用户在果冻宝盒上购物时，不仅可以享受到商家提供的折扣，还可以获得果冻宝盒
冬练太极虽好，也需做好防护！武当功夫传人郑师和
俗话说，夏练三伏，冬练三九，练功绝非一日之功，必须持之以恒。太极拳是一项集文化、养生、锻炼于一体的活动。现在已经进入冬季，许多喜爱太极拳的朋友们仍然会到户外进行锻炼。这种精神固然可嘉，但是也一定要注意一些相关事项，以避免影响养生的效果。冬季练拳要“养汗”太极拳一日不练十日空,入冬天冷以后要“守汗”，春生夏长秋收冬藏，冬天练功，万物冬藏，要养阳气，需要藏精，顺天时天利，盘拳时，身体微热要见汗，还没出
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
这样旅行的人，值得拥有丰富而饱满的体验究竟
01“一张车票就实现了来拉萨的梦想。原以为很遥远，现也觉得旅途值得。也不过山河故人而已。”打开朋友圈，看到了强子新发的动态，配了两张图，一张图里是拉萨火车站，另一张图里是二十来张排列得整整齐齐的火车票，终点站都是拉萨。又想起几天前，姑娘秀了一波在青海湖的美照，照片里的她，身穿鲜艳的红色长裙，坐在牦牛背上，阳光打下来，她笑靥如花。橙色的旗子风中飘扬，那蓝绿色的青海湖和天空再美，也都成了陪衬。再看看自
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
（缓解抑郁症状）中原焦点团队杨小杰坚持分享第226天2021-4-1 yxjlady
缓解抑郁症状1、不要总待在室内，抑郁严重的人，通常都不想出门2、抑郁性都有诱因或一个导火索，人不能战胜所有东西，要有取舍3、社交，抑郁症的人总是自己脑中不断的自言自语，自我否定等，出去社交就被迫被别的东西点拨了，深度抑郁没法走出自己的世界，思维走不出自己的怪圈4、锻炼让自己轻微出汗最佳，身心是一体时，身体有活力，精神很难不健康5、冥想冥想和社交一样，可以改变你的神经可塑性，一个沉溺在自己世界里的抑
史上最全git命令,git回滚,git命令大全騒周其他 git
git命令大全一、Git整体理解二、由暂存区本地仓库三、由本地仓->远程仓库四、冲突处理五、Git分支操作六、bug的分支七、feature分支八、暂存的使用九、远程仓的操作十、标签的使用十一、Git配置全局信息十二、Linux的一些简单操作和一些符号的解释十三、符号解释十四、显示安装详细信息十五、gitconfig十六、Gitclone十七、Gitinit十八、gitstatus十九、gitre
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
如何区分Python中数据类型可变还是不可变秸秆混凝烧结工程师
关键字改变元素值，内存地址发生改变，被称为数据内型不可变如string，元组，存储数据类型单一，不能同时存在两个数据类型，新增元素后，表容量，元素个数，元素存储区ID改变，典型的内置元素一体存储法；改变元素值，但是内存地址不改变就是可变数据内型，如list，存储元素可以不同，删除，新增，插入，表序列不改变，扩展表容量时，对象地址ID不变，属于顺序表的，分离式存储结构，外置元素法，python中不可
张鑫溢：1.25黄金白银TD行情分析，日内多空如何操作？附后市操作策略 AA李钜溢
格止盈止损，严格把握点位，严禁重仓操作！做行情，首看趋势，其次看点位，最后是时间。我们强调的是对行情的理解和观察。无论操作是对还是错，都必须要有操作的理由。有理由的操作，无论对错及时检讨，这才是真正投资，否则，都只会沦为赌博。我们安稳赚钱，把握机会，我们稳健获利，控制仓位做好良性循环投资，切记，不要带着情绪。黄金行情走势分析：现货黄金上周五连续第二天下跌，因全球收紧防疫限制措施促使投资者避险，推升
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
2023-10-26 Eltonpeople
文化通史121今日启发：Elton:第八章中世文化的初兴第一节幕府体制与公武二元文化的确立镰仓幕府在日本历史上，平安时代末期，出现平氏和源氏两大武士集团。首先平氏取代贵族而获得了政权，但仍沿袭贵族政治。平氏与源氏两大武士集团之间不断发生战争。源赖朝于1180年奉以仁王之旨令，举兵讨伐平氏，经过富士川、一谷、坛浦等战役，最终推翻了平氏政权。源赖朝夺取政权后，在地方领主的武力支持下，在镰仓地方初步建立
氧惠风暴来袭！低成本摆摊卖这些，让你日入过万！氧惠好物
在互联网时代，低成本创业已经成为可能。今天，我要给大家介绍一款名为氧惠的APP，它将与你的生活产生重大影响。氧惠，一个全新的抖客+淘客平台，以其独特的带货高补贴模式，正在改变着人们的购物习惯和赚钱方式。氧惠，一个全新的购物体验首先，让我们来看看氧惠的特点。氧惠是一款集购物、省钱、赚钱于一体的APP。它与淘宝、京东、拼多多等主流电商平台合作，为用户提供内部优惠券，涵盖了吃喝玩乐衣食住行的各个方面。这
骑昆明到北海—181 靖西市鹅泉 61清风i
从十年前第一次长途骑行青海湖开始每年一次长途骑行看风景，尝各地美食，探访异域文化，记录途中美食美景美事，已逐渐形成习惯。每年春季详细规划好线路，夏季出行，2020年因为疫情迟迟不能确定线路和行程。总算到了暑期疫情逐渐消失，规划了50多天的云南昆明—广西北海计划。本次行程从云南昆明出发到广西北海市结束，五十一天骑行二千多公里。2020年9月13日傍晚点从延平站出发，9月15日到达云南昆明开始这一旅程
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb