cpongo4'"\?;@

Spark、Flink、CarbonData技术实践最佳案例解析

当前无论是传统企业还是互联网公司对大数据实时分析和处理的要求越来越高，数据越实时价值越大，面向毫秒~秒级的实时大数据计算场景，Spark和Flink各有所长。CarbonData是一种高性能大数据存储方案，已在20+企业生产环境上部署应用，其中最大的单一集群数据规模达到几万亿。

为帮助开发者更深入的了解这三个大数据开源技术及其实际应用场景，9月8日，InfoQ联合华为云举办了一场实时大数据Meetup，集结了来自Databricks、华为及美团点评的大咖级嘉宾前来分享。

本文整理了其中的部分精彩内容，同时，作为本次活动的承办方，InfoQ整理上传了所有讲师的演讲PPT，感兴趣的同学可以下载讲师PPT获取完整资料。

Spark Structured Streaming特性介绍（讲师PPT下载）

作为Spark Structured Streaming最核心的开发人员、Databricks工程师，Tathagata Das（以下简称“TD”）在开场演讲中介绍了Structured Streaming的基本概念，及其在存储、自动流化、容错、性能等方面的特性，在事件时间的处理机制，最后带来了一些实际应用场景。

首先，TD对流处理所面对的问题和概念做了清晰的讲解。TD提到，因为流处理具有如下显著的复杂性特征，所以很难建立非常健壮的处理过程：

一是数据有各种不同格式（Jason、Avro、二进制）、脏数据、不及时且无序；\\t
二是复杂的加载过程，基于事件时间的过程需要支持交互查询，和机器学习组合使用；\\t
三是不同的存储系统和格式（SQL、NoSQL、Parquet等），要考虑如何容错。\

因为可以运行在Spark SQL引擎上，Spark Structured Streaming天然拥有较好的性能、良好的扩展性及容错性等Spark优势。除此之外，它还具备丰富、统一、高层次的API，因此便于处理复杂的数据和工作流。再加上，无论是Spark自身，还是其集成的多个存储系统，都有丰富的生态圈。这些优势也让Spark Structured Streaming得到更多的发展和使用。

流的定义是一种无限表（unbounded table），把数据流中的新数据追加在这张无限表中，而它的查询过程可以拆解为几个步骤，例如可以从Kafka读取JSON数据，解析JSON数据，存入结构化Parquet表中，并确保端到端的容错机制。其中的特性包括：

支持多种消息队列，比如Files/Kafka/Kinesis等。\\t
可以用join(), union()连接多个不同类型的数据源。\\t
返回一个DataFrame，它具有一个无限表的结构。\\t
你可以按需选择SQL（BI分析）、DataFrame（数据科学家分析）、DataSet（数据引擎），它们有几乎一样的语义和性能。\\t
把Kafka的JSON结构的记录转换成String，生成嵌套列，利用了很多优化过的处理函数来完成这个动作，例如from_json()，也允许各种自定义函数协助处理，例如Lambdas, flatMap。\\t
在Sink步骤中可以写入外部存储系统，例如Parquet。在Kafka sink中，支持foreach来对输出数据做任何处理，支持事务和exactly-once方式。\\t
支持固定时间间隔的微批次处理，具备微批次处理的高性能性，支持低延迟的连续处理（Spark 2.3），支持检查点机制（check point）。\\t
秒级处理来自Kafka的结构化源数据，可以充分为查询做好准备。\

Spark SQL把批次查询转化为一系列增量执行计划，从而可以分批次地操作数据。

在容错机制上，Structured Streaming采取检查点机制，把进度offset写入stable的存储中，用JSON的方式保存支持向下兼容，允许从任何错误点（例如自动增加一个过滤来处理中断的数据）进行恢复。这样确保了端到端数据的exactly-once。

在性能上，Structured Streaming重用了Spark SQL优化器和Tungsten引擎，而且成本降低了3倍！！更多的信息可以参考作者的blog。

Structured Streaming隔离处理逻辑采用的是可配置化的方式（比如定制JSON的输入数据格式），执行方式是批处理还是流查询很容易识别。同时TD还比较了批处理、微批次-流处理、持续流处理三种模式的延迟性、吞吐性和资源分配情况。

在时间窗口的支持上，Structured Streaming支持基于事件时间（event-time）的聚合，这样更容易了解每隔一段时间发生的事情。同时也支持各种用户定义聚合函数（User Defined Aggregate Function，UDAF）。另外，Structured Streaming可通过不同触发器间分布式存储的状态来进行聚合，状态被存储在内存中，归档采用HDFS的Write Ahead Log （WAL）机制。当然，Structured Streaming还可自动处理过时的数据，更新旧的保存状态。因为历史状态记录可能无限增长，这会带来一些性能问题，为了限制状态记录的大小，Spark使用水印（watermarking）来删除不再更新的旧的聚合数据。允许支持自定义状态函数，比如事件或处理时间的超时，同时支持Scala和Java。

TD在演讲中也具体举例了流处理的应用情况。在苹果的信息安全平台中，每秒将产生有百万级事件，Structured Streaming可以用来做缺陷检测，下图是该平台架构：

在该架构中，一是可以把任意原始日志通过ETL加载到结构化日志库中，通过批次控制可很快进行灾难恢复；二是可以连接很多其它的数据信息（DHCP session，缓慢变化的数据）；三是提供了多种混合工作方式：实时警告、历史报告、ad-hoc分析、统一的API允许支持各种分析（例如实时报警系统）等，支持快速部署。四是达到了百万事件秒级处理性能。

更多信息，可以参考在线的文档：

Structured Streaming编程在线指南\\t
Databricks的blog\\t
Databricks的产品\

CarbonData原理、应用和新规划（讲师PPT下载）

华为大数据架构师蔡强在以CarbonData为主题的演讲中主要介绍了企业对数据应用的挑战、存储产品的选型决策，并深入讲解了CarbonData的原理及应用，以及对未来的规划等。

企业中包含多种数据应用，从商业智能、批处理到机器学习，数据增长快速、数据结构复杂的特征越来越明显。在应用集成上，需要也越来越多，包括支持SQL的标准语法、JDBC和ODBC接口、灵活的动态查询、OLAP分析等。

针对当前大数据领域分析场景需求各异而导致的存储冗余问题，CarbonData提供了一种新的融合数据存储方案，以一份数据同时支持支持快速过滤查找和各种大数据离线分析和实时分析，并通过多级索引、字典编码、预聚合、动态Partition、实时数据查询等特性提升了IO扫描和计算性能，实现万亿数据分析秒级响应。蔡强在演讲中对CarbonData的设计思路做了详细讲解。

在数据统一存储上：通过数据共享减少孤岛和冗余，支持多种业务场景以产生更大价值。\\t
大集群：区别于以往的单机系统，用户希望新的大数据存储方案能应对日益增多的数据，随时可以通过增加资源的方式横向扩展，无限扩容。\\t
易集成：提供标准接口，新的大数据方案与企业已采购的工具和IT系统要能无缝集成，支撑老业务快速迁移。另外要与大数据生态中的各种软件能无缝集成。\\t
高性能：计算与存储分离，支持从GB到PB大规模数据，十万亿数据秒级响应。\\t
开放生态：与大数据生态无缝集成，充分利用云存储和Hadoop集群的优势。\

数据布局如下图，CarbonData用一个HDFS文件构成一个Block，包含若干Blocklet作为文件内的列存数据块，File Header/Fille Footer提供元数据信息，内置Blocklet索引以及Blocklet级和Page级的统计信息，压缩编码采用RLE、自适应编码、Snappy/Zstd压缩，数据类型支持所有基础和复杂类型：

Carbon表支持索引，支持Segment级(注:一个批次数据导入为一个segment)的读写和数据灵活管理，如按segment进行数据老化和查询等，文件布局如下：

Spark Driver将集中式的索引存在内存中，根据索引快速过滤数据，Hive metastore存储表的元数据(表的信息等)。\\t
一次Load/Insert对应生成一个Segment, 一个Segment包含多个Shard, 一个Shard就是一台机器上导入的多个数据文件和一个索引文件组成。每个Segment 包含数据和元数据（CarbonData File和Index文件），不同的Segment可以有不同的文件格式，支持更多其他格式（CSV, Parquet），采用增量的数据管理方式，处理比分区管理的速度快很多。\

查询时会将filter和projection下推到DataMap（数据地图）。它的执行模型如下：

主要包括Index DataMap和MV DataMap两种不同DataMap，三级Index索引架构减少了Spark Task数和磁盘IO，MV可以进行预汇聚和join的操作，用数据入库时间换取查询时间。\\t
DataMap根据实际数据量大小选择集中式或者分布式存储，以避免大内存问题。\\t
DataMap支持内存或磁盘的存储方式。\

最后，蔡强也分析了CarbonData的具体使用和未来计划。

在使用上，CarbonData提供了非常丰富的功能特性，用户可权衡入库时间、索引粒度和查询性能，增量入库等方面来灵活设置。表操作与SparkSQL深度集成，支持高检测功能的可配置Table Properties。语法和API保持SparkSQL一致，支持并发导入、更新、合并和查询。DataMap类似一张视图表，可用于加速Carbon表查询，通过datamap_provider支持Bloomfilter、Pre-aggregate、MV三种类型的地图。流式入库与Structured Streaming集成，实现准实时分析。支持同时查询实时数据和历史数据，支持预聚合并自动刷新，聚合查询会先检查聚合操作，从而取得数据返回客户端。准实时查询，提供了Stream SQL标准接口，建立临时的Source表和Sink表。支持类似Structured Streaming（结构化流）的逻辑语句和调度作业。

CarbonData从2016年进入孵化器到2017年毕业，一共发布了10多个稳定的版本，今年9月份将会迎来1.5.0版的发布。1.5.0将支持Spark File Format，增强对S3上数据的支持，支持Spark2.3和Hadoop3.1以及复杂类型的支持。而1.5.1主要会对MV支持增量的加载，增强对DataMap的选择，以及增强了对Presto的支持。

更多信息，可以参考在线的文档：

官网\\t
代码\\t
JIRA\\t
提问\

Flink在美团的实践与应用（讲师PPT下载）

美团点评数据平台的高级工程师孙梦瑶介绍了美团的实时平台架构及当前痛点，带来了美团如何在Flink上的实践以及如何打造实时数据平台，最后介绍了实时指标聚合系统和机器学习平台是如何利用Flink进行赋能。

孙梦瑶首先介绍了美团目前实时计算平台的架构：

首先，在数据缓存层，Kafka作为最大的数据中转层（所有日志类的数据），支撑了美团线上的大量业务，包括离线拉取，以及部分实时处理业务等。其次，引擎层由计算引擎和存储引擎来支撑，计算引擎由Storm和Flink混合使用，存储引擎则提供实时存储功能。接着，平台层为数据开发提供支持，为美团的日志中心、机器学习中心、实时指标聚合平台提供支撑。架构最顶层的数据应用层 就是由实时计算平台支撑的业务。

目前，美团实时计算平台的作业量已达到近万，集群的节点的规模达到千级别，天级消息量已经达到了万亿级，高峰期的秒级消息量则高达千万条。但是，随着业务的快速扩增，美团点评在实时计算层面仍面临着一系列的痛点及问题：

一是实时计算精确性问题：由于Storm的At-Least-Once特性导致数据重复，而满足Exactly-Once的Trident无法保证某些业务的毫秒级延迟要求。\\t
二是流处理中的状态管理问题：基于Storm的流处理的状态如果管理不好，会引起故障难以恢复的尴尬状况。\\t
三是实时计算表义能力的局限性：基于对实时计算场景的业务需求，发现之前的系统在表义能力方面有一定的限制。\\t
四是开发调试成本高：不同生态的手工代码开发，导致后续开发、调试、维护成本的增加。\

在这样的的背景下，美团点评基础数据团队也开始引入Flink并探索相对应的创新实践之路。Flink在美团点评的实践主要包括三大维度：一是稳定性实践，二是Flink的平台化，三是生态建设：

稳定性实践层面，美团点评首先按不同的业务（取决于不同的高峰期、运维时间、可靠性、延迟要求、应用场景等）进行对应的资源隔离，隔离策略是通过YARN在物理节点上打标签和隔离离线DataNode与实时计算节点。\\\t
其次，再实施基于CPU、基于内存的智能调度，目前方案是从CPU和内存两个方面进行调度优化。还包括对Flink的JobManager部署HA(High Availability)，保证节点的高可用性。针对网络连接故障，采用自动拉起的方式，通过checkpoint恢复失败的作业。
\\\t
此外，针对Flink对Kafka 08的读写超时，美团点评会根据用户的指定次数对异常进行重试，这种方式在解决大规模集群的节点故障问题时可以做更好的平衡。在容灾方面，其采用了多机房和各种热备提升系统的抗故障能力，即使断电断网也能进行保证作业继续进行数据处理。
\\t\\t
Flink平台化层面，通过内部的作业管理的实时计算平台，其团队可以看到总览的作业状态，以及资源运行和占用情况。针对实时作业中可能出现的状态，比如延迟、失败，提供监控报警并能便捷地进行消息预订（电话，邮件，短信等方式）。针对显著的性能差别，也提供了调优诊断的手段进行自助查询、对比、诊断。\\t
\\t\

接下来，孙梦瑶还主要讲解了Flink在美团的应用，其中主要包括两点：一是在Petra实时指标聚合系统的应用，二是用于MLX机器学习平台的构建。

Petra实时指标聚合系统主要完成对美团业务系统指标的聚合和展示。它对应的场景是整合多个上游系统的业务维度和指标，确保低延迟、同步时效性及可配置。因此美团点评团队充分利用了Flink基于事件时间和聚合的良好支持、Flink在精确率（checkpoint机制）和低延迟上的特性，以及热点key散列解决了维度计算中的数据倾斜问题。\\\t
\\t\\t
MLX机器学习平台\\t
\\t\

MLX机器学习平台主要通过特征数据的提取和模型的训练，支持美团点评的搜索和推荐以及其他业务的应用。它需要满足提供离线模式——通过批处理抽取离线特征数据，同时也提供近线模式——通过Flink抽取实时日志系统中的特征数据。接着训练综合了离线和近线数据的特征数据集群，提取特征并进行模型训练，最终产生有意义的特征。目前，它能支持现有离线场景下的特征提取体系，通过Flink支持增量在线日志交易类数据，有了离线和在线数据就能较好的支持模型训练、特征提取、在线预估、实时预测等。

未来，美团点评还将从三方面优化Flink相关实践：

状态的统一方面：对状态进行统一的管理以及大状态性能优化。\\t
SQL开发效率的提升：基于Flink在语义上的优势解决配置、查询方面的问题，在性能、开发、维护方面做进一步优化。\\t
新应用场景的探索：除流处理外，进一步整合业务场景下离线和在线数据，通过统一的API为业务提供更多的服务。\

Flink和Spark流框架对比 + 华为流计算技术演进（讲师PPT下载）

华为云技术专家时金魁作为最后一位演讲嘉宾，系统性地梳理、比较了Flink／Spark的流框架，同时介绍了华为流计算技术演进过程，并详解了华为CloudStream的服务能力及应用。

时金魁一开始即列举了最常用的流计算框架Storm、Nifi、Spark和Flink等。提供了下面常见开源流计算框架以便大家了解这个生态圈的最新情况。

其中，华为云CloudStream同时支持Flink和Spark（Streaming和Structured Streaming）。时金魁提到，华为流计算团队在研发过程中发现，Spark Streaming能力有限，无法完全满足实时流计算场景，而华为自研多年的流框架生态不足，Storm日薄西山，所以华为在2016年转向Flink为主Spark为辅的组合。今年Spark Structured能力越来越丰富，与Flink之间的gap正快速缩小，也是幸事。

时金魁认为，流计算就是实时处理当下正在发生的流数据，逐条进行大数据分析或算法运算。它具备以下几个特征：

数据先后顺序不确定导致的乱序问题。\\t
内存计算。\\t
流速不定（数据大小不能预测），数据倾斜（分布不均匀），导致计算资源分配不均，能力受限。\\t
Long running 永远不结束。\\t
基于消息事件的逐条处理。\\t
提供可靠的快照。\

从新技术、用户耐心、大数据增长几个方面，时金魁介绍了实时流计算最大限度挖掘数据的价值，是商业驱动和市场价值的一种体现。实时流计算具有丰富的使用场景，如实时商品的广告推荐、金融风控、交通物流、车联网、智慧城市等等。只要需要对实时的大数据推荐或者实时大数据分析，都能找到流计算的应用价值。

时金魁在演讲中重点讲解了数据流模型，即它是一个实时往下流的过程。在Flink中，客观的理解就是一个无限的数据流，提供分配和合并，并提供触发器和增量处理机制。如下图所示：

时金魁介绍说，对华为而言，Spark，Flink以及CloudStream，这三部分构成了LOGO中的“三条杠”，华为实时流计算服务俗称“华为云三道杠”，为客户主要提供云计算的服务。

通过对Flink的内核分析以及运行分析，他解释了如何实现一个完整的数据流处理过程：

解析：逻辑关系解析，生成StreamTransformation\\t
分析：构建StreamGraph，DAG，为生成执行计划准备\\t
生成：构建ExecutionGraph，为运行做准备\\t
执行：申请资源，执行计划（算子）\\t
最后生成数据流（DataStream）\

下图是Flink的技术栈图，包括了一个完整的数据流框架：

此外，时金魁还对Flink和Spark做了详细的对比。Flink的优势包括具备成熟的数据流模型，能提供大量易用的API供使用，在SQL、Table、CEP、ML、Graph方面都提供完善的功能。对比之下，Spark拥有活跃的社区和完善的生态，Structured Streaming能提供统一标准，保证低延迟。

而华为根据Flink与Spark框架各自的特点，摒弃其劣势，设计开发出一款全新的实时流计算服务Cloud Stream Service（简称CS）。CS采用Apache Flink的Dataflow模型，实现完全的实时计算，同时采用在线SQL编辑平台编写的Stream SQL，自定义数据流入、数据处理、数据流出，并完全兼容Spark和Flink的API。

总结来说，Cloud Stream具有易用、按需计费、开箱即用、低延时（毫秒）高吞吐（百万消息每秒）、完整生态、完全可靠等几大优势。

例如，在易用性维度，Cloud Stream利用可视化的StreamSQL编辑器，因此可以方便地定义SQL，可在线调试和监控作业。

在安全性维度，华为实时流计算团队在行业首创了全托管的serverless独享集群模式。第一，它采用物理隔离，使得用户在作业运行时和资源上无共享，多用户之间无交叉；二是在业务上实现隔离，使得连接、数据和计算相互独立无干扰；三是沙箱在共享资源池中很难完全防语言、应用、OS等方面的共计，而且对Spark和Flink有一定的侵入性。

在线机器学习方面，CloudStream通过了流式随机森林算法应用于实时故障检测；通过特征工程应用于实时推荐；通过在线机器学习应用于智慧城市；通过地理分析函数应用于卡车运输位置检测。

最后，时金魁也分享了CloudStream支持对接用户自己搭建的Kafka、Hadoop、Elastic Search、RabbitMQ等开源产品集群；同时已支持连通华为云上的其他服务，如消息通知服务、云搜索服务、智能边缘平台等十几个服务，从而为用户提供一站式、生态丰富、功能强大的实时流计算平台。

欢迎大家试用。https://www.huaweicloud.com/product/cs.html

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
从鸡肉高汤到记忆的魔法再到有效提示的艺术步子哥人工智能
还记得小时候那些天马行空的白日梦吗？也许只要按下键盘上的某个神奇组合，电脑就会发出滴滴的声响，一个隐藏的世界突然在你眼前展开，让你获得超凡的能力，摆脱平凡的生活。这听起来像是玩过太多电子游戏的幻想，但实际上，间隔重复系统给人的感觉惊人地相似。在最佳状态下，这些系统就像魔法一样神奇。本文将以一个看似平凡的鸡肉高汤食谱为例，深入浅出地探讨如何编写有效的间隔重复提示，让你像掌握烹饪技巧一样轻松地掌握记忆
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
走向以教育叙事为载体的教育叙事研究 666小飞鱼
今天我读了吴松超老师的《给教师的68条建写作建议》中的第23条《如何通过教育叙事走向研究》，吴老师在文中与我们分享了一个德育案例，这是一个反面的案例，意在告知我们在处理问题时，不能就考虑的点太窄，思考要全面。走向教育叙事研究，教师要有敏锐的“感知力”，这个感知力来自于背后专业知识的支撑，思维能力以及广阔的视野和见识等。所以对于同一件事处理方法不同，这个就是教师背后“敏锐力”的不同造成的，也就是说是
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
果然只有离职的时候，才有人敢说真话！ return2ok
今天公司出了神贴。今天中午吃饭，同事问我看了论坛上的神贴了吗？什么帖子？我问。同事显得很惊讶，你居然没看，现在那个帖子可能会成为年度最佳帖子。这么厉害？我等不及了，饭没吃完就快速的奔向办公室，打开公司论坛，我要一睹这个帖子的神奇。写这帖子的童鞋胆儿真肥。这哪里是一个帖子，这是很多个帖子，组成了一个系列。某人从公司文化、管理、人事、项目管理等多个方面分析了公司的概况，并抨击了公司的各种弊端，并提出了
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
如何选择最适合你的项目研发管理软件？TAPD卓越版全面解析北京云巴巴信息技术有限公司产品经理需求分析
在当今快速发展的科技时代，项目研发管理软件已成为企业不可或缺的重要工具。面对市场上琳琅满目的产品，如何选择一款适合自己团队的项目研发管理软件呢？本文将围绕项目研发管理软件的选择标准，重点介绍TAPD卓越版的特点、优势以及使用体验，让你更好地理解和选择适合自己的项目研发管理软件。项目研发管理软件的选择标准在选择项目研发管理软件时，我们需要考虑以下几个方面的因素：功能全面性：软件是否覆盖了从需求管理、
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
剧本杀《鲸鱼马戏团》剧本杀剧透+真相答案复盘解析攻略 VX搜_奶茶剧本杀
本文为剧本杀《鲸鱼马戏团》剧本杀测评+部分真相复盘，获取完整真相复盘只需两步：①、关注微信公众号【奶茶剧本杀】→②、回复剧本杀《鲸鱼马戏团》即可获取查看剧本杀《鲸鱼马戏团》剧本杀真相答案复盘+凶手剧透：以下是玩家评测+部分关键证据，凶手，时间线，复盘解析，推理逻辑--------------------------------------------------------------------
2022-08-28 蔚蓝一片晴
初三暑假培训收获点滴从8月25至8月27日三天两晚的培训结束了，回到家中，该静下心来整理一下触动心灵的收获，成为成长的积淀。1.在优秀团队中快速成长与提升，做一名反思成长型教师一名专业型教师的教学指导包括了教学原理知识、案例知识、策略知识。面对教学中的遇到的有趣的情形、问题会去研究其理，寻找更好的教法学法对策。从新手到成熟型教师，再走向专业型教师，需要的是觉醒与反思，多进行案例研究，从案例中观察、
多子女家庭问题 3e5c5362403c
杨宁宁焦点解决网络初17中19坚持分享589天（2021.3.20）本周约练我1次，总计166次，读书打卡第256天案例督导收获：【家有老大篇】被爱与高期待下的独舞家里的第一个孩子往往集万千宠爱于一身。爸爸妈妈、爷爷奶奶、姥姥姥爷的目光都聚焦在他的身上。在这种光环下长大的孩子，就如小皇帝一般，衣来伸手、饭来张口。拥有爱的同时，也意味着拥有了更高的被期待，父母会花血本给你报各种各样的早教班，给你买各
第二十 python基础--语句九樱MOL
目录具体内容1：if语句的使用格式判断语句2：if-else的使用格式3：if-elif-else的使用格式4：if嵌套1：while循环的格式循环语句2：while循环嵌套3：for循环的格式一、判断语句在程序中如果某些条件满足，才能做某件事情，而不满足时不允许做，这就是所谓的判断1.1if语句的使用格式if要判断的条件:条件成立时，要做的事情案例:判断年纪，如果age大于18，输入成年age=
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
光盘文件系统 (iso9660) 格式解析穷人小水滴光盘文件系统 iso9660 deno GNU/Linux javascript
越简单的系统,越可靠,越不容易出问题.光盘文件系统(iso9660)十分简单,只需不到200行代码,即可实现定位读取其中的文件.参考资料:https://wiki.osdev.org/ISO_9660相关文章:《光盘防水嘛?DVD+R刻录光盘泡水实验》https://blog.csdn.net/secext2022/article/details/140583910《光驱的内部结构及日常使用》ht
Spring MVC 全面指南：从入门到精通的详细解析一杯梅子酱技术栈学习 spring mvc java
引言：SpringMVC，作为Spring框架的一个重要模块，为构建Web应用提供了强大的功能和灵活性。无论是初学者还是有一定经验的开发者，掌握SpringMVC都将显著提升你的Web开发技能。本文旨在为初学者提供一个全面且易于理解的学习路径，通过详细的知识点分析和实际案例，帮助你快速上手SpringMVC，让学习过程既深刻又高效。一、SpringMVC简介1.1什么是SpringMVC？Spri
崩坏星穹铁道哪个角色值得培养崩坏星穹铁道新手角色优先级教学会飞滴鱼儿
崩坏星穹铁道新手角色培养攻略：哪些角色值得投资？在《崩坏星穹铁道》中，角色的强度和培养一直是玩家们关心的焦点。要想体验更爽快的游戏过程，选对角色至关重要。那么，哪些角色值得投资培养呢?本篇教学文章将针对新手玩家，从T0到T1强度的角色中为你做出详尽解析。游戏豹官网现在的手游平台很多，但是在游戏界有这么一个传说：“喜欢肝的玩家不如氪金玩家，氪金玩家不如内部福利玩家”，这就是游戏界可悲的生物链，很多平
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
【2022 CCF 非专业级别软件能力认证第一轮（CSP-J1）入门级 C++语言试题及解析】汉子萌萌哒 CCF noi 算法数据结构 c++
一、单项选择题(共15题，每题2分，共计30分；每题有且仅有一个正确选项)1.以下哪种功能没有涉及C++语言的面向对象特性支持：()。A.C++中调用printf函数B.C++中调用用户定义的类成员函数C.C++中构造一个class或structD.C++中构造来源于同一基类的多个派生类题目解析【解析】正确答案:AC++基础知识，面向对象和类有关，类又涉及父类、子类、继承、派生等关系，printf
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

Spark、Flink、CarbonData技术实践最佳案例解析

Spark Structured Streaming特性介绍 （讲师PPT下载）

CarbonData原理、应用和新规划（讲师PPT下载）

Flink在美团的实践与应用（讲师PPT下载）

Flink和Spark流框架对比 + 华为流计算技术演进（讲师PPT下载）

你可能感兴趣的:(Spark、Flink、CarbonData技术实践最佳案例解析)

Spark Structured Streaming特性介绍（讲师PPT下载）