我很ruo

深入理解 Flink（一）Flink 架构设计原理

大数据分布式计算引擎设计实现剖析

MapReduce

MapReduce 执行引擎解析

MapReduce 的组件设计实现图

Spark

执行引擎解析

Spark 相比于 RM 的真正优势的地方在哪里：（Simple、Fast、Scalable、Unified）

DAG 引擎
中间计算结果可以进行内存持久化
基于内存计算(不完全对，确切地说是把数据都加载（从内存中间件中读取）到内存中，然后来执行计算)
生态多样，算子丰富，API 应用库丰富，支持的资源调度也丰富

Spark 执行引擎组件图

Flink 流式计算引擎官网解读

简介

Flink 官网定义： Stateful Computations over Data Streams（https://flink.apache.org/）

Flink 官网导航

Flink 各种特性介绍：https://flink.apache.org/
What is Apache Flink?：https://flink.apache.org/flink-architecture.html
Flink 应用场景：https://flink.apache.org/usecases.html
Flink 应用企业：https://flink.apache.org/poweredby.html
Flink 版本升级迭代：https://flink.apache.org/downloads.html
Flink Quick Start：https://nightlies.apache.org/flink/flink-docs-release-1.14//docs/try-flink/local_installation/
Flink 架构：https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/concepts/flink-architecture/
Flink 核心概念：https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/concepts/glossary/
Flink 流式应用程序开发相关：https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/dev/datastream/overview/
Flink Checkpoint：https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/ops/state/checkpoints/
Flink State 和 StateBackend：https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/ops/state/state_backends/
Flink 部署：https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/deployment/overview/

要点01：Flink 处理无界数据流：https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/learn-flink/overview/#stream-processing
要点02：Flink 关于并行数据流的处理方案：https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/learn-flink/overview/#parallel-dataflows
要点03：Flink 的有状态计算和状态管理：https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/learn-flink/overview/#stateful-stream-processing
要点04：Flink Operator 和 Task：https://nightlies.apache.org/flink/flink-docs-release-1.14/fig/levels_of_abstraction.svg
要点05：Flink 资源管理 和 Slot：https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/concepts/flink-architecture/#task-slots-and-resources
要点06：Flink 应用程序运行模式：https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/concepts/flink-architecture/#flink-application-execution

有界数据流和无界数据流的区别

名词解释

离线和实时指的是：数据处理的延迟；
批量和流式指的是：数据处理的方式。
批处理的特点是有界、持久、大量，批处理非常适合需要访问全套记录才能完成的计算工作，一般用于离线统计。
流处理的特点是无界、实时，流处理方式无需针对整个数据集执行操作，而是对通过系统传输的每个数据项执行操作，一般用于实时统计。
实时计算结果一般是给机器自动化处理，离线计算结果一般用于人的决策。

Flink 架构设计实现和应用模块分工

Flink 整体架构设计实现请参考官网：
https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/concepts/flink-architecture/

Flink API 设计

请参考官网： https://nightlies.apache.org/flink/flink-docs-release-1.14/fig/levels_of_abstraction.svg

Flink 整体架构体系：API 和 Libaries 体系

Flink 编程入门到模式总结

Flink 的程序和数据流结构

编程套路总结

1、获得一个执行环境：（Execution Environment）
2、加载/创建初始数据：（Source）
3、指定转换这些数据：（Transformation）
4、指定放置计算结果的位置：（Sink）
5、触发程序执行：（Action）

Flink 核心概念和并行度

图中的 o: Operator， oc 表示 OperatorChain， t 表示 Task。
图中的圆圈就是一个 Task，绿色的是 Task，只不过是包含两个 Operator，箭头是数据流， Task 是预先启动不转移位置的，数据流中的数据是流动的。
OperatorChain 可以理解成类似于 Spark 中的 Stage。
OperatorChain 包含了多个 Operator，基于并行度并行运行成多个 Task。
Stage 包含了多个算子，其实包含了多个 RDD， Stage 中的 Task 数量取决于这个 Stage 的最后一个 RDD 的分区数量。

Flink Runtime 四层 Graph 详解

关于上图中的一些概念的解释：

DataFlow Graph 是一个逻辑概念，表示这个应用程序的一个执行图。事实上在客户端的时候，会生成两个图：StreamGraph + JobGraph
- StreamGraph 中两种非常重要的概念： StreamNode（Operator 算子） + StreamEdge
- JobGraph jobGraph = PipelineExecutorUtils.getJobGraph(pipeline, configuration); pipeline = StreamGraph
Client 就是一个 Http 方式的 Restful Client ，负责提交 JobGraph 到 JobManager
Jobmanager 接收到 JobGraph 之后，会做一件非常重要的事情：启动一个 JobMaster , 这个 JobMaster 就负责这个 Job 的执行。JobMaster 的内部，维护了一个 JobGraph ，在构造 JobMaster 的时候，同时也会吧 JobGraph 构造成 ExecutionGraph。
- ExecutionGraph = ExecutionVertex （里面有一个抽象就代表了一个 Task 的一切信息：Execution，一个 Execution 会启动一个 Task）
JobMaster 接下会会向 ResourceManager( 不是 YARN 里面的) JobManager 里面的管理资源的组件申请 Slot 资源，部署 Task 启动执行。
当所有的 Task 都部署到 TaskManager 里面去了，都启动好了，并且上下游 Task 之间都建立了链接，则最终形成了一个物理执行图。

StreamGraph：是根据用户通过 Stream API 编写的代码生成的最初的图。用来表示程序的拓扑结构。简单说就是进行算子拼接。
JobGraph：StreamGraph 经过优化后生成了 JobGraph，提交给 JobManager 的数据结构。主要的优化为，将多个符合条件的节点 chain 在一起作为一个节点，这样可以减少数据在节点之间流动所需要的序列化反序列化传输消耗。简单说就是把能优化的算子拼接在一起。
ExecutionGraph：JobManager 根据 JobGraph 生成 ExecutionGraph。ExecutionGraph 是JobGraph 的并行化版本，是调度层最核心的数据结构，用来执行调度。简单说就是 JobGraph 的并行化版本
物理执行图：JobManager 根据 ExecutionGraph 对 Job 进行调度后，在各个 TaskManager 上部署 Task 后形成的图，并不是一个具体的数据结构。简单说就是最终运行状态图。

注意：最后一个物理执行图并非 Flink 的数据结构，而是程序开始执行后，各个 Task 分布在不同的节点上，所形成的物理上的关系表示。

Flink 内存模型全详解

Flink Application 运行流程回顾

Flink Task 和 TaskSlot 和 TaskManager 之间的关系：

Flink TaskManager 和 TaskManager 之间的数据传输关系：

Flink 内存管理

JVM 管理内存的缺陷，其实上是一个共性问题，Spark， HBase 等等，都会涉及到内存模型。

Java 对象存储密度低：一个只包含 boolean 属性的对象占用 16 个字节内存：对象头占了 8 个， boolean 属性占了 1 个，对其填充占了 7 个，而实际只需要一个bit（1/8字节）就够了。
Full GC 会极大地影响性能，尤其是为了处理更大数据而开了很大内存空间的 JVM 来说，GC 会达到秒级甚至分钟级。大量的内存碎片，会把 JVM 的堆内存划分成一个个的区域。
OOM 问题影响稳定性：OutOfMenoryError 是分布式计算框架经常会遇到的问题，当 JVM 中所有对象大小超过分配给 JVM 的内存大小时，就会发生OutOfMenoryError 错误，导致 JVM 崩溃，分布式框架的健壮性和性能都会受到影响。

Flink 内存模型

参考官网链接：

https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/deployment/memory/mem_setup/
https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/deployment/memory/mem_setup_tm/
https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/deployment/memory/mem_setup_jobmanager/

Flink 的内存模型从 Flink-1.10 发生了比较大的改变，新版本的内存模型如下：

Total Process Memory，TaskManager 进程总内存，比如在 YARN 环境中，其实就是 Container 的内存大小。
- taskmanager.memory.process.size ：无默认值，需要用户指定。
Total Flink Memory，Flink 总内存，TaskManager 进程占用的所有与 Flink 相关的内存（不包括 JVM 元空间和其他额外开销）。具体包含4大块：Flink 框架内存（堆内、堆外）、托管内存（仅堆外）、网络缓存（仅堆外）、任务内存（堆内、堆外）。
- taskmanager.memory.flink.size ：无默认值，需要用户指定。
FrameWork Heap / Off-heap，Flink 框架内存，Flink Runtime 底层占用的内存，一般来讲相对固定，不需要更改。一般在 Flink 算子并行度特别高的时候，才需要调整。
- taskmanager.memory.framework.heap.size ：堆内部分（Framework Heap），默认值 128MB；
- taskmanager.memory.framework.off-heap.size ：堆外部分（Framework Off-Heap），以直接内存形式分配，默认值 128MB。
Managed Memory，Flink 托管内存，纯堆外内存，由 MemoryManager 管理，用于中间结果缓存、排序、哈希表等，以及 RocksDB 状态后端。
- taskmanager.memory.managed.fraction ：托管内存占Flink总内存 taskmanager.memory.flink.size 的比例，默认值 0.4；
- taskmanager.memory.managed.size ：托管内存的大小，无默认值，一般也不指定，而是依照上述比例来推定，更加灵活。
Network 网络内存，纯堆外内存，用于 TaskManager 之间(shuffle、广播等)及与外部组件的数据传输，以直接内存形式分配。
- taskmanager.memory.network.min : 网络缓存的最小值，默认 64MB;
- taskmanager.memory.network.max : 网络缓存的最大值，默认 1GB;
- taskmanager.memory.network.fraction : 网络缓存占 Flink 总内存 taskmanager.memory.flink.size 的比例，默认值 0.1。若根据此比例算出的内存量比最小值小或比最大值大，就会限制到最小值或者最大值。
Task heap / Off-heap 内存，是算子逻辑和用户代码、自定义数据结构真正占用的内存。
- taskmanager.memory.task.heap.size : 堆内部分(Task Heap)，无默认值，一般不建议设置，会自动用 Flink 总内存减去框架、托管、网络三部分的内存推算得出。
- taskmanager.memory.task.off-heap.size : 堆外部分(Task Off-Heap)，以直接内存形式分配，默认值为 0，即不使用。
JVM Metaspace，Flink JVM 进程的元数据空间大小
- taskmanager.memory.jvm-metaspace.size :默认值 256MB。
JVM Overhead，为 JVM 进程预留的其他本地内存，用于线程栈、代码缓存、垃圾收集。它是 Total Process Memory(整个进程) 的一个有上下限的细分组件。
- taskmanager.memory.jvm-overhead.min : JVM 额外开销的最小值，默认 192MB;
- taskmanager.memory.jvm-overhead.max : JVM 额外开销的最大值，默认 1GB;
- taskmanager.memory.jvm-overhead.fraction : JVM 额外开销占 TM 进程总内存 taskmanager.memory.process.size 的比例，默认值 0.1。若根据此比例算出的内存量比最小值小或比最大值大，就会限制到最小值或者最大值。

生产环境中，主要要调整的参数:

在 Standalone 模式下，调整 taskmanager.memory.flink.size 指定 Flink 从节点 TaskManager 总内存
在 Flink On YARN 模式下，调整 taskmanager.memory.process.size 指定 Flink 从节点 TaskManager 总内存
根据网络流量大小修改网络缓存占比:taskmanager.memory.network.fraction，默认 0.1
根据 RocksDB 状态大小等调整托管内存占比:taskmanager.memory.managed.fraction，默认 0.4

案例：

# Flink On YARN 模式下
taskmanager.memory.process.size = 4096 MB = 4G 
taskmanager.memory.network.fraction=0.15
taskmanager.memory.managed.fraction=0.45

根据以上参数，就可以计算得到各部分的内存大小:

taskmanager.memory.jvm-overhead = 4096 * 0.1 = 409.6 MB 
taskmanager.memory.flink.size = 4096 - 409.6 - 256 = 3430.4 MB 
taskmanager.memory.network = 3430.4 * 0.15 = 514.56 MB
taskmanager.memory.managed = 3430.4 * 0.45 = 1543.68 MB 
taskmanager.memory.task.heap.size = 3430.4 - 128 * 2 - 1543.68 - 514.56 = 1116.16 MB

另外，还有可以指定 JVM 相关参数的一些选项，也请注意:

林子雨《大数据技术原理与应用》第五讲——NoSQL数据库天才代号23 大数据数据库 hadoop nosql 大数据
林子雨《大数据技术原理与应用》第五讲——NoSQL数据库林子雨《大数据技术原理与应用》第五讲笔记NoSQL数据库特点灵活的可扩展性灵活的数据模型和云计算结合查询性能差未形成通用的行业标准维护更加复杂NoSQL数据库有四大类型键值数据库：redis列族数据库：HBase、Cassandra文档数据库：MongoDB图数据库：Neo4j键值数据库数据模型：键是一个字符串对象，值可以是任意类型的对象典型
OLAP引擎比较小手追梦 hadoop rpc java
一，sparksql与dorisspark虽然是一个计算引擎，但sparksql也支持符合通用语法的sql查询，延迟为分钟级。doris是一个OLAP数据库，支持对大数据的复杂查询，延迟为秒级。doris比sparksql快，主要原因在于针对场景不同导致的架构不同。sparksql启动一个查询，需要进行资源调度、任务调度、任务分发，耗时更久。doris是常驻进程，启动一个doris查询后，快速的对
大数据组件ClickHouse介绍（场景、优劣势、性能）坚持是一种态度大数据开发 ClickHouse 大数据 clickhouse 数据库列式数据库
大数据组件ClickHouse介绍简介使用场景优势与劣势优势劣势性能单个查询吞吐量处理短查询的延时时间处理大量短查询数据写入性能查询性能简介clickhouse是一个高性能的列式存储分析数据库管理系统，由俄罗斯搜索引擎公司yandex开发。clickhouse具有以下特点高性能：clickhouse优化了查询和数据压缩算法，支持多维度数据分析和快速聚合查询。分布式：clickhouse采用共享无状
DB2-Db2StreamingChangeEventSource DataLu DB2-debezium 数据库数据库开发大数据开源
提示：Db2StreamingChangeEventSource类主要用于从IBMDb2数据库中读取变更数据捕获(CDC,ChangeDataCapture)信息。CDC是一种技术，允许系统跟踪数据库表中数据的更改，这些更改可以是插入、更新或删除操作。在大数据和实时数据处理场景中，CDC可以用来同步数据到其他系统，比如数据仓库、数据湖或者流处理平台如ApacheKafka。文章目录前言一、核心功能
从 UUID 到 UUIDv7：唯一标识符的演进俞凡 DeepNoMind 后端
本文主要介绍UUID从v1到v8的演进历程，特别详细解读了最新的UUIDv7和UUIDv8，介绍了UUID在分布式系统和数据库索引中的应用和优势。原文：FromUUIDtoUUIDv7andBeyond:TheEvolutionofUniqueIdentifiers0190dffef1ad726bd83fab761dd389c6你在数据库或系统中见过这样一串数字吗？它很可能就是UUID。这并不是一
MySQL实战教程：从小白到大神的进阶之路！奔跑吧邓邓子项目实战 mysql 数据库
目录一、MySQL概述1、MySQL简介1.1MySQL的历史背景1.2MySQL的特点1.3MySQL的应用场景1.4MySQL的版本2、MySQL发展历程2.1MySQL的起源2.2MySQL的早期发展2.3MySQL的成熟与普及2.4MySQL的商业化与收购2.5MySQL的持续创新3、MySQL应用场景3.1Web应用程序3.2企业级应用3.3大数据分析3.4移动应用3.5云计算3.6物联
【详细讲解】hive优化 songqq27 大数据 hive
1、开启本地模式大多数的HadoopJob是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过，有时Hive的输入数据量是非常小的。在这种情况下，为查询触发执行任务消耗的时间可能会比实际job的执行时间要多的多。对于大多数这种情况，Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显被缩短。用户可以通过设置hive.exec.mode.local.auto的值
大规模分布式存储（1）-- 概念、挑战和分类叹了口丶气 HDFS全方位实战分布式分类数据库
随着数据的激增，我们已经进入到了一个数据时代，无论是云计算，大数据还是互联网公司的各种应用，其后台存储平台的目标都是要构建低成本、高性能、可扩展、易用的分布式存储系统。相比传统的分布式存储系统，互联网公司的分布式存储系统具有两个特点：规模大和成本低。本文主要介绍一下什么是大规模分布式存储系统，以及分布式存储系统有哪些类别。一、分布式存储的概念1.1大规模分布式存储系统的定义大规模分布式存储系统的定
《大规模分布式存储系统：原理解析与架构实战》读书笔记 weixin_36908057 存储存储系统
《大规模分布式存储系统：原理解析与架构实战》读书笔记1、事务满足ACID特性2、单机存储引擎：哈希存储引擎和B树存储引擎和LSM存储引擎。存储系统的数据模型：文件模型、关系模型和键值模型。3、分布式系统：数据分布、复制、一致性、容错。数据分布的方式：哈希分布和顺序分布。将数据分散到多台机器之后，需要保证多台机器之间的负载均衡。衡量负载涉及的因素有很多，如cpu,内存。负载均衡需要执行数据迁移操作。
kakfa-消息不丢失华东算法王（原聪明的小孩子 facebook twitter 机器学习新浪微博微信公众平台
Kafka作为一个分布式流处理平台，设计时就高度关注消息的可靠性和不丢失，确保在分布式环境下即使发生故障，消息也不会丢失。Kafka的消息不丢失主要依赖以下几个机制：1.消息持久化Kafka保证消息在磁盘上的持久化，即使在系统崩溃的情况下，消息仍然可以恢复。这一机制是Kafka消息不丢失的基础。•写入日志文件：每个Kafka分区都将消息按顺序追加到磁盘上的日志文件中（logsegment）。这种顺
大规模分布式存储系统：原理解析与架构实战克终杂文
《大规模分布式存储系统：原理解析与架构实战》是分布式系统领域的经典著作，由阿里巴巴高级技术专家“阿里日照”（OceanBase核心开发人员）撰写，阳振坤、章文嵩、杨卫华、汪源、余锋（褚霸）、赖春波等来自阿里、新浪、网易和百度的资深技术专家联袂推荐。理论方面，不仅讲解了大规模分布式存储系统的核心技术和基本原理，而且对谷歌、亚马逊、微软和阿里巴巴等国际型大互联网公司的大规模分布式存储系统进行了分析；实
微服务架构设计基础之立方体模型 weixin_34349320 后端前端系统架构 ViewUI
背景对于现在的微服务架构的应用来说，对大量并发的及时响应是一项制胜能力。据用户行为分析平台统计，随行付的某一款APP产品每日请求就达到上千万次用户请求、加解密服务3000万次/日等等。这些微服务每时每刻在处理如此高强度的请求，对数据层的应对能力要求极高。如果我们把对速度的需求放在复杂的分布式数据架构背景下，是很难想象如何让应用应对如此巨大的数据访问量的。但很幸运，我们有方法做到。即立方体模型。立方
【Oracle篇】使用impdp导入报错ORA-39001:ORA-39000:ORA-39142:incompatible version number xxx in dump file的问题解决奈斯DB Oracle专栏 oracle 数据库
《博主介绍》：✨又是一天没白过，我是奈斯，从事IT领域✨《擅长领域》：✌️擅长阿里云AnalyticDBforMySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控；并对SQLserver、NoSQL(MongoDB)有了解✌️大佬们都喜欢静静的看文章，并且也会默默的点赞收藏加关注如标题所示这篇文章是记录并分享一下使用数据泵导入时的报错，这个报错是博主在一年之
大数据分析案例-基于逻辑回归算法构建抑郁非抑郁推文识别模型艾派森大数据分析案例合集机器学习人工智能 python 数据挖掘回归
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集
move移动语义详解 Say-hai C++c++面试
move移动语义移动语义是C++11引入的一种机制，用于提高程序的性能和资源管理效率，特别是在涉及大数据对象的场景下。移动语义通过转移资源所有权，而不是复制资源，减少了不必要的拷贝操作。一、为什么需要移动语义？当对象需要被复制时（如函数返回值或传参），通常会调用复制构造函数（copyconstructor）。复制操作往往意味着需要分配新资源并将原资源的数据拷贝到新资源中；而如果不需要保留原对象的内
大数据毕业设计hadoop+spark+hive豆瓣图书数据分析可视化大屏豆瓣图书爬虫图书推荐系统 qq_79856539 javaweb java 大数据 hadoop 课程设计
系统总体目标基于Spark的个性化书籍推荐系统是一种基于大数据技术的智能推荐系统，它可以根据用户的历史行为和偏好，为用户提供个性化的书籍推荐。该系统采用Spark技术，可以实现大数据的实时处理，从而提高推荐系统的准确性和可靠性。此外，该系统还可以根据用户的习惯和偏好，提供更加个性化的书籍推荐，从而满足用户的需求。系统的使用者包含普通用户和管理员两类，普通用户是系统的主要服务对象，主流人群是经常查看
Apache Flink流处理框架 weixin_44594317 apache flink 大数据
ApacheFlink是一个分布式流处理框架和数据处理引擎，专注于以低延迟和高吞吐量处理无界和有界的数据流。它可以同时处理流式数据和批处理数据，并且提供强大的容错机制和状态管理功能。Flink常用于实时分析、复杂事件处理（CEP）、机器学习和批量数据处理等场景。1.Flink的核心概念在理解Flink的工作原理之前，先要了解它的一些核心概念：流处理(StreamProcessing)：处理数据流中
企业数字化规划蓝图、企业数字化运营分析管理大数据平台建设方案公众号：优享智库数字化转型数据治理主数据数据仓库大数据
**企业数字化规划蓝图及运营分析管理大数据平台建设方案****一、企业数字化规划蓝图**1.**数字化目标设定**企业在规划数字化进程时，首先需要明确数字化目标。这些目标应当与企业的整体战略和发展规划相一致，包括但不限于提高运营效率、优化客户体验、创新业务模式等。同时，目标应具体、可衡量，以便于后续的实施和评估。2.**技术平台规划**技术平台是支撑企业数字化的基础。在规划阶段，需要确定所需的技术
使用Flink进行流式图处理 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
使用Flink进行流式图处理1.背景介绍1.1大数据时代的到来随着互联网、物联网和移动互联网的快速发展,数据呈现出爆炸式增长。根据IDC的预测,到2025年,全球数据量将达到175ZB。传统的批处理系统已经无法满足对实时数据处理的需求。因此,流式计算应运而生,成为大数据处理的重要组成部分。1.2流式计算的概念流式计算是一种新兴的数据处理范式,它能够持续不断地处理来自各种数据源的数据流。与传统的批处
Flink流式计算入门 @Rocky Flink flink 大数据
什么是流式计算流式计算是一种实时处理和分析大规模数据流的计算方法，其核心思想是将数据视为连续流动的序列，而不是静态存储的数据。与传统的批处理计算不同，流式计算能够在数据生成的同时进行处理，提供及时的结果。核心概念数据流：流式计算中的基本单位，表示一系列动态生成的数据。数据流可以来自传感器、网络请求、用户行为等多种来源。计算流：在数据流上进行的各种计算操作，如过滤、聚合和转换等。这些操作实时进行，并
python与excel整合全教程刘同学Python学习日记 python excel 开发语言
Python与Excel的整合非常强大，尤其适合处理大数据、自动化表格操作以及进行高级数据分析。以下是一个全教程，涵盖常用的Python库及其应用：1.准备工作安装必要的库：使用以下命令安装常用库：pipinstallopenpyxlpandasxlrdxlsxwriterpywin32openpyxl:用于操作Excel的.xlsx文件（推荐）。pandas:强大的数据分析工具，支持读取和写入E
AI人工智能代理工作流AI Agent WorkFlow：面向服务计算中的代理工作流管理 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：面向服务计算中的代理工作流管理关键词：人工智能，代理工作流，服务计算，自动执行，智能调度，协同处理，流程管理1.背景介绍1.1问题的由来随着互联网和云计算的快速发展，服务计算作为一种分布式计算模式，已经成为企业信息化建设的重要方向。在服务计算中，工作流技术被广泛应用于业务流程的建模、执行和管理。然而，传统的基于BPM（业务流程管理）的工作流管理
Spring AI 在微服务中的应用：支持分布式 AI 推理 drebander AI 编程 springAI
1.引言在现代企业中，微服务架构已成为开发复杂系统的主流方式，而AI模型推理也越来越多地被集成到业务流程中。如何在分布式微服务架构下高效地集成SpringAI，使多个服务可以协同完成AI任务，并支持分布式AI推理，是企业面临的关键挑战。本篇文章将探讨：在微服务架构中如何部署SpringAI服务；如何通过分布式AI推理提高推理性能与扩展性；典型应用场景，如电商推荐、智能客服、实时分析等。2.Spri
【使用Apache Flink 实现滑动窗口流式计算】我明天再来学Web渗透后端技术总结 apache flink linq 开发语言
什么是Flink？ApacheFlink是一个用于分布式流式处理和批处理的开源实时计算引擎。它具备低延迟、高吞吐量和exactly-once语义的特点，适用于各种实时数据处理场景。Flink的核心概念作业（Job）：Flink程序的执行单元。数据流（DataStream）：表示连续的数据流，可以进行转换和计算。窗口（Window）：用于对无限数据流进行有界的数据切片处理。状态（State）：用于保
理解Ceph的三种存储方式(块设备、文件系统、对象存储) 118路司机大数据
前言Ceph是一个开源的、统一的、分布式的存储系统这是我们宣传Ceph时常说的一句话，其中“统一”是说Ceph可以一套存储系统同时提供块设备存储、文件系统存储和对象存储三种存储功能。一听这句话，具有一定存储基础的用户应该已经大致了解了Ceph的存储接口，而没有存储基础的小白用户则一脸懵逼。本文旨在让小白用户理解Ceph的块存储、文件系统存储和对象存储接口。一.Ceph的块设备存储接口什么是块设备？
HarmonyOS“一次开发，多端部署” 邮专小谦 harmonyos 华为
目录一、核心概念与目标二、开发基础问题与解决思路（一）基础问题（二）解决思路三、应用开发流程与示例四、工程管理具体操作五、应用UX设计通用规则与考虑因素一、核心概念与目标定义：一套代码工程，一次开发上架，多端按需部署。目标：帮助开发者快速高效开发支持多种终端设备形态的应用，实现跨设备的流转、迁移和协同的分布式体验，同时兼容不同设备并提供一致的用户体验。二、开发基础问题与解决思路（一）基础问题不同设
如何写一份合格的大数据简历（附简历模板）教程 itLeeyw573 老板必点的高分简历 sqlite oracle mysql sql zookeeper kafka big data
一、简历的重要性简历是求职者给招聘者的第一印象，一份合格的简历能够快速让招聘者了解你的基本信息、工作经历、技能特长等，从而决定是否给予你面试机会。它是开启理想工作大门的钥匙，所以一定要重视起来。【编辑/下载】：大数据开发简历范文二、简历结构基本信息：包含姓名、性别、联系方式（电话、邮箱）、求职意向。姓名要突出显示，联系方式务必准确无误，求职意向明确且具体，比如“Java开发工程师”，让招聘者一眼就
实习成长之路：关于ElasticSearch深度分页带来的思考，如何解决深度分页和跳页会写代码的花城实习踩坑之路 reids 并发 elasticsearch 搜索引擎分布式
问题引入我们在平常使用ElasticSearch构建查询条件的时候一般用的都是from+size的方式进行分页查询，但是如果我们的页数太深/页面大小太大(from*size)>10000就会引发一个错误，我们将会得到一个错误这是为什么呢？因为ES的分页查询其实是这样来的因为ElasticSeach的天生分布式的原因，我们的数据是分散在几个分片中的，而我们设置了from+size需要对全部数据进行查
MongoDB 大俗大雅，上来问分片真三俗 -- 4 分什么分 Austindatabases mongodb 数据库
开头还是介绍一下群，如果感兴趣PolarDB,MongoDB,MySQL,PostgreSQL,Redis,OceanBase,SqlServer等有问题，有需求都可以加群群内有各大数据库行业大咖，可以解决你的问题。加群请联系liuaustin3，（共2710人左右1+2+3+4+5+6+7+8+9）(123456群均已爆满，7群400+，开8群9群)这是MongoDB宣传周的第五篇，这周真漫长，
大数据技术在数据安全治理中的应用罗思付之技术屋综合技术探讨及方案专栏大数据
摘要面对新形势下的数据安全治理挑战，顺应数据安全领域的技术发展趋势，针对大型国企在数据安全治理实际应用中突出的关键权限人员识别问题，提出了一种基于图算法的关键权限人员识别技术。该技术可以发现系统中潜在的权限影响因素，并可从多个角度衡量不同含义的权重影响力，识别结果可解释性强。针对数据安全治理中的用户与实体行为异常检测问题，提出一种基于生成对抗网络的用户与实体行为异常检测方法，实验结果表明，所提方法
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu