000X000

Flink CDC 详述实时数据湖

在构建实时数仓的过程中，如何快速、正确的同步业务数据是最先面临的问题，本文主要讨论一下如何使用实时处理引擎Flink和数据湖Apache Iceberg两种技术，来解决业务数据实时入湖相关的问题。

01-Flink CDC介绍

CDC全称是Change Data Capture，捕获变更数据，是一个比较广泛的概念，只要是能够捕获所有数据的变化，比如数据库捕获完整的变更日志记录增、删、改等，都可以称为CDC。该功能被广泛应用于数据同步、更新缓存、微服务间同步数据等场景，本文主要介绍基于Flink CDC在数据实时同步场景下的应用。

Flink在1.11版本开始引入了Flink CDC功能，并且同时支持Table & SQL两种形式。Flink SQL CDC是以SQL的形式编写实时任务，并对CDC数据进行实时解析同步。相比于传统的数据同步方案，该方案在实时性、易用性等方面有了极大的改善。下图是基于Flink SQL CDC的数据同步方案的示意图。

Oracle的变更日志的采集有多种方案，这里采用的Debezium实时同步工具作为示例，该工具能够解析Oracle的changlog数据，并实时同步数据到下游Kafka。Flink SQL通过创建Kafka映射表并指定 format格式为debezium-json，然后通过Flink进行解析后直接插入到其他外部数据存储系统，例如图中外部数据源以Apache Iceberg为例。

下面详细解析一下数据同步过程。首先了解一下Debezium抽取的Oracle的change log的格式，以update为例，变更日志上记录了更新之前的数据和更新以后的数据，在Kafka下游的Flink接受到这样的数据以后，一条update操作记录就转变为了先delete、后insert两条记录。日志格式如下所示，该update操作的内容的name字段从tom更新为了jerry。

{
  "before": {          --更新之前的数据
    "id": 001,
    "name": "tom"
  },
  "after": {           --更新之后的数据
    "id": 001,
    "name": "jerry"
  },
  "source": {...},
  "op": "u",
  "ts_ms": 1589362330904,
  "transaction": null
}

其次再来看一下Flink SQL内部是如何处理update记录的。Flink在1.11版本支持了完整的changelog机制，对于每条数据本身只要是携带了相应增、删、改的标志，Flink就能识别这些数据，并对结果表做出相应的增、删、改的动作，如下图所示changlog数据流经过Flink解析，同步到下游Sink Database。

通过以上分析，基于Flink SQL CDC的数据同步有如下优点：

业务解耦：无需入侵业务，和业务完全解耦，也就是业务端无感知数据同步的存在。
性能消耗：业务数据库性能消耗小，数据同步延迟低。
同步易用：使用SQL方式执行CDC同步任务，极大的降低使用维护门槛。
数据完整：完整的数据库变更记录，不会丢失任何记录，Flink 自身支持 Exactly Once。

02-Apache Iceberg介绍

通常认为数据湖是一种支持存储多种原始数据格式、多种计算引擎、高效的元数据统一管理和海量统一数据存储。其中以Apache Iceberg为代表的表格式和Flink计算引擎组成的数据湖解决方案尤为亮眼。Flink社区方面也主动拥抱数据湖技术，当前Flink和Iceberg在数据入湖方面的集成度最高。

那么Apache Iceberg是什么呢？引用官网的定义是：Apache Iceberg is an open table format for huge analytic datasets。也就是Apache Iceberg是一个大规模数据分析的开放表格式。

Iceberg将数据分为元数据管理层和数据存储层。首先了解一下Iceberg在文件系统中的布局，第一部分是数据文件data files，用于存储具体业务数据，如下图中的data files文件。第二部分是表元数据文件（Metadata 文件），包含Snapshot文件、Manifest文件等。Snapshot表示当前操作的一个快照，每次commit都会生成一个快照，一个快照中包含多个Manifest，每个Manifest中记录了当前操作生成数据所对应的文件地址，也就是data files的地址。基于snapshot的管理方式，iceberg能够进行time travel（历史版本读取以及增量读取）。Iceberg文件系统设计特点如下图所示：

Iceberg的表格式设计具有如下特点：

ACID：不会读到不完整的commit数据，基于乐观锁实现，支持并发commit，支持Row-level delete，支持upsert操作。
增量快照：Commit后的数据即可见，在Flink实时入湖场景下，数据可见根据checkpoint的时间间隔来确定的，增量形式也可回溯历史快照。
开放的表格式：对于一个真正的开放表格式，支持多种数据存储格式，如：parquet、orc、avro等，支持多种计算引擎，如：Spark、Flink、Hive、Trino/Presto。
流批接口支持：支持流式写入、批量写入，支持流式读取、批量读取。下文的测试中，主要测试了流式写入和批量读取的功能。

03-Flink CDC打通数据实时导入Iceberg实践

当前使用Flink最新版本1.12，支持CDC功能和更好的流批一体。Apache Iceberg最新版本0.11已经支持Flink API方式upsert，如果使用编写框架代码的方式使用该功能，无异于镜花水月，可望而不可及。本着SQL就是生产力的初衷，该测试使用最新Iceberg的master分支代码编译尝鲜，并对源码稍做修改，达到支持使用Flink SQL方式upsert。

先来了解一下什么是Row-Level Delete？该功能是指根据一个条件从一个数据集里面删除指定行。那么为什么这个功能那么重要呢？众所周知，大数据中的行级删除不同于传统数据库的更新和删除功能，在基于HDFS架构的文件系统上数据存储只支持数据的追加，为了在该构架下支持更新删除功能，删除操作演变成了一种标记删除，更新操作则是转变为先标记删除、后插入一条新数据。具体实现方式可以分为Copy on Write（COW）模式和Merge on Read（MOR）模式，其中Copy on Write模式可以保证下游的数据读具有最大的性能，而Merge on Read模式保证上游数据插入、更新、和删除的性能，减少传统Copy on Write模式下写放大问题。

在Apache Iceberg中目前实现的是基于Merge on Read模式实现的Row-Level Delete。在 Iceberg中MOR相关的功能是在Iceberg Table Spec Version 2: Row-level Deletes中进行实现的，V1是没有相关实现的。虽然当前Apache Iceberg 0.11版本不支持Flink SQL方式进行Row-Level Delete，但为了方便测试，通过对源码的修改支持Flink SQL方式。在不远的未来，Apache Iceberg 0.12版本将会对Row-Level Delete进行性能和稳定性的加强。

Flink SQL CDC和Apache Iceberg的架构设计和整合如何巧妙，不能局限于纸上谈兵，下面就实际操作一下，体验其功能的强大和带来的便捷。并且顺便体验一番流批一体，下面的离线查询和实时upsert入湖等均使用Flink SQL完成。

1，数据入湖环境准备

以Flink SQL CDC方式将实时数据导入数据湖的环境准备非常简单直观，因为Flink支持流批一体功能，所以实时导入数据湖的数据，也可以使用Flink SQL离线或实时进行查询。如下测试是使用Flink提供的sql-client完成的：

第一步，新建Kafka映射表，用于实时接收Topic中的changlog数据：

  id STRING,
  name STRING
  ) WITH (
  'connector' = 'kafka',
  'topic' = 'topic_name',
  'properties.bootstrap.servers' = 'localhost:9092',
  'properties.group.id' = 'testGroup',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'debezium-json'
);

第二步，新建iceberg结果表，用于存储实时入湖的数据：

CREATE TABLE iceberg_catalog.default.IcebergTable ( id STRING, name STRING );

注：

a)其中省略了配置catalog过程

b)当前iceberg 0.11默认创建表格式版本V1，通过代码更改版本为V2，以支持upsert方式导入数据湖

第三步，启动upsert方式实时入湖的Flink任务：

SET table.dynamic-table-options.enabled=true;

INSERT INTO IcebergTable /*+OPTIONS('equality-field-columns'='id')*/ SELECT * FROM KafkaTable;

注：当前iceberg 0.11不支持Flink SQL形式upsert，通过修改源码达到支持配置指定字段更新功能。

第四步，离线或者实时查询统计IcebergTable表中的数据行数：

a）离线方式

SET execution.type=batch;
SELECT COUNT(*) FROM IcebergTable;

b）实时方式

SET execution.type=streaming;
SELECT COUNT(*) FROM IcebergTable;

2，数据入湖速度测试

数据入湖速度测试会根据环境配置、参数配置、数据格式等不同有所不同，下面是列出主要配置和测试出的数据作为参考。

a）资源配置情况

TaskManager 内存4G，slot：1
Checkpoint 1分钟
测试数据列数 10列
测试数据行数 1000万
iceberg存储格式 parquet

b）测试数据情况

数据入湖分为append和upsert两种方式。append方式只能新增数据，不能对结果数据进行更新操作；upsert方式即能够对结果数据更新。

append方式使用场景是导入数据之前已经明确该表数据不需要更新，如离线数据导入数据湖的场景，append方式下导入数据速度如下：

INSERT INTO IcebergTable SELECT * FROM KafkaTable;

并行度1 12.2万/秒
并行度2 19.6万/秒
并行度4 28.3万/秒

update方式使用场景是既有插入的数据又有对之前插入数据的更新的场景，如数据库实时同步，upsert方式下导入数据速度，该方式需要指定在更新时以那个字段查找，类似于update语句中的where条件，一般设置为表的主键即可，如下：

INSERT INTO IcebergTable /*+OPTIONS('equality-field-columns'='id')*/ SELECT * FROM KafkaTable;

导入的数据 只有数据插入 只有数据更新
并行度1 3.2万/秒 2.9万/秒
并行度2 4.9万/秒 4.2万/秒
并行度4 6.1万/秒 5.1万/秒

c）结论

append方式导入速度远大于upsert导入数据速度。在使用的时候，如没有更新数据的场景时，则不需要upsert方式导入数据。
导入速度随着并行度的增加而增加。
upsert方式数据的插入和更新速度相差不大，主要得益于MOR原因。

3，数据入湖任务运维

在实际使用过程中，默认配置下是不能够长期稳定的运行的，一个实时数据导入iceberg表的任务，需要通过至少下述四点进行维护，才能使Iceberg表的入湖和查询性能保持稳定。

a）压缩小文件

Flink从Kafka消费的数据以checkpoint方式提交到Iceberg表，数据文件使用的是parquet格式，这种格式无法追加，而流式数据又不能等候太长时间，所以会不断commit提交数据产生小文件。目前Iceberg提供了一个批任务action来压缩小文件，需要定期周期性调用进行小文件的压缩功能。示例代码如下：

Table table = ... 
Actions.forTable(table)
.rewriteDataFiles()
    .targetSizeInBytes(100 * 1024 * 1024) // 100 MB
    .execute();

b）快照过期处理

iceberg本身的架构设计决定了，对于实时入湖场景，会产生大量的snapshot文件，快照过期策略是通过额外的定时任务周期执行，过期snapshot文件和过期数据文件均会被删除。如果实际使用场景不需要time travel功能，则可以保留较少的snapshot文件。

Table table = ... 
Actions.forTable(table)
    .expireSnapshots()
.expireOlderThan(System.currentTimeMillis())
.retainLast(5)
    .execute();

c）清理orphan文件

orphan文件的产生是由于正常或者异常的数据写入但是未提交导致的，长时间积累会产生大量脱离元数据的孤立数据文件，所以也需要类似JVM的垃圾回收一样，周期性清理这些文件。该功能不需要频繁运行，设置为3-5天运行一次即可。

Table table = ...
Actions.forTable(table)
    .removeOrphanFiles()
    .execute();

d）删除元数据文件

每次提交snapshot均会自动产生一个新的metadata文件，实时数据入库会频繁的产生大量metadata文件，需要通过如下配置达到自动删除metadata文件的效果。

Property	Description
write.metadata.delete-after-commit.enabled	Whether to delete old metadata files after each table commit
write.metadata.previous-versions-max	The number of old metadata files to keep

4，数据入湖问题讨论

这里主要讨论数据一致性和顺序性问题。

Q1: 程序BUG或者任务重启等导致数据传输中断，如何保证数据的一致性呢？

Answer：数据一致保证通过两个方面实现，借助Flink实现的exactly once语义和故障恢复能力，实现数据严格一致性。借助Iceberg ACID能力来隔离写入对分析任务的不利影响。

Q2：数据入湖否可保证全局顺序性插入和更新？

Answer：不可以全局保证数据生产和数据消费的顺序性，但是可以保证同一条数据的插入和更新的顺序性。首先数据抽取的时候是单线程的，然后分发到Kafka的各个partition中，此时同一个key的变更数据打入到同一个Kafka的分区里面，Flink读取的时候也能保证顺序性消费每个分区中的数据，进而保证同一个key的插入和更新的顺序性。

04-未来规划

新的技术最终是要落地才能发挥其内在价值的，针对在实践应用中面临的纷繁复杂的数据，结合流计算技术Flink、表格式Iceberg，未来落地规划主要集中在两个方面，一是Iceberg集成到本行的实时计算平台中，解决易用性的问题；二是基于Iceberg，构建准实时数仓进行探索和落地。

1，整合Iceberg到实时计算平台

目前，我所负责的实时计算平台是一个基于SQL的高性能实时大数据处理平台，该平台彻底规避繁重的底层流计算处理逻辑、繁琐的提交过程等，为用户打造一个只需关注实时计算逻辑的平台，助力企业向实时化、智能化大数据转型。

实时计算平台未来将会整合Apache Iceberg数据源，用户可以在界面配置Flink SQL任务，该任务以upsert方式实时解析changlog并导入到数据湖中。并增加小文件监控、定时任务压缩小文件、清理过期数据等功能。

2，准实时数仓探索

本文对数据实时入湖从原理和实战做了比较多的阐述，在完成实时数据入湖SQL化的功能以后，入湖后的数据有哪些场景的使用呢？下一个目标当然是入湖的数据分析实时化。比较多的讨论是关于实时数据湖的探索，结合所在企业数据特点探索适合落地的实时数据分析场景成为当务之急。

随着数据量的持续增大，和业务对时效性的严苛要求，基于Apache Flink和Apache Iceberg构建准实时数仓愈发重要和迫切，作为实时数仓的两大核心组件，可以缩短数据导入、方便数据行级变更、支持数据流式读取等。

【大模型篇】推理模型大作战（QwQ-32B vs DeepSeek-R1）大F的智能小课大模型资讯速读 DeepSeek技术解析和实战大模型理论和实战人工智能
大家好，我是大F，深耕AI算法十余年，互联网大厂技术岗。分享AI算法干货、技术心得。欢迎关注《大模型理论和实战》、《DeepSeek技术解析和实战》，一起探索技术的无限可能！写在前面当我让QwQ-32BvsDeepSeek-R1写一封未来自己的信大家更喜欢哪种风格？QwQ-32B模型介绍及使用指南一、模型简介（一&
Vue项目构建与启动中的版本依赖问题及解决方案码农阿豪@新空间包罗万象 vue.js 前端 javascript
个人名片作者简介：java领域优质创作者个人主页：码农阿豪工作室：新空间代码工作室（提供各种软件服务)个人邮箱：[2435024119@qq.com]个人微信：15279484656个人导航网站：www.forff.top座右铭：总有人要赢。为什么不能是我呢？专栏导航：码农阿豪系列专栏导航面试专栏：收集了java相关高频面试题，面试实战总结️Spring5系列专栏：整理了Spring5重要知识点与
NexLM 开源系列】让 AI 聊天更丝滑：WebSocket 实现流式对话！ pittLee_ 大模型开源项目大模型探索 SEE Websocket DeepSeek ChatGPT 大模型集成流式对话
在这系列文章中，我们将一起探索如何搭建一个支持大模型集成项目NexLM的开发过程，从架构设计到代码实战，逐步搭建一个支持多种大模型（GPT-4、DeepSeek等）的一站式大模型集成与管理平台，并集成认证中心、微服务、流式对话等核心功能。系列目录规划：NexLM：从零开始打造你的专属大模型集成平台✅SpringBoot+OpenAI/DeepSeek：如何封装多个大模型API调用✅支持流式对话SS
数据分析师必看！20个高频SQL面试题+答案解析数分大拿的Statham sql java 数据库数据分析数据清洗
作者：数分大拿的Statham一、引言在数据分析岗位面试中，SQL是必考的核心技能。本文整理了20个高频出现的SQL面试真题，涵盖基础操作、进阶函数和实战场景，特别加入窗口函数等近年热门考点，助您快速掌握通关秘籍！二、基础篇（5题）Q1基础查询与过滤题目：查询订单表中2023年交易金额大于5000元的订单ID和用户ID，按金额降序排列。答案：SELECTorder_id,user_idFROMor
深入理解OSPF：原理、配置与实战案例 w2361734601 OSPF 网络智能路由器 ensp ospf OSPF 路由运维
前言在当今复杂的网络环境中，动态路由协议是网络工程师不可或缺的工具之一。OSPF（OpenShortestPathFirst，开放式最短路径优先）作为一种广泛使用的IGP（内部网关协议），以其快速收敛、灵活扩展和高效管理等特点，成为了许多企业网络的首选。本文将深入探讨OSPF的原理、配置方法以及实际应用案例，帮助读者全面掌握这一强大的路由协议。一、OSPF的基本原理协议概述OSPF是一种基于链路状
分布式系统架构设计原理与实战：理解并使用分布式搜索引擎 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍在当代互联网时代，随着互联网的迅速发展、信息量的爆炸性增长，人们对获取新信息的渠道越来越多，需要快速而准确地检索信息。基于这一需求，许多网站都提供搜索功能。目前，搜索引擎服务主要由传统的基于数据库检索技术向云端托管的检索服务器和搜索引擎框架组成。由于传统的基于数据库检索方式具有很高的查询效率，因此可以满足一般用户的搜索需求；但是，对于一些高级的功能要求或是特
HarmonyNext实战：基于ArkTS的高性能音视频播放器开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能音视频播放器开发引言在HarmonyNext生态系统中，音视频处理是一个复杂且技术密集的领域。本文将深入探讨如何利用ArkTS语言开发一个高性能的音视频播放器，涵盖从音视频解码到播放控制的完整流程。我们将通过一个实战案例，详细讲解如何实现一个支持多种格式的音视频播放器，并优化其性能以适应HarmonyNext平台。环境准备在开始之前，确保你的开发环
HarmonyNext实战：基于ArkTS12+的高性能分布式任务调度系统开发 harmonyos-next
HarmonyNext实战：基于ArkTS12+的高性能分布式任务调度系统开发引言在HarmonyNext生态系统中，分布式任务调度是一个关键的技术领域，尤其是在多设备协同场景下。本文将深入探讨如何利用ArkTS12+语法开发一个高性能的分布式任务调度系统。我们将从基础概念出发，逐步构建一个完整的任务调度模块，涵盖任务分发、负载均衡、故障恢复等关键环节。通过本教程，您将掌握如何在HarmonyNe
HarmonyNext实战案例：基于ArkTS12+的高性能图像处理应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS12+的高性能图像处理应用开发引言在HarmonyNext生态系统中，图像处理是一个重要的应用领域。本文将深入探讨如何使用ArkTS12+开发一个高性能的图像处理应用。我们将从基础概念出发，逐步构建一个完整的图像处理应用，涵盖图像加载、处理、显示等核心功能。通过本案例，读者将掌握ArkTS12+在图像处理中的应用技巧，并能够独立开发类似的应用。1.环境
基于HarmonyNext的实时音视频通信实战指南 harmonyos-next
基于HarmonyNext的实时音视频通信实战指南引言随着移动互联网的快速发展，实时音视频通信已成为现代应用中不可或缺的功能。HarmonyNext作为华为最新的操作系统，提供了强大的音视频处理能力和高效的开发工具。本文将深入探讨如何在HarmonyNext平台上使用ArkTS实现实时音视频通信，并通过一个实战案例来详细讲解如何实现一个简单的音视频通话应用。环境准备在开始之前，确保你已经安装了以下
实现一个超轻量级实例分割网络的思路 CV工程师小朱深度学习笔记深度学习应用实例分割 yolact picodet 深度学习
文章目录前言一、基本思路二、picodet三、yolact三、picodet+yolact总结前言在某些工业领域，由于成本问题算力有限，只能实时跑一些超轻量级网络，拿目标检测来说，例如yolo-fast，pp-picodet这些。如果要跑实例分割，目前好像没有什么超轻量级的网络。所以就有想法如何实现一个超轻量级实例分割网络。一、基本思路基于超轻量级目标检测pp-picodet，增加一个掩膜分支。参
基于HarmonyNext的跨设备分布式数据同步实战指南 harmonyos-next
基于HarmonyNext的跨设备分布式数据同步实战指南引言在现代应用开发中，跨设备数据同步是一个复杂但至关重要的需求。HarmonyNext作为华为最新的操作系统，提供了强大的分布式能力，使得开发者可以轻松实现跨设备数据同步。本文将深入探讨如何在HarmonyNext平台上使用ArkTS实现跨设备分布式数据同步，并通过一个实战案例来详细讲解如何实现一个跨设备任务管理应用。环境准备在开始之前，确保
HarmonyNext实战：基于ArkTS的跨平台区块链应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的跨平台区块链应用开发引言区块链技术作为一种去中心化的分布式账本技术，近年来在金融、供应链、物联网等领域得到了广泛应用。本文将深入探讨如何使用ArkTS在HarmonyNext平台上构建一个跨平台的区块链应用，涵盖从区块链网络搭建、智能合约开发、交易处理到数据查询的完整开发流程。我们将通过一个实际的案例——实现一个去中心化的投票系统，来展示ArkTS在Ha
自己写的内存块管理办法绵山介子推 RTX实时操作系统嵌入式软件
内存管理模块一、所有的实时操作系统都有自己的内存管理系统，目前的代码是把内存块管理模块自己实现了，其实RTX5有自己的内存块管理系统没必要自己去实现，CSDN链接如下：https://blog.csdn.net/Zhangdfhvxdul/article/details/145474093二、自己实现内存管理模块的方法：//内存块的定义，这里知识举个例子，应该还有1024、4K等等缓存的管理#de
HBase2.6.1部署文档 CXH728 zookeeper hbase
1、HBase概述ApacheHBase是基于Hadoop分布式文件系统（HDFS）之上的分布式、列存储、NoSQL数据库。它适合处理结构化和半结构化数据，能够存储数十亿行和数百万列的数据，并支持实时读写操作。HBase通常应用于需要快速随机读写、低延迟访问以及高吞吐量的场景，例如大规模日志处理、社交网络数据存储等。HBase特性列存储模型：HBase的数据是按列族存储的，适合高稀疏数据。行键分区
hive-3.1.3部署文档 CXH728 hive hadoop 数据仓库
提前准备一个正常运行的hadoop集群java环境hive安装包下载地址：https://archive.apache.org/dist/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gzmysql安装包1、内嵌模式由于内嵌模式使用场景太少（基本不用），所以仅练习安装查看基础功能[root@master~]#tarxfapache-hive-3.1.3-bin
Python数据可视化自动化工具：让数据跃然纸上 Echo_Wish Python 算法 Python 笔记从零开始学Python人工智能信息可视化 python 自动化
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
联核科技AGV无人叉车有哪些安全防护措施？ m0_66581510 机器人自动化自动驾驶人工智能科技
联核科技AGV无人自动叉车的安全配置非常全面，主要包括以下几个方面：一、基础安全防护偏离路径保护：当联核科技AGV自动无人叉车偏离预设路径时，系统会自动触发保护机制，确保AGV无人叉车不会误入危险区域。联核科技官网-AGV叉车十大品牌-无人叉车厂家-自动化叉车-智能搬运码垛机器人-智能叉车系统解决方案专家定位异常保护：通过自研零代码移动机器人操作系统，实时监测AGV智能无人叉车的定位状态，一旦发现
QPS Qinsy 9.6.5 多波束数据采集软件 KIOseTR 海洋测绘软件需求
QINSy是一种综合导航系统软件包，在世界范围内广泛用于获取和处理多波束数据。QINSy的主要理念是节省处理时间，并减少可能需要重新勘测，方法是提供工具来实时鉴定原始数据，并即时校正偏移、运动、声速折射和高度，以便在勘测过程中产生“最终”xyz测深数据。1、在线质量控制在线测量员可以使用一系列实时质量保证工具和显示，他们可以说是确定收集的数据是否符合测量规范的最佳人选。除了显示原始未校正的多波束数
网络工程师如何用DeepSeek提升效率？10大实战场景解析 IT99_ 网络 php 开发语言
网络工程师常面临拓扑设计复杂、故障定位耗时、策略配置繁琐等痛点，而DeepSeek的AI能力可深度融入工作流。以下结合真实案例，详解AI赋能的进阶玩法：一、智能网络设计场景：某企业需新建跨地域混合云网络，要求满足2000+终端低延迟互通。DeepSeek应用：自然语言生成拓扑图输入需求：“构建北京-上海双中心架构，上海部署阿里云VPC，北京使用本地VMware集群，双线BGP冗余，终端延迟30ms
使用爬虫获取衣联网商品详情：实战指南小爬虫程序猿爬虫
在电商领域，快速获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何快速使用Python爬虫技术获取衣联网商品详情，并确保爬虫行为符合平台规范。一、环境准备（一）Python开发环境确保你的系统中已安装Python（推荐使用Python3.8及以上版本）。（二）安装所需库安装requests和BeautifulSoup库，用于发送HTT
Discord机器人与Webhooks：构建实时交互熬夜修钩机器人人工智能交互媒体
实时交互和通信变得越来越重要。Discord，作为一个广受欢迎的通讯平台，通过其强大的API支持，允许开发者创建功能丰富的机器人和利用Webhooks实现实时数据推送。一、Discord机器人：智能交互的新伙伴1.1机器人简介Discord机器人是可以通过编程实现自动化任务和提供交互服务的应用程序。它们可以在服务器中发送消息、管理角色、播放音乐等，极大地丰富了用户的通讯体验。1.2技术实现创建一个
Docker+Flask 实战：打造高并发微服务架构 TechStack 创行者 #服务器容器 Linux docker 运维微服务容器架构
Docker+Flask实战：打造高并发微服务架构今天我们要深入探讨一个非常热门且实用的主题：基于Docker部署PythonFlask应用。Docker作为当下最流行的容器化技术，已经广泛应用于各种开发和部署场景，尤其是在微服务架构中。而Flask作为Python世界里轻量级的Web框架，同样备受开发者青睐。将二者结合，能极大地提高我们应用的部署效率和可移植性。接下来，我们就一起通过一个完整的实
保姆级教程：阿里QwQ-32B模型本地部署与企业级应用实战（附万字指南+工具链） emmm形成中 AI科技前沿 python java ai 人工智能
保姆级教程：阿里QwQ-32B模型本地部署与企业级应用实战（附万字指南+工具链）目录QwQ-32B核心优势与技术突破本地部署全攻略：从环境配置到模型运行六大企业级应用场景深度解析实战案例：数学推理/代码生成/Agent能力测试常见问题与性能优化指南2025年技术展望与行业影响核心优势1.1模型技术突破维度QwQ-32B特性传统大模型对比参数规模320亿参数（仅需16GB显存）DeepSeek-R1
2025最新QwQ-32B模型使用教程：从部署到实战，手把手教你玩转AI推理模型（附保姆级指南） emmm形成中 AI科技前沿人工智能
2025最新QwQ-32B模型使用教程：从部署到实战，手把手教你玩转AI推理模型（附保姆级指南）目录QwQ-32B模型简介与核心优势本地部署教程：从环境配置到模型运行实战案例：数学、编程与逻辑推理能力测试高级功能：Agent能力与FunctionCall详解常见问题与解决方案资源推荐与学习路径一、QwQ-32B模型简介与核心优势1.1模型简介QwQ-32B是阿里巴巴推出的最新推理模型，仅用320亿
java使用SXSSFWorkbook生成具有图片与文字的Excel表格「已注销」 apache java poi excel
在这里是一个Maven工程，在pom.xml中引入poi依赖org.apache.poipoi3.9org.apache.poipoi-ooxml3.9例子中的情景是从数据库查出了许多记录，记录的是地理信息。记录有几个字段记录的图片保存的绝对路径。根据这些字段的内容生成图片。例如picOneAddr。记录分为不同的类型，比如楼房，桥梁等。将每种类型生成一个sheet进行分开保存。具体导出表格的一个
神经网络探秘：原理、架构与实战案例二川bro 智能AI 神经网络人工智能深度学习
神经网络探秘：原理、架构与实战案例前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，可以分享一下给大家。点击跳转到网站。https://www.captainbed.cn/ccc在人工智能的浪潮中，神经网络作为核心驱动力之一，正引领着技术革新与产业变革。本文旨在深入剖析神经网络的原理、常见架构，并通过一个实际的代码案例，带领读者亲手实践神经网络的构建与训练过程。无论你是机器学习初学者，还
【QwQ-32B-Preview】阿里通义QwQ登场MATH测试超OpenAI o1,开源AI推理新王,为数不多可以与OpenAI o1媲美的模型之一 Yukuii_0v0 人工智能 ai AI编程自然语言处理
阿里通义千问今天（11月28日）发布《QwQ:思忖未知之界》博文，推出了QwQ-32B-Preview实验性研究模型，在数学和编程领域，尤其在需要深度推理的复杂问题上，具备卓越的AI推理能力。它是少数能与OpenAI的o1匹敌的模型之一，并且是第一个能以宽松许可证下载的模型。QwQ-32B-Preview在Apache2.0许可证下“公开”可用，这意味着它可以用于商业应用。QwQ-32B-Prev
必看！C# 与 HALCON 构建基于轮廓模板匹配实战宝典 AI_DL_CODE 机器视觉 c#人工智能机器视觉 HALCON 模板匹配特征点匹配
摘要：本文专注于利用C#与HALCON实现基于轮廓的模板匹配技术。从环境搭建，即HALCON安装、C#项目创建及库引用配置，到核心步骤如初始化HALCON环境、读取图像、提取轮廓、创建模板、执行匹配及显示结果等，结合详尽代码示例进行阐述。还深入探讨在实际应用中的优化策略，包括图像预处理、参数精细调整、多模板匹配及实时匹配实现等。旨在助力读者全方位掌握技术，为机器视觉相关项目开发提供有力支撑，高效解
linux下显示进度地复制文件(cp命令的平替) Tipriest_ Ubuntu linux 运维服务器 cp rsync 可视化进度显示
在Linux中，默认的cp命令不会显示复制进度，但可以通过以下方法实时查看复制进度和速度：方法1：使用rsync（推荐）rsync是cp的增强版，支持显示进度条和传输速度，大多数系统已预装。命令：rsync-ah--progress./ubuntu-20.04.6-desktop-amd64.iso~/Downloads/关键参数：-a：归档模式，保留文件属性。-h：人类可读的单位（如MB/s）。
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh ickes@192.168.27.211 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_