SelectDB技术团队

Apache Doris 1.1 特性揭秘：Flink 实时写入如何兼顾高吞吐和低延时

导读：随着数据实时化需求的日益增多，数据的时效性对企业的精细化运营越来越重要，使得实时数仓在这一过程中起到了不可替代的作用。本文将基于用户遇到的问题与挑战，揭秘 Apache Doris 1.1 特性，对 Flink 实时写入 Apache Doris 的优化实现与未来规划进行详细的介绍。

背景

随着数据实时化需求的日益增多，数据的时效性对企业的精细化运营越来越重要，在海量数据中，如何能实时有效的挖掘出有价值的信息，快速的获取数据反馈，协助公司更快的做出决策，更好的进行产品迭代，实时数仓在这一过程中起到了不可替代的作用。

在这种形势下，Apache Doris 作为一款实时 MPP 分析型数据库脱颖而出，同时具备高性能、简单易用等特性，具有丰富的数据接入方式，结合 Flink 流式计算，可以让用户快速将 Kafka 中的非结构化数据以及 MySQL 等上游业务库中的变更数据，快速同步到 Doris 实时数仓中，同时 Doris 提供亚秒级分析查询的能力，可以有效地满足实时 OLAP、实时数据看板以及实时数据服务等场景的需求。

挑战

通常实时数仓要保证端到端高并发以及低延迟，往往面临诸多挑战，比如：

如何保证端到端的秒级别数据同步？
如何快速保证数据可见性？
在高并发大压力下，如何解决大量小文件写入的问题？
如何确保端到端的 Exactly Once 语义？

结合这些挑战，同时对用户使用 Flink+Doris 构建实时数仓的业务场景进行深入调研，在掌握了用户使用的痛点之后，我们在 Doris 1.1 版本中进行了针对性的优化，大幅提升实时数仓构建的用户体验，同时提升系统的稳定性，系统资源消耗也得到了大幅的优化。

优化

流式写入

Flink Doris Connector 最初的做法是在接收到数据后，缓存到内存 Batch 中，通过攒批的方式进行写入，同时使用 batch.size、batch.interval 等参数来控制 Stream Load 写入的时机。这种方式通常在参数合理的情况下可以稳定运行，一旦参数不合理导致频繁的 Stream Load，便会引发 Compaction 不及时，从而导致 version 过多的错误(-235)；其次，当数据过多时，为了减少 Stream Load 的写入时机，batch.size 过大的设置还可能会引发 Flink 任务的 OOM。为了解决这个问题，我们引入了流式写入 ：

Flink 任务启动后，会异步发起一个 Stream Load 的 Http 请求。
接收到实时数据后，通过 Http 的分块传输编码(Chunked transfer encoding)机制持续向 Doris 传输数据。
在 Checkpoint 时结束 Http 请求，完成本次 Stream Load 写入，同时异步发起下一次 Stream Load 的请求。
继续接收实时数据，后续流程同上。

由于采用 Chunked 机制传输数据，就避免了攒批对内存的压力，同时将写入的时机和 Checkpoint 绑定起来，使得 Stream Load 的时机可控，并且为下面的 Exactly-Once 语义提供了基础。

Exactly-Once

Exactly-Once 语义是指即使在机器或应用出现故障的情况下，也不会重复处理数据或者丢失数据。Flink 很早就支持 End-to-End 的 Exactly-Once 场景，主要是通过两阶段提交协议来实现 Sink 算子的 Exactly-Once 语义。在 Flink 两阶段提交的基础上，同时借助 Doris 1.0 的 Stream Load 两阶段提交，Flink Doris Connector 实现了 Exactly Once 语义，具体原理如下：

Flink 任务在启动的时候，会发起一个 Stream Load 的 PreCommit 请求，此时会先开启一个事务，同时会通过 Http 的 Chunked 机制将数据持续发送到 Doris。

在 Checkpoint 时，结束数据写入，同时完成 Http 请求，并且将事务状态设置为预提交(PreCommitted)，此时数据已经写入 BE，对用户不可见。

Checkpoint 完成后，发起 Commit 请求，并且将事务状态设置为提交(Committed)，完成后数据对用户可见。

Flink 应用意外挂掉后，从 Checkpoint 重启时，若上次事务为预提交(PreCommitted)状态，则会发起回滚请求，并且将事务状态设置为 Aborted。

基于此，可以借助 Flink Doris Connector 实现数据实时入库时数据不丢不重。

秒级别数据同步

高并发写入场景下的端到端秒级别数据同步以及数据的实时可见能力，需要 Doris 具备如下几方面的能力：

事务处理能力

Flink 实时写入以 Stream Load 2PC 的方式与 Doris 进行交互，需要 Doris 具备对应的事务处理能力，保障事务基本的 ACID 特性，在高并发场景下支撑 Flink 秒级别的数据同步。

数据版本的快速聚合能力

Doris 里面一次导入会产生一个数据版本，在高并发写入场景下必然带来的一个影响是数据版本过多，且单次导入的数据量不会太大。持续的高并发小文件写入场景对 Doris 并不友好，极其考验 Doris 数据合并的实时性以及性能，进而会影响到查询的性能。Doris 在 1.1 中大幅增强了数据 Compaction 能力，对于新增数据能够快速完成聚合，避免分片数据中的版本过多导致的 -235 错误以及带来的查询效率问题。

首先，在 Doris 1.1 版本中，引入了 QuickCompaction，增加了主动触发式的 Compaction 检查，在数据版本增加的时候主动触发 Compaction。同时通过提升分片元信息扫描的能力，快速的发现数据版本多的分片，触发 Compaction。通过主动式触发加被动式扫描的方式，彻底解决数据合并的实时性问题。

同时，针对高频的小文件 Cumulative Compaction，实现了 Compaction 任务的调度隔离，防止重量级的 Base Compaction 对新增数据的合并造成影响。

最后，针对小文件合并，优化了小文件合并的策略，采用梯度合并的方式，每次参与合并的文件都属于同一个数据量级，防止大小差别很大的版本进行合并，逐渐有层次的合并，减少单个文件参与合并的次数，能够大幅的节省系统的 CPU 消耗。

Doris 1.1 对高并发导入、秒级别数据同步、数据实时可见等场景都做了针对性优化，大大增加了 Flink + Doris 系统的易用性以及稳定性，节省了集群整体资源。

效果

通用 Flink 高并发场景

在调研的通用场景中，使用 Flink 同步上游 Kafka 中的非结构化数据，经过 ETL 后使用 Flink Doris Connector 将数据实时写入 Doris 中。这里客户场景极其严苛，上游维持以每秒 10w 的超高频率写入，需要数据能够在 5s 内完成上下游同步，实现秒级别的数据可见。这里 Flink 配置为 20 并发，Checkpoint 间隔 5s，Doris 1.1 的表现相当优异。具体体现在如下几个方面：

Compaction 实时性

数据能快速合并，Tablet 数据版本个数维持在 50 以下， Compaction Score 稳定。相比于之前高并发导入频出的 -235 问题，Compaction 合并效率有 10+ 倍提升。

CPU 资源消耗

Doris 1.1 针对小文件的 Compaction 进行了策略优化，在上述高并发导入场景，CPU 资源消耗下降 25%。

QPS 查询延迟稳定

通过降低 CPU 使用率，减少数据版本的个数，提升了数据整体有序性，从而减少了 SQL 查询的延迟。

秒级别数据同步场景（极限大压力）

单 BE 单 Tablet，客户端 30 并发极限 Stream Load 压测，数据在实时性<1s，Compaction Score 优化前后对比

使用建议

数据实时可见场景

对延迟要求特别严格的场景，比如秒级别数据同步，通常意味着单次导入文件较小，此时建议调小 cumulative_size_based_promotion_min_size_mbytes，单位是 MB，默认 64，可以设置成 8，能够很大程度提升 Compaction 的实时性。

高并发场景

对于高并发的写入场景，可以通过增加 Checkpoint 的间隔来减少 Stream Load 的频率，比如 Checkpoint 可以设置为 5-10s，不仅可以增加 Flink 任务的吞吐，也可以减少小文件的产生，避免给 Compaction 造成更多压力。

此外，对数据实时性要求不高的场景，比如分钟级别的数据同步，可以增加 Checkpoint 的间隔，比如 5-10 分钟，此时 Flink Doris Connector 依然能够通过两阶段提交 +checkpoint 机制来保证数据的完整性。

未来规划

实时 Schema Change

目前通过 Flink CDC 实时接入数据时，当上游业务表进行 Schema Change 操作时，必须先手动修改 Doris 中的 Schema 和 Flink 任务中的 Schema，最后再重启任务，新的 Schema 的数据才可以同步过来。这样使用方式需要人为的介入，会给用户带来极大的运维负担。后续会针对 CDC 场景做到支持 Schema 实时变更，上游的 Schema Change 实时同步到下游，全面提升 Schema Change 的效率。

Doris 多表写入

目前 Doris Sink 算子仅支持同步单张表，所以对于整库同步的操作，需要手动在 Flink 层面进行分流，写到多个 Doris Sink 中，这无疑增加了开发者的难度，在后续版本中我们也将支持单个 Doris Sink 同步多张表，这样就大大的简化了用户的操作。

自适应的 Compaction 参数调优

目前 Compaction 策略参数较多，在大部分通用场景能发挥较好的效果，但是在一些特殊场景下并不能高效的发挥作用。我们将在后续版本中持续优化，针对不同的场景，进行自适应的 Compaction 调优，在各类场景下提高数据合并效率，提升实时性。

单副本 Compaction

目前的 Compaction 策略是各 BE 单独进行，在后续版本中我们将实现单副本 Compaction，通过克隆快照的方式实现 Compaction 任务，减少集群 2/3 的 Compaction 任务，降低系统的负载，把更多的系统资源留给用户侧。

相关链接：

SelectDB 官方网站：

SelectDB - 基于 Apache Doris 的云原生实时数据仓库

Apache Doris 官方网站：

Home - Apache Doris

Apache Doris Github：

GitHub - apache/doris: Apache Doris is an MPP-based interactive SQL data warehousing for reporting and analysis.

Apache Doris 开发者邮件组：

dev@doris.apache.org

你可能感兴趣的:(apache,flink,大数据)

Java Swing-2.环境搭建及窗口背景 crime_lamb java swing java 开发语言
环境搭建及设置窗口背景环境搭建jdk：1.8Maven：3.2.5开发一个小型的桌面程序，可直接创建一个基础的Maven项目，我的场景中不使用Spring所以并没有使用Springboot框架下面是我的pom.xml4.0.0org.exampleSwing-Test1.0-SNAPSHOTArchetype-Swing-Testhttp://maven.apache.orgcom.formdev
集群与分片：深入理解及应用实践一休哥助手架构系统架构
目录引言什么是集群？集群的定义集群的类型什么是分片？分片的定义分片的类型集群与分片的关系集群的应用场景负载均衡高可用性分片的应用场景大数据处理数据库分片集群与分片的架构设计系统架构设计数据存储设计案例分析Hadoop集群Elasticsearch分片性能优化策略集群性能优化分片性能优化挑战和解决方案总结参考资料引言在现代计算系统中，处理大规模数据和提高系统的可靠性已经成为了基础需求。集群和分片是两
Github 2025-02-13Go开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-02-13统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Go项目10TypeScript项目1InnoSetup项目1Kubernetes:容器化应用程序管理系统创建周期：3618天开发语言：Go协议类型：ApacheLicense2.0Star数量：106913个Fork数量：38445次关注人数：10
Flink-k8s弹性扩缩容原理和部署步骤 spring208208 flink kubernetes 贪心算法
背景和现状目前行内提交flink作业采用Nativekubernetes模式，提交作业时会指定并行度和taskmanager使用的内存及cpu数量。这种情况下会导致在作业运行高峰可能存在资源不足问题运行低峰又会造成资源浪费，这种粗放的使用资源的模式在实时计算业务量不多的时候还可以勉强接受，而随着实时计算业务的增多，则会造成大量的资源浪费和性能瓶颈。为了使存储和计算资源得到更加合理有效的使用，能跟据
hive spark读取hive hbase外表报错分析和解决 spring208208 hive hive spark hbase
问题现象使用Sparkshell操作hive关联Hbase的外表导致报错；hive使用tez引擎操作关联Hbase的外表时报错。问题1：使用tez或spark引擎，在hive查询时只要关联hbase的hive表就会有问题其他表正常。“org.apache.hadoop.hbase.client.RetriesExhaustedException:Can’tgetthelocations”问题2：s
Java整合GPT-3.5和GPT-4，让PPT制作变得更加轻松智能化 GPTCoder ChatGPT java 人工智能 gpt-3 自然语言处理 chatgpt
在当今的商业环境中，PPT演示文稿已成为一种重要的沟通工具。然而，创建高质量的PPT往往耗时且繁琐。基于这个痛点，本文将介绍如何使用Java整合GPT-3.5/4，根据PPT模板自动生成完整的PPT。我们将使用ApachePOI库操作来PPT文件，同时调用GPT-3.5/4API生成内容。首先，我们需要导入ApachePOI库。在Maven项目中，将以下依赖添加到pom.xml文件中：org.ap
如何学习Elasticsearch（ES）：从入门到精通的完整指南狮歌~资深攻城狮 jenkins 运维 elasticsearch 大数据
如何学习Elasticsearch（ES）：从入门到精通的完整指南嘿，小伙伴们！如果你对大数据搜索和分析感兴趣，并且想要掌握Elasticsearch这一强大的分布式搜索引擎，那么你来对地方了！本文将为你提供一个系统的学习路径，帮助你从零开始逐步深入理解Elasticsearch。1.基础知识准备1.1理解全文搜索在开始学习Elasticsearch之前，建议先了解一下全文搜索的基本概念。全文搜索
如何学习HBase：从入门到精通的完整指南狮歌~资深攻城狮 hbase 大数据
如何学习HBase：从入门到精通的完整指南嘿，小伙伴们！如果你对大数据存储感兴趣，并且想要掌握HBase这一强大的分布式数据库，那么你来对地方了！本文将为你提供一个系统的学习路径，帮助你从零开始逐步深入理解HBase。1.基础知识准备1.1理解NoSQL数据库在开始学习HBase之前，建议先了解一下NoSQL数据库的基本概念和分类。NoSQL数据库与传统的关系型数据库（如MySQL）有很大的不同，
Go 语言的优势和学习路线图 weixin_jie401214 golang 学习 java
简介Go语言又称Golang，由Google公司于2009年发布，近几年伴随着云计算、微服务、分布式的发展而迅速崛起，跻身主流编程语言之列，和Java类似，它是一门静态的、强类型的、编译型编程语言，为并发而生，所以天生适用于并发编程（网络编程）。目前Go语言支持Windows、Linux等多个平台，也可以直接在Android和iOS等移动端执行，从业务角度来看，Go语言在云计算、微服务、大数据、区
org.apache.kafka.common.errors.TimeoutException 一张假钞 apache kafka 分布式
个人博客地址：org.apache.kafka.common.errors.TimeoutException|一张假钞的真实世界使用kafka-console-producer.sh向远端Kafka写入数据时遇到以下错误：$bin/kafka-console-producer.sh--broker-list172.16.72.202:9092--topictestThisisamessage[20
浅聊MQ之Kafka与RabbitMQ简用天天向上杰 kafka rabbitmq 分布式
（前记：内容有点多，先看目录再挑着看。）Kafka与RabbitMQ的使用举例Kafka的使用举例安装与启动：从ApacheKafka官网下载Kafka中间件的运行脚本。解压后，通过命令行启动Zookeeper（Kafka的运行依赖于Zookeeper）。启动Kafka的服务器进程。基本功能实现：生产者：启动生产者进程，向指定的主题（Topic）发送消息。消费者：启动消费者进程，从指定的主题中接收
架构师技术图谱 modouwu 系统架构
分布式漫谈分布式系统大数据存储微服务可落地的DDD(6)-工程结构推荐系统框架消息队列编程语言设计模式重构集群
python 读取各类文件格式的文本信息:doc,html,mht,excel 北房有佳人手写功能 python读取doc文档 python读取mht python读取excel python读取html
引言众所周知,python最强大的地方在于，python社区汇总拥有丰富的第三方库，开源的特性，使得有越来越多的技术开发者来完善python的完美性。未来人工智能，大数据方向，区块链的识别和进阶都将以python为中心来展开。咳咳咳！好像有点打广告的嫌疑了。当前互联网信息共享时代，最重要的是什么?是数据。最有价值的是什么？是数据。最能直观体现技术水平的是什么?还是数据。所以，今天我们要分享的是：如
python中常见的生成器内容哈哈哈哈q python python
在Python中，生成器（Generator）是一种特殊的迭代器，可以通过函数中的yield关键字轻松创建。生成器的主要特点有：惰性计算：生成器不会一次性计算出所有的值，而是在需要时逐个生成值。节省内存：因为不会一次性存储所有值，所以在处理大数据时效率很高。访问的形式
Vulhub靶机 ActiveMQ 反序列化漏洞（CVE-2015-5254）（渗透测试详解）芜丶湖 activemq web安全安全性测试 linux 网络系统安全
一、开启vulhub环境docker-composeup-d启动dockerps查看开放的端口漏洞版本：ApacheActiveMQ5.x~ApacheActiveMQ5.13.0二、访问靶机IP8161端口默认账户密码admin/admin，登录此时qucues事件为空1、使用jmet-0.1.0-all.jar工具将有效负载发送到目标IP的61616端口jmet原理是使用ysoserial生成
双端搭建个人博客宇宙第一小趴菜 Vmware linux wordpress
1.准备工作确保你的两个虚拟机都安装了以下软件：虚拟机1（Web服务器）:Apache2,PHP虚拟机2（数据库服务器）:MariaDB2.安装步骤虚拟机1（Web服务器）安装Apache2和PHP更新系统包列表：sudoaptupdate安装Apache2：sudoaptinstallapache2
Java版PDF拼接未秃也可程序员 java pdf python
首先确保pom.xml文件中是否存在对应配置信息org.apache.pdfboxpdfbox2.0.27代码部分直接复制下方代码importorg.apache.pdfbox.multipdf.PDFMergerUtility;importjava.io.File;importjava.io.IOException;importjava.util.ArrayList;importjava.uti
大数据java篇——复制 sp_ur 笔记 java 文件夹复制大数据 java
1.文件夹复制packageCopy;importjava.io.File;importjava.io.FileInputStream;importjava.io.FileNotFoundException;importjava.io.FileOutputStream;publicclassDirCopyDemo{publicstaticStringsrcRoot;publicstaticvoid
《Python全栈开发：构建高并发物联网数据中台实战》放氮气的蜗牛深度博客 python 物联网开发语言
一、项目概述本文将基于Python生态构建一个完整的物联网数据中台系统，实现从设备接入到商业智能的全链路开发。系统采用微服务架构，核心功能包括：百万级设备并发接入（基于MQTT协议）实时流数据处理（ApacheKafka+Faust）时序数据存储（InfluxDB+Redis）智能告警引擎（规则引擎+机器学习）三维可视化大屏（PyWeb3D+ECharts）graphTDA[设备端]-->|MQT
【大数据安全分析】网络异常相关安全分析场景扫地僧009 大数据安全分析网络安全大数据 web安全
引言在当今数字化时代，网络安全面临着前所未有的挑战。随着信息技术的飞速发展，网络环境变得日益复杂，各种网络攻击手段层出不穷。在大数据安全分析领域，威胁情报关联和账号异常分析已经取得了较好的效果，而网络异常分析同样具有重要的价值。网络异常相关安全分析场景丰富多样，通过对这些场景的深入研究和分析，可以及时发现潜在的网络安全威胁，采取有效的防范措施，保障网络系统的安全稳定运行。本文将详细介绍网络异常相关
国标GB28181网页直播平台EasyGBS国标GB28181软件与GB28181应用场景分析科技小E 音视频视频监控安全
随着5G、AI、云计算、大数据、物联网等新兴技术的快速发展，各行各业都在积极探索智能化、现代化的管理与运营模式。国标GB28181网页直播平台EasyGBS作为一款基于国标GB28181协议的视频云服务平台，凭借其强大的功能和广泛的应用场景，在众多领域中展现出了独特的优势。一、EasyGBS场景智慧交通在交通视频监控领域，通过搭建全套的国标系统，可满足GB/T28181的要求，实现和公安网的对接。
《小区综合管理服务平台设计与实现》任务书 zp8126 毕业设计任务书论文
任务书项目名称小区综合管理服务平台设计与实现项目背景随着信息技术的发展，社区服务逐渐向数字化、智能化方向转型。为了提高居民生活质量，增强物业管理效率，减少人力成本，构建一个高效便捷的小区综合管理服务平台显得尤为重要。本项目旨在通过结合云计算、大数据分析等技术手段，为用户提供包括但不限于物业报修、费用缴纳、公告通知、安防监控等功能在内的全方位服务体验。一、课题主要内容1.需求分析目标用户群体：明确平
Ubuntu 上安装和配置 Apache RocketMQ 4.7.1 java 凯 ubuntu apache rocketmq
在Ubuntu上安装和配置ApacheRocketMQ4.7.1需要以下步骤。RocketMQ是一个分布式消息队列系统，通常需要安装Namesrv（NameServer）和Broker组件。1.系统准备更新系统和安装依赖运行以下命令更新系统并安装必要的依赖项：sudoaptupdate&&sudoaptupgrade-ysudoaptinstall-yopenjdk-8-jdkwgetunzipR
深入HBase——引入黄雪超大数据基础 #深入HBase 大数据数据库 hbase
引入前面我们通过深入HDFS到深入MapReduce，从设计和落地，去深入了解了大数据最底层的基石——存储与计算是如何实现的。这个专栏则开始来看大数据的三驾马车中最后一个。通过前面我们对于GFS和MapReduce论文实现的了解，我们知道GFS在数据写入时，只对顺序写入有比较弱的一致性保障，而对于数据读取，虽然GFS支持随机读取，但在当时的硬件条件下，实际上也是支撑不了真正的高并发读取的；此外，M
Jackson 注解 -- 输出 JSON 字段 shangboerds Jackson
–Start点击此处观看本系列配套视频。如果一个对象中某个字段中的值是JSON，输出整个对象会有问题，这时我们可以使用注解@JsonRawValuepackageshangbo.jackson.demo13;importorg.apache.commons.lang3.builder.ToStringBuilder;importcom.fasterxml.jackson.annotation.Js
Apache Cordova开发教程-入门基础天马3798 教程系列整理 apache
1.ApacheCordova简介ApacheCordova介绍_coreapachecordovaapi.-CSDN博客2.ApacheCordovaCLI环境搭建，编译，启动ApacheCordova开发环境搭建（二）VSCode_vscodecordova框架-CSDN博客VSCode开发Cordova应用调试整理_cordovatools-CSDN博客3.ApacheCordovaAndr
数字化转型三大核心要素：数据、技术、人才千千标寻大数据云计算人工智能 ai
数字化转型的三大核心要素——数据、技术和人才，是推动企业在数字经济时代取得成功的关键。数据数据是数字化转型的基础。高质量的数据能够为企业提供深刻的市场洞察和客户行为分析，帮助做出更明智的决策。通过有效管理和利用数据，企业可以优化运营流程，提升产品和服务质量，从而实现更高的效率和客户满意度。技术先进的技术支持是实现数字化转型的关键驱动力。无论是云计算、人工智能、大数据分析还是物联网，这些前沿技术的应
Apache Iceberg 与 Apache Hudi：数据湖领域的双雄对决夜里慢慢行456 大数据大数据
在数据存储和处理不断发展的领域中，数据湖仓的概念已经崭露头角，成为了一种变革性的力量。数据湖仓结合了数据仓库和数据湖的最佳元素，提供了一个统一的平台，支持数据科学、商业智能、人工智能/机器学习以及临时报告等多种关键功能。这种创新的方法不仅促进了实时分析，还显著降低了平台成本，增强了数据治理，并加速了用例的实现。数据存储和处理的演变催生了被称为数据湖仓的现代分析平台。这些平台旨在解决传统架构的局限性
#最新#2025年护网#蓝队防守必须排查的57个安全漏洞与解决方案（上）独行soc 2025年护网安全 web安全面试漏洞挖掘文件读取漏洞 2025年护网
免责声明本教程仅为合法的教学目的而准备，严禁用于任何形式的违法犯罪活动及其他商业行为，在使用本教程前，您应确保该行为符合当地的法律法规，继续阅读即表示您需自行承担所有操作的后果，如有异议，请立即停止本文章读。目录一、OA系统泛微(Weaver-Ecology-OA)致远(Seeyon)通达OA(TongDaOA)二、E-mailExchangeCoremail三、Web中间件ApacheWeblo
探索数据云的无缝桥梁：Apache Spark 与 Snowflake 的完美结合窦育培
探索数据云的无缝桥梁：ApacheSpark与Snowflake的完美结合spark-snowflakeSnowflakeDataSourceforApacheSpark.项目地址:https://gitcode.com/gh_mirrors/sp/spark-snowflake项目介绍在大数据处理的浩瀚宇宙中，Snowflake以其独特的云数据仓库能力闪耀，而ApacheSpark则是数据分析和
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running]root@192.168.9.136:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他