字节跳动云原生计算

字节跳动流式数仓和实时服务分析的思考与实践

本文整理自火山引擎云原生实时数仓技术专家汪建锋在 DataFun 现代数据栈在线峰会上的演讲，主要介绍字节跳动流式数仓和实时服务分析的思考与实践。

作者｜火山引擎云原生实时数仓技术专家-汪建锋

字节跳动旗下有许多产品，每天有大量的数据需要接收和计算。其中，以抖音、头条等为代表的产品以实时推荐和流计算为核心，这些都需要消耗大量的计算资源和存储资源。巨大的数据量和快速准确的计算需求，给技术架构带来了巨大的挑战。

本次分享的主题为“字节跳动流式数仓和实时服务分析的思考和实践”，将围绕以下3点展开：

字节跳动产品架构的业务困境
流式数仓和实时服务分析的实践
火山引擎云原生计算

业务困境

字节内部场景分析

字节跳动（下称“字节”）旗下拥有今日头条、抖音等多款产品，每天服务着数亿用户，由此产生的数据量和计算量也非常大：

EB 级别海量的存储空间
每天平均 70PB 数据的增量
每秒钟百万次数的实时推荐请求
超过 400 万核的流式计算资源、500 万核的批式计算资源

在进行大数据分析的时候，对数据通常有两种处理方式：

1、描述已经发生过的数据，比如，过去发生了什么，为什么发生，通常采用批计算来处理；

2、描述正在发生的数据，比如，此时正在发生什么，将要发生什么，这些通常采用流计算来处理，也是今日头条、抖音等产品实时推荐的核心。

遇到的典型问题

如上图所示，字节内部对于数据的处理也分为两条链路：流计算链路和批计算链路。两条链路有着不同的存储以及数据处理方式，给整个架构带来了挑战：

1、数据和系统冗余，流批两套系统采用了两套技术栈，两套存储系统，在使用过程中需要分别维护，这使工程师运维和学习的成本非常高；

2、数据一致性和正确性问题，数据来自多个源头，采用了流批两种处理方式，处理逻辑不一样，代码不可复用，在 ETL 的计算过程中数据被反复引用，这些都可能使最终的业务数据发生变化，导致数据不一致；

3、Serving 性能问题，有些业务的主要场景比较简单，但也需要消耗大量的资源，比如简单的点查，往往要求高 QPS。如果采用传统大数据的方案，把主键拼起来，那么中间的结合是松耦合的，如果要同时达到高 QPS，这种拼接方案在计算上和资源上的投资都会很大，性能问题也很严重。

针对上述困境，字节团队选择了流式数仓和实时服务分析融合的解决方案。

流式数仓和实时服务分析实践

流数仓和服务数仓融合

字节通过实践将 Streaming Warehouse 流式数仓和实时服务分析进行融合，Streaming Warehouse 做数据处理，实时服务分析做数据服务，两者结合可以解决三个问题：

Flink Table Store 解决数据和系统冗余问题
基于 Flink 流批一体，解决数据冗余性和正确性问题
实时服务分析引擎优化解决服务性能问题

对流批一体的思考

在做流式数仓以及实时数仓的产品以前，字节内部的架构师一直在思考一个问题：流批一体的核心到底是什么？

最终团队认为，存储就是流批一体的核心，存储就是所有数据分析的基础。

如上图所示，流数据随着时间的推移不停地变化，没有边界，从数据库的角度来看，每次 Binlog 之后会有一定的存储写入到硬盘中做持久化，每一个 Snapshot 对应 Binlog 实时位点，这样整个 Snapshot 就是一个有边界的批式数据，像上图一样一个桶一个桶地放着，两者结合就是完整的流批一体。

Binlog 和 Snapshot 两个加起来，在数据库中既能处理流数据也可以处理批数据，所以字节团队将 Flink 的 Table Store 技术作为了最核心的基础支撑。

Flink Table Store

1、全新的 Flink 内置存储

Flink Table Store 有以下特性：

a、Snapshot + Log

b、满足所有“实时” User Case

c、存储易用，直接查询 DFS

从 Flink Table Store 的定位来看，Flink Table Store 有 Snapshot，支持批处理，加上 Log 流，同时还提供统一的存储，可满足所有面向实时分析服务的 User Case。

其次，Flink Table Store 存储易用，可直接像 DFS 分布式文件系统或对象存储一样使用，这对整个效率的提升、存储成本和性能的平衡都有很大作用。

2、存储结构

Flink Table Store 的存储结构包括两部分：

依赖于流式的其他消息队列组件的 Log Queue
基于列存的分布式文件系统

两部分结合可以支持流读（Streaming Reading）、批读（Batch Reading）以及 Lookup Join。

3、流批一体

Flink 有支持流批一体的特性，在读取方面，可以支持流读，可以读取 Log Changes，也可以支持批读，读 Snapshot，还可以对批流进行融合读取，Hybrid read 读，还可以支持点查。在写入方面，既可以支持持续地流式数据插入，也可以支持分区，支持 Overwrite 的批写。

整个底层跟数据服务是类似的，可以基于分布式文件系统，底层是无服务的状态，能做到计算和存储分离。同时，Flink Table Store 本身是基于列存的，也具备列存所具有的高性能的分析特性，比如压缩比。

4、全面支持 SQL

目前业界没有外部存储可以支持 Flink SQL 的所有能力，要么不支持定义，要么不支持 Change，或者不支持批写，也有的不支持 Online 查询，这会造成流式存储、读取、查询的困难。

Flink Table Store 可以全面支持 Flink SQL。通过 Flink Table Store 存储后的数据，只要有这个业务逻辑，有主键可选，就能够进行任意的 DDL 定义，还支持所有的类型，如消息类型或 DML。在此基础上，我们就可以把查询或定义做得更好。

5、Merge Tree

Merge Tree 是用于实时计算核心的内部基础，FlinkState，ClickHouse 及 HBase，包括 HSAP，都是基于 Merge Tree 的。Merge Tree 本身支持大量快速更新的能力，包括更新写增量文件，以及基于 Sorted File 按需 Merge。

Merge Tree 还可以支持高效分析和点查，它的全局有序性可以做到很好地 Data Skiping，提升检索、查询的效率。

根据这些特点，字节团队用 Flink Table Store 搭建实时数仓和实时服务分析的底层根基，并在上面进行进一步优化。

6、字节 Flink OLAP 优化

Flink OLAP 能力是流数仓的核心之一，字节团队基于 Flink 构建了全新的 OLAP 引擎，已支持 User Growth、电商、幸福里、飞书等业务，共 11 个集群 6000+ Core AP 资源，每天 Query 50w+。同时为了支持业务在使用 Flink OLAP 的过程中查询 Latency 和 QPS 的需求，对 Flink 引擎架构和功能实现进行了大量深入优化，使业务查询性能提升50%以上，节省了计算资源；在小规模数据量下，Flink 复杂作业执行的 QPS 从 10 提高到 100 以上，简单作业执行的 QPS 从 30 提高到 1000 以上。

我们在优化字节内部 Flink OLAP 能力的同时，正在跟社区合作，积极将相关优化回馈社区，在[FLINK-25318] Improvement of scheduler and execution for Flink OLAP 下创建了20多个子任务，有部分已经合并入主分支，剩余的也在设计和开发中，后续计划跟社区一起共同推进 Flink OLAP 能力建设和完善。

实现数据流端到端一致性

在 ETL 过程中，同一份数据源会进行多次计算，一些 ETL 的结果数据在对用户提供查询分析服务的同时也作为数据源执行下一轮，这时就会产生三个一致性问题：

a、数据源到 ETL exact once

b、ETL 写入单表 exact once

c、多个中间表的关联一致性

如上文所提到，在没有 Flink Table Store 和实现流批一体之前，计算分为流计算链路和批计算链路，两条链路有各自独立的计算集群和调度，数据有不同的入口和不同的处理方式，这种模式下做数据的端到端一致性挑战很大，成本非常高。

实现流批一体后，通过自动调度资源，自动调度流式链路的数据处理流程，把链路中的数据流程通过中间表的事务写入，保证中间数据链路的一致性。同时 Flink 的本身的 Exact Once 特性也能保证在 ETL 中间过程的链路上一致性。

字节团队通过流批一体化解决了数据跟系统的数据冗余以及一致性的问题，在此基础上，我们进一步对性能进行了优化。

采用云原生和实时服务分析提升性能

云原生架构

字节的产品基本都是基于云原生架构进行改造，基于容器化，在公共云上全托管的 Serverless 模式。

在这个模式下，上层的用户只需要关注业务应用和规划，下面的资源运维管理和调度分配由技术团队处理，用户使用门槛低，同时也避免业务深度介入运维管理。

同时，云原生基于存算分离，弹性很高，能够满足高效的横向扩展。像头条和抖音等产品，在晚上到睡觉之前，用户的使用需求很高，这个时候对实时计算性能要求也非常高，用户睡觉后，使用需求下降，此时对性能的要求相对较低，弹性就可以往下放，云原生的弹性优势在这个场景下得到了非常好的体现。

此外，团队还通过高效的分布式引擎来解决服务性能问题：

多方式加速查询，通过 SSD、RDMA、PMEM、内存等手段，提升查询及 Shuffle 效率
物化视图满足数据预计算
用 C++ 重写向量化引擎，提升整体效率

几个改变下来，可以满足像头条、抖音等产品实时的写入、更新、高并发要求以及数据的可视化，用户在产品内进行点击动作后就可以立即推送其关心或感兴趣的视频和新闻。

实时服务分析引擎

字节团队研发了新一代面向大数据场景的实时服务分析系统，既能够满足用户高 QPS，低 Latency 的在线 Serving 需求，也能满足用户对于海量数据的实时分析需求。

传统的 OLAP 分析模式实际上是静态的，在分析的时候需要预设好的视图或模型，海量分析时，通过预设的分析模型，分析出来的结果给到 Serving 对应的数据库，如 HBase，Redis，MySQL，在这个过程中 Serving 跟分析是分离的。

同时字节团队在业务的决策过程中发现，用 OLAP 的用户对分析的要求实际上是不固定的，且与 OLAP 本身的现状不相符，用户需要的是灵活、不固定、按需的分析。

因此，我们对实时分析的服务引擎做了两点优化：

1、服务与分析整合，使分析和服务一体化；

2、支持海量数据实时写入、实时更新、实时分析，支持标准 SQL（兼容MySQL语法）。

实时服务分析引擎典型场景

字节内部在使用实时服务的典型场景主要是推荐类的特征分析，如推荐中用的机器学习特征，这类场景带来了新的挑战：

数据需要实时写入，实时查询，用户需要数据实时可见；
数据写入吞吐大；
查询并发高(QPS 百万级别），对于查询时延要求（毫秒级别）；用户特征明细数据庞大，任意时间窗口的在线聚合难以满足时延的需求；
当前没有一个系统能够满足用户所有需求，用户通常需要 KV+OLAP+Batch 来满足业务需求。

对于这些挑战，字节团队做了两个优化：一是使用 MV 对明细数据进行聚合，二是通过脏读来满足用户对时效性的要求。

以上，是字节云原生部门的两个重点的产品，流式数仓和实时服务分析引擎。

火山引擎云原生计算

火山引擎云原生计算整体架构

火山引擎产品的特点是，基于字节内部业务孵化，经过了大规模的实践检验后才进行商业化，技术比较成熟，相比开源最大的特点是云原生化。

火山引擎云原生计算的大数据整体框架，共由4部分组成。最中间部分是核心引擎：

用于流式计算的 Serverless Flink
用于批式计算的 Serverless Spark
云原生消息引擎BMQ和开放日志搜索 OpenSearch
用于存储的火山引擎自研的大数据统一存储 CloudFS

上述引擎基于开源，但根据字节的业务特性进行了增强和加固。

上层是引擎数据管理控制，包括Quata的服务，租户管理服务，运行时管理服务，API网关、交付部署等模块，满足云原生化引擎的管理和控制。

下层是云原生计算的运维平台，包括组件服务的生命周期管理，helmchart、日志审计监控等易用性功能，提供容灾等高可用的能力，提升产品已交付可运维能力。

最下层是基础底座，支持火山引擎的云原生公有云版本的VKE/VCI，混合云版本和客户自有K8S的云原生环境，还支持多云管理和混合部署，提升计算链路使用过程中的资源利用效率。

Q&A

1、数据源做 ETL 写入到单表时 Exact Once 的度怎么保证？

采用了 Flink 的 Exact Once 特性。

2、Starrocks 的性能对比测试

据了解目前没有过性能的对比测试，另外，字节内部的站内场景比较多，碰到的问题也比较多，我们是基于云原生改造的，所以在 QPS 上做得比较深的，这是我们跟开源不太一样的地方。

3、怎么样看待 Flink Table Store

Flink Table Store 在流批一体的场景下是有非常好的能力，目前字节内部使用的 Flink Table Store 跟开源并行同步的。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
398顺境，逆境戴骁勇
2018.11.27周二雾霾最近儿子进入了一段顺境期，今天表现尤其不错。今天的数学测试成绩喜人，没有出现以往的计算错误，整个卷面书写工整，附加题也在规定时间内完成且做对。为迎接体育测试的锻炼有了质的飞跃。坐位体前屈成绩突飞猛进，估测成绩能达到12cm，这和上次测试的零分来比，简直是逆袭。儿子还在不断锻炼和提升，唯恐到时候掉链子。跑步姿势在我的调教下，逐渐正规起来，速度随之也有了提升。今晚测试的50
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Shell、Bash、Zsh这都是啥啊小白码上飞 bash linux 开发语言
Zsh和Bash都是我们常用的Shell，那先搞明白啥是shell吧。Shell作为一个单词，他是“壳”的意思，蛋壳坚果壳。之所以叫壳，是为了和计算机的“核”来区分，用它表示“为使用者提供的操作界面”。所以这个命名其实很形象，翻译成中文，直译过来叫“壳层”。个人认为这个叫法很奇怪，意译貌似也没有什么好的词汇来匹配。就还是叫shell吧。维基百科给的定义是：Incomputing,ashellisa
ExpRe[25] bash外的其它shell：zsh和fish tritone ExpRe bash linux ubuntu shell
文章目录zsh基础配置实用特性插件`autojump`语法高亮自动补全fish优点缺点时效性本篇撰写时间为2021.12.15，由于计算机技术日新月异，博客中所有内容都有时效和版本限制，具体做法不一定总行得通，链接可能改动失效，各种软件的用法可能有修改。但是其中透露的思想往往是值得学习的。本篇前置：ExpRe[10]Ubuntu[2]准备神秘软件、备份恢复软件https://www.cnblogs
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
Python神器！WEB自动化测试集成工具 DrissionPage 亚丁号 python 开发语言
一、前言用requests做数据采集面对要登录的网站时，要分析数据包、JS源码，构造复杂的请求，往往还要应付验证码、JS混淆、签名参数等反爬手段，门槛较高。若数据是由JS计算生成的，还须重现计算过程，体验不好，开发效率不高。使用浏览器，可以很大程度上绕过这些坑，但浏览器运行效率不高。因此，这个库设计初衷，是将它们合而为一，能够在不同须要时切换相应模式，并提供一种人性化的使用方法，提高开发和运行效率
计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
4 大低成本娱乐方式: 小说, 音乐, 视频, 电子游戏穷人小水滴娱乐音视频低成本小说游戏
穷人如何获得快乐?小说,音乐,视频,游戏,本文简单盘点一下这4大低成本(安全)娱乐方式.这里是穷人小水滴,专注于穷人友好型低成本技术.(本文为58号作品.)目录1娱乐方式1.1小说(网络小说)1.2音乐1.3视频(b站)1.4游戏(电子游戏/计算机软件)2低成本:一只手机即可3总结与展望1娱乐方式这几种,也可以说是艺术的具体形式.更专业的说,(娱乐)是劳动力再生产的重要组成部分.使人放松,获得快乐
计算机网络八股总结 Petrichorzncu 八股总结计算机网络笔记
这里写目录标题网络模型划分（五层和七层）及每一层的功能五层网络模型七层网络模型（OSI模型）==三次握手和四次挥手具体过程及原因==三次握手四次挥手TCP/IP协议组成==UDP协议与TCP/IP协议的区别==Http协议相关知识网络地址，子网掩码等相关计算网络模型划分（五层和七层）及每一层的功能五层网络模型应用层：负责处理网络应用程序，如电子邮件、文件传输和网页浏览。主要协议包括HTTP、FTP
matlab delsat = setdiff(1:69,unique(Eph(30,:)))；语句含义黄卷青灯77 matlab 开发语言 setdiff
这行MATLAB代码用于计算在范围1:69中不包含在Eph矩阵第30行的唯一值集合中的所有元素。具体解释如下：delsat=setdiff(1:69,unique(Eph(30,:)));解释Eph(30,:)Eph(30,:)提取矩阵Eph的第30行的所有列元素。这是一个行向量，包含了第30行的所有值。unique(Eph(30,:))unique函数返回Eph(30,:)中的唯一元素。这意味着
#千锋逆战班郭燕学习的一天开启郭千岁呗
在千锋"逆战"学习云计算第17天加油努力会有好结果复习昨天知识中国加油！武汉加油！千峰加油!我自己加油！
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
经纬恒润二面&三七互娱一面&元象二面 Redstone Monstrosity 面试前端
1.请尽可能详细地说明，进程和线程的区别，分别有哪些应用场景？进程间如何通信？线程间如何通信？你的回答中不要写出示例代码。进程和线程是操作系统中的两个基本概念，它们在计算机系统中扮演着不同的角色，并且在不同的应用场景中发挥作用。进程和线程的区别定义：进程：进程是操作系统进行资源分配和调度的基本单位。每个进程都有独立的内存空间和系统资源。线程：线程是进程内的一个执行单元，是操作系统进行调度的最小单位
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。