hhhSir'blog

【pulsar学习】pulsar架构原理

文章目录

1 pulsar集群组成
2 Broker层：无状态服务层
3 Bookkeeper层：持久化存储层
- 3.1 相关名词解释
- 3.2 读写流程
- 3.3 Segment为中心的存储的优势
4 总结

【pulsar学习系列】

【pulsar学习】pulsar集群部署及可视化监控部署
【pulsar学习】pulsar中java API的使用
【pulsar学习】Pulsar Functions

前面几篇文章主要是介绍怎么将pulsar装起来、用起来。本文主要介绍pulsar的架构原理以及这些独特设计带来的优势。

1 pulsar集群组成

单个 Pulsar 集群由以下三部分组成：

一个或多个broker组成的集群：负责处理和负载均衡producer发出的消息并将消息发送给consumer。它与Pulsar configuration store相交互处理对应的任务，将消息存储在Bookeeper实例中（又被称为bookies）。Broker 依赖 ZooKeeper 集群处理特定的任务。
一个或多个bookie组成的Bookeeper集群：负责消息的持久化存储。
zookeeper集群：协调多个pulsar集群的协调任务，里面保存了一些元数据，如配置管理，租户等。

其实根据上面的介绍可以很清晰发现pulsar的分层结构。Pulsar采用“存储和服务分离”的两层架构（这是Pulsar区别于其他MQ系统最重要的一点，也是所谓的“下一代消息系统”的核心）。

Pulsar客户端提供消费者和生产者的接口，但是客户端不与Apache Bookeeper交互，客户端也没有直接的 BookKeeper 访问权限。这种隔离为Pulsar实现安全的多租户统一身份验证模型提供了基础。下图能够体现其存储和服务分离的特点。本文的1.2和1.3节将详细介绍broker层和bookkeeper层的原理。

存储于服务分离有啥好处嘞？

对于计算：也就是我们的broker,提供消息队列的读写,不存储任何数据，无状态对于我们扩展非常友好，只要你机器足够，就能随便上。扩容Broker往往适用于增加Consumer的吞吐，当我们有一些大流量的业务或者活动，比如电商大促，可以提前进行broker的扩容。
对于存储：也就是我们的bookie,只提供消息队列的存储，如果对消息量有要求的，我们可以扩容bookie,并且我们不需要迁移数据，扩容十分方便。

2 Broker层：无状态服务层

Broker 实际上并不在本地存储任何消息数据。每个主题分区（Topic Partition）由 Pulsar 分配给某个 Broker，该 Broker 称为该主题分区的所有者。 Pulsar 生产者和消费者连接到主题分区的所有者 Broker，以向所有者代理发送消息并消费消息。

Pulsar 的 broker 是一个无状态组件，主要负责运行另外的两个组件:

一个 HTTP 服务器（Service discovery），它暴露了 REST 系统管理接口以及在生产者和消费者之间进行 Topic 查找的 API。
一个调度分发器（Dispatcher），它是异步的 TCP 服务器，通过自定义二进制协议应用于所有相关的数据传输。

下图显示了一个拥有 4 个 Broker 的 Pulsar 集群，其中 4 个主题分区分布在 4 个 Broker 中。每个 Broker 拥有并为一个主题分区提供消息服务。

如果一个 Broker 失败，Pulsar 会自动将其拥有的主题分区移动到群集中剩余的某一个可用 Broker 中。这里要说的一件事是：由于 Broker 是无状态的，当发生 Topic 的迁移时，Pulsar 只是将所有权从一个 Broker 转移到另一个 Broker，在这个过程中，不会有任何数据复制发生。

3 Bookkeeper层：持久化存储层

Apache BookKeeper 是企业级存储系统，旨在保证高持久性、一致性与低延迟。自 2011 年起，BookKeeper 开始在 Apache ZooKeeper 下作为子项目孵化，并于 2015 年 1 月作为顶级项目成功问世。

BookKeeper有以下特点：

使 Pulsar 能够利用独立的日志，称为 ledgers，可以随着时间的推移为 topic 创建多个 ledgers。
它为处理顺序消息提供了非常有效的存储。
保证了多系统挂掉时 ledgers 的读取一致性。
提供不同的 Bookies 之间均匀的 IO 分布的特性。
它在容量和吞吐量方面都具有水平伸缩性。能够通过增加 bookies 立即增加容量到集群中，并提升吞吐量。
Bookies 被设计成可以承载数千的并发读写的 ledgers。使用多个磁盘设备，一个用于日志，另一个用于一般存储，这样 Bookies 可以将读操作的影响和对于写操作的延迟分隔开。

Apache BookKeeper 是 Apache Pulsar 的持久化存储层。 Apache Pulsar 中的每个主题分区本质上都是存储在 Apache BookKeeper 中的分布式日志。

3.1 相关名词解释

bookis中存了啥数据？咋存的呢？这涉及到很多名词。

如图所示，一个topic实际上是一个Segment流(ledgers)，通过这个设计所以Pulsar他并不是一个单纯的消息队列系统，他也可以代替流式系统，所以他也叫流原生平台,可以替代flink等系统。可以看见我们的topic/partition（Event Stream），由多个Segment存储组成，而每个Segment由entry组成，这个可以看作是我们每批发送的消息通常会看作是一个entry。这个Segment（在bookies中称为Ledger）可以看作是我们写入文件的一个基本维度，同一个Segment的数据会写在同一个文件上面，不同Segment将会是不同文件。

bookie又是咋读写这些文件的呢？首先介绍bookie的读写架构图：

涉及到的名词解释如下：

Entry,Entry是存储到bookkeeper中的一条记录，其中包含Entry ID，记录实体等。
Ledger，可以认为ledger是用来存储Entry的，多个Entry序列组成一个ledger。
Journal，其实就是bookkeeper的WAL(write ahead log)，用于存bookkeeper的事务日志，journal文件有一个最大大小，达到这个大小后会新起一个journal文件。
Entry log，存储Entry的文件，ledger是一个逻辑上的概念，entry会先按ledger聚合，然后写入entry log文件中。同样，entry log会有一个最大值，达到最大值后会新起一个新的entry log文件
Index file，ledger的索引文件，ledger中的entry被写入到了entry log文件中，索引文件用于entry log文件中每一个ledger做索引，记录每个ledger在entry log中的存储位置以及数据在entry log文件中的长度。
MetaData Storage，元数据存储，是用于存储bookie相关的元数据，比如bookie上有哪些ledger，bookkeeper目前使用的是zk存储，所以在部署bookkeeper前，要先有zk集群。

了解到上述信息，就可以看懂这个图了：

3.2 读写流程

其实跟一下这个流程，感觉与HBASE好相似呀：
写流程：

Step1: broker发起写请求，首先对Journal磁盘写入WAL，熟悉mysql的朋友知道redolog，journal和redolog作用一样都是用于恢复没有持久化的数据。
Step2: 然后再将数据写入index和ledger，这里为了保持性能不会直接写盘，而是写pagecache,然后异步刷盘。
Step3: 对写入进行ack。

读流程：

Step1: 先读取index,当然也是先读取cache，再走disk。
Step2: 获取到index之后，根据index去entry logger中去对应的数据。

这不是铁铁的hbase预写日志和readcache吗？这样设计的好处有：支持高效的读写

在kafka中当我们的topic变多了之后，由于kafka一个topic一个文件，就会导致我们的磁盘IO从顺序写变成随机写。在rocketMq中虽然将多个topic对应一个写入文件，让写入变成了顺序写，但是我们的读取很容易导致我们的pagecache被各种覆盖刷新，这对于我们的IO的影响是非常大的。所以pulsar在读写两个方面针对这些问题都做了很多优化：

写流程：顺序写 +pagecache。在写流程中我们的所有的文件都是独立磁盘，并且同步刷盘的只有Journal，Journal是顺序写一个journal-wal文件,顺序写效率非常高。ledger和index虽然都会存在多个文件，但是我们只会写入pagecache,异步刷盘，所以随机写不会影响我们的性能。

读流程：broker cache + bookie cache，在pulsar中对于追尾读(tailing read)非常友好基本不会走io,一般情况下我们的consumer是会立即去拿producer发送的消息的，所以这部分在持久化之后依然在broker中作为cache存在，当然就算broker没有cache（比如broker是新建的），我们的bookie也会在memtable中有自己的cache,通过多重cache减少读流程走io。

我们可以发现在最理想的情况下读写的io是完全隔离开来的，所以在Pulsar中能很容易就支持百万级topic，而在我们的kafka和rocketmq中这个是非常困难的。

3.3 Segment为中心的存储的优势

相比kafka以partition为存储的基本对象，pulsar以Segment为中心进行存储的好处如下。这也能帮我们更好的理解pulsar的架构。

无限制的主题分区存储
由于主题分区被分割成 Segment 并在 Apache BookKeeper 中以分布式方式存储，因此主题分区的容量不受任何单一节点容量的限制。相反，主题分区可以扩展到整个 BookKeeper 集群的总容量，只需添加 Bookie 节点即可扩展集群容量。这是 Apache Pulsar 支持存储无限大小的流数据，并能够以高效，分布式方式处理数据的关键。使用 Apache BookKeeper 的分布式日志存储，对于统一消息服务和存储至关重要。

即时扩展，无需数据迁移
由于消息服务和消息存储分为两层，因此将主题分区从一个 Broker 移动到另一个 Broker 几乎可以瞬时内完成，而无需任何数据重新平衡（将数据从一个节点重新复制到另一个节点）。这一特性对于高可用的许多方面至关重要，例如集群扩展；对 Broker 和 Bookie 失败的快速应对。我将使用例子在下文更详细地进行解释。

无缝 Broker 故障恢复
下图说明了 Pulsar 如何处理 Broker 失败的示例。在例子中 Broker 2 因某种原因（例如停电）而断开。 Pulsar 检测到 Broker 2 已关闭，并立即将 Topic1-Part2 的所有权从 Broker 2 转移到 Broker 3。在 Pulsar 中数据存储和数据服务分离，所以当代理 3 接管 Topic1-Part2 的所有权时，它不需要复制 Partiton 的数据。如果有新数据到来，它立即附加并存储为 Topic1-Part2 中的 Segment x + 1。 Segment x + 1 被分发并存储在 Bookie1, 2 和 4 上。因为它不需要重新复制数据，所以所有权转移立即发生而不会牺牲主题分区的可用性。

无缝集群容量扩展
下图说明了 Pulsar 如何处理集群的容量扩展。当 Broker 2 将消息写入 Topic1-Part2 的 Segment X 时，将 Bookie X 和 Bookie Y 添加到集群中。 Broker 2 立即发现新加入的 Bookies X 和 Y。然后 Broker 将尝试将 Segment X + 1 和 X + 2 的消息存储到新添加的 Bookie 中。新增加的 Bookie 立刻被使用起来，流量立即增加，而不会重新复制任何数据。除了机架感知和区域感知策略之外，Apache BookKeeper 还提供资源感知的放置策略，以确保流量在群集中的所有存储节点之间保持平衡。

无缝的存储（Bookie）故障恢复
下图说明了 Pulsar（通过 Apache BookKeeper）如何处理 bookie 的磁盘故障。这里有一个磁盘故障导致存储在 bookie 2 上的 Segment 4 被破坏。Apache BookKeeper 后台会检测到这个错误并进行复制修复。

Apache BookKeeper 中的副本修复是 Segment（甚至是 Entry）级别的多对多快速修复，这比重新复制整个主题分区要精细，只会复制必须的数据。这意味着 Apache BookKeeper 可以从 bookie 3 和 bookie 4 读取 Segment 4 中的消息，并在 bookie 1 处修复 Segment 4。所有的副本修复都在后台进行，对 Broker 和应用透明。

即使有 Bookie 节点出错的情况发生时，通过添加新的可用的 Bookie 来替换失败的 Bookie，所有 Broker 都可以继续接受写入，而不会牺牲主题分区的可用性。

独立的可扩展性
由于消息服务层和持久存储层是分开的，因此 Apache Pulsar 可以独立地扩展存储层和服务层。这种独立的扩展，更具成本效益：

当您需要支持更多的消费者或生产者时，您可以简单地添加更多的 Broker。主题分区将立即在 Brokers 中做平衡迁移，一些主题分区的所有权立即转移到新的 Broker。
当您需要更多存储空间来将消息保存更长时间时，您只需添加更多 Bookie。通过智能资源感知和数据放置，流量将自动切换到新的 Bookie 中。 Apache Pulsar 中不会涉及到不必要的数据搬迁，不会将旧数据从现有存储节点重新复制到新存储节点。

上面的内容来源于一下blog，加上一点自己的总结。特此引用：

下一代消息队列pulsar到底是什么？
Apache Pulsar简介
比拼 Kafka, 大数据分析新秀 Pulsar 到底好在哪
聊聊pulsar：pulsar的核心概念与基础架构
pulsar架构与原理

4 总结

所有的变化,都可能伴随着痛苦和弯路,开放的道路,也不会是阔野坦途,但大江大河,奔涌向前的趋势,不是任何险滩暗礁,能够阻挡的。道之所在，虽千万人吾往矣。

LangChain 源码剖析（二）：LangChain 流程编排的核心骨架——Chain 基类源码剖析 ATM006 人工智能 langchain 大模型 Agent
每一篇文章都短小精悍，不啰嗦。在LangChain框架中，Chain是连接各种组件（模型、工具、数据库等）的核心骨架，负责将多个步骤按逻辑串联成可执行的工作流。无论是简单的「提问-回答」流程，还是复杂的「检索-思考-工具调用」pipeline，都依赖Chain基类提供的基础能力。本文将从架构设计、核心功能到实现细节，全面解析这一基类的设计智慧。一、架构定位：为什么需要Chain基类？Chain基类
MetaGPT源码剖析（一）：MetaGPT框架下的多智能体协作项目——software_company.py ATM006 开源Agent框架机器智能人工智能大模型源码剖析 Agent MetaGPT
每一篇文章都短小精悍，不啰嗦。software_company.py这段代码是一个基于Typer构建的命令行工具，用于启动MetaGPT框架下的多智能体协作项目（比如生成软件项目、完成开发任务等）。它就像一个"项目启动器"，允许用户通过命令行参数配置项目需求、资源投入等，进而调度不同角色的智能体（如产品经理、架构师、工程师等）协同工作。一、代码整体功能与定位从架构视角看，这段代码是MetaGPT框
Agent-S：重新定义下一代 AI 智能体开发框架天机️灵韵人工智能编程语言架构设计人工智能开源项目 python
Agent-S：重新定义下一代AI智能体开发框架——探索simular-ai的开源革命引言2025年，AI智能体（Agent）技术正从概念走向产业核心。从自动化工作流到复杂决策系统，开发者亟需更高效的工具链。在这一背景下，simular-ai/Agent-S的诞生引人注目——它承诺以模块化、可扩展的架构，为开发者提供构建企业级智能体的终极工具箱。项目定位：智能体开发的“瑞士军刀”根据GitHub仓
0727今天感到寂寞徐镁鑫
1.昨天没有午睡，晚上又晚睡，直接导致今天晚起了许多，包括霏，起床了又跑去沙发睡了二十分钟。等吃完早餐（鲜花饼、酸奶、鸡蛋、珍珠李）开始学习，都准备十一点了！我跟着学了十来分钟英语，又补写了昨天的日记。2.医生同学来信息告知前天我去她医院做的糖筛结果，还好，血糖在正常范围内。就是有轻微贫血，同学说，多吃点红枣红皮花生，还有动物血和内脏吧。真没想到我会有贫血，明明那么胖。~胖跟贫血没有关系好吗？！~
WPF利用NotifyIcon创建任务栏图标（菜鸟教程）不喜欢打篮球的厨师不是好程序员 c#windows
学习目标：记录从WPF应用创建开始，一步步到任务栏图标创建的全过程。流程：1、环境：Win10+VS2017打开VS2017，选择文件->新建->项目->VisualC#->Windows桌面->WPF应用->更改项目名为TasbarIcon->确定2、添加图标类右键项目->添加->引用，找到System.Windows.Forms和System.Drawing两个程序集，打上勾添加进去。双击打开
2018-05-25 张景_b55f
姓名:张景公司:扬州方圆建筑有限公司363期（哈尔滨）《六项精进》“谦虚二组”【日精进打卡第62天】【知～学习】背诵《六项精进》5遍背诵《大学》5遍共计570遍【经典名句分享】只要认真的为自己活过，只要为生命中重要的人，努力奋斗过，这本身已是一种完美。【行～实践】一、修身：默背《六项精进》五遍默背《大学》五遍微信步数:20000二、齐家：与父母视频和女友聊天三、建功：淀粉车间B去放线，放控制线A去
大数据领域 Kafka 入门指南：从安装到基础使用大数据洞察大数据与AI人工智能大数据 kafka linq ai
大数据领域Kafka入门指南：从安装到基础使用关键词：Kafka、消息队列、分布式系统、大数据处理、实时数据流、生产者消费者模型、ZooKeeper摘要：本文是一篇全面介绍ApacheKafka的入门指南，从基本概念到实际应用。我们将详细讲解Kafka的核心架构、工作原理，并提供从安装配置到基础使用的完整实践指导。文章包含Kafka的生产者-消费者模型实现、集群部署策略、性能优化技巧，以及在大数据
微服务链路雪崩防护深度解析：Hystrix与Sentinel熔断降级策略对比梦玄海微服务 hystrix sentinel
一、微服务雪崩效应与熔断机制核心原理1.1雪崩效应形成机制微服务架构中的雪崩效应本质上是服务调用链路的级联故障扩散过程，其形成机制可分为以下阶段：异常传播阶段：当某个下游服务节点因高负载、网络波动或代码缺陷出现响应延迟或异常时，调用方服务会持续积累待处理请求资源耗尽阶段：调用方线程池被持续占满，数据库连接池耗尽，TCP连接数达到上限，导致正常业务请求无法获取计算资源服务瘫痪阶段：故障通过服务依赖关
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
20220812成就感日志225/365 kidII
奋斗是人生的底色，你会经历很多人事物，学会更多的东西。从学习上掌握技能，从学习上享受生活，即便是辛苦也没有关系，生活没有不辛苦的，但是要辛苦的有意义。与其说平凡的过一辈子，不如吃苦耐劳，选择自己喜欢的生活，一点点的付出，积累很多的经验，未来才会有希望。虽然我们渴望成就感，但也需要平衡生活，让自己越来越幸福。1.【日思】：今日最重要的一件事情。调整（训练3h，4k+2h信息1+1.5h信息2+自私的
为什么阿里巴巴Java开发手册禁止使用存储过程？需要重新演唱 SQL java java 开发语言
阿里巴巴Java开发手册中禁止使用存储过程的原因主要基于以下几个方面的考虑：1.可维护性差复杂性：存储过程通常包含复杂的逻辑，随着业务逻辑的增加，存储过程的复杂性也会不断增加，导致维护成本高。调试困难：存储过程的调试通常比应用程序代码更困难，尤其是在分布式系统和微服务架构中。版本控制：存储过程的版本控制和变更管理相对复杂，难以与应用程序的版本控制流程集成。2.可移植性差数据库依赖：存储过程的语法和
什么情况下需要心理咨询？——中原焦点团队，坚持分享776天，2022-03-13 归鸿_66
心理咨询对象恰恰是正常人，而不是心理有疾病的人（这要去医院就诊，需要药物治疗的。）当正常人有了情绪困扰，工作、学业压力、家庭矛盾，或者其它内心烦恼的话，在咨询室里可以得到释放，能够对自己、对事情认识的更深刻。这样你能心理状态更好更轻松的去应对外边的挑战，面对当下的生活学习。尤其正在成长中的青少年。可以这么说，心理咨询室就是你的解压的驿站，情绪的安放地。走出咨询室，你会变得轻松、自信、有力量。当然，
牛客华为机试题解（python版更新中）
目录一、字符串（知识点）HJ1字符串最后一个单词的长度（简单）HJ2计算某字符出现次数（简单）HJ4字符串分隔（简单）HJ5进制转换（简单）HJ10字符个数统计（简单）HJ11数字颠倒（简单）HJ12字符串反转（简单）HJ14字符串排序（简单）HJ17坐标移动（中等）HJ18识别有效的IP地址和掩码并进行分类统计（较难）自己研究的题解，也有借鉴评论区牛人思路，答案不唯一，仅供学习参考，也欢迎大家指
Three.js入门第一步：两种方式搭建你的3D项目[特殊字符]️
上一篇我们聊了学习Three.js前的“地基”知识，现在地基牢固，该正式动工了！在创造炫酷的3D世界之前，我们得先把开发环境给搭好。官方手册提供了两种主流的安装方式，分别适用于不同场景。选对方法，事半功倍！方式一：CDN+Importmap(极速上手)这是官方最为推荐的、也是最简单的入门方式，尤其适合学习、做小练习、或者快速验证一个想法。优点：无需安装任何东西！只需要一个能联网的浏览器。操作方法：
欣诚幼儿园小六班：冬日相伴，温暖如初欣诚幼儿园郑雅文
太阳当空照花儿对我笑小鸟说早早早你为什么背上小书包我去上学校天天不迟到爱学习爱劳动长大要为人民立功劳集体活动：周一：《哈巴狗》1.学习歌曲《哈巴狗》，能够边唱边跟随歌曲内容变换动作。2.愿意表演歌曲，体验表演的乐趣。周二：《小鱼游游》1.愿意和同伴一起玩“捉迷藏”游戏，感受游戏的乐趣。2.会使用水彩笔或者油画棒画曲线。周三：《咪咪猫》1.喜欢并尝试模仿儿歌中的语言，体会其中的乐趣。2.理解儿歌内容
致自己的几句话 sundy007
图片发自App1.昨天的成功对今天的你来说，如果还是大事，说明你今天什么大事都没做！2.如果现在的你和一年前的你一样，意味着你没有成长。即使成绩依旧表现不错，让客户着迷，那依然是吃老本的行为！3.一个人最难做的是否定自己，尤其是自己过去成功的经验，如果不否定，总重复过去的套路，就没有了学习进步的空间！4.这个世界有偶然的运气，也有必然的运气。人应该追求必然的运气，通过努力踏踏实实的达到某个状态，某
深度学习--利用梯度下降法进行多变量的二分类（感知机）白话学生nit 深度学习分类人工智能
其实这一节涉及到了感知机的相关知识，就把这一节当作是学习感知机的引子吧。什么是二分类我们先来说一下什么是二分类，二分类指的是将结果分为两个互斥的类别，通常用来表示问题的两种可能。为什么用感知机学习二分类常见的解决问题的模型有很多，这里我们使用感知机模型。至于为什么，因为感知机模型很多地方用起来比较简便，就拿我们这一节的问题举一下例子，我们需要依照房子的价格对房子进行分类。在感知机模型中，我们可以使
Self-Consistency：跨学科一致性的理论与AI推理的可靠性基石大千AI助手人工智能 Python #Prompt 人工智能机器学习神经网络算法大模型幻觉 LLM
本文综合其在逻辑学、心理学及人工智能领域的核心定义、技术实现与前沿进展来对Self-Consistency（自洽性）进行系统性解析。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与跨学科内涵基础概念逻辑学定义：指理论或系统内部逻辑自洽，无矛盾或悖论。例如物理理论中，狭义相对论的速度变换
*SFT深度实践指南：从数据构建到模型部署的全流程解析大千AI助手人工智能 Python #OTHER 人工智能深度学习算法大模型 SFT 微调 Lora
一、SFT技术原理与定位核心定义SFT是在预训练语言模型（如LLaMA、GPT）基础上，利用标注数据优化模型以适应特定任务的技术。其本质是通过调整模型参数，将通用语言能力迁移至专业领域（如法律、医疗）或任务（如对话生成、代码补全）。与预训练的区别预训练：使用无标注数据（如维基百科）学习通用表征，消耗千亿级token算力。SFT：使用标注数据（如指令-答案对）进行任务适配，成本仅为预训练的1/100
迁移学习：知识复用的智能迁移引擎 | 从理论到实践的跨域赋能范式大千AI助手人工智能 Python #OTHER 迁移学习人工智能机器学习算法神经网络大模型迁移
让AI像人类一样“举一反三”的通用学习框架本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与基本概念迁移学习（TransferLearning）是一种机器学习范式，其核心思想是：将源领域（SourceDomain）学到的知识迁移到目标领域（TargetDomain），以提升目标任务的性能
春节假期已经过去了三天半！我慌！我玩耍悟道！成帅康
今天是我放假的第三天，我已经三天不上班了，不是我已经用了三天假期，我三天假期消失了！！！我都干了啥？？？-01-复盘前两天第一天，完成5个20分钟学习时间，写了100个以上字，和二狗爬山（我负重绑腿），和朋友聊了电子烟，看《三体》第二天，完成5个20分钟学习时间，写了100个以上字，找二狗玩，他和初中同学出去了找铁柱，他说车上人满了找铁皮，他和朋友们在买肉找欠我钱的闰土，他说过两天我孤独的洗车，孤
端午安康 yizhi雯子
端午，有一个不在家过的日子。离了家，什么节日都没有氛围了，就连粽子也不想吃了，今天早上还是舍友硬要我拿一个粽子，我才勉勉强强拿了一个三角粽，和另外一个人对半分了。粽子的味道不错，但是就是没有家的那种感觉。每年端午，都会包粽子，因为大家都放假了，家里也都热闹起来了。可现如今，我是一个在外求学的人，家里的热闹与我无关，但是好像，现在的家里一点也不热闹了。几乎所有人都外出学习了，还能热闹到哪里去，今年好
【爬虫】某某查cookie逆向 kisloy 逆向爬虫爬虫 python
代码仅供技术人员进行学习和研究使用，请勿将其用于非法用途或以任何方式窃取第三方数据。使用该代码产生的所有风险均由用户自行承担，作者不对用户因使用该代码而造成的任何损失或损害承担任何责任。加密参数加密参数主要是cookie，其中只有三个cookie最重要，BAIDUIDBAIDUID_BFESS和一个ab开头的cookiecookie获取BAIDUID和BAIDUID_BFESS在访问百度系的产品时
关于Python3绕过指纹识别解决ja3指纹的案例水兵没月 python
注意！！！！某XX网站实例仅作为学习案例，禁止其他个人以及团体做谋利用途！！！场景Python采集某网址页面内容aHR0cHM6Ly9jcmVkaXRiai5qeGouYmVpamluZy5nb3YuY24vY3JlZGl0LXBvcnRhbC9jcmVkaXRfc2VydmljZS9wdWJsaWNpdHkvcmVjb3JkL2JsYWNr报错信息requests.exceptions.SSLE
python如何抓取网页里面的文字_如何利用python抓取网页文字、图片内容？ weixin_39917437
想必新老python学习者，对爬虫这一概念并不陌生，在如今大数据时代，很多场景都需要利用爬虫去爬取数据，而这刚好时python领域，如何实现？怎么做？一起来看下吧~获取图片：1、当我们浏览这个网站时，会发现，每一个页面的URL都是以网站的域名+page+页数组成，这样我们就可以逐一的访问该网站的网页了。2、当我们看图片列表时中，把鼠标放到图片，右击检查，我们发现，图片的内容由ul包裹的li组成，箭
人工智能学习指南：从菜鸟到大神的进击之路橡晟人工智能深度学习计算机视觉算法学习 python
人工智能学习指南：从菜鸟到大神的进击之路前言：别慌，AI没那么可怕嘿！想学人工智能？恭喜你，你已经比90%的人更有眼光了！很多人一听到"人工智能"就开始头疼，仿佛这是什么高深莫测的巫术。其实不然，AI就像学做饭一样——刚开始可能会糊锅，但掌握了方法，你也能做出一桌好菜！目录第一章：认清现实，别被忽悠第二章：建立知识地图第三章：实战为王第四章：自检清单——你真的学会了吗？第五章：进阶之路结语：成为A
如何用 Python 绕过 cloudflare（5秒盾）抓取数据：也不是很难嘛！炒青椒不放辣 Web爬虫进阶实战 python cloudflare 爬虫 5秒盾逆向
大家好！我是爱摸鱼的小鸿，关注我，收看每期的编程干货。逆向是爬虫工程师进阶必备技能，当我们遇到一个问题时可能会有多种解决途径，而如何做出最高效的抉择又需要经验的积累。本期文章将以实战的方式，带你全面了解cloudflare（5秒盾）以及如何绕过使用cloudflare服务的网站从而抓取数据特别声明：本篇文章仅供学习与研究使用，不用做任何非法用途，相关URL和API等均已做脱敏处理，若有侵权请联系作
Git核心功能简要学习、达西先生 git 学习
代码的获取和上传gitclone下载，（注意：直接下载压缩包不会维护gitinit相关信息）gitbranch-a查看有那些分支（不同仓库可能有稳定版本和开发版本）gitcheckout切换到那个分支然后拉去最新代码gtipull用于从远程仓库拉取最新的代码并合并到当前分支gitpull=gitfetch+gitmerge修改代码后提交gitadd.gitcommit-m“xxxx”gtipull
结合自身，制定一套明确的 Web3 学习路线和技术栈建议战族狼魂 Web3专栏 web3 学习
目录✅一、结合自身，明确方向和目的✅二、技术路线和建议技术路线图（按阶段划分）第一阶段：巩固Web3基础（1-2周）第二阶段：NFT平台开发实战（4-6周）第三阶段：钱包整合与增强功能（2-4周）第四阶段：部署&打磨作品（2-3周）✅技术栈建议求职建议（Web3方向）招聘关键词（建议你在招聘网站用这些关键词搜索）：项目展示建议：Bonus：后续可拓展方向（你有后端经验）✅三、参考具体规划✅一、结合
清越轩习书【临习灵飞经、石鼓文单字】清越轩语
今天听老师讲《黄庭经》，还是学到不少东西的。任何字要写好，绝不是一朝一夕的事，坚持读帖分析学习，坚持不懈地临写，才会渐入佳境，写出属于自己的一片天地来。今天继续临习单字。灵飞经单字“之”“人”“能”，主练捺。石鼓文单字“马齐”，这个生僻字音“ji”，第四声。因不常用，打不出这字来。写圆润些，效果好。路边，美美的花，有谢的时候，留住它的倩影吧，愿这美丽永驻！
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round