tantexian

原 Kafka/Metaq设计思想学习笔记

本文没有特意区分它们之间的区别，仅仅是列出其中笔者认为好的设计思想，供后续设计参考。
目前笔者并没有深入代码研究其细节，如有不正确的地方，请斧正。

概念和术语

消息，全称为Message，是指在生产者、服务端和消费者之间传输数据。
消息代理：全称为Message Broker，通俗来讲就是指该MQ的服务端或者说服务器。
消息生产者：全称为Message Producer，负责产生消息并发送消息到meta服务器。
消息消费者：全称为Message Consumer，负责消息的消费。
消息的主题：全称为Message Topic，由用户定义并在Broker上配置。producer发送消息到某个topic下，consumer从某个topic下消费消息。
主题的分区：也称为partition，可以把一个topic分为多个分区。每个分区是一个有序，不可变的，顺序递增的commit log
消费者分组：全称为Consumer Group，由多个消费者组成，共同消费一个topic下的消息，每个消费者消费部分消息。这些消费者就组成一个分组，拥有同一个分组名称,通常也称为消费者集群
偏移量：全称为Offset。分区中的消息都有一个递增的id，我们称之为Offset。它唯一标识了分区中的消息。

基本工作机制

架构示意

从上图可以看出，有4个集群。其中，Broker集群存在MASTER-SLAVE结构。

多台broker组成一个集群提供一些topic服务，生产者集群可以按照一定的路由规则往集群里某台broker的某个topic发送消息，消费者集群按照一定的路由规则拉取某台broker上的消息。

生产者，Broker，消费者处理消息过程

每个broker都可以配置一个topic可以有多少个分区，但是在生产者看来，一个topic在所有broker上的的所有分区组成一个分区列表来使用。

在创建producer的时候，生产者会从zookeeper上获取publish的topic对应的broker和分区列表。生产者在通过zk获取分区列表之后，会按照brokerId和partition的顺序排列组织成一个有序的分区列表，发送的时候按照从头到尾循环往复的方式选择一个分区来发送消息。

如果你想实现自己的负载均衡策略，可以实现相应的负载均衡策略接口。

消息生产者发送消息后返回处理结果，结果分为成功，失败和超时。

Broker在接收消息后，依次进行校验和检查，写入磁盘，向生产者返回处理结果。

消费者在每次消费消息时，首先把offset加1，然后根据该偏移量找到相应的消息，然后开始消费。只有在成功消费一条消息后才会接着消费下一条。如果在消费某条消息失败（如异常），则会尝试重试消费这条消息，超过最大次数后仍然无法消费，则将消息存储在消费者的本地磁盘，由后台线程继续做重试。而主线程继续往后走，消费后续的消息。

DFX

顺序性

顺序性是指如果发送消息的顺序是A、B、C，那么消费者消费的顺序也应该是A、B、C。

在单线程内使producer把消息发往同一台服务器的同一个分区，这样就可以按照发送的顺序达到服务器并存储，并按照相同顺序被消费者消费。

可靠性

Broker存储消息机制

写入磁盘，不意味着数据落到磁盘设备上，毕竟中间还隔着一层os，os对写有缓冲。通常有两个方法来保证数据落到磁盘上：根据处理频率(消息条数)或者时间间隔来force 数据写入到磁盘设备。

Broker灾备

类似mysql的同步和异步复制，将一台master服务器的数据完整复制到另一台slave服务器，并且slave服务器还提供消费功能。在kafka中，它是这样描述的"Each server acts as a leader for some of its partitions and a follower for others so load is well balanced within the cluster. “，简单翻译为，每个服务器充当它自身分区的leader并且充当其他服务器的分区的folloer，从而达到负载均衡。

理论上说同步复制能带来更高的可靠级别，异步复制因为延迟的存在，可能会丢失极少量的消息数据，相应地，同步复制会带来性能的损失，因为要同步写入两台甚至更多的broker机器上才算写入成功。在实际实践中，推荐采用异步复制的架构，因为异步复制的架构相对简单，并且易于维护和恢复，对性能也没有影响。而同步复制对运维要求相对很高，机制复杂容易出错，故障恢复也比较麻烦。异步复制加上磁盘做磁盘阵列，足以应对非常苛刻的数据可靠性要求。

第一次复制因为需要跟master完全同步需要耗费一定时间，你可以在数据文件的目录观察复制情况。

异步复制的slave可以参与消费者的消费活动，消息消费者可以从slave中获取消息并消费，消费者会随机从master和slaves中挑选一台作为消费broker。

性能

使用sendfile调用，减少字节复制开销和系统调用开销

使用 message set概念，进行批量处理，可以增加一次在网络中传输的内容，减少roundtrip开销；并可以带来顺序的磁盘操作和连续的内存块。还可以进行压缩，压缩比例比单次处理高。

异常处理

消息重复

消息的重复包含两个方面，生产者重复发送消息以及消费者重复消费消息。

针对生产者来说，有可能发生这种情况，生产者发送消息，等待服务器应答，这个时候发生网络故障，服务器实际已经将消息写入成功，但是由于网络故障没有返回应答。那么生产者会认为发送失败，则再次发送同一条消息，如果发送成功，则服务器实际存储两条相同的消息。这种由故障引起的重复，MQ是无法避免的，因为MQ不判断消息的data是否一致，因为它并不理解data的语义，而仅仅是作为载荷来传输。

针对消费者来说也有这个问题，消费者成功消费一条消息，但是此时断电，没有及时将前进后的offset存储起来，则下次启动的时候或者其他同个分组的消费者owner到这个分区的时候，会重复消费该条消息。这种情况MQ也无法完全避免。

生产者的负载均衡和failover

在broker因为重启或者故障等因素无法服务的时候，producer通过zookeeper会感知到这个变化，将失效的分区从列表中移除做到fail over。因为从故障到感知变化有一个延迟，可能在那一瞬间会有部分的消息发送失败。

运维管理

参数维护

Web管理平台，通过浏览器访问
提供restful api，可以参考这里
设置jmx端口，通过API或者jconsole等工具查看信息或者修改参数

磁盘空间管理

默认情况下，meta是会保存不断添加的消息，然后定期对“过期”的数据进行删除或者归档处理。可以选择在何时开始删除、备份数据，删除、备份多长时间之前的数据。

系统设计选型

为什么把Topic分成多个分区？

Topic分成多个分区分成多个文件，可以防止单个Topic的文件内容过大。每个分区只能被消费者群组里面的一个消费者消费。另外，还可以选择把Topic的部分分区复制到follower上，从而达到负载均衡和failover的目的。

为什么需要消费者群组

首先，传统上存在两种模型：queue和topic。queue保证只有一个消费者能够消费到内容；topic是广播给所有消费者，让它们消费。

在设计时约定，一个消息可以被不同的消费者群组消费，每个消费者群组只能消费一次。这样如果只有一个消费者群组，那么达到queue的语义；如果有多个消费者群组，那么达到topic的语义

为什么选择以页面缓存为中心的设计

节选自分布式发布订阅消息系统 Kafka 架构设计翻译：
线性写入（linear write）的速度大约是300MB/秒，但随即写入却只有50k/秒，其中的差别接近10000倍。线性读取和写入是所有使用模式中最具可预计性的一种方式，当代操作系统已经提供了预读（预先读取多个块，加载到内存里）和后写（合并一组小数据量写，然后一次写入）的技术。

现代操作系变得越来越积极地将主内存用作磁盘缓存。所有现代的操作系统都会乐于将所有空闲内存转做磁盘缓存，即时在需要回收这些内存的情况下会付出一些性能方面的代价。所有的磁盘读写操作都需要经过这个统一的缓存。想要舍弃这个特性都不太容易，除非使用直接I/O。

因此，对于一个进程而言，即使它在进程内的缓存中保存了一份数据，这份数据也可能在OS的页面缓存（pagecache）中有重复的一份，结构就成了一份数据保存了两次。同时，注意到，Java对象的内存开销（overhead）非常大，往往是对象中存储的数据所占内存的两倍（或更糟）。Java中的内存垃圾回收会随着堆内数据不断增长而变得越来越不明确，回收所花费的代价也会越来越大。

由于这些因素，使用文件系统并依赖于页面缓存要优于自己在内存中维护一个缓存或者什么别的结构 —— 通过对所有空闲内存自动拥有访问权，我们至少将可用的缓存大小翻了一倍，然后通过保存压缩后的字节结构而非单个对象，缓存可用大小接着可能又翻了一倍。这么做下来，在GC性能不受损失的情况下，我们可在一台拥有32G内存的机器上获得高达28到30G的缓存。而且，这种缓存即使在服务重启之后会仍然保持有效，而不象进程内缓存，进程重启后还需要在内存中进行缓存重建（10G的缓存重建时间可能需要10分钟），否则就需要以一个全空的缓存开始运行（这么做它的初始性能会非常糟糕）。这还大大简化了代码，因为对缓存和文件系统之间的一致性进行维护的所有逻辑现在都是在OS中实现的，这事OS做起来要比我们在进程中做那种一次性的缓存更加高效，准确性也更高。如果你使用磁盘的方式更倾向于线性读取操作，那么随着每次磁盘读取操作，预读就能非常高效使用随后准能用得着的数据填充缓存（这也就是offset的递增顺序读取，能够大量读IO的性能）。

Push vs. Pull

消费者主动从Broker上面拉取消息还是Broker主动把消息推送给消费者？其实是各有利弊。

基于push机制的系统很难控制把数据下发给不同消费者的速度。有可能会导致消费者过载。这方面，pull做的比较好。消费者可以自己控制处理数据的速度。

另外，pull-based 消费者可以批量获取数据。push-base的broker就比较难处理，是每次发送单个消息还是批量发送？如果是批量发送，每次发送多少个？

Pull不好的是，如果broker没有数据的话，pull-based 消费者可能会忙等。这个问题可以通过"long poll"机制来解决（相当于Java的Future.get）。

消费者位置

大部分消息使用元数据来记录哪些Broker的消息被消费了。也就是说，当消息传递给消费者后，Broker记录下或者等待消费者的acknowledge后再记录。但是这里存在很多问题。如果当消息通过网络传递给消费者，而此时如果消费者没有来得及处理就宕机了，但是Broker却记录了该消息已被消费，那么该消息将被丢失。为了避免这种情况，很多消息消息系统会增加一个acknowledge特性，标识该消息被成功消费。然后消费者将acknowledge发送给Broker，而Broker不一定能够获得这个acknowledge，进而导致消息被重复消费。其次这种方法还导致网络开销以及服务器端必须维护消息的处理状态。

在类Kafka系统中，主题是由多个有序的分区组成的。每个分区在任意时刻只能被一个消费者消费。这意味着，每个分区里面的消费者位置仅仅是个整数，标识下一个被消费消息的offset。这样维护哪些消息被消费就简单多了，比如通过定期的设置检查点。

消息分发语义

类Kafka在分发消息时，有3类保障：

至多一次(At most once）：消息可能丢失，但是不会被重发
至少一次（At least once）：消息不可能丢失，但是可能被重发
几乎一次（Exactly one）：消息被分发一次并且仅仅一次

可以将问题分为两类：消息发送的持久化保障和消息消费的持久化保障

这个其实没有完美的办法来处理。当生产者发送消息时，可以通过在消息上面设置主键，然后万一失败时尝试再次发送，Broker可以回复相应的确认消息。

当消费者消费消息时，分为3种情况：

读取消息，保存offset，处理消息。然后处理消息时崩溃。针对“至多一次”场景。
读取消息，处理消息，保存offset。然后保存offset崩溃。针对“至少一次”场景。
经典的做法是在保存offset和处理消息这两个环节采用two-phase commit(2PC)。在Kafka中，一种简单的方法就是可以把offset和处理后的结果一起存储。

复制

Kafka可以把每个主题的分区复制到若干个服务器上（参数可配）。很多消息系统如果要提供复制相关的特性，担心复制会影响到吞吐量，所以一般需要繁琐的手工配置。而在Kafka中，它默认提供了复制特性–用户可以把复制银子设置成1，则相当于是不复制。

每个分区有1个leader和0或者多个followers。

节点处于“alive”由以下两个条件组成：

必须和zk存在session 2.如果该节点是slave，那么它必须保证写复制距离leader不远。

leader保存了所有正在进行同步的节点列表。如果follower死了，或者离leader太远，leader将把它从节点中remove掉。“离leader太远”这个定义可以通过延迟的消息数和延迟的时间参数来定义。

一个消息，只有当所有in-sync复制节点完成了复制后，才能标记为“commited”。只有处于“commited”的消息才能够被消费。另一方面，生产者可以权衡延迟和持久化这两个因素，设置是否等待消息被commit或者等待多少个ack。

采用pull模型，消息的实时性有保证吗？

消息的实时性受很多因素影响，不能简单地说实时性一定会降低，主要影响因素如下

broker上配置的批量force消息的阈值，force消息的阈值越大，则实时性越低。
消费者每次抓取的数据大小，这个值越大，则实时性越低，但是吞吐量越高。
Topic的分区数目对实时性也有较大影响，分区数目越多，则磁盘压力越大，导致消息投递的实时性降低。
消费者重试抓取的时间间隔，越长则延迟越严重。
消费者抓取数据的线程数

消息的存储结构

在Kafka中，消息格式是如下

/** 
 * A message. The format of an N byte message is the following: 
 * 
 * If magic byte is 0 * 
 * 1. 1 byte "magic" identifier to allow format changes 
 * 
 * 2. 4 byte CRC32 of the payload 
 * 
 * 3. N - 5 byte payload 
 * 
 * If magic byte is 1 * 
 * 1. 1 byte "magic" identifier to allow format changes 
 * 
 * 2. 1 byte "attributes" identifier to allow annotations on the message independent of the version (e.g. compression enabled, type of codec used) 
 * 
 * 3. 4 byte CRC32 of the payload 
 * 
 * 4. N - 6 byte payload 
 * 
 */

磁盘上消息格式如下：

message length : 4 bytes (value: 1+4+n) "magic" value : 1 byte crc            : 4 bytes payload        : n bytes

Metaq的消息格式如下

message length(4 bytes),包括消息属性和payload data checksum(4 bytes) message id(8 bytes) message flag(4 bytes) attribute length(4 bytes) + attribute，可选
payload

其中checksum采用CRC32算法计算，计算的内容包括消息属性长度+消息属性+data，消息属性如果不存在则不包括在内。消费者在接收到消息后会检查checksum是否正确。

以下节选自Metaq文档

同一个topic下有不同分区，每个分区下面会划分为多个文件，只有一个当前文件在写，其他文件只读。当写满一个文件（写满的意思是达到设定值）则切换文件，新建一个当前文件用来写，老的当前文件切换为只读。文件的命名以起始偏移量来命名。看一个例子，假设meta-test这个topic下的0-0分区可能有以下这些文件：

00000000000000000000000000000000.meta
00000000000000000000000000001024.meta
00000000000000000000000000002048.meta
……

其中00000000000000000000000000000000.meta表示最开始的文件，起始偏移量为0。第二个文件00000000000000000000000000001024.meta的起始偏移量为1024，同时表示它的前一个文件的大小为1024-0=1024。同样，第三个文件00000000000000000000000000002048.meta的起始偏移量为2048，表明00000000000000000000000000001024.meta的大小为2048-1024=1024。

以起始偏移量命名并排序这些文件，那么当消费者要抓取某个起始偏移量开始位置的数据变的相当简单，只要根据传上来的offset二分查找文件列表，定位到具体文件，然后将绝对offset减去文件的起始节点转化为相对offset，即可开始传输数据。例如，同样以上面的例子为例，假设消费者想抓取从1536开始的数据1M，则根据1536二分查找，定位到00000000000000000000000000001024.meta这个文件（1536在1024和2048之间），1536-1024=512，也就是实际传输的起始偏移量是在00000000000000000000000000001024.meta文件的512位置。

对zookeeper的使用

Broker Node Registry

/brokers/ids/[0…N] –> host:port (ephemeral node)
[0…N]表示是broker id，每个broker id 必须唯一。在broker启动时就完成注册。
含义是每个broker对应的host:port

Broker Topic Registry

/brokers/topics/[topic]/[0…N] –> nPartions (ephemeral node)
含义是每个broker id 对应主题的分区数

Consumer Id Registry

消费者群组含有多个消费者，不同消费者名称不同。每个消费者含有一个group id属性。

/consumers/[group_id]/ids/[consumer_id] –> {“topic1”: #streams, …, “topicN”: #streams} (ephemeral node)

含义是每个消费者群组下面的消费者所消费的topic列表。

Consumer Offset Tracking

/consumers/[group_id]/offsets/[topic]/[broker_id-partition_id] –> offset_counter_value ((persistent node)

每个消费者群组对某个主题的服务器id-分区id消费的offset_counter_value

Partition Owner registry

/consumers/[group_id]/owners/[topic]/[broker_id-partition_id] –> consumer_node_id (ephemeral node)

含义是某消费者群组的某个consumer_node_id对某个主题的服务器id-分区id消费

Broker node registration

当新borker加入是，它注册在broker节点下，value是hostname和port。它同时也注册它含有的topic列表和topic的分区情况。新主题被创建时会自动注册到zk上。

Consumer registration algorithm

当消费者启动时：

把自己注册到某个消费者群组
在consumer id下，注册监听change事件（新消费者离开或者加入），每次变化会重新计算该群组下的消费者负载。
在broker id下，注册监听change事件（新borker离开或者加入），每次变化会重新计算所有消费者群组的消费者负载。
如果某个消费者使用了topic filter机制，那么它会在broker topic下注册change事件（新主题加入），每次变化会重新计算相关联的topic的消费者的负载。
当自己加入后，重新计算消费者群组的消费者负载。

Consumer rebalancing algorithm

一个分区只能被一个消费者消费，这样可以避免不必要的同步机制。具体算法如下：

For each topic T that C_i subscribes to
let P_T be all partitions producing topic T
let C_G be all consumers in the same group as C_i that consume topic T
sort P_T (so partitions on the same broker are clustered together)
sort C_G
let i be the index position of C_i in C_G and let N = size(P_T)/size(C_G)
assign partitions from iN to (i+1)N - 1 to consumer C_i
remove current entries owned by C_i from the partition owner registry
add newly assigned partitions to the partition owner registry (we may need to re-try this until the original partition owner releases its ownership)

中文伪码如下：

set $topicList = $consumer.subscrbe for each $topic in $topicList //针对某个消费者订阅的所有主题 set $partitionList = $topic.partitions //获得主题的所有分区 set $comsumerList = ($topic.comsumers and $consumser.group.consumsers )//获得消费该主题的所有消费者并且这些消费者均是与当前消费者是同一个群组的 $partitionList.sort() //like broker0-p0,broker0-p1 ,broker1-p0,broker1-p1  $comsumerList.sort() set $consumerIndex = $comsuserList.getIndex($consumser) //获得当前消费者在群组里面的索引  set $N = $partitionList.size()/$comsuserList.size()//获得分区数除以消费者数的商 //好吧，后面几句话实在没看懂，估计要看源码，郁闷。//TODO

RocketMQ的简单介绍

由于目前RocketMQ的系统性介绍文档不是很全，且由于笔者时间有限，仅仅是粗略翻了下。发现有几个值的一说的地方。

消息过滤

支持Broker端消息过滤，在Broker中，按照Consumer的要求做过滤，优点是减少了对于Consumer无用消息的网络传输。缺点是增加了Broker的负担，实现相对复杂。

支持Consumer端消息过滤。这种过滤方式可由应用完全自定义实现，但是缺点是很多无用的消息要传输到Consumer端。

零拷贝选型

Consumer消费消息过程，使用了零拷贝，零拷贝包含以下两种方式

使用mmap + write方式优点：即使频繁调用，使用小块文件传输，效率也很高缺点：不能很好的利用DMA方式，会比sendfile多消耗CPU，内存安全性控制复杂，需要避免JVM Crash问题。
使用sendfile方式优点：可以利用DMA方式，消耗CPU较少，大块文件传输效率高，无内存安全新问题。缺点：小块文件效率低于mmap方式，只能是BIO方式传输，不能使用NIO。
RocketMQ选择了第一种方式，mmap+write方式，因为有小块数据传输的需求，效果会比sendfile更好。

服务发现

Name Server是专为RocketMQ设计的轻量级名称服务，代码小于1000行，具有简单、可集群横向扩展、无状态等特点。将要支持的主备自动切换功能会强依赖Name Server。

后记

如果不阅读源码，总感觉少了些什么的。

对英文的翻译还是比较生硬

核心是对独到的模型设计，对zookeeper的运用非常巧妙，以及对众多细节的考虑。的确是个非常优秀的MQ。

下一个坑，完成对zk源码的阅读。

参考

Kafka 0.8 Documentation
Metamorphosis WIKI
ROCKETMQ WIKI
分布式发布订阅消息系统 Kafka 架构设计翻译

【二叉树】二叉树剪枝豪冷啊算法
0x00题目给你二叉树的根结点root此外树的每个结点的值要么是0，要么是1返回移除了所有不包含1的子树的原二叉树节点node的子树为node本身加上所有node的后代0x01思路叶子节点值为0时，去掉某个节点的如果要去掉则左子树的值全为0右子树的值是全为0再加上节点本身的值也是0反过来讲，也就是以某个节点为根的子树只要存在值为1的节点则这棵子树不用删除0x02解法语言：Swift树节点：Tree
814. 二叉树剪枝（JavaScript）进击的桐人 leetcode 中等题 medium javascript LeetCode JavaScript Binary Tree Pruning
给定二叉树根结点root，此外树的每个结点的值要么是0，要么是1。返回移除了所有不包含1的子树的原二叉树。(节点X的子树为X本身，以及所有X的后代。)示例1:输入:[1,null,0,0,1]输出:[1,null,0,null,1]解释:只有红色节点满足条件“所有不包含1的子树”。右图为返回的答案。示例2:输入:[1,0,1,0,0,0,1]输出:[1,null,1,null,1]示例3:输入:[
【书生·浦语大模型实战营】学习笔记（五）：LMDeploy 量化部署 GoAI 深入浅出LLM 深入浅出AI 大模型 LLM 部署人工智能 LMDeploy
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI1；；爱好者学习，性价比非常高！加入星球➡️点击链接
30个python常用代码大全_30 个 Python 常用极简代码，拿走就用多行不易 30个python常用代码大全
原标题：30个Python常用极简代码，拿走就用文章转自：Python程序员学Python怎样才最快，当然是实战各种小项目，只有自己去想与写，才记得住规则。本文是30个极简任务，初学者可以尝试着自己实现；本文同样也是30段代码，Python开发者也可以看看是不是有没想到的用法。、1重复元素判定以下方法可以检查给定列表是不是存在重复元素，它会使用set函数来移除所有重复元素。defall_uniqu
基于Spark的实时计算服务的流程架构小小搬运工40 spark 大数据
基于Spark的实时计算服务的流程架构通常涉及多个组件和步骤，从数据采集到数据处理，再到结果输出和监控。以下是一个典型的基于Spark的实时计算服务的流程架构：1.数据源数据源是实时计算服务的起点，常见的数据源包括：消息队列：如Kafka、RabbitMQ、AmazonKinesis等。日志系统：如Flume、Logstash等。传感器数据：物联网设备产生的数据流。数据库变更数据捕获（CDC）：如
【DL】神经网络与机器学习基础知识介绍（一） MengWoods 深度学习机器学习神经网络人工智能
原博客：https://mengwoods.github.io/post/dl/009-dl-fundamental/文章目录基本通用概念梯度下降算法数据工程训练技术偏差与方差防止过拟合评估指标决策树基本通用概念机器学习的类型：监督学习（SupervisedLearning）：分类，回归无监督学习（UnsupervisedLearning）：聚类，降维强化学习（ReinforcementLearn
MYSQL学习笔记(六)：聚合函数、sql语句执行原理简要分析羊小猪~~ MYSQL mysql sql 数据库考研后端 c++java
前言：学习和使用数据库可以说是程序员必须具备能力，这里将更新关于MYSQL的使用讲解，大概应该会更新30篇+，涵盖入门、进阶、高级(一些原理分析);这一篇是内容较少，主要讲解：聚合函数和简要介绍sql语句执行过程；虽然MYSQL命令很多，但是自己去多敲一点，到后面忘记了，查一下就可以回忆起来使用了；这一系列也是本人学习MYSQL做的笔记，也是为了方便后面忘记查询；参考资料：尚硅谷、黑马、csdn和
国科大-算法中的最优化方法-林手板心里煎鱼吃算法性能优化 matlab
2024国科大-算法中的最优化方法-林刚考完，把复习资料也发出来，学弟学妹可以参考学习一下。总的来说不是很难，由于开卷转闭卷的原因，大部分都是原题，在ppt以及网上都能找到。考过内容汇总：A前面是几个填空题，主要考察凸函数，拟凸函数，单峰函数这些的图像判断，以及通过等高线图找到梯度方向（第一个ppt上的最后一页的那个图）。填空题主要就是考察这些基本概念。第二大题给了4个题目，让判断是属于哪种规划（
【DeepSeek】大模型强化学习训练GRPO算法，你学会了吗？ FF-Studio DeepSeek R1 算法
如果你还不知道GRPO，你可以先看这篇帖子：【DeepSeek】一文详解GRPO算法——为什么能减少大模型训练资源？看了论文跟没看一样？做两道题练练！曾经最痛恨的应试教育，却能让你深深记住这知识点。由ChatGPTo1pro生成，o1pro的输出token和写作能力比DeepSeekR1强。GRPO原论文链接：https://arxiv.org/abs/2402.03300GRPO中译文链接：ht
Maui学习笔记-依赖注入简单使用 Mr.L70517 Maui学习笔记学习笔记 ios c#
依赖注入（DI）是控制反转（IOC）模式的一种形式。DI的核心概念是类不会创建它们所依赖的对象，相反，DI框架集中解析对象并将其注入到依赖类中。通过DI可以轻松管理依赖项并实现松散耦合的体系结构。DI简单使用案例在这个案例中我们修改之前的模拟加载用户列表项目。首先我们创建一个DummyService的接口,然后实现该接口。创建构造函数注入该接口。publicpartialclassMyViewMo
学习笔记（Maui 02 Sqlite） sleevefisher 笔记 .net
Maui学习笔记（2）MVVM+IService架构下的数据服务（对应P3-P6）MVVM+IService架构下程序结构与功能Model：数据（Models文件夹）View：显示数据（Views文件夹）ViewModel：准备显示数据（ViewModels文件夹）IService:数据库服务操作（Services文件夹）1键值存储：偏好存储1.1键值存储的接口Services文件夹内创建接口IS
Maui学习笔记- SQLite简单使用案例02添加详情页 Mr.L70517 Maui学习笔记学习笔记 ios c#sqlite
我们继续上一个案例，实现一个可以修改当前用户信息功能。当用户点击某个信息时，跳转到信息详情页，然后可以点击编辑按钮导航到编辑页面。创建项目我们首先在ViewModels目录下创建UserDetailViewModel。实现从详情信息页面导航到编辑页面。这里要使用一个字典来传输对象。publicpartialclassUserDetailViewModel:ObservableObject,IQue
MySQL单表数据量大优化方案及注意事项编程爱好者9913 mysql优化
问题概述使用阿里云rdsforMySQL数据库（就是MySQL5.6版本），有个用户上网记录表6个月的数据量近2000万，保留最近一年的数据量达到4000万，查询速度极慢，日常卡死。严重影响业务。问题前提：老系统，当时设计系统的人大概是大学没毕业，表设计和sql语句写的不仅仅是垃圾，简直无法直视。原开发人员都已离职，到我来维护，这就是传说中的维护不了就跑路，然后我就是掉坑的那个！！！我尝试解决该问
GAMES104：02引擎架构分层-学习笔记我要吐泡泡了哦 games104 架构学习笔记游戏引擎图形渲染
文章目录一、游戏引擎分层架构0.游戏引擎分层简介1.资源层2.功能层3.核心层4.平台层5.工具层二、为什么分层架构总结一、游戏引擎分层架构0.游戏引擎分层简介用户层工具层（ToolLayer）：编辑器、工具界面功能层（FunctionLayer）：渲染Rendering、动画Animation、物理Physics、相机Camera和实现游戏性的脚本Script、状态机FSM、AI等功能模块资源层
python一个函数调用另一个函数里面的值_Python学习笔记（10）-函数之函数定义、调用、参数、返回值、嵌套... weixin_39631689
函数函数定义将实现某个独立功能的代码组合在一起，命一个名字，再需要使用这段代码时通过所命的名字来使用，就叫做函数使用函数的好处：1、将代码模块化（升级或修改某一个功能时只更新相应函数即可）2、方便代码重复使用（不需要多次重复编写代码只需多次调用即可）函数定义的格式：def函数名():代码块如定义一个打印名片函数：注意：1、函数名命名规则与变量命名规则一致，但一般不使用大驼峰命名方式2、定义函数只是
Kafka 消费端反复 Rebalance: `Attempt to heartbeat failed since group is rebalancing` 大秦王多鱼 Kafka修炼手册 kafka 分布式运维 apache
文章目录Kafka消费端反复Rebalance:`Attempttoheartbeatfailedsincegroupisrebalancing`1.Rebalance过程概述2.错误原因分析2.1消费者组频繁加入或退出2.1.1消费者故障导致频繁重启2.1.2.消费者加入和退出导致的Rebalance2.1.3消费者心跳超时导致的Rebalance2.1.4如何解决频繁触发Rebalance的问
python 命名实体识别_Python NLTK学习11（命名实体识别和关系抽取） weixin_39630762 python 命名实体识别
PythonNLTK学习11(命名实体识别和关系抽取)发表于:2017年7月27日阅读:18262除特别注明外，本站所有文章均为小杰Code原创本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。命名实体识别命名实体识别(NER)系统的目标是识别所有文字提及的命名实体。可以分解成两个子任务：确定NE的边界和确定其类型。命名实体识别非常适用于基于分类器类型的方法来处理的任务。NLTK有
MATLAB中的矩阵索引 yyytucj python 算法数据结构
利用矩阵的索引取出原矩阵的子集元素是一种有效的方式。MATLAB的多种索引不但类型强大、灵活，而且表达清晰易读。在理解电脑MATLAB编程方面。体会MATLAB以矩阵为导向思想的高效性，掌握索引便是一种最佳方式。索引也和MATLAB用户经常听到的另一个属于“矢量/向量”紧密相关。矢量化意味着使用MATLAB的语法结构替代循环这一语法，能够使程序运行得更快、更具有可读性。当今大多数向量化的技术，许多
YOLOv8改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR ConvNeXt V2 （附网络详解和完整配置步骤） Limiiiing YOLOv8改进专栏 YOLO 深度学习计算机视觉目标检测
一、本文介绍本文记录的是将ConvNeXtV2应用到YOLOv8中的改进方法研究。本文将ConvNeXtV2应用于YOLOv8，一方面利用全卷积掩码自动编码器在训练时优化特征学习，减少模型对大规模标注数据的依赖；另一方面，通过全局响应归一化层增强特征竞争，缓解特征坍塌问题，提高特征多样性。本文在YOLOv8的基础上配置了原论文中convnextv2_atto,convnextv2_femto,co
华为OD机试 - 田忌赛马 - 贪心思维（Python/JS/C/C++ 2024 E卷 200分）哪吒华为od python javascript
大家还是得多刷题，这个小伙伴，考的三道，全是原题，图库都有一、题目描述给定两个只包含数字的数组a、b，调整数组b里面数字的排列顺序，使得尽可能多的a[i]>b[i]。数组a和b中的数字各不相同。输出所有可以达到最优结果的a数组组数量二、输入描述输入的第一行是数组a中的数字，其中只包含数字，每两个数字之间相隔一个空格，a数组大小不超过10。输入的第一行是数组b中的数字，其中只包含数字，每两个数字之间
2020 更新 - 腾讯 Android 面试 (已拿到月薪22K offer) 2401_86372526 android 面试职场和发展
3.解决效果对比，这几个方面去描述。举个简单例子——UI优化，可以从UI出现什么问题(卡顿不流畅)，怎么查找问题(手机开发者权限>GPU过度绘制发现层级问题，TraceViewCPU使用情况分析)，怎么解决问题(降低层级、自定义View绘图出现问题等)，解决问题后性能再次对比。二、技能储备（一）架构师必备Java基础（二）设计思想解读开源框架（三）360°全方位性能优化（四）Android框架体系
QT6.5+qt-quick学习笔记 m0_63052064 学习
为什么用QMLQML是一种声明式语言，这意味着开发者只需要描述用户界面的外观和行为，而不需要关心具体的实现细节。这种方式减少了代码量，使得界面设计更加直观和高效。QML提供了丰富的UI组件和动画效果，开发者可以快速创建出现代化、用户友好的应用程序QML基于JavaScript并且与JavaScript的结合使得创建交互式和动画效果变得简单且高效。开发以Debug方式可以按步运行，调试；releas
网上FLAC3D学习笔记 lqlong19922008 FLAC数值模拟 primitive plot interface filter ini table
建议：初学者将FLAC/FLAC3D版所有帖子都浏览一遍；学有所得后，再浏览一遍，会发现又有新的收获。第一部分（相关链接）1.FLAC3D知识基本介绍SimWehttp://www.simwe.com/forum/viewthread.php?tid=209662http://www.simwe.com/forum/viewthread.php?tid=573644http://www.simwe
python在abaqus中的应用_Python在ABAQUS中的使用【z】 weixin_39835925
【篇首语】首先说，我不懂abaqus。只是一次帮同学处理混合编程问题查到这些资料，借机贴过来。拷贝过程中有些混乱字符，时间关系我没有删干净。因为我也是从转帖转过来，原出处找不到了。#开头的为注释行.9_-m2r;n%h-G第一节,建立建模环境,这一步中py将从abaqus中导入建模所需的所有程序模块frompartimport*接下来定义草图环境mdb.models['Model-1'].Sket
Linux安全体系学习笔记之二：OpenSSL源代码分析(1) Aegeaner 安全 Linux安全体系学习笔记代码分析 linux ssl session callback extension
OpenSSL的源代码包括三部分：加密算法库、SSL库和应用程序。加密算法库的源代码主要在crypto文件夹里，包括ASN.1编码与解码接口（crypto/asn1/asn1.h），伪随机数产生器（crypto/rand/rand.h），ENGINE机制（crypto/engine），统一密码算法的EVP密码算法接口（crypto/evp/evp.h），大数运算接口（crypto/bn/bn.h）
2025（第十五届）中国互联网产业年会/AI重新定义互联网东锋1.3 互联网人工智能
近日，2025（第十五届）中国互联网产业年会在北京举办，中国工程院院士、中国工程院原副院长邬贺铨在会上作了题为《以AI重新定义互联网》的主旨报告。邬贺铨院士表示，互联网在过去几十年经历了巨大变革。展望未来，互联网将继续在数字化、智能化方向上深入发展，推动更广泛的社会变革。未来十年，我们将进入“数智（新质）互联网”阶段，其核心特征是基础协议采用IPv6+，人机接口将以自然语言为主，不再依赖于点击AP
选择省市区蜕变菜鸟前端 java javascript
原博：结合官方picker开发的省城市区县选择器-DCloud插件市场import{area}from'@/utils/area.js'{{selected}}-->selected:'',range:[[''],[''],['']],provinceCodes:[],cityCodes:[],value:[0,0,0],district:'',city:'',province:''methods
uni-app 实现自定义底部导航蜕变菜鸟 uni-app
原博：https://juejin.cn/post/7365533404790341651在开发微信小程序，通常会使用uniapp自带的tabBar实现底部图标和导航，但现实有少量应用使用uniapp自带的tabBar无法满足需求，这时需要自定义底部tabBar功能。例如下图的需求，在中间添加一个加号，例如根据不同登录的角色显示不同的tabBar按钮等，这些功能在无法通过uniapp自带的tabB
uniapp中＜map＞地图怎么实现点位聚合？ GoppViper 前端 uni-app uniapp 前端前端框架地图聚合
推荐学习文档golang应用级os框架，欢迎stargolang应用级os框架使用案例，欢迎star案例：基于golang开发的一款超有个性的旅游计划app经历golang实战大纲golang优秀开发常用开源库汇总想学习更多golang知识，这里有免费的golang学习笔记专栏想学习更多前端知识，这里有免费的前端专栏确定聚合条件定义聚合的距离阈值：根据你的需求确定一个合适的距离阈值，当两个标记点之
第三章：实时流数据处理与分析深度学习客大数据技术进阶 linq c#数据分析
目录3.1流处理框架深入解析与实战Flink与KafkaStreams的性能对比：事件驱动架构的代码实现1.ApacheFlink：流处理的“性能怪兽”2.KafkaStreams：轻量级、低延迟的流式处理框架实时异常检测与报警系统：结合FlinkCEP（ComplexEventProcessing）进行实现3.2低延迟流处理优化数据流式计算中的状态管理与容错机制：FlinkCheckpointi
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi