Congqing He

十分钟读懂Beam Search(1/2)

最近研究了一下用基于BERT的encoder-decoder结构做文本生成任务，碰巧管老师昨天的文章也介绍了以生成任务见长的GPT模型，于是决定用两篇文章大家介绍一下在文本生成任务中常用的解码策略Beam Search（集束搜索）。

解码及贪心搜索

生成式任务相比普通的分类、tagging等NLP任务会复杂不少。在生成的时候，模型的输出是一个时间步一个时间步依次获得的，而且前面时间步的结果还会影响后面时间步的结果。也就是说，每一个时间步，模型给出的都是基于历史生成结果的条件概率。为了生成完整的句子，需要一个称为解码的额外动作来融合模型多个时间步的输出，而且使得最终得到的序列的每一步条件概率连乘起来最大。

在文本生成任务中，每一个时间步可能的输出种类称为字典大小(vocabulary size，我们用表示)，进行T步随机的生成可能获得的结果总共有种。拿中文文本生成来说，的值大约是5000-6000，即常用汉字的个数。在如此大的基数下，遍历整个生成空间是不现实的。

最容易想到的策略是贪心搜索，即每一个时间步都取出一个条件概率最大的输出，再将从开始到当前步的结果作为输入去获得下一个时间步的输出，直到模型给出生成结束的标志。例如下图，每一个时间步都取出了条件概率最大一个结果，生成了序列[A,B,C]。

贪心搜索示意图

很明显，这样做将原来指数级别的求解空间直接压缩到了与长度线性相关的大小。由于丢弃了绝大多数的可能解，这种关注当下的策略无法保证最终得到的序列概率是最优的。

Beam Search

而beam search是对贪心策略一个改进。思路也很简单，就是稍微放宽一些考察的范围。在每一个时间步，不再只保留当前分数最高的1个输出，而是保留num_beams个。当num_beams=1时集束搜索就退化成了贪心搜索。

下图是一个实际的例子，每个时间步有ABCDE共5种可能的输出，即，图中的num_beams=2，也就是说每个时间步都会保留到当前步为止条件概率最优的2个序列。

beam search示意图

在第一个时间步，A和C是最优的两个，因此得到了两个结果[A],[C]，其他三个就被抛弃了；
第二步会基于这两个结果继续进行生成，在A这个分支可以得到5个候选人，[AA],[AB],[AC],[AD],[AE]，C也同理得到5个，此时会对这10个进行统一排名，再保留最优的两个，即图中的[AB]和[CE]；
第三步同理，也会从新的10个候选人里再保留最好的两个，最后得到了[ABD],[CED]两个结果。

可以发现，beam search在每一步需要考察的候选人数量是贪心搜索的num_beams倍，因此是一种牺牲时间换性能的方法。

以上就是Beam Search的基本概念，下面我们解析一种高效率实现方式。

Beam Search代码解析

Beam Search的原理虽然简单，但实际实现的时候却有很多细节要考虑。下面要解析这个实现出自于NLP界著名Python包Transformers^[1]，我为了说明方便做了一些改动。

一个正确且高效的算法需要处理的问题大概有两个：

充分利用硬件，可以处理批量数据，且尽量使用并行计算少用循环
处理好长短不同的生成结果

下面是基础版的beam search函数定义。其中context是编码器编码获得的向量，batch_size是每批数据中包含的样本量，bos_token_id是句子开头标志的token id，pad_token_id是用于填充的token id，eos_token_id是句子结束标志的token id。这里给参数填上的默认值和我们后面讲解时使用的例子是一致的。

def beam_search_generate(context,
                        batch_size=3,
                        max_length=20,
                        min_length=2,
                        num_beams=2,
                        bos_token_id=101,
                        pad_token_id=0,
                        eos_token_id=102,
                        ):
    pass

在函数中主要执行以下三个步骤：

准备初始输入
在当前生成的序列长度未达到max_length时扩展生成序列
准备最终输出的序列

下面我们分别解析。

准备初始输入

# 建立beam容器，每个样本一个
generated_hyps = [
    BeamHypotheses(num_beams, max_length, length_penalty, early_stopping=early_stopping)
    for _ in range(batch_size)
]

# 每个beam容器的得分，共batch_size*num_beams个
beam_scores = torch.zeros((batch_size, num_beams), dtype=torch.float, device=encoder_input_ids.device)
beam_scores = beam_scores.view(-1)

# 每个样本是否完成生成，共batch_size个
done = [False for _ in range(batch_size)]

# 为了并行计算，一次生成batch_size*num_beams个序列
# 第一步自动填入bos_token
input_ids = torch.full(
    (batch_size*num_beams, 1),
    bos_token_id,
    dtype=torch.long,
    device=next(self.parameters()).device,
)

# 当前长度设为1
cur_len = 1

其中BeamHypotheses是一个容器类，每个样本绑定一个。每个容器中会维护num_beams个当前最优的序列。当往容器中添加一个序列而导致序列数大于num_beams的时候，它会自动踢掉分数最低的那个序列。类代码如下。

class BeamHypotheses(object):
    def __init__(self, num_beams, max_length, length_penalty):
        self.max_length = max_length - 1   # ignoring bos_token
        self.num_beams = num_beams
        self.beams = []
        self.worst_score = 1e9

    def __len__(self):
        return len(self.beams)

    def add(self, hyp, sum_logprobs):
        score = sum_logprobs / len(hyp) ** self.length_penalty
        if len(self) < self.num_beams or score > self.worst_score:
            # 可更新的情况：数量未饱和或超过最差得分
            self.beams.append((score, hyp))
            if len(self) > self.num_beams:
                # 数量饱和需要删掉一个最差的
                sorted_scores = sorted([(s, idx) for idx, (s, _) in enumerate(self.beams)])
                del self.beams[sorted_scores[0][1]]
                self.worst_score = sorted_scores[1][0]
            else:
                self.worst_score = min(score, self.worst_score)

    def is_done(self, best_sum_logprobs, cur_len=None):
        """
        相关样本是否已经完成生成。
        best_sum_logprobs是新的候选序列中的最高得分。
        """

        if len(self) < self.num_beams:
            return False
        else:
            if cur_len is None:
                cur_len = self.max_length
            cur_score = best_sum_logprobs / cur_len ** self.length_penalty
            # 是否最高分比当前保存的最低分还差
            ret = self.worst_score >= cur_score
            return ret

序列扩展

序列扩展是beam search的核心过程，我们特地画了一张图来解释这个版本的实现策略。

序列扩展示意图

下面对照这个图来讲解代码。

while cur_len < max_length:
    # 将编码器得到的上下文向量和当前结果输入解码器，即图中1
    output = decoder.decode_next_step(context, input_ids)
    # 输出矩阵维度为：(batch*num_beams)*cur_len*vocab_size
    
    # 取出最后一个时间步的各token概率，即当前条件概率
    # (batch*num_beams)*vocab_size
    scores = next_token_logits = output[:, -1, :]

    ###########################
    # 这里可以做一大堆操作减少重复 #
    ###########################

    # 计算序列条件概率的，因为取了log，所以直接相加即可。得到图中2矩阵
    # (batch_size * num_beams, vocab_size)
    next_scores = scores + beam_scores[:, None].expand_as(scores)

    # 为了提速，将结果重排成图中3的形状
    next_scores = next_scores.view(
            batch_size, num_beams * vocab_size
        )  # (batch_size, num_beams * vocab_size)

    # 取出分数最高的token（图中黑点）和其对应得分
    # sorted=True，保证返回序列是有序的
    next_scores, next_tokens = torch.topk(next_scores, 2 * num_beams, dim=1, largest=True, sorted=True)

    # 下一个时间步整个batch的beam列表
    # 列表中的每一个元素都是三元组
    # (分数, token_id, beam_id)
    next_batch_beam = []

    # 对每一个样本进行扩展
    for batch_idx in range(batch_size):

        # 检查样本是否已经生成结束
        if done[batch_idx]:
            # 对于已经结束的句子，待添加的是pad token
            next_batch_beam.extend([(0, pad_token_id, 0)] * num_beams)  # pad the batch
            continue

        # 当前样本下一个时间步的beam列表
        next_sent_beam = []

        # 对于还未结束的样本需要找到分数最高的num_beams个扩展
        # 注意，next_scores和next_tokens是对应的
        # 而且已经按照next_scores排好顺序
        for beam_token_rank, (beam_token_id, beam_token_score) in enumerate(
            zip(next_tokens[batch_idx], next_scores[batch_idx])
        ):
            # get beam and word IDs
            # 这两行可参考图中3进行理解
            beam_id = beam_token_id // vocab_size
            token_id = beam_token_id % vocab_size

            effective_beam_id = batch_idx * num_beams + beam_id

            # 如果出现了EOS token说明已经生成了完整句子
            if (eos_token_id is not None) and (token_id.item() == eos_token_id):
                # if beam_token does not belong to top num_beams tokens, it should not be added
                is_beam_token_worse_than_top_num_beams = beam_token_rank >= num_beams
                if is_beam_token_worse_than_top_num_beams:
                    continue
                # 往容器中添加这个序列
                generated_hyps[batch_idx].add(
                    input_ids[effective_beam_id].clone(), beam_token_score.item(),
                )
            else:
                # add next predicted word if it is not eos_token
                next_sent_beam.append((beam_token_score, token_id, effective_beam_id))

            # 扩展num_beams个就够了
            if len(next_sent_beam) == num_beams:
                break

        # 检查这个样本是否已经生成完了，有两种情况
        # 1. 已经记录过该样本结束
        # 2. 新的结果没有使结果改善
        done[batch_idx] = done[batch_idx] or generated_hyps[batch_idx].is_done(
            next_scores[batch_idx].max().item(), cur_len=cur_len
        )

        # 把当前样本的结果添加到batch结果的后面
        next_batch_beam.extend(next_sent_beam)

    # 如果全部样本都已经生成结束便可以直接退出了
    if all(done):
        break
    
    # 把三元组列表再还原成三个独立列表
    beam_scores = beam_scores.new([x[0] for x in next_batch_beam])
    beam_tokens = input_ids.new([x[1] for x in next_batch_beam])
    beam_idx = input_ids.new([x[2] for x in next_batch_beam])

    # 准备下一时刻的解码器输入
    # 取出实际被扩展的beam
    input_ids = input_ids[beam_idx, :]
    # 在这些beam后面接上新生成的token
    input_ids = torch.cat([input_ids, beam_tokens.unsqueeze(1)], dim=-1)

    # 更新当前长度
    cur_len = cur_len + 1
    # end of length while

乍一看是不是有些复杂，我感觉关键的有以下几点：

只有出现了EOS token才会将生成的序列装进该样本对应的容器中
当前input_ids保存着当前得分最高的num_beams个序列

准备输出

上面那个while循环跳出意味着已经生成了长度为max_length的文本，比较理想的情况是所有的句子都已经生成出了eos_token_id，即句子生成结束了。但并不是所有情况都这样，对于那些”意犹未尽“的样本，我们需要先手动结束。

# 将未结束的生成结果结束，并置入容器中
for batch_idx in range(batch_size):
    # 已经结束的样本不需处理
    if done[batch_idx]:
        continue

    # 把结果加入到generated_hyps容器
    for beam_id in range(num_beams):
        effective_beam_id = batch_idx * num_beams + beam_id
        final_score = beam_scores[effective_beam_id].item()
        final_tokens = input_ids[effective_beam_id]
        generated_hyps[batch_idx].add(final_tokens, final_score)

经过上面的处理，所有生成好的句子都已经保存在generated_hyps容器中，每个容器内保存着num_beams个序列，最后就是输出期望个数的句子。

# select the best hypotheses，最终输出
# 每个样本返回几个句子
output_num_return_sequences_per_batch = 1
# 记录每个返回句子的长度，用于后面pad
sent_lengths = input_ids.new(output_batch_size)
best = []

# 对每个样本取出最好的output_num_return_sequences_per_batch个句子
for i, hypotheses in enumerate(generated_hyps):
    sorted_hyps = sorted(hypotheses.beams, key=lambda x: x[0])
    for j in range(output_num_return_sequences_per_batch):
        effective_batch_idx = output_num_return_sequences_per_batch * i + j
        best_hyp = sorted_hyps.pop()[1]
        sent_lengths[effective_batch_idx] = len(best_hyp)
        best.append(best_hyp)

# 如果长短不一则pad句子，使得最后返回结果的长度一样
if sent_lengths.min().item() != sent_lengths.max().item():
    sent_max_len = min(sent_lengths.max().item() + 1, max_length)
    # 先把输出矩阵填满PAD token
    decoded = input_ids.new(output_batch_size, sent_max_len).fill_(pad_token_id)

    # 填入真正的内容
    for i, hypo in enumerate(best):
        decoded[i, : sent_lengths[i]] = hypo
        # 填上eos token
        if sent_lengths[i] < max_length:
            decoded[i, sent_lengths[i]] = eos_token_id
else:
    # 所有生成序列都还没结束，直接堆叠即可
    decoded = torch.stack(best).type(torch.long).to(next(self.parameters()).device)

# 返回的结果包含BOS token
return decoded

总结

好了，上面就是最基础的beam search算法。这样生成出来的结果已经会比贪心搜索好一些，但还是会遇到诸如词语重复这样的问题。其实已经有很多针对重复问题的研究，我们在代码中也已经留出了位置，下期再见咯。

参考资料

[1]

Transformers: https://github.com/huggingface/transformers

个人微信：加时请注明 (昵称+公司/学校+方向)

【如何利用Python抢演唱会门票】python利用selenium实现大麦网抢票 Python小炮车 python selenium 数据库
一、selenium原理介绍Selenium是一个用于Web[应用程序](https://link.juejin.cn/?target=https%3A%2F%2Fbaike.baidu.com%2Fitem%2F%25E5%25BA%2594%25E7%2594%25A8%25E7%25A8%258B%25E5%25BA%258F%2F5985445%3FfromModule%3Dlemma_i
Java 数组排序赔罪 Java 系统学习 java 排序算法算法 java-ee 数组排序
目录1.Java冒泡排序（BubbleSort）1.冒泡排序2.冒泡排序的算法原理3.冒泡排序的复杂度和性能4.形成代码2.Java快速排序（QuickSort）3.Java归并排序（MergeSort）4.Java选择排序（SelectionSort）5.Java直接插入排序6.Java希尔排序（ShellSort）1.Java冒泡排序（BubbleSort）1.冒泡排序冒泡排序（BubbleS
OpenSPG docker 安装教程 @comefly NLP docker openspg 知识图谱 llm
文章目录前言自述一、OpenSPG1.介绍二、安装步骤1.安装服务端2.客户端部署前言自述我最近是想结合chatglm3-6b和知识图谱做一个垂直领域的技术规范的问答系统，过程中也遇到了很多困难，在模型微调上，在数据集收集整理上，在知识图谱的信息抽取上等等，咬咬牙，多学习就可以解决，本文主要写一下利用openspg做技术规范的信息抽取的部署安装过程。一、OpenSPG1.介绍OpenSPG是蚂蚁集
使用Node.js+Express框架，创建一个独立的服务器端项目海绵宝宝人间体 node.js express
使用Node.js+Express框架，创建一个独立的服务器端项目1、安装Node.js环境node.js中文网官网：Node.js中文网安装完成后，在命令行中输入node-v和npm-v来检查Node.js和npm（NodePackageManager）是否安装成功。2、初始化项目创建一个新的文件夹作为你的项目文件夹。在命令行中进入该文件夹，并运行npminit-y来初始化项目并生成packag
麒麟操作系统基础知识保姆级教程（八）压缩解压缩和文件权限小屁不止是运维基础知识服务器网络 linux 运维学习 ubuntu
如果你想拥有你从未拥有过的东西，那么你必须去做你从未做过的事情一、打包压缩和解压缩麒麟操作系统常用的打包和压缩的命令有两种：tar和zip1、tar打包压缩打包：tar最初主要用于将多个文件和目录打包成一个文件，方便文件的存储和传输。它不会对文件内容进行压缩，只是简单地将它们整合在一起。压缩：tar可以与其他压缩工具（如gzip、bzip2等）结合使用，实现打包和压缩的功能。这样可以有效地减小文件
麒麟操作系统搭建本地yum源（_x86架构麒麟v10sp3）小屁不止是运维系统安装架构 linux 运维
文章开始先附上自己最喜欢的一段话如果你想拥有你从未拥有过的东西，那么你必须去做你从未做过的事情有些公司的工作环境是内网环境，无法链接互联网，那么这个时候就需要一套本地的yum源来下载一些服务一、准备好自己的操作系统对应的镜像根据自己服务器的操作系统类型准备好对应版本的镜像，我的操作系统是_x86架构的麒麟v10sp3的操作系统。可以去官网下载你的镜像下载地址为：https://www.kylino
麒麟操作系统基础知识保姆级教程（五）系统优化小屁不止是运维基础知识架构 linux 运维服务器
如果你想拥有你从未拥有过的东西，那么你必须去做你从未做过的事情1、查看系统版本两种方法1、使用命令查看[root@localhost~]#hostnamectl Statichostname:localhost.localdomain Iconname:computer-vm Chassis:vm MachineID:372f0bb3bfcd4bd09688fd725b9a085
网络编程——UDP套接字 Sirudoi 网络网络 udp 服务器
一、前缀知识端口号：用来标识在一台机器上的唯一进程。IP地址：用来标识在网络上的唯一主机。因此通过IP+端口号的方式，就可以在互联网上唯一标识一个进程，套接字就是通过这种方式，唯一地标识在互联网之间通信的一对进程，网络套接字的本质其实就是进程间的通信。套接字是在传输层的接口，可以让我们选择通信的协议是UDP，还是TCP。1.1端口号&进程PID这里区分一下端口号和进程的PID，看到这里你也许会问：
基于SIFT特征提取和模板匹配的车标识别算法MATLAB仿真（含MATLAB代码）爱学习的通信人图像处理毕业设计信号处理算法 matlab 开发语言
摘要本文介绍了一种基于尺度不变特征变换（SIFT）特征提取和模板匹配的车标识别方法，并通过MATLAB进行仿真。该方法利用SIFT特征的尺度和旋转不变性，提高车标识别的准确性和鲁棒性，适用于各种尺寸和方向的车标图像。仿真结果展示了该方法在实际应用中的有效性。关键词：车标识别，SIFT特征提取，模板匹配，MATLAB仿真1.引言车标识别在车辆检测、智能交通系统和安全监控中具有重要应用。准确识别车辆品
MySQL数据库漫谈实战课程 MySQL数据库极速实战视频教程 MySQL初阶DBA试炼教程 weixin_52291433 数据库 mysql java sql python
MySQL数据库漫谈实战课程MySQL数据库极速实战视频教程MySQL初阶DBA试炼教程===============课程目录===============├─01-Mysql-数据库简介.mp4├─02-Mysql-RDBMS专业术语.mp4├─03-Mysql-安装.mp4├─04-Mysql-基本命令及连接Navicat.mp4├─05-Mysql-字符集介绍.mp4├─06-Mysql-存
为什么要用const来修饰指针，以及const的主要作用是什么不二周！ C c语言
1、通过地址传递（指针作为形参）能够节省内存空间，因为值传递会重新拷贝一份数据过来，而地址传递就指针一个2、用const修饰函数的形参，是为了防止误操作，修改了变量的值3、实际上也不是不可以改，再用一个指针指向这个地址就可以了，但是为了防止误操作加了const，到头来还要前方百计的想要修改变量的值，这样做就没有意义了
java3d酷眩贪吃蛇下载,100行JS实现HTML5的3D贪吃蛇游戏 weixin_39983554 java3d酷眩贪吃蛇下载
js1k.com收集了小于1k的javascript小例子，里面有很多很炫很酷的游戏和特效，今年规则又增加了新花样，传统的classic类型基础上又增加了WebGL类型，以及允许增加到2K的++类型，多次想尝试提交个小游戏但总无法写出让自己满意还能控制在这么小的字节范围。自己写不出来，站在巨人肩膀总是有机会吧，折腾了一番站在Hightopo的肩膀上搞了个3D贪吃蛇游戏，算了算JS代码还只有90来行
html5贪吃蛇特点,简易html5贪吃蛇雪小梨 html5贪吃蛇特点
1.[图片]E6~0%QPA46ER843UQJ$0Z`H.jpg2.[文件]snake.htmlThesnakegamefunctionlog(msg){console.log(msg);}Yourbrowsercannotsupporthtml5.this.onkeydown=function(e){varcode=e.keyCode;if(code==37)changeMove(3);if(
docker的staut一直是exit1_Docker随笔记—docker run执行后，容器的状态是Exited的一些困惑... 长颈鹿很忙
问题：运行dockerrun-itd-p5000:5000localregistryregistry:2.5/bin/bash命令后，发现容器并没有跑起来，而是变成了Exit状态。如果将末尾的/bin/bash去掉，容器就能正常的start了解决：翻看不少docker资料，到目前位置，对导致此问题的出现算是有了一个比较清晰的认识。1.容器的生命周期。要把docer容器看做是一个单独的进程。它不是一
Python 实现七大排序算法 weixin_30527323 python shell 数据结构与算法
技术博客：github.com/yongxinz/te…本文用Python实现了插入排序、希尔排序、冒泡排序、快速排序、直接选择排序、堆排序、归并排序。先整体看一下各个算法之间的对比，然后再进行详细介绍：排序算法平均时间复杂度最好情况最坏情况空间复杂度排序方式稳定性插入排序O(n²)O(n)O(n²)O(1)In-place稳定冒泡排序O(n²)O(n)O(n²)O(1)In-place稳定选择排
ReactNative0.75版本发布，一文快速了解 wayne214 ReactNative react native
ReactNative0.75版本的更新包含了多个方面的内容，以下是一些详细信息：亮点Yoga3.1和布局改进：支持%值在布局中的应用，如gap、translation等属性，但仅适用于新架构。新架构稳定化：修复了一些Bug，提高了稳定性，并在ReactNativeDirectory中添加了新架构支持信息，还发布了关于支持新架构中UIManager的文章。使用框架：推荐通过框架（如Expo）构建R
【数据结构-堆】【hard】力扣23. 合并 K 个升序链表 hlc@ 数据结构精选数据结构 leetcode 链表
给你一个链表数组，每个链表都已经按升序排列。请你将所有链表合并到一个升序链表中，返回合并后的链表。示例1：输入：lists=[[1,4,5],[1,3,4],[2,6]]输出：[1,1,2,3,4,4,5,6]解释：链表数组如下：[1->4->5,1->3->4,2->6]将它们合并到一个有序链表中得到。1->1->2->3->4->4->5->6示例2：输入：lists=[]输出：[]示例3：输
Java数据结构__Arraylist与顺序表(1) suger__salt Java基础知识 java 数据结构算法
目录1.线性表2.顺序表3.ArrayList介绍ArrayList构造4.ArrayList使用1.常见操作2.ArratList的遍历3.ArrayList的扩容机制1.线性表线性表是一种数据结构，它由n（n≥0）个数据元素组成，数据元素类型相同，且呈现一对一的线性关系。常见的线性表有:顺序表,链表,栈,队列…2.顺序表顺序表是用一段地址连续的存储单元一次存储数据元素的线性结构,一般情况下采用
C++11特性简述因特麦克斯 c++开发语言
Lambda表达式捕获列表+参数列表（没有参数可以省略）+返回值+函数体类成员函数中定义lambda表达式可以捕获this指针，但是没有捕获函数参数的时候捕获this也不能访问函数参数自动推导返回值：必须是唯一形式的返回值类型才能推导出来，也就是不能出现二义性，比如返回列表时，由于数组和链表都可以以列表的形式返回，所以无法自动推导出返回值类型，这时就需要自己手动声明一下返回值类型"->返回值类型"
后端方向初阶入门——MySQL 小羊一定要努力变强 mysql 数据库
各位帅哥美女，编辑不易，动动发财小手，来个三连加关注，后续会有更加优秀的推文推出~Mysql：用的最多的数据库，项目都用此数据库(Oracle：大型数据库，用的不多，因为收费，大公司难免会遇到。目录1.MySQL简介2.MySQL安装与配置2.1下载与安装2.2配置与启动3.数据库基础操作3.1创建数据库3.2选择数据库3.3创建表3.4插入数据3.5查询数据3.6更新数据3.7删除数据3.8.添
《leetcode-runner》【图解】【源码】如何手搓一个debug调试器——架构飞哥不鸽 leetcode-runner debug 调试器编写架构图分析
前文：《leetcode-runner》如何手搓一个debug调试器——引言文章目录设计引入为什么这么设计存在难点1.环境准备2.调试程序仓库地址：leetcode-runner本文主要聚焦leetcode-runner对于debug功能的整体设计，并讲述设计原因以及存在的难点设计引入让我们来思考一下，一个最简单的调试器需要哪些内容首先，它能够接受用户的输入其次，它能够读懂用户想让调试器干嘛，并做
PCL 点云随机渲染颜色 MelaCandy PCL点云算法与实战案例 3d 算法计算机视觉人工智能 c++
目录一、概述1.1原理1.2实现步骤1.3应用场景二、代码实现2.1关键函数2.2完整代码三、实现效果PCL点云算法汇总及实战案例汇总的目录地址链接：PCL点云算法与项目实战案例汇总（长期更新）一、概述本文将介绍如何使用PCL库为点云中的每个点随机渲染颜色，并在PCL的可视化窗口中显示。这种方法适用于需要对点云中的不同点进行颜色区分的场景，可以帮助更直观地观察和分析点云数据。1.1原理在点云处理中
pcl系列-添加自定义点云类型不会算法的阿召 c++自动驾驶计算机视觉 3d
pcl库中附带了各种预定义的点类型，这些数据类型足以支持在pcl中所实现的所有算法和方法，但是在某些情况下，在使用pcl点类型时希望定义新的点类型，比如在LIO-SAM中定义的PointXYZIRPYT（包括点云基本的坐标(x,y,z)和强度I，以及三个旋转角RPY和时间T）。因此，pcl提供了创建自定义点云类型的方法。1.pcl常用点云类型pcl中定义了大量的常用点类型，在定义自己的点类型之前，
Python数据分析高频面试题及答案闲人编程程序员面试 python 数据分析面试题核心
目录1.基础知识2.数据处理3.数据可视化4.机器学习模型5.进阶问题6.数据清洗与预处理7.数据转换与操作8.时间序列分析9.高级数据分析技术10.数据降维与特征选择11.模型评估与优化12.数据操作与转换13.数据筛选与分析14.数据可视化与报告15.数据统计与分析16.高级数据处理以下是一些Python数据分析的高频核心面试题及其答案，涵盖了基础知识、数据1.基础知识问1：Python中列表
SpringBoot整合Logback日志框架洛上言后端 spring boot 后端 java
文章目录一、引入二、默认日志格式三、控制台输出四、文件输出五、日志级别六、日志组七、自定义日志格式八、自定义log配置九、logback-spring.xml自定义注意事项一、引入SpringBoot使用CommonsLogging进行所有内部日志的记录，但默认配置也提供了对常用日志的支持，如JavaUtilLogging，Log4J2，和Logback.每种logger都可以通过配置使用控制台或
《电子制作从零开始》第1章：电子制作入门请向我看齐电子电路电子电路
第1章：电子制作入门1.1走进电子制作的世界电子制作的魅力与应用领域创造力的体现：电子制作就像是一场科技与创意的结合。通过自己的双手，将各种电子元件巧妙地组合在一起，创造出具有各种功能的电子设备，从简单的闪烁灯到复杂的智能机器人，这个过程能够充分发挥个人的创造力。技术探索的乐趣：在制作过程中，可以深入了解电子技术的原理。例如，通过制作一个小型的音频放大器，能直观地理解信号放大的过程，以及电容、电阻
PCL 生成空间圆点云【2025最新版】点云侠 PCL学习算法 c++3d 计算机视觉开发语言
目录一、算法原理二、代码实现三、结果展示本文由CSDN点云侠原创，原文链接。博客长期更新，最近一次更新时间为：2025年1月17日。代码在PCL1.14.1中测试通过。一、算法原理三维空间圆形式如下：三维空间圆的参数方程：{
Open3D 手动裁剪点云【2025最新版】点云侠 python点云处理几何学 python 3d 计算机视觉算法
目录一、概述1、主要函数2、基础操作二、代码实现三、结果展示四、相关链接博客长期更新，本文最近更新时间为：2025年1月18日。一、概述 Open3d中的VisualizerWithEditing类提供了图形用户交互功能。draw_geometries_with_editing([pcd])函数提供了顶点选择和裁剪功能。1、主要函数defdraw_geometries_with_editing(
PCL 点云按曲率大小渲染颜色【2025最新版】点云侠 PCL学习可视化计算机视觉开发语言 3d c++
目录一、表面曲率二、代码实现三、结果展示博客长期更新，本文最近更新时间为：2025年1月6日。一、表面曲率本案例中，所使用的曲率是指根据点云的特征值计算出来的表面曲率。定义如下：任意一点PPP点的特征值满足
C++设计模式---迭代器模式 xinruoqianqiu 设计模式设计模式迭代器模式
1、介绍迭代器模式是⼀种行为型设计模式，是⼀种使⽤频率⾮常⾼的设计模式，在各个语⾔中都有应用，其主要⽬的是提供⼀种统⼀的⽅式来访问⼀个聚合对象中的各个元素，而不需要暴露该对象的内部表示。通过迭代器，客户端可以顺序访问聚合对象的元素，而无需了解底层数据结构。迭代器模式应⽤⼴泛，但是⼤多数语⾔都已经内置了迭代器接⼝，不需要⾃⼰实现。包含一下几个部分：（1）迭代器接口Iterator：定义访问和遍历元素
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h