深度学习算法与自然语言处理

小白学大模型LLMs：文本分词方法

本文介绍了各种类型的分词（tokenization），用于将单词拆分为一个或多个标记（token），因为单词和分词之间存在一对多的关系。

什么是预分词（Pre-tokenization）

预分词是在处理基于文本的语料库时需要执行的几项任务中的第一项，这些任务通常包括以下的某个子集：

预分词
分词任务
基于单词的分词
基于字符的分词
子词分词

在我们深入研究预分词之前，我们将讨论一些基础知识：单词的定义。

什么是单词？

一个单词本质上是一系列表示可以是具体物体也可以是抽象概念的符号（这是您一直以来对于单词的认知）。只包含字母字符的单词在不同的分词器中通常被一致地视为一个单词。然而，分词器可能会以不同的方式处理英语中的缩写，特别是那些在空格上进行分词的情况。

举例来说，单词“I’ve”是“I”和“have”的缩写，在那些以空格为标志进行分词的分词器中被视为一个单词，而在使用空格和标点符号进行分词的分词器中，则将“I’ve”视为两个单词。

以下是执行在标记（tokens）、字符和单词之间进行映射操作的四种方法：

word_to_chars()
token_to_chars()
char_to_word()
char_to_token()

Pre-tokenization与Tokenization

Hugging Face文档区分了预分词和分词，而许多在线文章只使用“分词”这个术语。预分词可以以各种方式实现，可以单独使用，也可以组合使用，这里介绍了三种技术：

空格分词（如RoBERTa和GPT-2）
空格和标点分词
基于规则的分词（如FlauBERT和XLM）

在预分词中将空格作为单词分隔符（或空格和标点符号），与对英语和大多数欧洲语言进行的“常规”分词相一致。 然而，一些欧洲语言（如法语和德语）使用重音符号，删除它们可能会改变一个单词的含义，这将在后面的部分中讨论。

未区分大小写的LLM是一个所有单词都是小写且所有重音符号已删除的LLM。重音符号出现在一些印欧语言中，例如法语、西班牙语、德语和斯堪的纳维亚语言，但在英语中并不存在。然而，区分大小写的LLM保留大写字母和重音符号（如果有的话）。

英语可能是预分词最容易的语言，因为具有以下特征：

没有重音符号
所有单词之间用空格分隔
没有冠词或形容词的屈折（相对于德语/斯拉夫语言）
每个单词在每个语法格（例如主格和宾格）中都有一个形式

此外，英语中的撇号可以表示所有权或涉及动词的缩写（可能是不规则的），如下所示：

Yes it’s certainly true.
I think that that’s its true nature.
Yes, it’s true that its price is high.
John’s car is a convertible, it’s new, and its top is red. Dave’s buying a new car.
Sara won’t eat shrimp.
Sara isn’t finished yet.

请注意，单词“its”表示所有权，即使它不包含撇号，这是关于所有权的唯一的例外。

在英语对话中，英语还可以将名词视为动词。当上下文清晰时，人们即使在第一次听到这样的构造时也能理解它们的含义，如下例所示：

“I need to book for an hour and then I can meet up you.”

上述句子中的单词“book”是一个名词，用作动词“study”的替代。在标准英语中，不定式形式的动词由前置于动词之前的介词“to”触发。然而，上述句子是非标准英语，因为它包含“to book”，但人们可以轻松推断出预期的含义。

什么是分词（Tokenization）？

简化来说，分词涉及将语料库的文本分割成可以映射到数字（例如word2vec）的单词，以便通过神经网络处理这些单词的数值对应物。

分词器执行不同类型的分词，其特性取决于用于实例化分词器的NLP模型。基于BERT的分词器保留了单词偏移的索引。此外，预分词在空格和标点上进行。然而，基于GPT2的分词器在空格和标点上进行分词，并用一个Ġ符号替换空格，可以通过该符号恢复文本字符串中的原始空格。该分词器与BERT分词器不同，因为它识别双空格。

另一种类型的分词器是基于SentencePiece算法的T5分词器，也类似于GPT2分词器。然而，这个分词器保留空格并用下划线（_）代替它们。此外，T5分词器仅在空格上分割，而不是标点，并且还添加了一个初始空格。在第4章中，您将看到涉及实例化特定于模型的分词器的基于Python的语言模型示例。

分词任务及其挑战

分词涉及在句子和文档中找到标记，其中标记可以是单词、字符或部分单词。在执行以下子任务时，分词还必须考虑可能出现的问题：

将文本转换为小写（或不转换）
处理分隔句子的标点符号
处理重音符号（如法语和德语）
处理缩写（如“won’t”与“will not”）
处理不常见（罕见）单词

如果您之前没有执行过分词，它可能看起来像是一个简单的任务，但分词有几个非常规的方面。以下是在执行语料库的分词时要考虑的一些要点（无特定顺序）：

普通名词与专有名词的区别
选择性的单词分隔符
重音符号和单词含义
不同的子词分词技术
单数与复数名词的区别
单词拼写的变体
打字错误
翻译任务中的假朋友词
大小写的变体
动词的不规则形式
词汇表外分词问题
发音差异问题

其中一些示例可能看起来微不足道（甚至是琐碎的），但这些细节可以影响已经被翻译成与输入文本语言不同的语言的文本字符串的准确性和流畅性。

分词还必须处理其他问题，例如处理单词的拼写和大小写的不同方式（例如“favor”与“favour”、“tire”与“tyre”、“color”与“colour”），相同单词的不同含义（比如“to table”一个讨论），以及排版错误（例如“dependent”与错误的“dependant”）。

单词、字符和子词分词器

实质上，分词器将句子和文档转换为适合语言模型处理的格式。请记住，LLMs只处理数值，这意味着分词器必须将文本字符串转换为数值数据。总体而言，分词器的目标是双重的：找到最有意义的表示，并且（如果可能的话）找到最小的表示。

在NLP中，有几种类型的分词器：

预分词器（之前讨论过）
单词分词器
字符分词器
子词分词器

基于单词的分词器

总体而言，基于单词的分词器比较简单，因为它们涉及有限数量的规则，可以取得相当好的结果。通过Python中的split()函数，可以以基于空格的方式对文本字符串进行编程化分词，如下所示：

tokenized_text = "I love Chicago pizza".split()
print(tokenized_text)
# ['I', 'love', 'Chicago', 'pizza']

一些单词分词器为标点指定了额外的规则，这可能导致大量的词汇表（即给定语料库中的标记数量）。此外，单词被分配一个ID，其范围从0到（N-1），其中N是词汇表中的标记数量。模型通过其分配的ID值识别给定的单词。

不幸的是，相近的单词被视为不同的单词，这意味着它们将被分配不同的ID值。例如，以下一组单词在意义上是相关的：

sing
sang
sung
singing

此外，模型将不同地对待名词的单数形式和复数形式。在具有阳性、阴性、中性和名词复数形式的语言中（如德语和斯拉夫语言），这个过程更加复杂，所有这些形式都被视为不同的名词。

例如，英语只有一个冠词“the”的形式，而下面是定冠词“der”的屈折形式：

der (阳性单数)
die (阴性单数)
das (中性单数)
die (名词复数)

单词分词器的局限性

模型仅识别其训练步骤中存在的单词标记，这意味着如果组合词在训练步骤中未出现，它们将不被识别。例如，如果“book”和“keeper”是训练步骤的一部分，但“bookkeeper”在训练步骤中不存在，那么“bookkeeper”将不会被识别，因此它将通过UNK标记表示。

另一个分词器的挑战涉及缩写。例如，英语单词“its”和“it’s”有完全不同的含义：“its”表示所有权，而“it’s”意味着“它是”。在名词的情况下，撇号也表示所有权（例如，John’s car）。因此，“It’s true that John’s pen is worth its weight in gold”这句话只能有一个解释。

正如之前看到的，中文和日文等语言中，单词之间的空格是可选的。此外，日语有三个字母表：平假名、片假名（仅用于外来词）和罗马字母（用于罗马化日语单词）。日语还有汉字，是一种基于图形的系统，用于表示单词。日语句子和街道标志可能包含平假名和汉字的组合，这对于非日语人来说更难理解。

字符分词器的权衡

字符分词器将语料库分割成字符而不是单独的单词，这有两个主要优点：

词汇表比基于单词的分词要小。
出现的词汇表外标记较少（每个单词都可以由字符构建）。

然而，字符分词器也有两个限制。首先，一组字符提供了有限的实质含义。单词是句子的基本构建块，因此它们携带意义（有时是多重含义）。虽然这对于基于字母表的语言（如印欧语言）是真实的，但一些东南亚语言是基于象形文字的，可以传达需要一句话来解释的复杂概念。

其次，字符分词将生成数量显着更多的标记，很容易比基于单词的标记集大五倍，导致训练模型所需的处理时间比基于单词的标记所需的处理时间多得多。

子词分词

子词分词通常基于算法、统计规则和一个重要的启发式原则：将不常见或不经常出现的单词分词成子词，而不拆分经常出现的单词。

对于带有后缀“ly”的英语副词，可以轻松地执行这种分词：用两个标记替换副词，其中第二个标记是组合“ly”。因此，“slowly”分割为“slow”和“ly”，“quickly”替换为“quick”和“ly”，依此类推。

同样，形容词“lonely”可以分割成“lone”和“ly”。在某些情况下，这种分解成两个标记的方式会产生第一个标记的实际单词，这就是前面示例的情况。

此外，子词分词还可以生成具有含义的标记，例如将单词“internationalization”分词为“international”和“ization”。

除了处理英语单词子集的前述类型的分词之外，还有其他一些分词算法，其中一些列举如下：

字节级BPE（在GPT-2中）
WordPiece（在BERT中）
SentencePiece或Unigram

子词分词算法

子词分词涉及将OOV（超出词汇表）的令牌分割成较小的片段。回顾前面的部分，其中简要描述了以下类型的分词器：

单词分词器
字符分词器
子词分词器

子词分词算法基于一种启发式方法，这意味着它们基于直观的推理，“有意义”的推理，并且可以产生正确的答案。具体而言，出现频率更高的单词被分配唯一的ID。然而，出现频率较低的单词被分割成保留低频单词含义的子词。以下是四种重要的子词分词算法：

BPE
SentencePiece
unigram语言模型
WordPiece

慢速与快速分词器（Slow Versus Fast Tokenizers）

慢速和快速分词器之间存在差异。慢速分词器是用Python编写的，位于Hugging Face Transformers库中。相比之下，快速版本位于Hugging Face Tokenizers中，是用Rust编程语言编写的。

此外，要注意慢速和快速分词器的以下一点：在并行处理大量文本时，分词速度差异最为明显。实际上，在处理少量文本时，慢速分词器可能比快速分词器更快。

快速分词器支持另外两个重要特性：并行化和偏移映射，指的是记录标记的索引位置。后者的功能支持将单词映射到它们生成的标记，以及将文本字符映射到它们嵌入的标记中。

技术提升

论文探讨、算法交流、求职内推、干货分享、解惑答疑，与2000+来自港大、北大、腾讯、科大讯飞、阿里等开发者互动学习。

项目源码、数据、技术交流提升，均可加交流群获取，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友

方式①、添加微信号：mlc2060，备注：来自CSDN +研究方向
方式②、微信搜索公众号：机器学习社区，后台回复：加群

资料1

资料2

Traceroute 技术深度剖析：从原理到实践 Dsocc 网络 tcp/ip 网络协议安全
一、Traceroute的技术原理与实现机制1.1核心原理：利用TTL和ICMP协议构建路径Traceroute是一个网络诊断工具，用于显示数据包从源主机到目标主机经过的路由路径及每一跳的延迟时间。其核心原理基于IP协议的TTL（TimeToLive，生存时间）字段和ICMP（InternetControlMessageProtocol）协议。Traceroute的基本工作原理是通过发送一系列TT
ARP 协议全面分析：原理、安全与应用 Dsocc 安全网络网络协议
一、ARP协议基础原理1.1ARP协议的基本概念ARP（AddressResolutionProtocol，地址解析协议）是TCP/IP协议栈中的一个重要低层协议，负责将网络层的IP地址转换为数据链路层的物理MAC地址，使得数据包能够在局域网中准确传输。在计算机网络通信中，当一个设备需要向另一个设备发送数据时，不仅需要知道对方的IP地址，还需要知道其MAC地址。ARP协议就是通过IP地址查询MAC
TCP 坚持定时器详解：原理、配置与最佳实践 Dsocc tcp/ip 网络网络协议
一、TCP坚持定时器基础原理1.1坚持定时器的设计目的TCP坚持定时器(TCPPersistTimer)是TCP协议中用于处理接收窗口为零情况的重要机制，其核心设计目的是防止TCP连接在窗口更新ACK丢失时陷入死锁状态。当TCP连接的接收方通告一个窗口大小为0的ACK时，发送方会停止发送数据。如果后续接收方处理了部分数据并发送一个非零窗口通告的ACK报文在网络中丢失，发送方将永远不知道窗口已经重新
Amazon WorkSpaces：解锁云端高效办公，重塑企业生产力未来国际云1688 亚马逊云网络数据库云计算云原生服务器 aws
AmazonWorkSpaces：云端办公的“终极形态”，如何驱动企业生产力跨越式发展？摘要：在数字化浪潮势不可挡的今天，企业如何打破传统办公的边界，实现真正的高效协作与生产力飞跃？想象一下，无论员工身处地球的哪个角落，都能即时、安全地访问自己熟悉的桌面环境，无需繁琐的设备管理，也无需背负高昂的硬件投入——这并非遥不可及的未来，而是AmazonWorkSpaces正在带来的深刻变革。作为亚马逊云科
【Go-策略模式】告别if/else hell，拥抱 Go 语言策略模式 c无序 Go golang 策略模式开发语言
引言：为什么你的代码像一棵巨大的圣诞树？想象一下，你正在为你的电商平台开发一个订单价格计算模块。最初，需求很简单：商品原价就是最终价格。但很快，业务部门提出了新的需求：新用户享受9折优惠。VIP用户享受8折优惠。大促活动期间，全场7折。你很自然地写出了这样的代码：funcCalculatePrice(userTypestring,isPromotionbool,pricefloat64)float
《R循环：深度解析与高效使用技巧》沐知全栈开发开发语言
《R循环：深度解析与高效使用技巧》引言R语言作为一种功能强大的统计计算和图形显示语言，被广泛应用于科研、数据分析、金融等领域。R循环是R语言中的核心概念之一，对于提高编程效率、处理复杂数据至关重要。本文将深度解析R循环，并介绍高效使用技巧，帮助读者更好地掌握R语言。一、R循环概述1.1什么是R循环R循环是指在R语言中，重复执行某个操作或代码段的过程。R循环包括for循环、while循环和repea
云原生 CAD 让制造业设计协同更便捷大腾智能工业软件 CAD 数字化
随着互联网、云计算技术的突飞猛进，CAD向着网络化、协同化的方向快速发展，云CAD软件逐渐映入人们的眼帘。云原生CAD不仅打破了传统CAD软件对硬件配置的依赖，更以数据驱动的协同创新模式，重塑了制造业的产品研发流程与组织协作形态。云CAD的特征快速灵活部署云CAD的一大优势就是软件部署的灵活性。基于Web浏览器的SaaS化架构，使设计师无需经历冗长的软件安装与版本适配过程。云端统一维护机制确保所有
PL-SLAM: Real-Time Monocular Visual SLAM with Points and Lines
PL-SLAM文章目录PL-SLAM摘要系统介绍综述方法综述LINE-BASEDSLAM一、基于线的SLAM二、基于线和点的BA三、全局重定位使用线条初始化地图实验结果说明位姿求解三角化LSD直线检测算法**一、核心原理**⚙️**二、实现方法****三、应用场景**⚖️**四、优缺点与优化****优缺点对比****总结**End摘要译文——众所周知，低纹理场景是依赖点对应的几何计算机视觉算法的主
ES 和 lucene 的区别是什么？晚夜微雨问海棠呀 elasticsearch lucene 大数据
Elasticsearch(ES)和Lucene都是用于全文搜索和分析的工具，但它们在功能和使用场景上有一些重要的区别：基础与角色：Lucene是一个开源的信息检索软件库，提供了一个高性能、全功能的文本搜索引擎。它是许多搜索应用的核心，包括Elasticsearch。Elasticsearch是一个分布式搜索和分析引擎，构建在Lucene之上。它不仅提供了Lucene的所有功能，还增加了分布式计算
【数据标注师】关键词标注试着数据标注师数据标注师关键词标注
目录一、**理解关键词标注的核心逻辑**1.**三大标注原则**2.**关键词类型体系**二、**四阶训练体系**▶**阶段1：基础规则内化**▶**阶段2：语义浓缩训练**▶**阶段3：场景化标注策略**▶**阶段4：工具效率提升**三、**五大高频错误防御指南**四、**复杂场景突破策略**1.**隐喻处理方案**2.**多义词消歧流程**3.**跨语言混合标注**五、**持续进阶体系**1.
【数据标注师】事件标注2 试着数据标注师数据标注师事件标注
目录一、**深入理解事件标注的核心架构**1.**事件五要素（标注核心对象）**2.**三大项目特性**二、**四阶段系统学习法**▶**阶段1：掌握标注指南（20%理论+80%案例）**▶**阶段2：触发词精准识别训练**▶**阶段3：要素抽取实战技巧**▶**阶段4：复杂场景突破三、**高效标注工具使用指南**1.**快捷键流操作（以主流工具为例）**2.**颜色编码法**四、**错误防御体系
揭秘华为认证体系：ICT人才的新标杆 IT运维大本营华为认证 HCIA HCIP HCIE
00华为认证体系全景解析：打造ICT行业人才新标准华为作为全球领先的信息与通信技术（ICT）解决方案供应商，旗下的华为认证培训体系，为行业提供了标准化的人才资格评定方案。本文将深入解析华为认证的发展历程、国际化影响、核心认证体系与实施流程等，探究其在ICT行业人才培养中的重要作用。01华为认证的历史沿革华为认证培训体系始于2001年，经过多年的发展，如今已经成为业界领先的ICT全技术领域认证体系。
MVI+Compose架构实战 Android洋芋 MVI JetpackCompose Kotlin Flow 状态管理声明式UI
简介本文将深入探讨为什么LiveData不适合在JetpackCompose中使用，并通过完整代码示例展示MVI+Compose架构的实现。从Android架构演进历史到Composable函数的重组机制，从单向数据流原理到StateFlow的线程安全特性，全面解析这一技术趋势背后的深层原因。一、为什么LiveData不适合在JetpackCompose中使用？LiveData与Compose的单
Lucence 和 Elasticsearch 的区别? 码出财富 elasticsearch 大数据搜索引擎
Lucene和Elasticsearch都是在信息检索和文本处理领域中广泛使用的工具，它们的主要区别如下：概念和定位Lucene：是一个基于Java的全文检索库，它提供了一套强大的底层索引和搜索功能的API。Lucene更像是一个工具包，开发人员可以基于它来构建自己的搜索应用程序，需要深入了解搜索的底层原理和算法，对开发者的技术要求较高。Elasticsearch：是一个基于Lucene的分布式搜
IDS检测原理和架构 hao_wujing 安全
大家读完觉得有帮助记得关注和点赞！！！IDS（入侵检测系统）的核心使命是**从海量网络/主机行为中精准识别攻击企图**，其技术本质是**异常行为模式识别引擎**。以下从检测原理、系统架构到技术演进进行深度解析：---###⚙️IDS核心检测原理####1.**双引擎协同机制**|**检测类型**|**原理**|**优势/局限**|**典型算法**||--------------------|---
广州华锐互动，助力 VR 工业制造领域腾飞广州华锐视点 vr 制造
在工业制造领域，广州华锐互动所应用的VR技术为企业带来了显著的效益。广州华锐互动与多家工业制造企业合作，将VR技术应用于虚拟装配、员工培训、产品设计等环节，有效提高了生产效率和产品质量，降低了生产成本和风险。在虚拟装配方面，广州华锐互动开发的VR虚拟装配系统，利用三维建模和虚拟现实技术，将产品的装配过程以虚拟场景的形式呈现出来。工人通过佩戴VR设备，可以在虚拟环境中进行产品装配操作，提前发现装配过
AR 地产互动沙盘：为地产沙盘带来变革广州华锐视点 ar
在科技飞速发展的今天，AR（增强现实）技术应运而生，为解决传统地产沙盘的困境提供了全新的思路和方法。AR技术，简单来说，是一种将计算机生成的虚拟信息与真实环境相融合的技术。它通过摄像头、传感器等设备获取真实场景的信息，再利用计算机图形学技术将虚拟内容与真实场景进行融合，最终通过显示器将合成图像呈现给用户，使用户在观察真实世界的同时，获得额外的信息和视觉体验。当AR技术与地产沙盘相结合，便产生了令人
告别“血腥”！VR小鼠解剖虚拟仿真开启实验新潮流广州华锐视点 vr
VR小鼠解剖虚拟仿真技术融合多种先进科技。核心是3D建模技术，专业人员用高精度扫描设备扫描小鼠获取数据，在虚拟空间构建近乎真实的三维模型，包含小鼠外部形态与内部细微结构。传感器交互技术实现用户与虚拟环境互动。用户戴VR设备持手柄解剖时，手柄传感器捕捉动作数据传输至计算机，精准控制虚拟工具;VR设备位置追踪传感器监测用户头部位置和转动方向，用户转动头部观察虚拟小鼠，虚拟场景同步变化，带来沉浸式体验。
香港服务器查询缓存禁用-性能优化关键技术解析 cpsvps_net linux
在香港服务器运维过程中，查询缓存禁用是提升数据库性能的关键操作。本文将深入解析禁用查询缓存的原理、操作步骤、适用场景及注意事项，帮助管理员优化MySQL服务器配置，解决高并发环境下的性能瓶颈问题。香港服务器查询缓存禁用-性能优化关键技术解析查询缓存的工作原理与性能影响香港服务器上的MySQL查询缓存(QueryCache)机制会将SELECT语句及其结果存储在内存中。当完全相同的查询再次执行时，系
塞浦路斯VPS MySQL 8.7量子安全索引测试 cpsvps_net mysql 安全数据库
在数字化时代背景下，数据安全已成为全球企业关注的核心议题。本文将深入解析塞浦路斯VPS环境下MySQL8.7量子安全索引的突破性测试成果，揭示其如何通过先进的加密算法重构数据库防护体系，为金融、医疗等敏感行业提供符合后量子密码学标准的解决方案。塞浦路斯VPSMySQL8.7量子安全索引测试-下一代数据库防护技术解析量子计算威胁下的数据库安全新挑战随着量子计算机的快速发展，传统加密算法正面临前所未有
VPS云服务器自动化运维：Ansible+Puppet实现批量配置管理与监控 cpsvps_net 运维服务器自动化
在云计算时代，VPS云服务器的自动化运维已成为企业提升效率的关键技术。本文将深入解析如何通过Ansible和Puppet两大主流工具实现批量配置管理，构建完整的监控体系，帮助运维团队从重复劳动中解放，确保服务器集群的高可用性。我们将从基础架构设计到实战案例，系统讲解自动化运维的最佳实践路径。VPS云服务器自动化运维：Ansible+Puppet实现批量配置管理与监控一、VPS云服务器自动化运维的核
(论文总结)思维链激发LLM推理能力靈镌sama 论文解读人工智能
研究背景&动机背景:扩大模型规模已被证实具有提升模型性能和模型效率的功效，但是LLM对于完成推理、算术任务仍有较大不足。动机:从之前的应用和研究中得知，可以用生成自然语言解释、使用神经符号等形式语言的方法来提高大模型的算术推理能力，当时采用了从头预训练和微调模型的方法，耗费的成本较多；而且大模型具有根据少量文本提示进行上下文少样本学习的能力，使用少量输入输出示例即可提高LLM的推理性能，而不必对单
基于 Three.js 与 WebGL 的商场全景 VR 导航系统源码级解析维小帮定位导航 javascript vr 前端开发场景优化 WebGL 物联网智慧商场
本文面向Web前端开发者、WebGL/Three.js爱好者、对VR/AR应用开发感兴趣的技术人员、智慧商场解决方案开发者。详细介绍如何利用WebGL(Three.js框架)构建高性能的商场全景VR环境，并实现精准的室内定位与3D路径规划导航功能。如需获取商场全景VR导航系统解决方案请前往文章最下方获取，如有项目合作及技术交流欢迎私信作者。一、商场全景VR导航的核心技术概述商场全景VR导航融合了全
树莓派上基于Opencv 实现人脸检测与人脸识别土拨鼠不是老鼠 C++opencv 人工智能计算机视觉
一，需求基于树莓派4b，usb1080p摄像头，实现人脸检测与人脸识别。尝试了海陵科的模组和百度的sdk。海陵科的模组无法录入人脸，浪费了100多块钱。百度的sdk在树莓派上也无法录入人脸，官方解决不了。最后只能用opencv自己实现，因为只要实现最简单检测和识别就行，不在乎准确率。经测试opencv能满足基本要求，这里整理下思路。二，（1），加载模型并实例化Ptr和Ptr对象。树莓派4bopen
欧标TH-307EV3.41对讲机写频软件详解侯昂
本文还有配套的精品资源，点击获取简介：对讲机在多个领域中有着广泛应用，欧标TH-307EV3.41是一款针对特定型号对讲机进行频率配置和功能设置的软件工具。它允许用户自定义工作频率、频道管理、功能配置，并执行数据备份与恢复、固件更新等功能。本软件是无线电爱好者和专业用户的实用工具，需在遵守无线电法规的前提下使用。1.欧标TH-307EV3.41对讲机概述1.1对讲机的技术演进对讲机自问世以来，经历
8、探讨排序算法及其实际应用侯昂排序算法插入排序快速排序
探讨排序算法及其实际应用1.排序算法的重要性排序算法在计算机科学中扮演着至关重要的角色。无论是日常生活中常见的任务，还是复杂的数据处理工作，排序算法都能帮助我们更有效地管理和检索信息。以下是几个实际应用场景：字典中的单词：字典中的单词按顺序排列，忽略大小写差异。这使得查找特定单词变得非常容易。目录中的文件：目录中的文件通常按排序顺序列出，方便用户快速找到所需文件。书籍索引：一本书的索引是排序过的，
基于 Vue + RuoYi 架构设计的商城Web/小程序实训课程速易达网络 spring boot uni-app vue.js
以下是基于Vue+RuoYi架构设计的商城Web/小程序实训课程方案，结合企业级开发需求与教学实践，涵盖全栈技术栈与实战模块：一、课程概述目标：通过Vue前端+RuoYi后端（SpringBoot）开发企业级电商系统，实现多终端（Web/H5/小程序）适配，覆盖从架构设计到部署上线的全流程。周期：8周（建议每日3小时）适合人群：具备基础Java/Vue知识的开发者，熟悉HTML/CSS/JavaS
微信小程序实现websocket及单人聊天功能蝶妹妹微信小程序 websocket 小程序
一、什么是websocket：WebSocket是HTML5下一种新的协议（websocket协议本质上是一个基于tcp的协议）它实现了浏览器与服务器全双工通信，能更好的节省服务器资源和带宽并达到实时通讯的目的Websocket是一个持久化的协议二、websocket的原理：websocket约定了一个通信的规范，通过一个握手的机制，客户端和服务器之间能建立一个类似tcp的连接，从而方便它们之间的
MySQL对CPU的占用率很高怎么处理半桶水专家 mysql mysql 数据库
一、确认与定位确认整体CPU使用情况top-b-n1|head-n15观察MySQL(mysqld)进程所占的%CPU。如果是多核系统，关注总和以及单核是否满载。查看系统负载uptimeLoadAverage长期高于CPU核数，说明系统压力大。查看其它进程情况psaux--sort=-%cpu|head-n10确认是否仅MySQL占用高，或与其它进程有关。二、操作系统层面排查磁盘I/O瓶颈iost
从x86到ARM64：CPU架构的进化与未来小俊学长架构
从x86到ARM64：CPU架构的进化与未来在计算机发展的历史长河中，CPU架构的演变是推动计算技术不断前进的重要动力。从早期的x86架构，到现代的x64和ARM64架构，每一次变革都带来了计算性能、能效比以及应用领域的显著提升。本文将深入探讨x86、x64和ARM64这三大主流CPU架构的历史背景、技术特点、市场应用以及未来发展趋势，以期为读者提供一个全面的视角，理解CPU架构的进化路径及其对未
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟