爱格白

【无标题】

文本向量表示

文本的向量空间分为：
word-word (term-context)

document-word (bag-of-words)

用向量表示文本的好处可能有：

对单词的含义进行编码，以便我们可以计算它们之间的语义相似度
方便进行文件检索，例如检索与查询相关的文档（网络搜索
将机器学习应用于文本数据，例如聚类/分类算法对向量进行操作。

Tokenisation 从原始文本中获取标记，最简单的方式：用空格拆分文本，用正则表达式，lowercasing,
punctuation/number/stop/infrequent word removal and stemming

常见的把文本变向量的方式：one-hot encoding，但是这个没有上下文之间的关系

Word-Word Matrix:
矩阵 X , n × m 其中 n = |V| （目标词）和 m = |Vc | （上下文词），对于 V 中的每个词 xi，计算它与上下文词 xj 共现的次数，使用 ±k 个单词的上下文窗口（在 xi 的左/右）。计算大量文档频率。
通常目标词和上下文词词汇表是相同的，结果是一个方阵

对文本的常用词向量，可以用加权处理：
vocabulary = [aadvark, computer, data, pinch, result, sugar, the]
apricot = x2 = [0, 0, 0, 1, 0, 1, 30]
digital = x3 = [0, 2, 1, 0, 1, 0, 45]
cosine(x2, x3) = 30 · 45/(√902 · √2031) = 0.997
对于窗口大小 ±k，将每个位置的上下文词乘以 (k-distance)/ k ，例如对于 k = 3：
还有经典PPMI（Word-Word Matrix）：相对于独立出现，两个词 wi 和 wj 一起出现的频率

#(·) 表示计数，|D|语料库中观察到的词-上下文词对的数量
PPMI 量化的是单词相关性
以及经典 : TF.IDF（Document-Word Matrix）
这个方式会对频繁出现在许多文档中的单词有些惩罚，将单词频率与其反向文档频率相乘N是语料库中的文档数，df 是词w的文档频率，用log是压缩原始频率。

Count-based matrices（用于单词和文档）通常效果很好，但是：
高维：词汇量可能达到数百万
非常稀疏：单词只与少量单词同时出现；文档只包含很小的词汇子集
Truncated Singular Value Decomposition是一种寻找数据集最重要维度的方法，通过将矩阵分解为潜在因子，数据变化最大的那些维度，通过学习低维潜在空间利用冗余来消除噪声

潜在语义分析Latent Semantic Analysis（LSA）
表示文档嵌入
表示词嵌入

评估文本向量的方式：
Intrinsic:
-similarity: order word pairs according to their semantic similarity
-in-context similarity: substitute a word in a sentence without changing its meaning.
-analogy: Athens is to Greece what Rome is to …?
Extrinsic:
-use them to improve performance in a task, i.e. instead of bag of words → bag of word vectors (embeddings)

文本分类处理的逻辑回归

首先是标签可能的类型：

Binary 二进制（0 或 1），例如电影评论是正面的还是负面的
Multi-class 多类（k 个类中的 1 个），例如新闻文章的主题是什么（体育、政治、商业或技术中的一个）
Multi-label 多标签（k 个类别中的 n 个），例如新闻文章的主题是什么（体育、政治、实用性或技术中的零个或多个）
Real number 实数，预测一部电影的平均评分在 1 到 5 之间（回归）。

计算输入向量 x 和权重向量 w 之间的点积 z，并添加bias b
z = w · x + b
使用 sigmoid 函数 σ(·) 计算正类的概率：
预测概率最高的类别

多分类逻辑回归，用softmax：

Gradient Descent 梯度下降：计算损失函数对整个训练集参数的梯度
Batch Gradient Descent 批量梯度下降：计算损失函数对小部分训练集参数的梯度
任何具有很多特征的模型都容易过度拟合其训练数据：训练准确率高，测试准确率低，用正则化解决：Lreg = L + αR(w)，α是正则化强度

还有典中典中典之正确率

统计语言模型

ngram：

Perplexity 测试集 x = [x1, …, xN ] 的逆概率，由词数 N 归一化：
衡量概率分布预测样本的好坏程度，通常是越低越好。
二元语言模型的困惑度有可能低于一元语言模型，是因为可以有更多上下文进行下一个词的预测。

Smoothing平滑
Add-1（或拉普拉斯Laplace ）平滑对所有二元组的计数加一

衍生出来就是K平滑

Interpolation

对于三元组语言模型，Interpolation操作是，计算一元组、二元组和三元组概率的加权平均值

Backoff
从 k 的 n-gram 顺序开始，但如果计数为 0，则使用 k − 1

Absolute discounting

Stupid Backoff
经验之谈，λ = 0.4 效果很好

Extrinsic Evaluation

Sentence completion
Grammatical error correction: detecting “odd” sentences and propose alternatives 语法错误纠正
Natural lanuage generation: prefer more “natural” sentences 自然语言生成
Speech recognition 语音识别
Machine translation 机器翻译

Intrinsic Evaluation

Accuracy
Perplexity
-The lower the better
-Can’t evaluate non probabilistic LMs

[自己想的
advantage: intrinsic evaluation is focus on maths formula and will not being influenced by other external factors
disadvantage : Intrinsic evaluation does not necessarily reflect the language model’s performance in real-world applications.
]

序列标注和词性标注POS tagging

Part-of-Speech (POS) Tagging
(x, y) = ([I , studied, in, X],
[Pronoun, Verb, Preposition, ProperNoun])
Named Entity Recognition
(x, y) = ([Giannis, Antetokounmpo, plays, for , the, Bucks],
[Person, Person, NotEnt, NotEnt, NotEnt, Org ])
Machine Translation (reconstruct word alignments)
(x, y) = ([la, maison, bleu],
[the, house, blue])

数据由带有标签序列的单词序列组成：
Dtrain = {(x1, y1)…(xM , yM )}
xm = [x1, …xN ]
ym = [y1, …yN ]
学习预测最佳标签序列的模型 f：
y ∈ Y^N 是标签序列所有可能组合的集合，Y = {A, B, C …} 是每个词的可能类别。
用了markov模型，就用标签 y 替代单词
标签 yi（即 PoS 标签）是发出单词的隐藏状态
假设：POS 标签中的一阶马尔可夫（当前标签仅取决于先前标签），且每个单词仅取决于其 POS 标签
公式推导：

Maximum likelihood estimation 最大似然估计

一个例子：
高阶 HMM通常需要更长的上下文、更昂贵，收益通常很小。

逻辑回归也能提供序列标签的概率。
Conditional Random Field 条件随机场是给定一个词，当前词的候选标签和前一个词的标签，在每个时间步中使用（多类 LR）预测该词最可能的标签
分解每个句子 x = [x1, …xN ] 预测：
对每个单词Xn
构造CRF的特征向量例子：
φ1(xn, yn, yn−1, n) = 1，如果 yn = ADVERB 并且第 n 个单词以“-ly”结尾；否则为 0。“usually”,”casually”
φ2(xn, yn, yn−1, n) = 1 ，如果 n = 1，yn = 动词，句子以问号结尾；否则为 0。“Is it true?”
CRF 通过最小化负对数似然目标进行训练：，也会使用随机梯度下降SGD

Viterbi

Viterbi score matrix标签集 Y，句子 x = [x1, …xN ]。对于带有标签 y 的单词 n，每个单元格包含最高概率。
一阶马尔可夫：只依赖于前一个标签 yn−1

Backpointer matrix：保留前一个标签而不是最高值，和Viterbi score matrix的区别是取argmax：

vertibi算法：
输入：词序列 x = [x1, …, xN ],概率 P(yn|xn, yn−1) ，让矩阵 = 1

beam search

Viterbi 通过评估所有选项执行精确搜索（在假设下），通过不精确来加快速度，即使用 Beam Search 避免标记一些候选序列。
beam search和vertibi总体一致，但在每一步只保留最好的 k 个假设。
如果beam size为1，则是贪婪算法。通常小于 10 的beam size接近精确搜索，但速度要快得多
从分支里选k个继续分支

beam search 何时停止：假设产生时，该假设算视为完成。通常停止状态设置为T个周期时长，或是N个完成的假设

Word2Vec

Forward Pass:

Backward Pass:

SGD：

Skip-gram model 给定一个词预测它的上下文
Continuous BOW (CBOW) 给定上下文预测当前词

输入一个词，表示为词汇表上的one-hot向量
隐藏层，一个隐藏层大小为词汇量×隐藏大小（通常为300），线性激活函数
输出softmax 在词汇表上分别预测正确的词

Word2vec 结构：

Negative Sampling 更新正positive词的权重，加上少量（5-20）其他要输出0的词的权重
Subsampling frequent words 减少训练样本的数量

文本分类

方法 1：将 BOW 向量传递到一系列隐藏层中
方法 2：通过嵌入层传递one-hot向量以获得文档中每个词的嵌入，随后将其连接（或相加/平均）并传递到一系列隐藏层
方法二中通常嵌入层是预训练的（例如使用 Word2Vec）并且在训练期间不更新

信息提取

What is Information Extraction (IE)?
• a practically-motivated engineering discipline (models not necessarily inspired by nature)
• the extraction of structured information from unstructured (= textual) sources.
• its significance is connected to the growing amount of information in text and its potential use in systems (e.g. question answering)

IE tasks:

1 Named Entity Recognition 命名实体识别
• John Fitzgerald Kennedy, United States
2 Entity Disambiguation 实体消歧
• Jack is also known as John F Kennedy
3 Entity Coherence 实体一致性
• The word “He” makes reference to John F Kennedy
4 Relation Classification/Extraction 关系分类/提取
• The phrase “served as the 35th president” shows the relationship between John F Kennedy and United States
• Structured knowledge: (John F Kennedy, former president, United States)
5 Knowledge Base Population

Information Extraction System Architecture

• Text normalization: Reducing the text into a single canonical form
• Tokenization: Splitting the text into smaller units such as words or characters
• Stemming: Reducing inflectional form of words to their base form (e.g., eating, eats, eaten is reduced to eat)
• Lemmatization: similar to a stemming process but guided by a lexical knowledge base to obtain accurate word stems.
• POS tagger: Assigns part-of-speech tags to words in text
• Chunk parser: individual pieces of text and grouping them into meaningful grammatical chunks or syntactic units.
→ Feature Extraction/Learning: transforming text into numerical features
→ Named entity tagger: identify and classify entities
→ Relation Tagger: find relation between entities
→ Populate knowledge base with facts

Text Classification Example

• Feature extraction/engineering: using domain knowledge to extract features from data.
• Feature: a piece of evidence intended to help the classifier map the input to the right target class
• Feature vector: a vector −→ F , the components Fj = φj (dj ), of which are results applying a feature function to the data point dj .
• Example: “Spam vrs Ham” email?
number of “!” included in email body
length of the email in characters
occurrence of the word “cash” in the title or body.
• Example feature vectors:
(2, 2392, no) → HAM (genuine e-mail)
(4, 520, yes) → SPAM
(1, 2392, no) → HAM
(0, 16337, no) → HAM
(0, 61320, yes) → SPAM

Rule-based

• Human experts (computational linguists) write general linguistic rules and task-specific extraction rules.
• Example, trigger keywords, regular expressions and patterns.
• Rule-based rules are language dependent, suffer from human ingenuity, time consuming, difficult to adapt to changes.

Machine Learning based (supervised)

• Humans (domain experts) manually annotate text spans indicating entities, relations, facts, etc. in a training corpus;
• features are manually or automatically engineered (or a mixture of the two, e.g. using neural networks and dependency trees);
• these are used to extract information that statistically correlates with classes of entities,relations, etc.

Include:
• Hidden Markov Models (HMMs)
• Conditional Random Fields (CRF)
• Support Vector Machines (SVMs) and Softmax Function
• Artificial Neural Networks (NNs), in particular “deep” neural nets for sequence tagging (RNN, LSTM), CNN, GCN, BERT

RNN

Recurrent Neural Networks (RNNs) to capture long-range dependencies in a document

选择上下文直到n-1
控制传播
包含所有单词的单词向量的矩阵，这里Xn选一个
Xn的概率分布：，这里V是权重矩阵

词向量 U，隐藏层和输出层参数 W，V
标准反向传播无法应用在RNN上，需要用Backpropagation Through Time：将图形展开 n 步并在更新中对梯度求和
RNN 无法捕获 long-range dependencies:
句子中的每个单词实际上只有一层，所有上下文信息都必须由隐藏层传递，且有梯度消失的情况。
梯度消失：最后一个单词的梯度通常永远不会到达第一个

RNN结构：
many to one: text classification
many to many (equal): PoS tagging
many to many (unequal): . machine translation, language generation, summarisation

Long-Short Term Memory (LSTM) network

LSTM在RNN基础上还使用了一个记忆单元来控制来自先前时间步长的哪些信息对预测有用
Forget gate : 从前面的步骤中丢弃什么信息
Input gate : 哪些新信息将存储在存储单元中
memory cell candidate values
用 input 和 output gates更新memory cell

Gated Recurrent Unit 是LSTM的变种
upgrade gate(结合 input and forget gates) :
Recurrent state （合并cell state与hidden state）:
output candidate values ：
output ：
encoder creates a representation of the source sentence
decoder uses that representation to generate the target sentence
RNN 学习单词和句子/文档表示
RNN 的训练速度比 Skip-Gram 慢，因此需要使用更少的数据
使用预训练词向量（例如 skipgram）来初始化 RNN 词向量
Bi-directional 双向 RNN 也可用于学习文档表示：一个 RNN 从头到尾解析输入，另一个从尾到头解析输入

注意力机制

注意力机制：计算从 RNN 获得的所有上下文表示的线性加权和，将结果传递给输出层进行分类
再将c传递给输出层进行分类。
Attention 通常由相似度函数 φ 和 softmax 组成

q 是一个可训练的向量（学习特定于任务的信息），
一些额外的操作：
用tanh：
缩放点积：

Input ：所有encoder隐藏状态 h1, …, hN；时间步 t 的decoder隐藏状态 St
Scores：score (st , hk ), k = 1…N
Weights：

Output：

Sequence to Sequence Model

例如：Machine Translation，Speech to Text，Image Captioning，Named entity recognition，Neural Music Generation

Neural Machine Translation (NMT) is Machine Translation using neural networks (as opposed to alignment and phrase based translation).
● Typically we use sequence-to-sequence models (seq2seq).
● These models are end-to-end differentiable

Self-Attention

Each vector receives a:
● Query (q): vector from which the attention is looking
● Key (k): vector at which the query looks to establish context
● Value (v): value of word being looked at, weighted based on context

Query旨在建立上下文，在这个例子中，单词“computer”（蓝色），通过Query 所有单词的每个Key来完成（黄色）
在这个例子里可能会将“science”确立为提供最多信息上下文的词。再通过 softmax 输出，并将每个value乘以与每个词相关的value（目标词）

Attention vs self-attention

The query is similar to the current decoder step
(Query * Key) is similar to dot product scoring (where the key is equivalent to the encoder outputs
在将两者都推入 softmax 之后，我们将结果与自注意力中的值相乘，然后再对其求和
In RNN attention this is again the encoder states

Transfer Learning

Transfer learning: Re-use and adapt already pre-trained supervised machine learning models on a target task
：Different feature spaces in source and target domains, e.g. documents written in different languages (cross-lingual adaptation)
：Different marginal probability distributions in source and target domains, e.g. restaurant reviews vs electronic product reviews (domain adaptation)
：Different tasks (label sets), e.g. LM as source task and sentiment analysis as target task
：Different conditional probability distributions between source and target tasks, e.g. source and target documents are unbalanced regarding to their classes

BERT

Encoder 12 layers: 2 sub-layers each
Sub-layer 1: Multi-head self-attention mechanism
Sub-layer 2: Position-wise fully connected layer
Output of each sublayer is combined with its input followed by layer norm
Input tokens are combined with a positional embedding (containing information for particular position in the sequence)

Adaptation

Initialise your encoder on the target task using the weights you learned in LM
Change the output layer of your network to match the target task
Freeze the weights of the pretrained word embeddings/encoder
Learn the weights of the output layer on the target task data
Unfreeze the weights of the pretrained components and fine-tune them (additional training steps with very small learning rate)
In ULMFiT, the LM encoder (LSTM) is fine-tuned on the target task data before adaptation

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那