song430

Feature Engineering for Machine Learning 机器学习中的特征工程（三）

第三章是Text Data: Flatting, Filtering, and Chunking.
3.1 Bag-of-X: Turning Natural Text into flat Vectors
3.2 Filtering for Cleaner Features
3.3 Atoms of Meaning: From words to n-Grams to Phrases
本章介绍文本的特征工程，我们以bag-of-words开始，这是基于单词统计学上的表示，tf-idf是一个重要的特征尺度变换。本章主要是关于提取特征，清理特征的。
3.1 Bag-of-X: Turning Natural Text into flat Vectors（把自然语言变成向量）
对于文本数据，我们可以用统计学上的词频来表示，这称之为bag-of-words，对于一些简单的分类任务来说，这通常比较有效。也通常用于信息检索中。
在bag-of-words特征化的过程中，一个文本被转化成一列向量，比如下面这句话。

原始的文本是一些单词的序列，但是bag-of-words却失去了单词之间的联系，更重要的是数据在特征空间中的位置，如果单词表中有n个单词，一份文本就变成了n维空间中的一个点，下面的图显示了二维特征空间中的一个点。

上面的图是在特征空间中表现数据，下面的是在文本空间中表示特征，坐标轴表示的是特征出现的次数。

bag-of-words并不完美，因为它失去了原有文本语义上的联系，比如“不错”，可能就会被分解成“不”和“错”两个含义，都表示不太好的意思，所以下面讲bag-of-n-Grams。
bag-of-n-grams是bag-of-words的扩展，一个单词就称之为1-gram，一个句子“Emma knocked on the door”，可以产生n-gram，包括“Emma knocked”，“knocked on”，“on the”，“the door”。
n-grams保留了原始句子的结构，就会产生更丰富的信息，但是也有相应的损失，理论上来说，有 $k$ 个非重复单词，就会有 $k^2$ 个2-grams，但实际上不会有这么多，因为不是所有的单词组合都有意义，这也就意味着特征空间是稀疏的， $n$ 越大，花费就越大。
下面的代码用来展示 $n$ 是如何影响cost的，采用的是Yelp reviews dataset数据集。

import pandas
import json
from sklearn.feature_extraction.text import CountVectorizer
# Load the first 10,000 reviews
f = open('data/yelp/v6/yelp_academic_dataset_review.json')
js = []
for i in range(10000):
    js.append(json.loads(f.readline()))
f.close()
review_df = pd.DataFrame(js)
# Create feature transformers for unigrams, bigrams, and trigrams.
# The default ignores single-character words, which is useful in practice because
# it trims uninformative words, but we explicitly include them in this example for
# illustration purposes.
bow_converter = CountVectorizer(token_pattern='(?u)\\b\\w+\\b')
bigram_converter = CountVectorizer(ngram_range=(2,2), token_pattern='(?u)\\b\\w+\\b')
trigram_converter = CountVectorizer(ngram_range=(3,3), token_pattern='(?u)\\b\\w+\\b')
# Fit the transformers and look at vocabulary size
bow_converter.fit(review_df['text'])
words = bow_converter.get_feature_names()
bigram_converter.fit(review_df['text'])
bigrams = bigram_converter.get_feature_names()
trigram_converter.fit(review_df['text'])
trigrams = trigram_converter.get_feature_names()
print (len(words), len(bigrams), len(trigrams))
26047 346301 847545
# Sneak a peek at the n-grams themselves
words[:10]
['0', '00', '000', '0002', '00am', '00ish', '00pm', '01', '01am', '02']
bigrams[-10:]
['zucchinis at',
'zucchinis took',
'zucchinis we',
'zuma over',
'zuppa di',
'zuppa toscana',
'zuppe di',
'zurich and',
'zz top',
'à la']
trigrams[:10]
['0 10 definitely',
'0 2 also',
'0 25 per',
'0 3 miles',
'0 30 a',
'0 30 everything',
'0 30 lb',
'0 35 tip',
'0 5 curry',
'0 5 pork']

所产生的效果如下

3.2 Filtering for Cleaner Features（清洗特征）
Stopwords
分类和检索通常不会对文本有很深的理解，比如，在句子“Emma knocked the door”中，单词“on”和“the”不会改变这个句子是关于一个人和一扇门的，对于粗粒度的任务-比如分类-来说，代词、介词、冠词不会有太大的价值，然而在语义分析时可能就不同了。
一个很流行的NLP python包，NLTK，包含了语言学家定义的stopwords列表，（需要安装NLTK），比如英文单词中的
[a, about, above, am, an, been, didn’t, couldn’t, i’d, i’ll, itself, let’s, myself,
our, they, through, when’s, whom, …]。
Frequency-Based Filtering
stopwords列表是预先定义没有意义的特征，统计学上的频率也可以找到一些常用的单词。
看下面的这张表，列出了40个在Yelp reviews数据集中最常用的单词

实际上常常将上面两种方法混合使用。
我们或许有时候还会去除一些非常稀有的单词，在统计学上，如果一个单词指出现1到2次，噪声的可能性就会大一些。
以Yelp reviews为例，160w条评论里有357481个非重复单词，189915个单词只出现在一条评论里，41162个单词出现在两个评论里，超过60%的单词都是比较罕见的，这是一个典型的heavy-tailed分布。这些不常见的单词就会使得运算和存储都有很大的浪费。
不常见的单词可以很容易的通过词频的方式找出来，然后把它们丢进garbage bin，可以作为额外的一个特征，比如下面这幅图。

“flower”和“flowers”是一个意思，但是技术上却被分成了2个，如果把这些不同的单词映射到同一个单词上就好了。
stemming（词干）是一个NLP的任务，有很多方式把不同单词归于同一个词干，比如指定语义上的规则，或者是观测到的数据。
多数的stemming工具基于英语，Porter stemmer一个常用的免费的stemming工具。下面是一个stemming过程。

import nltk
stemmer = nltk.stem.porter.PorterStemmer()
stemmer.stem('flowers')
u'flower'
stemmer.stem('zeroes')
u'zero'
stemmer.stem('stemmer')
u'stem'
stemmer.stem('sixties')
u'sixti'
stemmer.stem('sixty')
u'sixty'
stemmer.stem('goes')
u'goe'
stemmer.stem('go')
u'go'

但是，“new”和“news”被stemmed成“new”，所以，stemming也不常用。
3.3 Atoms of Meaning：From words to n-Grams toPhrases（理解的原子性）
bag-of-words的概念很简单。但计算机如何知道单词是什么？文本文档以数字形式表示为字符串，基本上是一系列字符。也可能以JSON blob或HTML页面的形式转换成半结构化文本。但即使添加了标签和结构，基本单元仍然是一个字符串。如何将字符串转换为单词序列？这涉及解析和标记化（parsing and tokenization）的任务，我们将在下面讨论。
Parsing and Tokenization（解析和符号化）
当字符串不只包含纯文本时，必须进行解析。例如，如果原始数据是网页，电子邮件或某种类型的日志，则它包含其他结构。需要决定如何处理标记，页眉和页脚，或日志中不感兴趣的部分。如果文档是网页，则解析器需要处理URL。如果是电子邮件，那么像From，To和Subject这样的字段可能需要特殊处理 - 否则这些标题将最终作为最终计数中的正常单词，这可能没有用。
轻度解析后，文档的纯文本部分可以进行标记化。这将字符串 - 一系列字符 - 转换为一系列标记。然后可以将每个令牌计为一个单词。标记生成器需要知道哪些字符表示一个标记已结束而另一个标记已开始。空格字符通常是好的分隔符，标点字符也是如此。如果文本包含推文，则哈希标记（＃）不应用作分隔符（也称为分隔符）。
有时，分析需要对句子而不是整个文档进行操作。例如，n-gram，一个词概念的概括，不应超出句子边界。更复杂的文本特征化方法，如word2vec也适用于句子或段落。在这些情况下，需要首先将文档解析为句子，然后进一步将每个句子标记为单词。
Collocation Extraction for Phrase Detection（用于短语检测的搭配提取）
一系列令牌立即产生单词列表和n-gram。然而，从语义上讲，我们更习惯于理解短语，而不是n-gram。在计算自然语言处理（NLP）中，有用短语的概念称为搭配。用Manning和Schütze（1999：151）的话来说，“搭配是一种由两个或两个以上的词组成的表达，与某些传统的说话方式相对应。”
搭配比其各部分的总和更有意义。例如，“strong tea”具有超越“great physical strength”和“tea”的不同含义;因此，它被认为是一个搭配。另一方面，短语“cute puppy”意味着它的各个部分的总和：“cute”和“puppy”。因此，它不被认为是搭配。
搭配不一定是连续的序列。例如，句子“Emma knocked on the door”被认为包含搭配“knock door”。因此，并非每个搭配都是n-gram。相反，并非每个n-gram都被视为有意义的搭配。
因为搭配不仅仅是各部分的总和，所以单个字数不能充分捕捉它们的含义。bag-of-words不足以作为代表。Bag-of-n-grams也存在问题，因为它捕获了太多含义 - 较少的序列（在n-gram例子中考虑“this is”）并且没有足够的有意义的序列（如knock door）。
搭配作为特征很有用。但是如何从文本中发现并提取它们呢？一种方法是预定义它们。如果我们真的很努力，我们可能会找到各种语言的综合成语列表，我们可以查看任何匹配的文本。这将是非常昂贵的，但它会工作。如果语料库是非常特定于域的并且包含深奥的术语，那么这可能是首选方法。但是该列表需要大量的手动策划，并且需要不断更新以适应不断变化的语料库。例如，分析推文或博客和文章可能不太现实。
自从过去二十年统计NLP出现以来，人们越来越多地选择用于查找短语的统计方法。统计配置提取方法不是建立一个固定的短语和惯用语句列表，而是依赖于不断发展的数据来揭示当时流行的说法。
Frequency-based methods
表3-2显示了整个Yelp评论数据集中最受欢迎的双字母组（n = 2）。正如我们所看到的，按文档计数排名前10位最常见的双字母组合是非常通用的术语，并不含有太多含义。

Hypothesis testing for collocation extraction
原始人气计数太粗糙了。我们必须找到更聪明的统计数据才能轻松挑选出有意义的短语。关键的想法是询问两个词是否比偶然出现的更频繁。回答这个问题的统计机制称为假设检验。
假设检验是一种将噪声数据归结为“是”或“否”答案的方法。它涉及将数据建模为从随机分布中抽取的样本。随机性意味着人们永远无法100％肯定答案; 一直有异常值的可能性。因此，答案与概率相关联。
在搭配提取的背景下，多年来已经提出了许多假设检验。最成功的方法之一是基于似然比检验（Dunning，1993）。对于给定的单词对，该方法测试观察数据集上的两个假设。假设1（零假设）说单词1独立于单词2.另一种说法是看到单词1与我们是否也看到单词2无关。假设2（备选假设）说看到单词1 改变看到单词2的可能性。我们采用替代假设来暗示这两个单词形成一个共同的短语。因此，短语检测的似然比检验（又名配置提取）会询问以下问题：给定文本语料库中观察到的单词出现次数是否更可能是从两个单词彼此独立出现的模型生成的，或者是这两个词的概率纠缠在一起的模型？
我们可以将零假设 $H_{null}$ （独立）表示为 $\ w1）$ ,并且替代假设 $H_{alternate}$ （非独立）为 $\ w1）$ 。
最终的统计数据是两者之间比率的对数：
$\log{\lambda} = \log{\frac{L(Data; H_{null})}{L(Data;H_{alternate})}}$
似然函数 $L (D a t a; H)$ 表示在单词对的独立或非独立模型下看数据集中的单词频率的概率。为了计算这个概率，我们必须对如何生成数据做出另一个假设。最简单的数据生成模型是二项式模型，对于数据集中的每个单词，我们抛硬币，如果硬币出现，我们会插入特殊字，否则会插入其他字。在此策略下，特殊单词出现次数的计数遵循二项分布。二项分布完全由词的总数，感兴趣的词的出现次数和头部概率确定。
通过似然比检验分析检测常用短语的算法如下：
1.计算所有单例单词的出现概率： $P （ w ）$
2.计算所有唯一双单词的条件成对词出现概率： $P （ w 2 ∣ w 1 ）$
3.计算所有独特双单词的似然比logλ
4.基于它们的似然比排序
5.把最小比率的双单词作为特征
Chunking and part-of-speech tagging
分块比找n-gram更复杂，因为它使用基于规则的模型形成基于词性的标记序列。
例如，我们可能最感兴趣的是找到问题中的所有名词短语，其中实体（在本例中是文本的主题）对我们来说是最有趣的。为了找到这一点，我们用词性标记每个单词，然后检查令牌的邻域以寻找词性分组或“块”。将单词映射到词性的模型通常是语言特定的。几个开源Python库，如NLTK，spaCy和TextBlob，都有多种语言模型可供使用。
为了说明Python中的几个库如何使用PoS标记进行分块相当简单，让我们再次使用Yelp评论数据集。在下面代码中，我们评估词性，使用spaCy和TextBlob查找名词短语。

import pandas as pd
import json
# Load the first 10 reviews
f = open('data/yelp/v6/yelp_academic_dataset_review.json')
js = []
for i in range(10):
    js.append(json.loads(f.readline()))
f.close()
review_df = pd.DataFrame(js)
# First we'll walk through spaCy's functions
import spacy
# preload the language model
nlp = spacy.load('en')
# We can create a Pandas Series of spaCy nlp variables
doc_df = review_df['text'].apply(nlp)
# spaCy gives us fine-grained parts of speech using (.pos_)
# and coarse-grained parts of speech using (.tag_)
for doc in doc_df[4]:
    print([doc.text, doc.pos_, doc.tag_])
Got VERB VBP
a DET DT
letter NOUN NN
in ADP IN
the DET DT
mail NOUN NN
last ADJ JJ
week NOUN NN
that ADJ WDT
said VERB VBD
Dr. PROPN NNP
Goldberg PROPN NNP
is VERB VBZ
moving VERB VBG
to ADP IN
Arizona PROPN NNP
to PART TO
take VERB VB
a DET DT
new ADJ JJ
position NOUN NN
there ADV RB
in ADP IN
June PROPN NNP
. PUNCT .
SPACE SP
He PRON PRP
will VERB MD
be VERB VB
missed VERB VBN
very ADV RB
much ADV RB
. PUNCT .
SPACE SP
I PRON PRP
think VERB VBP
finding VERB VBG
a DET DT
new ADJ JJ
doctor NOUN NN
in ADP IN
NYC PROPN NNP
that ADP IN
you PRON PRP
actually ADV RB
like INTJ UH
might VERB MD
almost ADV RB
be VERB VB
as ADV RB
awful ADJ JJ
as ADP IN
trying VERB VBG
to PART TO
find VERB VB
a DET DT
date NOUN NN
! PUNCT .
# spaCy also does some basic noun chunking for us
print([chunk for chunk in doc_df[4].noun_chunks])
[a letter, the mail, Dr. Goldberg, Arizona, a new position, June, He, I,
a new doctor, NYC, you, a date]
#####
# We can do the same feature transformations using Textblob
from textblob import TextBlob
# The default tagger in TextBlob uses the PatternTagger, which is OK for our example.
# You can also specify the NLTK tagger, which works better for incomplete sentences.
blob_df = review_df['text'].apply(TextBlob)
blob_df[4].tags
[('Got', 'NNP'),
('a', 'DT'),
('letter', 'NN'),
('in', 'IN'),
('the', 'DT'),
('mail', 'NN'),
('last', 'JJ'),
('week', 'NN'),
('that', 'WDT'),
('said', 'VBD'),
('Dr.', 'NNP'),
('Goldberg', 'NNP'),
('is', 'VBZ'),
('moving', 'VBG'),
('to', 'TO'),
('Arizona', 'NNP'),
('to', 'TO'),
('take', 'VB'),
('a', 'DT'),
('new', 'JJ'),
('position', 'NN'),
('there', 'RB'),
('in', 'IN'),
('June', 'NNP'),
('He', 'PRP'),
('will', 'MD'),
('be', 'VB'),
('missed', 'VBN'),
('very', 'RB'),
('much', 'JJ'),
('I', 'PRP'),
('think', 'VBP'),
('finding', 'VBG'),
('a', 'DT'),
('new', 'JJ'),
('doctor', 'NN'),
('in', 'IN'),
('NYC', 'NNP'),
('that', 'IN'),
('you', 'PRP'),
('actually', 'RB'),
('like', 'IN'),
('might', 'MD'),
('almost', 'RB'),
('be', 'VB'),
('as', 'RB'),
('awful', 'JJ'),
('as', 'IN'),
('trying', 'VBG'),
('to', 'TO'),
('find', 'VB'),
('a', 'DT'),
('date', 'NN')]
print([np for np in blob_df[4].noun_phrases])
['got', 'goldberg', 'arizona', 'new position', 'june', 'new doctor', 'nyc']

总结
bag-of-words表示易于理解，易于计算，并且对分类和搜索任务有用。但有时候单个单词太简单了，无法在文本中封装一些信息。为了解决这个问题，人们会寻找更长的序列。 bag-of-n-grams是bag-of-words的自然概括。这个概念仍然易于理解，并且像bag-of-words一样容易计算。
bag-of-n-grams产生更多不同的n-gram。它增加了特征存储成本，以及模型训练和预测阶段的计算成本。数据点的数量保持不变，但特征空间的维度现在要大得多。因此，数据更加稀疏。 n越大，存储和计算成本越高，数据越稀疏。由于这些原因，较长的n-gram并不总能导致模型精度（或任何其他性能测量）的改进。人们通常在n = 2或3时停止。很少使用较长的n-gram。
对抗稀疏度和成本增加的一种方法是过滤n-gram并仅保留最有意义的短语。这是搭配提取的目标。理论上，搭配（或短语）可以在文本中形成非连续的令牌序列。然而，在实践中，寻找不连续的短语具有更高的计算成本而没有太多的收益。因此，配置提取通常从候选人的bigrams列表开始，并利用统计方法来过滤它们。

美团Leaf分布式ID生成器使用教程：号段模式与Snowflake模式详解 Cloud_. 分布式
引言在分布式系统中，生成全局唯一ID是核心需求之一。美团开源的Leaf提供了两种分布式ID生成方案：号段模式（高可用、依赖数据库）和Snowflake模式（高性能、去中心化）。本文将手把手教你如何配置和使用这两种模式，并解析其核心机制。一、Leaf号段模式使用教程1.环境准备数据库：MySQL5.7+Java环境：JDK1.8+Leaf源码：从GitHub克隆Leaf仓库（推荐使用feature/
鸿蒙HarmonyOS实战：应用程序包-HAP 让开，我要吃人了 harmonyos 华为
HAP（HarmonyAbilityPackage）是应用安装和运行的基本单元。HAP包是由代码、资源、第三方库、配置文件等打包生成的模块包，其主要分为两种类型：entry和feature。entry：应用的主模块，作为应用的入口，提供了应用的基础功能。feature：应用的动态特性模块，作为应用能力的扩展，可以根据用户的需求和设备类型进行选择性安装。应用程序包可以只包含一个基础的entry包，也
NestJs bull 用法在你之后 node.js
bull简介队列bullbull用法https://github.com/OptimalBits/bullBulliscurrentlyinmaintenancemode,weareonlyfixingbugs.FornewfeaturescheckBullMQ,amodernrewrittenimplementationinTypescript.Youarestillverywelcometou
程序员别再用GitHub了！这个国产神器让你的开发效率原地起飞后端
去年这个时候，我还在为团队协作的代码管理头疼不已。直到某天凌晨三点，盯着满屏的Git指令的我突然发现，自己居然把feature分支合并到了生产环境——这个要命的失误让我在茶水间被同事调侃了整整三个月。就在我准备写辞职信的时候，一个偶然的机会让我遇到了DeepSeek，这个国产开发神器彻底改变了我的职业生涯。你可能很难想象，现在我的团队每天要处理200多个合并请求，但再也没出现过那次凌晨三点的事故。
【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？ 985小水博一枚呀深度学习学习笔记迁移学习人工智能机器学习域适应
【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？文章目录【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？1.背景介绍2.理论基础2.1分布差异（DomainShift）2.2迁移学习理论（TransferLearningTheory）2.3领域不变特征（Domain-invariantFeatures）
Git 分支删除操作指南（含本地与远程）滴答滴答滴嗒滴开发 GIT 入门指南 git 团队开发人工智能 gitlab
Git分支删除操作指南（含本地与远程）在多人协作的开发过程中，定期清理已合并的临时分支（如feature/*、bugfix/*、hotfix/*等）可以保持仓库整洁，避免混乱。分支命名规范回顾分支名用途说明main生产环境主分支develop日常开发主干feature/*新功能开发分支bugfix/*日常问题修复分支release/*准备发布的版本分支hotfix/*紧急修复线上问题分支清理操作流
Git 分支使用规范全解（多人协作开发适用）滴答滴答滴嗒滴开发入门指南 git 个人开发前端后端边缘计算
Git分支使用规范全解（多人协作开发适用）本文将为你梳理一套清晰、标准、适合企业/团队使用的Git分支管理策略，适用于前后端、边缘端、AI项目等多种场景。为什么要规范分支管理？防止多人协作混乱、冲突频发清晰区分：开发中/待发布/已上线的版本快速定位问题来源：feature？hotfix？bugfix？支持代码审查、回滚、自动部署等流程️分支结构总览main#生产环境分支，仅上线代码！develop
Git 分支使用规范全解（附项目示例）滴答滴答滴嗒滴开发 Ai 入门指南 git elasticsearch 大数据个人开发
Git分支使用规范全解（附项目示例）本文结合实际项目开发，详细讲解如何在多人协作中使用Git分支，包括main、develop、feature/*、bugfix/*、release/*、hotfix/*等分支类型。场景背景：开发一个“智能垃圾分类系统”目标是开发一套运行于边缘设备上的垃圾识别系统，使用AI算法模型识别投放物，并分类投放，同时配有后台管理页面。分支说明与实际应用示例main分支（生产
AGI大模型（5）：提示词工程不死鸟.亚历山大.狼崽子 AGI大模型 agi
1什么是提示词工程（Prompt）所谓的提示词其实指的就是提供给模型的⼀个⽂本⽚段，⽤于指导模型⽣成特定的输出或回答。提示词的⽬的是为模型提供⼀个任务的上下⽂，以便模型能够更准确地理解⽤户的意图，并⽣成相关的回应。2什么是提示⼯程(PromptEngineering)所谓的提示⼯程也可以被称为「指令⼯程」，提示⼯程的核⼼思想是，通过精⼼设计的提示，可以显著提⾼模型的性能和输出质量。貌似简单，但其实
python中使用单例模式在整个程序中只创建一个数据库连接，节省资源背太阳的牧羊人 python 数据库数据库 python 单例模式
示例代码：fromloguruimportloggerfrompymongoimportMongoClientfrompymongo.errorsimportConnectionFailurefromllm_engineering.settingsimportsettingsclassMongoDatabaseConnector:_instance:MongoClient|None=Nonedef
技术解析麦萌短剧《阴阳无极》：从「性别偏见下的对抗训练」到「分布式江湖的架构重构」短剧萌分布式架构重构
《阴阳无极》以陈千叶的武道觉醒为线索，展现了传统系统的路径依赖困境与对抗性策略的范式突破。本文将从算法博弈视角拆解这场武侠革命的底层逻辑，探讨如何在性别偏见的数据集中完成模型的自我进化。1.初始模型偏差：继承权剥夺与梯度冻结陈千叶（Agent_C）的成长可视为有偏数据集上的训练：特征歧视：太极门继承规则（Legacy_Rule）作为传统分类器，强行将性别（Gender_Feature）设为负权重参
prompt 工程整理（未完、持续更新） clvsit LLM prompt 人工智能 LLM
工作期间会将阅读的论文、一些个人的理解整理到个人的文档中，久而久之就积累了不少“个人”能够看懂的脉络和提纲，于是近几日准备将这部分略显杂乱的内容重新进行梳理。论文部分以我个人的理解对其做了一些分类，并附上一些简短的理解，若读者对其感兴趣，可通过论文名称进行搜索。后续有时间，会持续更新和补充。提示工程（PromptEngineering）关注提示词开发和优化，帮助用户将大语言模型（LargeLang
yaml常见的读取和写入南部余额 python python yaml
allow_unicode=True：遇到中文不转换为unicode编码sort_keys=False：不进行排序，默认按照字母abcd排序importyamldefwrite_yaml_template():"""统一的yaml模板:return:"""yaml_template=[{'feature':None,'story':None,'title':None,'request':{'met
使用python反射，实现pytest读取yaml并发送请求南部余额 python python pytest
pytest+yamlyaml-feature:用户模块story:登录title:添加用户request:method:POSTurl:/system/user/listheaders:nullparams:nullvalidate:nullread_yaml_alldefread_yaml_all(path):withopen(path,'r',encoding='utf-8')asf:val
2025年机械工程、船舶与材料工程国际会议(ICMESME 2025) 投稿、参会咨询理科材料工程机械工程国际会议
2025InternationalConferenceonMechanicalEngineering,ShipandMaterialsEngineering一、大会信息会议简称：ICMESME2025大会地点：中国·桂林收录检索：提交EiCompendex,CPCI,CNKI,GoogleScholar等二、会议简介2025年机械工程、船舶与材料工程国际会议（简称ICMEMSE2025）即将在风景
【从零开始学习计算机科学】软件工程（三）需求工程贫苦游商学习软件工程需求分析软件需求需求文档软件开发敏捷编程
【从零开始学习计算机科学】软件工程（三）需求工程需求工程好的需求应具备的特征：需求工程（RequirementEngineering,RE）起始导出需求讨论会头脑风暴调查问卷场景分析法实地考察原型法精化协商规格说明确认需求管理需求工程设计和开发一个计算机软件时，如果软件解决的问题不对，那么再精巧的软件也满足不了任何人的要求。理解问题的需求是软件工程师所面对的最困难的任务之一。困难的原因有二：客户不
新手村：数据预处理-特征缩放嘉羽很烦机器学习线性回归算法机器学习
新手村：数据预处理-特征缩放特征缩放（FeatureScaling）是数据预处理中的一个重要步骤，特别是在应用某些机器学习算法时。特征缩放可以使不同尺度的特征具有相同的量级，从而提高模型训练的效率和性能。常见的特征缩放方法包括标准化（Standardization）和归一化（Normalization）。常见的特征缩放方法标准化（Standardization）将特征转换为均值为0，标准差为1的标
【NLP】 9. 处理创造性词汇 & 词组特征（Creative Words & Features Model），词袋模型处理未知词，模型得分 pen-ai NLP 机器学习自然语言处理人工智能深度学习
这里写目录标题处理创造性词汇&词组特征（CreativeWords&FeaturesModel）1.处理否定（NegationHandling）2.词组特征（Bigrams&N-grams）3.结合否定传播与n-grams进行优化词袋模型（Bag-of-Words,BoW）1.BoW示例2.处理未知词3.为什么忽略未知词？4.处理未知词的方法计算模型得分（ScoreCalculation）处理创造
MATLAB算法实战应用案例精讲-【深度学习】归一化林聪木 matlab 算法深度学习
目录为什么要做特征归一化/标准化？常用featurescaling方法计算方式上对比分析featurescaling需要还是不需要什么时候需要featurescaling？什么时候不需要FeatureScaling？归一化基础知识点1.什么是归一化2.为什么要归一化3.为什么归一化能提高求解最优解的速度4.归一化有哪些类型5.不同归一化的使用条件6.归一化和标准化的联系与区别层归一化综述提出背景概
AI大模型测试用例生成平台王根生测试开发测试用例质量保障 AI编程 nlp 测试管理软件测试
AI测试用例生成平台项目背景技术栈业务描述项目展示项目重难点项目背景针对传统接口测试用例设计高度依赖人工经验、重复工作量大、覆盖场景有限等行业痛点，基于大语言模型技术实现接口测试用例智能生成系统。技术栈LangChain框架+GLM-4模型+PromptEngineering+Flask+Python+Bootstrap+jQuery业务描述用户在该平台上传Markdown形式的接口文档，点击生成
图像拼接-UDIS详细推导和精读Unsupervised Deep Image Stitching: ReconstructingStitched Features to Images cccc来财算法计算机视觉深度学习
无监督粗对齐1.基于消融的策略主要是为了找到重叠区，去除无效区2.拼接域的TransformerLayer无监督图像重建1.低分辨率变形单应性变换仅能表示同一深度的空间变换，在实际的图像拼接任务中，由于输入图像的多样性和复杂性，经过第一阶段的粗对齐后，图像往往无法完全对齐。为了让网络能够感知到这些错位区域，特别是在高分辨率和大视差的情况下，设计了低分辨率变形分支，先在低分辨率下对图像进行处理和学习
Batch Normalization理解 zhimengxiang 图像处理人工智能图像处理
BatchNormalization理解BatchNormalization：批归一化我们在图像预处理过程中通常会对图像进行标准化处理，这样能够加速网络的收敛，如下图所示，对于Conv1来说输入的就是满足某一分布的特征矩阵，但对于Conv2而言输入的featuremap就不一定满足某一分布规律了（注意这里所说满足某一分布规律并不是指某一个featuremap的数据要满足分布规律，理论上是指整个训练
Vue+OpenLayers 实现点击查询要素信息小zhi学习 vue+ol vue.js css css3
1、给地图绑定点击事件this.map.on('click',this.mapClick);2、导入axiosnpmiaxiosimportaxiosfrom'axios'3、编写方法mapClick(event){//获取url的getFeatureInfo请求地址varurl=this.layer.getSource().getFeatureInfoUrl(event.coordinate,t
Vue2+OpenLayers点聚合功能实现（提供Gitee源码）黄团团 Vue OpenLayers vue.js 前端数据库 html
目录一、案例截图二、安装OpenLayers库三、代码实现3.1、初始化点位3.2、初始化VectorSource3.3、初始化Cluster3.4、初始化VectorLayer3.5、完整代码四、Gitee源码一、案例截图一定距离的点（可配置）系统会自动聚合：二、安装OpenLayers库npminstallol三、代码实现3.1、初始化点位这里返回一个Features集合，也就是点位集合。关键
RY9121 17V 2A 500KHz ECOT PWM Sync Step-Down Regulator BTSS2013 同步降压调节器
1、FeaturesWide4.5Vto17VOperatingInputRange110mΩ/70mΩLowRDs(oN)InternalPower2AContinuousOutputCurrentMOSFETS500KHzSwitchingFrequencyOutputAdjustablefrom0.6VECOTModeControlwithFastTransientNoSchottkyDio
【大模型学习】第十九章什么是迁移学习好多渔鱼好多 AI大模型人工智能大模型 AI 机器学习迁移学习
目录1.迁移学习的起源背景1.1传统机器学习的问题1.2迁移学习的提出背景2.什么是迁移学习2.1迁移学习的定义2.2生活实例解释3.技术要点与原理3.1迁移学习方法分类3.1.1基于特征的迁移学习（Feature-basedTransfer）案例说明代码示例3.1.2基于模型的迁移（Model-basedTransfer）案例说明BERT用于情感分析的例子3.1.3基于实例的迁移（Instanc
react组件设计原则_前端组件设计原则 weixin_39825259 react组件设计原则
原标题：前端组件设计原则译者：@没有好名字了译文：https://github.com/lightningminers/article/issues/36，https://juejin.im/post/5c49cff56fb9a049bd42a90f作者：@AndrewDinihan原文：https://engineering.carsguide.com.au/front-end-componen
【LLM大模型】大模型涌现能力及 Prompt Engineering提示词 Langchain prompt 人工智能 llama langchain ai大模型 LLM
涌现能力GPT3是第一批拥有“涌现能力”的大语言模型，即模型未经特定任务的训练，但在适当的提示下，仍然能够解决某些特定领域的问题。例如大语言模型可以解答数学问题、辅助进行编程、甚至是进行问答等，其实都属于模型的涌现能力。作为概率模型，大语言模型甚至不知道数字代表的真实含义，模型只是在学习了无数的语料之后，发现了一些数学结论之间的潜在概率关系，才最终涌现出了数学运算或者复杂推理的能力。但是“涌现能力
揭秘Prompt Engineering 提示词工程（附学习文档） LLM. prompt 人工智能 ai大模型大模型提示词工程大语言模型 LLM
PromptEngineering概览何为Prompt在自然语言处理领域，尤其是与大型语言模型（LLM）互动时，Prompt起着至关重要的作用。形象地说：LLM是金矿：大型语言模型如同深藏不露的金矿，蕴藏着巨大的知识与创造力潜力。Prompt是钥匙：而Prompt，则是开启这座金矿的钥匙。通过精心设计的问题或指令（Prompt），我们能引导模型产生特定的、有价值的输出，如文章创作、代码编写、问题解
基于python 利用ERA5 资料绘制水汽剖面图 happycatherin python numpy matplotlib
#-*-coding:utf-8-*-"""CreatedonMonApr309:28:072023@author:PC"""#-*-coding:utf-8-*-"""CreatedonMonJul1116:54:302022@author:PC"""importcartopy.crsasccrsimportcartopy.featureascfeatureimportmatplotlib.py
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

Feature Engineering for Machine Learning 机器学习中的特征工程（三）

你可能感兴趣的:(feature,engineering)