irrationality

【打卡-Coggle竞赛学习2023年3月】对话意图识别

学习链接：
https://coggle.club/blog/30days-of-ml-202303

## Part1 内容介绍

本月竞赛学习将以对话意图识别展开，意图识别是指分析用户的核心需求，错误的识别几乎可以确定找不到能满足用户需求的内容，导致产生非常差的用户体验。

在对话过程中要准确理解对方所想表达的意思，这是具有很大挑战性的任务。在本次学习中我们将学习：

自然语言处理基础
文本分类路线：TFIDF、FastText、BERT、Prompt
文本大模型BERT、T5和GPT原理

在本月中我们将加入与ChatGPT精度对比（由小助手教ChatGPT进行意图识别）的环节，如果你的模型高于排行榜上的ChatGPT会获得其他奖励。

## Part4 意图识别

### 背景介绍

意图识别（Intent Recognition）是指通过自然语言文本来自动识别出用户的意图或目的的一项技术任务。在人机交互、语音识别、自然语言处理等领域中，意图识别扮演着至关重要的角色。

意图识别有很多用途，例如在搜索引擎中分析用户的核心搜索需求，在对话系统中了解用户想要什么业务或者闲聊，在身份识别中判断用户的身份信息等等。意图识别可以提高用户体验和服务质量。

### 环境配置

实践环境建议以Python3.7+，且需要安装如下库：

numpy
pandas
networkx
igraph

### 学习打卡

任务名称	难度/分值
任务1：数据读取与分析	低/1
任务2：TFIDF提取与分类	中/2
任务3：词向量训练与使用	中/2
任务4：LSTM意图分类	高/3
任务5：BERT意图分类	高/3
任务6：T5/Prompt意图分类	高/3

打卡地址：https://shimo.im/forms/WzKfKu5RFdQICu6I/fill

注明：

在任务积分外还考虑模型在排行榜的得分，同等积分下排名榜排名优先。
如果使用Paddle或AI Studio打卡的同学，会获取额外的奖励。

#### 任务1：数据读取与分析

NLP是自然语言处理的缩写，是研究如何让计算机理解和处理自然语言的一门技术。自然语言是人类交流和表达思想的主要工具，具有丰富的语义和多样的形式。学习NLP需要掌握基本的语言学概念、文本预处理和文本表示方法等基础知识。语言学概念可以帮助我们分析自然语言的结构和规律，文本预处理可以帮助我们清洗和规范化文本数据，文本表示方法可以帮助我们将文本转换为计算机可处理的数值向量。

学习NLP很难的原因可能有以下几点：NLP涉及多个领域的知识，需要有较强的综合能力和自学能力；NLP是一个快速发展的领域，需要不断更新自己的知识和技能；NLP面临很多挑战和难题，如自然语言的歧义性、复杂性、多样性等。

步骤1：下载意图识别数据集，该数据集是一个多分类任务，目标是根据用户的输入文本判断用户的意图。意图识别数据集的下载地址和练习平台如下：https://competition.coggle.club/
步骤2：使用Pandas库读取数据集，Pandas是一个用于数据分析和处理的Python库，可以方便地读取、操作和保存各种格式的数据文件。使用Pandas的read_csv函数可以读取csv格式的数据文件，并返回一个DataFrame对象。
步骤3：统计训练集和测试集的类别分布、文本长度等基本信息，以了解数据集的特征和难度。使用DataFrame对象的value_counts函数可以统计每个类别出现的次数和比例，使用apply函数和len函数可以统计每个文本的长度。
步骤4：通过上述步骤，请回答下面问题
- 数据集的类别分布一致吗？根据统计结果，比较训练集和测试集中每个类别出现的次数和比例是否相近。
- 数据集中的文本是长文本还是短文本？根据统计结果，查看每个文本的长度分布情况，如文本长度的中位数。
- 数据集中总共包含了多少个字符，多少个单词？将单词按照意图类别绘制云图。
  解答：
数据集的类别分布一致吗？根据统计结果，比较训练集和测试集中每个类别出现的次数和比例是否相近。

数据集的类别分布不完全一致，但是大致相似。训练集中最常见的三个类别都是FilmTele-Play、Video-Play和Music-Play，而最不常见的三个类别是TVProgram-Play、Audio-Play和Other。训练集和测试集中每个类别出现的比例也基本接近，除了一些小的差异，训练集中大部分数据是均匀的，都占10%左右；而最小的类别都占2%左右。

数据集中的文本是长文本还是短文本？根据统计结果，查看每个文本的长度分布情况，如文本长度的中位数。

数据集中的文本都是短文本。根据统计结果，训练集和测试集中每个文本的平均长度都在15左右，最大长度都不超过60，最小长度大于4。训练集和测试集中每个文本的长度中位数都为15。

数据集中总共包含了多少个字符，多少个单词？将单词按照意图类别绘制云图。

数据集中总共包含了约18万个字符，约1.2万多个单词。将单词按照意图类别绘制云图需要使用其他库或工具，如matplotlib或wordcloud。
统计字符和单词：

按照类别绘制词云如下：

# 也可通过下面的读取方式进行读取
import pandas as pd
train_data = pd.read_csv('https://mirror.coggle.club/dataset/coggle-competition/intent-recognition-train.csv')
test_data = pd.read_csv('https://mirror.coggle.club/dataset/coggle-competition/intent-recognition-test.csv')

#### 任务2：TFIDF提取与分类

TFIDF（词频-逆文档频率）是一种常见的文本表示方法，可以用于文本分类任务。TFIDF将文本表示为词项的权重向量，其中每个词项的权重由其在文本中出现的频率和在整个语料库中出现的频率共同决定。TFIDF可以反映出词项在文本中的重要程度，越是常见的词项权重越低，越是稀有的词项权重越高。

步骤1：使用sklearn中的TfidfVectorizer类提取训练集和测试集的特征，
步骤2：使用KNN/LR/SVM等分类器对训练集进行训练，并对验证集和测试集进行预测，评估模型的性能。
步骤3：通过上述步骤，请回答下面问题
- TFIDF中可以设置哪些参数，如何影响到提取的特征？TfidfVectorizer类中可以设置以下参数：
  - max_df: 用于过滤掉高频词项，在[0.0, 1.0]之间表示比例；
  - min_df: 用于过滤掉低频词项，在[0.0, 1.0]之间表示比例；
  - max_features: 用于限制提取特征的数量，默认为None。
  - ngram_range: 用于指定提取n元语法特征时n值范围，默认为(1, 1)，即只提取单个词项。
  - stop_words: 用于指定停用词列表，默认为None。
  - norm: 用于指定归一化方法，默认为’l2’范数。
  - use_idf: 是否使用逆文档频率计算权重，默认为True。
  - smooth_idf: 是否平滑逆文档频率计算，默认为True
    TFIDF中可以设置哪些参数，如何影响到提取的特征？TfidfVectorizer类中可以设置以下参数： max_df: 用于过滤掉高频词项，在[0.0, 1.0]之间表示比例； min_df: 用于过滤掉低频词项，在[0.0, 1.0]之间表示比例； max_features: 用于限制提取特征的数量，默认为None。 ngram_range: 用于指定提取n元语法特征时n值范围，默认为(1, 1)，即只提取单个词项。 stop_words: 用于指定停用词列表，默认为None。 norm: 用于指定归一化方法，默认为’l2’范数。 use_idf: 是否使用逆文档频率计算权重，默认为True。 smooth_idf: 是否平滑逆文档频率计算，默认为True。
    这些参数会影响到提取特征的数量、稀疏度、分布等方面。一般来说，需要根据具体的任务和数据来调整这些参数以达到最佳效果。
- KNN/LR/SVM的精度对比：根据实验结果，比较三种分类器在验证集和测试集上预测正确率、召回率、F1值等指标，并分析各自优缺点。
- KNN/LR/SVM的精度对比：根据实验结果，比较三种分类器在验证集和测试集上预测正确率、召回率、F1值等指标，并分析各自优缺点。

根据我运行的代码，我得到了以下的结果：

分类器	正确率	召回率	F1值
KNN	0.10495867768595041	0.09273821206598055	0.032785163251865944
LR	0.1256198347107438	0.09770767552764498	0.04474244044902318
SVM	0.1268595041322314	0.10225313007309951	0.0524616354857817

可以看出，LR和SVM在这个任务上表现最好，KNN稍逊一筹。这可能是因为LR和SVM能够更好地处理高维稀疏的特征空间，而KNN受到维数灾难的影响。LR和SVM的优点是可以进行特征选择和正则化，避免过拟合；缺点是需要调整超参数，如正则化系数和损失函数。KNN的优点是简单易用，不需要训练；缺点是计算量大，对噪声敏感，需要选择合适的邻居数目。

#### 任务3：词向量训练与使用

词向量是一种将单词转化为向量表示的技术，在自然语言处理中被广泛应用。通过将单词映射到一个低维向量空间中，词向量可以在一定程度上捕捉到单词的语义信息和关联关系，进而提高自然语言处理任务的性能。以下是使用词向量进行文本分类的一个简单示例：

步骤1：使用结巴对文本进行分词，结巴是一个基于Python的中文分词工具，并支持自定义字典和停用词。
步骤2：使用gensim训练词向量，也可以考虑加载已有的预训练词向量。gensim是一个基于Python的自然语言处理库，可以方便地训练或加载词向量，并进行相似度计算、最近邻查询等操作。
步骤3：使用词向量对单词进行编码，然后计算句子向量（可以直接求词向量均值）。将每个单词替换为其对应的词向量后，得到一个由多个向量组成的矩阵。为了简化计算和降低维度，可以对矩阵按行求均值，得到一个代表句子含义的句子向量。
步骤4：使用LR、SVM和决策树对句子向量进行训练，验证和预测。LR（逻辑回归）、SVM（支持向量机）和决策树都是常用的机器学习分类算法，可以使用sklearn库中提供的相关函数来实现。
步骤5：通过上述步骤，请回答下面问题
- 词向量的维度会影响到模型精度吗？一般来说，词向量的维度越高，则表示单词语义信息和关联关系的能力越强；但同时也会增加计算复杂度和过拟合风险。
- 词向量编码后使用树模型和LR，谁的精度高，为什么？这个问题没有确定性答案，可能取决于数据集特征、参数设置、随机因素等。
步骤5：通过上述步骤，请回答下面问题 - 词向量的维度会影响到模型精度吗？一般来说，词向量的维度越高，则表示单词语义信息和关联关系的能力越强；但同时也会增加计算复杂度和过拟合风险。 - 词向量编码后使用树模型和LR，谁的精度高，为什么？这个问题没有确定性答案，可能取决于数据集特征、参数设置、随机因素等。
回答1：词向量的维度会影响到模型精度吗？一般来说，词向量的维度越高，则表示单词语义信息和关联关系的能力越强；但同时也会增加计算复杂度和过拟合风险。这是一个正确而且合理的回答。
回答2：词向量编码后使用树模型和LR，谁的精度高，为什么？这个问题没有确定性答案，可能取决于数据集特征、参数设置、随机因素等。这是一个不完整而且不具体的回答。你可以尝试给出一个基于实验结果或者理论分析的推测，并说明你所依据或假设的条件。例如：

假设我们使用了相同大小、相同分布、相同随机种子划分出来的训练集和测试集，并且对三种分类器都采用了默认参数设置，则我们可以观察到，在我们给出的示例数据集上，逻辑回归模型（LR）比决策树模型（DT）有更高的准确率。这可能是因为逻辑回归是一种线性分类器，而句子向量之间可能存在较强或较明显地线性可分性；而决策树是一种非线性分类器，它通过划分特征空间来构建复杂模型。

#### 任务4：LSTM意图分类

LSTM（Long Short-Term Memory）是一种特殊的循环神经网络，在文本分类任务中表现良好。LSTM可以通过对输入文本进行序列建模来捕捉文本中的长期依赖关系，并对文本进行分类。

步骤1：搭建LSTM模型，具体结构为Embedding层、LSTM层和全连接层；
- Embedding层：将输入的文本转换为词向量表示，降低维度并保留语义信息；
- LSTM层：使用长短期记忆单元处理词向量序列，学习文本中的上下文信息，并输出隐藏状态；
- 全连接层：将LSTM层的最后一个隐藏状态作为特征输入，使用softmax函数输出每个类别的概率。
步骤2：使用任务3中的词向量初始化Embedding层
步骤3：LSTM模型的训练，验证和预测
步骤4：通过上述步骤，请回答下面问题
- Embedding层的精度与初始化方式相关吗？
- LSTM模型精度与文本最大长度是否相关？
  根据搜索结果，Embedding层的精度与初始化方式相关。不同的初始化方式会影响词向量的学习速度和效果。一般来说，有三种常用的初始化方式：
随机初始化：使用均匀分布或正态分布生成随机数作为词向量。
预训练初始化：使用已经在大规模语料上训练好的词向量，如Word2Vec或GloVe。
词频初始化：使用词频或逆文档频率等统计信息作为词向量。

预训练初始化通常可以提高Embedding层的精度，因为它可以利用先验知识和语义信息。但是，如果预训练词向量和目标任务不匹配，或者存在未登录词，那么随机初始化或者词频初始化可能会更好。

LSTM模型精度与文本最大长度是否相关，取决于具体的任务和数据集。一般来说，文本最大长度应该能够覆盖大部分样本的实际长度，并且不要过长或过短。如果文本最大长度过长，那么可能会导致LSTM层处理很多无用的填充符号，并且增加计算开销和梯度消失的风险。如果文本最大长度过短，那么可能会导致LSTM层损失很多有用的信息，并且降低模型表达能力。

#### 任务5：BERT意图分类

BERT（Bidirectional Encoder Representations from Transformers）是一种预训练语言模型，它可以生成高质量的文本表示，并被广泛应用于文本分类任务。BERT使用双向Transformer编码器来捕捉文本中的上下文信息，从而获得更好的表示效果。

步骤1：加载BERT模型，对文本进行编码
步骤2：BERT模型的训练，验证和预测
步骤3：通过上述步骤，请回答下面问题
- BERT模型精度与文本最大长度是否相关？
- BERT模型分类时最后全连接层的输入是什么含义？
  
  根据一些网上的资料，BERT模型的精度与文本最大长度是有关系的。BERT模型由于position-embedding的限制只能处理最长512个词的句子。如果文本长度超过512，那么就需要进行截断或者分段处理，这可能会影响模型对上下文信息的理解和编码，从而降低模型的精度。一般来说，文本越长，信息量越大，模型需要更多的参数和计算资源才能有效地学习到语言表示。

#### 任务6：T5/Prompt意图分类

Prompt分类（Prompt-based Classification）是一种新兴的文本分类技术，它通过将任务特定的提示文本（Prompt Text）与输入文本（Input Text）一起输入到预训练语言模型（Pre-trained Language Model）中来实现文本分类。Prompt分类具有高度灵活性和可扩展性，并已经在多个NLP任务中取得了优异的性能。

Prompt分类的基本思想是将文本分类任务转化为掩码语言模型（Masked Language Modeling，MLM）任务，通过预测掩码位置（[MASK]）的输出来判断类别。例如，通过文本描述判定天气好坏，类别【好、坏】：常规方法是在BERT模型之后添加一个分类层，哪个输出节点概率最大则划分到哪一类别；而Prompt分类方法是在输入文本前后添加提示文本，并在类别位置添加掩码标记：

输入：[CLS] 文字描述：今天阳光明媚，微风拂面。天气：[MASK] [SEP]
输出：天气：好

Prompt分类的优势是可以利用预训练语言模型的强大表达能力和泛化能力，无需额外增加参数或进行微调。Prompt分类的挑战是如何设计合适的提示文本来引导模型进行正确的推理和预测。

Prompt分类是一种利用预训练语言模型的强大表达能力和泛化能力，无需额外增加参数或进行微调的方法，它通过在输入中插入模板来引导模型进行正确的推理和预测¹²。BERT分类是一种基于BERT模型的文本分类方法，它需要对BERT模型进行微调，以适应特定的下游任务⁴⁵⁶。

Prompt分类和BERT分类在精度上的区别可能取决于不同的因素，如数据集的大小、质量和分布，模型的结构和参数，以及提示文本的设计和选择¹²。一般来说，Prompt分类的优势是可以减少计算资源的消耗，提高模型的泛化能力和适应性，而BERT分类的优势是可以更好地利用标注数据，提高模型的准确性和稳定性¹²⁵。

自定义提示对模型的精度是有影响的，因为不同的提示可能会激发模型不同的语义理解和推理能力¹²。一般来说，提示应该尽可能地简洁、清晰和相关，以避免引入噪声或歧义，同时也应该尽可能地充分、丰富和多样，以提高模型的表达能力和泛化能力¹²。例如，对于意图识别的任务，可以尝试以下两种不同的提示：

提示1：这句话的意图是什么？[MASK]
提示2：这句话的意图是[MASK]，对吗？

可以根据您的数据集和任务来选择和设计合适的提示，也可以参考一些已有的提示生成和优化的方法¹²³。

参考：https://kexue.fm/archives/7764

步骤1：加载BERT模型或 T5模型
步骤2：将样本加入自定义prompt

先定义我们的标签类型。

定义自己地prompt模板
然后随机加入标签

我采用的是中文编码器，因此有可能需要把标签也换成中文，因为用英文标签时出现了一个维度错误。
步骤3：使用[MASK]分类进行训练和预测

最后精度可以达到75，增加epoch还可以继续提升。

步骤4：通过上述步骤，请回答下面问题
- Prompt分类比BERT分类相比，在精度上有什么区别？
- 自定义prompt对模型的精度是否有影响？可以尝试2种不同的prompt。
Prompt分类和BERT分类的区别是，Prompt分类不需要引入新的参数，而是利用预训练模型中已有的词汇来构造任务相关的输入模板。这样可以提高模型的泛化能力和样本效率。
自定义prompt对模型的精度是否有影响取决于prompt的设计和任务的难度。一般来说，prompt越能表达任务的语义，越能激活预训练模型中相关的知识，就越有利于提高精度。但是，如果prompt过长或过于复杂，可能会降低效果或增加计算成本。因此，选择合适的prompt很重要。

参考：2023/3/7(1) PromptBERT｜结合Prompt+对比学习，超越SimCSE两个多点 - 知乎. https://zhuanlan.zhihu.com/p/440790271
(2) 【综述】Prompting: 更好地将语言模型应用到NLP任务 - 知乎. https://zhuanlan.zhihu.com/p/386470305
(3) Prompt方法综述 - 知乎. https://zhuanlan.zhihu.com/p/431788068
(4) Prompt Pre-training：迈向更强大的Parameter-Efficient Prompt … https://zhuanlan.zhihu.com/p/428512183
(5) [ACL 2022] PERFECT 无需人工模板的prompt learning新框架 - 知乎. https://zhuanlan.zhihu.com/p/611645619
(6) Prompt方法综述 - 知乎. https://zhuanlan.zhihu.com/p/431788068

Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
微服务即时通信系统---（五）框架学习 YangZ123123 微服务即时通信系统学习微服务算法
目录ODB介绍安装build2安装odb-compiler安装ODB运行时库安装mysql和客户端开发包安装boostprofile库安装总体打包安装总体卸载总体升级头文件包含和编译时指明库ODB常见操作介绍类型映射ODB编程类与接口介绍mysql连接池对象类mysql客户端操作句柄类mysql事务操作类针对可能为空的字段封装的类似于智能指针的类型针对查询结果所封装的容器类和条件类mysql操作句
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
win32汇编环境,网络编程入门之九一品人家汇编
;在上一教程里，我们学习了在连接成功网站后，应该发送什么数据给网站;在前面的几个教程里，简单地运行了套接字机制连接网站的方式，这是字节级的网络连接，扩展几乎是无限的。;想了想，这个开个头就行了，暂时放下来，再讲下去越搞越复杂，还是把一些基础运用的方式讲一讲。以后回头再来研究它。;从这个教程开始，讲一下部分微软专用网络API的运用。;微软网络API有2个值得一提，1个是WinInet,还1个是Win
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
Jarslink 是一个 SOFA 方舟插件，用于管理多应用部署后端java
前言大家好，我是老马。sofastack其实出来很久了，第一次应该是在2022年左右开始关注，但是一直没有深入研究。最近想学习一下SOFA对于生态的设计和思考。sofaboot系列SOFABoot-00-sofaboot概览SOFABoot-01-蚂蚁金服开源的sofaboot是什么黑科技？SOFABoot-02-模块化隔离方案SOFABoot-03-sofaboot介绍SOFABoot-04-快
CCNP之IGP学习笔记（2022）码龄4年审核中笔记 OSPF RIP EIGRP IGP CCNP
evecommunityedition2.0.3-92_v1.4.1.ovaOVF（OpenVirtualizationFormat：开放虚拟化格式）和OVA（OpenVirtualizationAppliance：开放虚拟化设备）appliance器具collaborative合作的；协力完成的translation翻译；译文；译本；转化CollaborativeTranslationFrame
学习-Java常用类之Calendar类 AIains Educoder—Java java
第1关：学习-Java常用类之Calendar类任务描述相关知识编程要求测试说明任务描述本关任务：获取给定年月的最后一天。相关知识我们通过之前的学习已经能够格式化并创建一个日期对象了，但是我们如何才能设置和获取日期数据的特定部分呢，比如说小时，日，或者分钟?我们又如何在日期的这些部分加上或者减去值呢?calendar类是一个抽象类，是Java日期处理的核心类之一。Calendar类为操作日历字段，
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
【嵌入式学习2】指针 - 数组 XYN5114 嵌入式学习学习笔记嵌入式硬件 c语言
目录##概述##指针###指针特点##指针变量###指针变量特点##区别##指针变量的使用定义指针变量时：使用指针变量时：##通过指针间接修改变量的值##指针大小指针大小与数据类型无关：无论指针指向什么类型的数据（int、char、double等），指针本身的大小只取决于系统的位数（32位或64位）。##指针步长###指针步长的计算方式##空指针和野指针##多级指针##指针与常量##函数参数传递内
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
RK平台下Buildroot驱动编译环境入门 ItJavawfc RK系统-驱动驱动学习 Kernel Ubuntu Buildroot
提示：低配置电脑下驱动编译环境搭建，驱动学习环境准备文章目录目的需求环境Ubuntu18Desk桌面开发环境Buildroot编译环境基本要求个人环境VM环境配置+Buildroot编译环境配置Buildroot编译总结目的搭建驱动开发编译环境硬件环境要求不达标如何进行配置规避，使编译环境编译OK为后续自己开发工作中，学习环境做一个简单的指导需求这里我需要搭建的环境是Ubuntu上面用Linux源
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
C#基础学习（二）C#数组生存手册：从入门到“血压拉满“的奇妙旅程 FAREWELL00075 c#学习开发语言数组 Array
作为一只C#萌新，当你试图用数组装下整个世界时，系统可能会温柔地弹出一句**"Indexwasoutsidetheboundsofthearray."**。别慌！这份求生指南将用段子教你玩转数组一、数组是什么数组简单来说就是由相同元素组成的一个集合，数组里面不一定是数，还可能是bool,string等类型组成的集合。那么他有些什么特点呢：本质：装着相同类型元素的集装箱（比如一箱肥宅快乐水）特性：长
笔记：代码随想录算法训练营day60：并查集理论基础、寻找存在的路径 jingjingjing1111 笔记
本文为学习并查集理论基础|代码随想录、代码随想录过程中的思考find是找的顶头上司，而不是当前上司，最后怎么也得找到一个顶头上司的上司是自己，要不然这个结构也不成立使用issame替换会使被操作者为当前节点，而非根节点。join(u,v)的功能为将v的根节点挂到u的根节点下模拟过程可以看出，join中的find中的路径压缩要在长度大于2（路径大于1）的时候才会体现出来107.寻找存在的路径卡码网题
计算机基础：编码04，认识反码和补码水饺编程 MFC学习笔记 Win32学习笔记 windows c++mfc c语言
专栏导航本节文章分别属于《Win32学习笔记》和《MFC学习笔记》两个专栏，故划分为两个专栏导航。读者可以自行选择前往哪个专栏。（一）WIn32专栏导航上一篇：计算机基础：编码03，根据十进制数，求其原码回到目录下一篇：无（二）MFC专栏导航上一篇：计算机基础：编码03，根据十进制数，求其原码回到目录下一篇：无本节前言在前两节，我讲解了关于原码的知识。本节，我来讲解反码和补码。在学习本节之前，你需
【access开发】导入excel 并生成表 Access开发易登软件 vba Access开发 Excel html vba access excel 前端 access数据库低代码
hi，大家好呀！最近天气越来越暖了，在这个春暖花开的季节了，每天心情应该都是美美的，正所谓一年之计在于春，在这个美好的季节，大家一起努力学习学习吧！那我们来看看今天学点啥呢？大家在刚接触access时，很多都是excel的高手，学习的过程中，总会想着，怎么把现在的excel数据导入到access，那这个时候该怎么来操作呢？如果是新手，那肯定是导入excel就可以了，那如果你是一个爱show技术的e
Android Jetpack 应用架构指南小李子学编程 Android 开发文档指南 android android jetpack 学习
AndroidJetpack应用架构指南本指南涵盖Android应用开发的最佳实践和推荐架构，助力开发者构建健壮高效的应用程序。。前置要求本文假设您已具备Android框架基础知识。若需系统学习Android开发，建议先完成《Android基础知识》目录新架构设计背景移动应用交互特性核心架构原则分离关注点数据模型驱动界面单一数据源单向数据流分层架构设计界面层数据层领域层依赖管理方案工程实践指南参考
使用Python构建去中心化预测市场：从概念到实现 Echo_Wish Python！实战！python 去中心化开发语言
使用Python构建去中心化预测市场：从概念到实现大家好，我是Echo_Wish。今天，我们将深入探讨一个前沿的区块链应用——去中心化预测市场，并学习如何使用Python来构建一个简易的预测市场平台。预测市场是基于市场参与者对未来事件的预测来产生结果的地方，通常被用来预测政治事件、金融市场走向、体育比赛结果等。传统的预测市场如Augur、Polymarket等，基于去中心化平台，利用区块链技术确保
RocketMQ学习-Springboot整合RocketMQ wechatt_fee1024 面试 maven spring boot java
SpringBoot整合RocketMQ需要注意的是SpringBoot的starter集成包时，要注意版本。因为SpringBoot集成的RocketMQ的starter依赖由Spring社区提供，迭代比较快，版本之间的差异还是比较大的。可能版本不同，就导致使用的时候出现错误。maven依赖,直接把我的maven工程的配置放到这里了。普通消息maven工程创建我直接创建了一个空的maven工程，
回答我！！！如何用“快递分拣”讲明白OSI五层模型？茫忙然计算机网络网络
刚开始学习计算机网络时，会比较难理解计算机网络的五层协议，毕竟确实挺抽象的，接下来我用寄快递的过程来类比计算机网络的五层协议（物理层、数据链路层、网络层、传输层、应用层），帮助大家理解每一层的功能和作用。1.物理层（PhysicalLayer）——交通工具和道路快递中的比喻：卡车、飞机、轮船等运输工具，以及高速公路、铁路、航线等物理路径。功能：负责将包裹（数据）从一个地点物理传输到另一个地点，不关
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
【笔记】扩散模型（五）：Classifier-Free Guidance 理论推导与代码实现 LittleNyima Diffusion Models 笔记机器学习深度学习
论文链接：Classifier-FreeDiffusionGuidance上一篇文章我们学习了ClassifierGuidance，这种方法通过引入一个额外的分类器，使用梯度引导的方式成功地实现了条件生成。虽然ClassifierGuidance可以直接复用训练好的diffusionmodels，不过这种方法的问题是很明显的，首先需要额外训练一个分类器，而且这个分类器不仅仅分类一般的图像，还需要分
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后