whyte王

pytorch NLP自然语言处理入门一：文本表示

开始编辑：2024/2/16；最后编辑2024/2/16
教程出自：https://learn.microsoft.com/en-sg/training/modules/intro-natural-language-processing-pytorch/
第二部分：https://blog.csdn.net/qq_33345365/article/details/136142152

本博客旨在探讨处理自然语言文本的不同神经网络架构。近年来，自然语言处理(Natural Language Processing，NLP)经历了快速发展，主要是由于语言模型能够在大型文本语料库上使用无监督训练时更快地准确“理解”人类语言。例如，使用GPT-3或BERT等预训练文本模型生成句子，简化了许多NLP任务，并显著提高了性能。

本博客将重点关注在PyTorch中将NLP表示为张量的基本方面，以及经典的NLP架构，如使用词袋(BoW)、词嵌入、循环神经网络和生成网络。

以下是一些常见的自然语言处理 (NLP) 任务：

文本分类Text Classification： 用于将文本片段归类为预定义类的其中之一。例如，电子邮件垃圾邮件检测、新闻分类、将支持请求分配到某个类别等等。
意图分类Intent Classification： 是文本分类的一个特定案例，用于将对话 AI 系统中的输入话语映射到代表该短语实际含义或用户意图的意图之一。
情感分析Sentiment Analysis： 是一个回归任务，用于理解给定文本片段的负面程度。我们可以将数据集中的文本从最负面 (-1) 标记到最正面 (+1)，并训练一个模型输出文本的 “积极性” 数量。
命名实体识别 (Named Entity Recognition, NER)： 是从文本中提取实体的任务，例如日期、地址、人名等。NER 通常与意图分类一起用于对话系统中，从用户的话语中提取参数。
关键字提取keyword extraction： 类似的任务，用于找到文本中最有意义的词，然后可以将其用作标签。
文本摘要Text Summarization： 提取文本中最有意义的部分，为用户提供包含大部分含义的压缩版本。
问答Question/Answer： 从文本片段中提取答案的任务。该模型将文本片段和问题作为输入，需要在文本中找到包含答案的确切位置。例如，文本 “John 是一个 22 岁的学生，喜欢使用 Microsoft Learn”，问题 “John 多大了” 应该提供答案 “22”。

本博客将主要关注**文本分类**任务。使用新闻标题中的文本来分类它们属于四个类别中的哪一个：World, Sports, Business, Sci/Tech。此外还介绍生成模型，它可以自我生成类似人类的文本序列。

huggingface transformers的auto class分类，包含了目前大部分机器学习分类，详见https://blog.csdn.net/qq_33345365/article/details/136126773?spm=1001.2014.3001.5501

学习目标：

理解文本在自然语言处理任务中的处理方式
学习使用循环神经网络 (Recurrent Neural Networks, RNNs) 和生成网络
掌握构建文本分类模型的方法

先修知识：

基础 Python 知识
基本使用 Jupyter notebook 的经验
机器学习基础理解

Representing text as Tensors

文本表示

如果想用神经网络解决自然语言处理(NLP)任务，则需要一些方法将文本表示为张量。计算机已经将文本字符表示为数字，这些数字使用ASCII或UTF-8等编码映射到屏幕上的字体。程序员知道每个字母代表什么，以及所有的字符如何组合成一个句子的单词。然而，计算机本身并没有这样的理解，神经网络必须在训练过程中学习其含义。

因此，在表示文本时，可以使用不同的方法:

字符级表示Character-level representation：将每个字符视为数字。假设文本语料库中有C个不同的字符，那么单词Hello将由5×C张量表示。在单热编码(one-hot encoding)中，每个字母对应一列张量。
单词级表示Word-level representation，创建文本序列或句子中所有单词的词汇表vocabulary，然后使用one-hot编码表示每个单词。这种方法在某种程度上更好，因为每个字母本身没有太多的含义，因此通过使用更高层次的语义概念——单词——简化了神经网络的任务。然而，给定一个大的字典大小，则需要处理高维稀疏张量。例如，如果词汇表有1万个不同的单词。那么每个单词的编码长度为10000，因此是高维。

token: 为了统一这些方法，我们通常将原子文本片段称为一个token。在某些情况下，token可以是字母，在其他情况下，可以是单词或单词的一部分。

例如，我们可以选择将“indivisible”标记为“ in-divis-ible”，其中‘-’符号表示该标记是前一个单词的延续。这将允许"divis"始终由一个token表示，对应于一个核心含义。

序列化tokenization：将文本转换为标记序列的过程。

向量化vectorization：为了可以将标记输入神经网络，为序列化的每个标记分配一个数字的过程称为vectorization，通常通过构建token词汇表来完成。

版本一览，如果无法运行，请参考如下版本与类进行安装：

pip install -r https://raw.githubusercontent.com/MicrosoftDocs/pytorchfundamentals/main/nlp-pytorch/requirements.txt
# 如果打不开，那么将下面内容复制到新文件“requirements.txt”，然后pip install -r 新文件.txt即可
gensim==3.8.3
huggingface==0.0.1
matplotlib
nltk==3.5
numpy==1.18.5
opencv-python==4.5.1.48
Pillow==7.1.2
scikit-learn
scipy
torch==1.8.1
torchaudio==0.8.1
torchinfo==0.0.8
torchtext==0.9.1
torchvision==0.9.1
transformers==4.3.3

文本分类任务Text classification task

在本模块中，我们将从基于AG_NEWS样本数据集的简单文本分类任务开始，即将新闻标题分为四类：World, Sports, Business and Sci/Tech。这个数据集是由PyTorch的torchtext模块构建的。

import torch
import torchtext
import os
import collections
# import portalocker
os.makedirs('./data',exist_ok=True)
train_dataset, test_dataset = torchtext.datasets.AG_NEWS(root='./data')
classes = ['World', 'Sports', 'Business', 'Sci/Tech']

在这里，’ train_dataset ‘和’ test_dataset '包含分别返回标签(类的数量)和文本对的迭代器，例如:

a = next(train_dataset)
print(a)
# 输出为：
# (3, "Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Street's dwindling\\band of ultra-cynics, are seeing green again.")

打印数据集中的前5个新标题:

for i,x in zip(range(5),train_dataset):
    # x[0]存放标题种类，可能是0，1，2，3，x[1]是标题
    print(f"**{classes[x[0]]}** -> {x[1]}\n")  
    
#输出为：
# **Sci/Tech** -> Carlyle Looks Toward Commercial Aerospace (Reuters) Reuters - Private investment firm Carlyle Group,\which has a reputation for making well-timed and occasionally\controversial plays in the defense industry, has quietly placed\its bets on another part of the market.
# **Sci/Tech** -> Oil and Economy Cloud Stocks' Outlook (Reuters) Reuters - Soaring crude prices plus worries\about the economy and the outlook for earnings are expected to\hang over the stock market next week during the depth of the\summer doldrums.
# **Sci/Tech** -> Iraq Halts Oil Exports from Main Southern Pipeline (Reuters) Reuters - Authorities have halted oil export\flows from the main pipeline in southern Iraq after\intelligence showed a rebel militia could strike\infrastructure, an oil official said on Saturday.
# **Sci/Tech** -> Oil prices soar to all-time record, posing new menace to US economy (AFP) AFP - Tearaway world oil prices, toppling records and straining wallets, present a new economic menace barely three months before the US presidential elections.
# **Sci/Tech** -> Stocks End Up, But Near Year Lows (Reuters) Reuters - Stocks ended slightly higher on Friday\but stayed near lows for the year as oil prices surged past  #36;46\a barrel, offsetting a positive outlook from computer maker\Dell Inc. (DELL.O)

因为数据集是迭代器，如果我们想多次使用数据，我们需要将其转换为列表list：

train_dataset, test_dataset = torchtext.datasets.AG_NEWS(root='./data')
train_dataset = list(train_dataset)
test_dataset = list(test_dataset)

序列化与向量化

现在我们需要将文本转换为可以表示为张量的数字，并将其输入神经网络。第一步是序列化：将文本转换为标记。如果我们使用word-level表示，每个词将由它自己的token表示。我们将使用torchtext模块的内置标记器：

tokenizer = torchtext.data.utils.get_tokenizer('basic_english')

PyTorch的tokenizer被用来拆分前两篇新闻文章中的单词和空格。本例使用basic_english作为tokenizer来理解语言结构。这将返回文本和字符的字符串列表。

basic_english分词器是一种简单分词器，它将文本分割成空格分隔的单词。它将所有单词转换为小写，并删除所有标点符号。

first_sentence = train_dataset[0][1]
second_sentence = train_dataset[1][1]

f_tokens = tokenizer(first_sentence)  # 使用tokenizer进行序列化
s_tokens = tokenizer(second_sentence)

print(f'\nfirst token list:\n{f_tokens}')  # 标题被序列化后的结果
print(f'\nsecond token list:\n{s_tokens}')

# 输出
# first token list:
# ['wall', 'st', '.', 'bears', 'claw', 'back', 'into', 'the', 'black', '(', 'reuters', ')', 'reuters', '-', 'short-sellers', ',', 'wall', 'street', "'", 's', 'dwindling\\band', 'of', 'ultra-cynics', ',', 'are', 'seeing', 'green', 'again', '.']

# second token list:
# ['carlyle', 'looks', 'toward', 'commercial', 'aerospace', '(', 'reuters', ')', 'reuters', '-', 'private', 'investment', 'firm', 'carlyle', 'group', ',', '\\which', 'has', 'a', 'reputation', 'for', 'making', 'well-timed', 'and', 'occasionally\\controversial', 'plays', 'in', 'the', 'defense', 'industry', ',', 'has', 'quietly', 'placed\\its', 'bets', 'on', 'another', 'part', 'of', 'the', 'market', '.']

接下来，要将文本转换为数字，需要构建包含所有标记的词汇表。首先使用Counter对象构建字典，然后创建一个Vocab对象来帮助我们处理向量化:

counter = collections.Counter()  # 初始化字典
for (label, line) in train_dataset:
    counter.update(tokenizer(line))  # 构建字典
vocab = torchtext.vocab.Vocab(counter, min_freq=1)  # 用来处理向量化

为了查看每个单词如何映射到词汇表，需要遍历列表中的每个单词以查找它在vocab中的索引号。每个单词或字符都显示其相应的索引。例如，单词“the”在两个句子中都出现了几次，它在词汇表中的唯一索引是数字3。

此处使用了python的列表推导式，可以参考https://blog.csdn.net/qq_33345365/article/details/136102620?spm=1001.2014.3001.5501了解相关知识

word_lookup = [list((vocab[w], w)) for w in f_tokens]
print(f'\nIndex lockup in 1st sentence:\n{word_lookup}')

word_lookup = [list((vocab[w], w)) for w in s_tokens]
print(f'\nIndex lockup in 2nd sentence:\n{word_lookup}')

# 输出
# Index lockup in 1st sentence:
# [[432, 'wall'], [426, 'st'], [2, '.'], [1606, 'bears'], [14839, 'claw'], [114, 'back'], [67, 'into'], [3, 'the'], [849, 'black'], [14, '('], [28, 'reuters'], [15, ')'], [28, 'reuters'], [16, '-'], [50726, 'short-sellers'], [4, ','], [432, 'wall'], [375, 'street'], [17, "'"], [10, 's'], [67508, 'dwindling\\band'], [7, 'of'], [52259, 'ultra-cynics'], [4, ','], [43, 'are'], [4010, 'seeing'], [784, 'green'], [326, 'again'], [2, '.']]
# Index lockup in 2nd sentence:
# [[15875, 'carlyle'], [1073, 'looks'], [855, 'toward'], [1311, 'commercial'], [4251, 'aerospace'], [14, '('], [28, 'reuters'], [15, ')'], [28, 'reuters'], [16, '-'], [930, 'private'], [798, 'investment'], [321, 'firm'], [15875, 'carlyle'], [99, 'group'], [4, ','], [27658, '\\which'], [29, 'has'], [6, 'a'], [4460, 'reputation'], [12, 'for'], [565, 'making'], [52791, 'well-timed'], [9, 'and'], [80618, 'occasionally\\controversial'], [2126, 'plays'], [8, 'in'], [3, 'the'], [526, 'defense'], [242, 'industry'], [4, ','], [29, 'has'], [3891, 'quietly'], [82815, 'placed\\its'], [6575, 'bets'], [11, 'on'], [207, 'another'], [360, 'part'], [7, 'of'], [3, 'the'], [127, 'market'], [2, '.']]

使用词汇表，可以很容易地将标记字符串编码为一组数字。以第一篇新闻文章为例:

vocab_size = len(vocab)
print(f"Vocab size if {vocab_size}")

def encode(x):
    return [vocab.stoi[s] for s in tokenizer(x)]  # 列表推导式

vec = encode(first_sentence)
print(vec)

# 输出
# Vocab size if 95812
# [432, 426, 2, 1606, 14839, 114, 67, 3, 849, 14, 28, 15, 28, 16, 50726, 4, 432, 375, 17, 10, 67508, 7, 52259, 4, 43, 4010, 784, 326, 2]

在这个代码中，torchtext的vocab.stoi字典允许我们将字符串表示转换为数字(stoi代表“从字符串到整数”)。要将文本从数字表示转换回文本，我们可以使用词汇表。它的字典执行反向查找:

def decode(x):
    return [vocab.itos[i] for i in x]
  
print(decode(vec))
# ['wall', 'st', '.', 'bears', 'claw', 'back', 'into', 'the', 'black', '(', 'reuters', ')', 'reuters', '-', 'short-sellers', ',', 'wall', 'street', "'", 's', 'dwindling\\band', 'of', 'ultra-cynics', ',', 'are', 'seeing', 'green', 'again', '.']

BiGrams, TriGrams and N-Grams

单词标记化的一个限制是有些单词是多单词表达的一部分，例如，单词“hot dog”与其他上下文中的单词 “hot” 和 “dog”具有完全不同的含义。如果总是用相同的向量来表示单词“hot”和“dog”，就会混淆模型。为了解决这个问题，有时在文档分类中使用N-gram表示，其中每个单词、双单词或三单词的频率是训练分类器的有用特征。

例如，在bigram表示中，除了原始单词外，我们将把所有的单词对(word pairs)添加到词汇表中。

为了获得n-gram表示，可以使用ngrams_iterator函数，该函数将token序列转换为n-gram序列。在下面的代码中，我们将从我们的新闻数据集中构建bigram词汇表:

from torchtext.data.utils import ngrams_iterator

bi_counter = collections.Counter()
for (label, line) in train_dataset:
    bi_counter.update(ngrams_iterator(tokenizer(line),ngrams=2))
bi_vocab = torchtext.vocab.Vocab(bi_counter, min_freq=2)

print(f"Bigram vocab size = {len(bi_vocab)}")
# 输出为：
# Bigram vocab size = 481971 for min_freq=2
# Bigram vocab size = 294491 for min_freq=3
def encode(x):
    return [bi_vocab.stoi[s] for s in tokenizer(x)]

print(encode(first_sentence))
# 输出为：
# [572, 564, 2, 2326, 49106, 150, 88, 3, 1143, 14, 32, 15, 32, 16, 443749, 4, 572, 499, 17, 10, 0, 7, 468770, 4, 52, 7019, 1050, 442, 2]

N-gram方法的主要缺点是词汇表的大小会以极快的速度增长。这里为Vocab构造函数指定min_freq标志，以避免那些只在文本中出现一次的标记。还可以进一步增加min_freq，因为不经常出现的单词/短语通常对分类的准确性影响很小。

尝试将set min_freq参数设置为更大的值，观察词汇表长度的变化。

在实践中，n-gram词汇表的大小仍然太高，无法将单词表示为单热向量，因此我们需要将这种表示与一些降维技术结合起来，例如嵌入，我们将在后面的单元中讨论。

将文本输入神经网络

本博客讲述了如何用数字来表示每个单词。现在，为了建立文本分类模型，需要将整句(或整篇新闻文章)输入神经网络。这里的问题是每篇文章/句子都有不同的长度；但是全连接或卷积神经网络只能处理固定的输入大小。有两种方法可以解决这个问题:

把一个句子分解成固定长度的向量。下一部分将描述词袋Bag-of-Words和TF-IDF表示如何做到这一点。
设计能够处理可变长度序列的特殊神经网络架构。之后将描述如何实现用于序列建模的循环神经网络(RNN)。

整体代码如下所示：

import torch
import torchtext
import os
import collections

os.makedirs('./data', exist_ok=True)
train_dataset, test_dataset = torchtext.datasets.AG_NEWS(root='./data')
classes = ['World', 'Sports', 'Business', 'Sci/Tech']

a = next(train_dataset)
print(a)

for i, x in zip(range(5), train_dataset):
    print(f"**{classes[x[0]]}** -> {x[1]}")

train_dataset, test_dataset = torchtext.datasets.AG_NEWS(root='./data')
train_dataset = list(train_dataset)
test_dataset = list(test_dataset)

tokenizer = torchtext.data.utils.get_tokenizer('basic_english')

first_sentence = train_dataset[0][1]
second_sentence = train_dataset[1][1]

f_tokens = tokenizer(first_sentence)
s_tokens = tokenizer(second_sentence)

print(f'\nfirst token list:\n{f_tokens}')
print(f'\nsecond token list:\n{s_tokens}')

counter = collections.Counter()  # 初始化字典
for (label, line) in train_dataset:
    counter.update(tokenizer(line))  # 构建字典
vocab = torchtext.vocab.Vocab(counter, min_freq=1)  # 用来处理向量化

word_lookup = [list((vocab[w], w)) for w in f_tokens]
print(f'\nIndex lockup in 1st sentence:\n{word_lookup}')

word_lookup = [list((vocab[w], w)) for w in s_tokens]
print(f'\nIndex lockup in 2nd sentence:\n{word_lookup}')

vocab_size = len(vocab)
print(f"Vocab size if {vocab_size}")


def encode(x):
    return [vocab.stoi[s] for s in tokenizer(x)]


vec = encode(first_sentence)
print(vec)


def decode(x):
    return [vocab.itos[i] for i in x]


print(decode(vec))

from torchtext.data.utils import ngrams_iterator

bi_counter = collections.Counter()
for (label, line) in train_dataset:
    bi_counter.update(ngrams_iterator(tokenizer(line), ngrams=2))
bi_vocab = torchtext.vocab.Vocab(bi_counter, min_freq=3)

print(f"Bigram vocab size = {len(bi_vocab)}")


def encode(x):
    return [bi_vocab.stoi[s] for s in tokenizer(x)]


print(encode(first_sentence))

IoTDB 入门教程基础篇①——时序数据库为什么选IoTDB ？小康师兄 Apache IoTDB 入门教程 iotdb 时序数据库数据库 TsFile Apache IoTDB
文章目录一、前文二、性能排行第一三、完全开源四、数据文件TsFile五、乱序数据高写入六、其他七、参考一、前文IoTDB入门教程——导读关注博主的同学都知道，博主在物联网领域深耕多年。时序数据库，博主已经用过很多，从最早的InfluxDB，到后期的TDengine，以及现在的IoTDB。最早是没得选，只能用InfluxDB。后面是有的选，换了TDengine。现在是选择太多，择优选了IoTDB。各
使用Transformer模型实现股票走势预测：深入解析和实操案例（基于Python和PyTorch） AI_DL_CODE python transformer pytorch 股票预测
摘要：本文讨论了Transformer模型在股票市场预测中的应用，突出其自注意力机制在捕捉长期趋势和周期性变化方面的优势。文章详细介绍了模型理论、架构，并分析了其在股价预测中的优势和挑战。通过实操案例，展示了如何使用Python和PyTorch进行模型构建、训练和评估，包括数据预处理和性能评价。结果证实Transformer模型能有效预测股价，但需注意过拟合和数据量问题。未来研究将着眼于模型优化和
为什么要有库 h^hh linux
库提供了基础功能，提高开发效率，平常写的printf，如果没有库也能写，比如现在你需要向显示器打印，向文件写入，向网络发送各种功能的时候，因为没有库了，所以printf需要你自己去实现，你想写一个链表逆置的算法，再把整个链表打印出来，你写的时候可能用了两个小时，其中一个半小时都在实现printf，剩下30分钟你再写链表，更夸张的是你以后再写任何方法的时候，只要想打印，你都得自己实现一个printf
ROS2海龟仿真：两只海龟跟踪实验（一只键盘控制，一只自动跟随） xehuosh linux c++人工智能机器人
控制理论与工程应用基础作业1.环境准备确保ROS2已安装，并可以正常运行turtlesim模拟环境。首先，测试turtlesim节点是否能够正常启动：ros2runturtlesimturtlesim_node正常运行，关闭页面。2.创建功能包进入~/colcon_ws/src文件目录，使用以下命令创建一个新的ROS2功能包，命名为cpp_a_follow_turtle_pkg，并添加必要的依赖关
跟我一起学 Python 数据处理（六）：Python 数据类型深度剖析与容器初窥 lilye66 python 开发语言 tornado beautifulsoup pandas matplotlib
跟我一起学Python数据处理（六）：Python数据类型深度剖析与容器初窥在Python学习的漫漫长路中，我们已经成功迈出了几步，对其环境搭建和基础操作有了一定了解。接下来，让我们继续深入，探寻Python丰富的数据类型世界以及强大的数据容器，进一步挖掘Python在数据处理方面的潜力，一同在知识的海洋中破浪前行。一、整数与字符串的微妙差异及应用场景整数，在Python中如同数学世界里的整数一样
跟我一起学 Python 数据处理（四）：Python 基础环境深度剖析与工具安装 lilye66 python flask pandas scrapy beautifulsoup
跟我一起学Python数据处理（四）：Python基础环境深度剖析与工具安装在Python学习之旅中，我们已经迈出了搭建环境的关键第一步。今天，我们继续深入探索，让大家对Python基础环境有更透彻的理解，并顺利安装必备的工具，为后续高效的数据处理学习筑牢根基。一、Python提示符与系统提示符的奥秘当我们成功启动Python后，会看到>>>这个Python提示符，它就像是进入Python世界的大
Python数据处理(一)：处理 JSON、XML、CSV 三种格式数据 solocoder222 Python python 数据处理 CodeRiver
Python数据处理系列博客来啦！本系列将以《Python数据处理》这本书为基础，以书中每章一篇博客的形式带大家一起学习Python数据处理。书中有些地方讲的不太详细，我会查阅其他资料来补充，力争每篇博客都把知识点涵盖全且通俗易懂。这本书主要讲了如何用Python处理各种类型的文件，如JSON、XML、CSV、Excel、PDF等。后面几章还会讲数据清洗、网页抓取、自动化和规模化等使用技能。我也是
python难学吗？python的就业前景到底怎么样？荆州克莱面试题汇总与解析 spring cloud spring boot spring 技术 css3
明确的说，python不难，入门很快，对于几乎是零基础的人是完全可以学会的。个人主要总结一下3点。第一，Python最大的功劳就是直接拉低了编程门槛和使用难度相比于C,C#,JAVA这些早轮子语言学习Python完全就是直接开车的节奏稍微努力一下，一周就能写出像样的东西第二，Python学习越来越普及目前Python课程已发展到儿童编程领域很多中小学开设Python教学，统一考试很多国外学校，比如
智能工厂的设计软件应用场景的一个例子：为AI聊天工具添加一个知识系统之24 重审前端实现：主页页面一水鉴天人工语言智能制造软件智能前端
本文提要正文1本项目（为AI聊天工具添加一个知识树系统）的主页页面的三个页面版块(注：一个项目的基础版本，它明确给出建模限制what(where，how)并悬置模型本身（内部空出模型--内建，留给内部--待建+持续增强）同时提出扩展版本who（when，why）的原则将扩展留给外部，完善--有待完善+不断完善）。每个都是一种矩阵，但每一个都从系统源流的源头source那里差异化继承了不同属性pro
跟我一起学 Python 数据处理（十二）：CSV 数据的读取与处理 lilye66 python 数据库大数据 oracle sql mongodb postman
跟我一起学Python数据处理（十二）：CSV数据的读取与处理在数据处理的领域中，Python是一把强大的利器。我们开启这个系列的目的就是希望和大家一起在Python数据处理的道路上不断前行，共同成长。今天，我们将深入探讨Python中如何处理CSV数据，这是迈向高效数据处理的重要一步。一、CSV数据的基础知识CSV，即逗号分隔值（Comma-SeparatedValues），是一种极为常见的机器
c++ 算法之二分答案详解必胜的小铭 c++算法 c++算法开发语言
二分答案是c++之中一个简单而重要的算法，每一个OIer必备的基础算法，你知道它究竟是什么吗？目录一、简介1.定义2.时间复杂度二、核心代码三、例题1.跳石头1.题目描述2.解法2.进击的奶牛1.题目描述2.思路一、简介1.定义二分答案是一种二分搜索，二分搜索（英语：binarysearch），也称折半搜索（英语：half-intervalsearch）、对数搜索（英语：logarithmicse
Android应用开发详解：核心章节源码解析丹力
本文还有配套的精品资源，点击获取简介：本课程详细解析了Android应用开发中从第二章到第九章的关键知识点，涵盖了环境搭建、UI设计、活动生命周期、数据存储、Intent与广播、服务、多线程、异步处理和权限管理等。这些章节构成了高效Android应用开发的基础，通过源码解析，开发者将能够掌握如何创建功能丰富的应用，并为深入探索高级主题打下坚实基础。1.Android开发入门1.1Android平台
向量语义（Vector Semantics）与表征学习（Representation Learning）详解苏西月学习人工智能
1.向量语义（VectorSemantics）与词嵌入（WordEmbeddings）向量语义的核心思想是用数学向量来表示单词的意义。传统的NLP方法（如基于规则的语言模型）需要人为定义单词的语义规则，而向量语义方法则通过分析单词在大量文本中的使用模式来学习其语义。关键词：词向量（WordRepresentations）：单词被表示为一个多维向量，每个维度对应于该单词的某种语义特征。分布式表示（D
【llm对话系统】大模型 Llama、Qwen 和 ChatGLM 的网络结构和训练方法对比 kakaZhui llama 人工智能 AIGC chatgpt python
1.引言近年来，大型语言模型(LLM)取得了令人瞩目的进展，其中Llama、Qwen和ChatGLM是三个备受关注的开源模型。它们都在Transformer架构的基础上进行了改进和优化，并在各种NLP任务上取得了优异的性能。本文将深入分析Llama、Qwen和ChatGLM的网络结构和训练方法，比较它们的异同以及各自的优势。2.模型结构对比特性LlamaQwenChatGLM基础架构Decoder
【基础教程】Python list列表详解 SAPmatinal Python
在实际开发中，经常需要将一组（不只一个）数据存储起来，以便后边的代码使用。说到这里，一些读者可能听说过数组（Array），它就可以把多个数据挨个存储到一起，通过数组下标可以访问数组中的每个元素。需要明确的是，Python中没有数组，但是加入了更加强大的列表。如果把数组看做是一个集装箱，那么Python的列表就是一个工厂的仓库。大部分编程语言都支持数组，比如C语言、C++、Java、PHP、Java
单细胞分析基础-第一节数据质控、降维聚类遗落凡尘的萤火-生信小白单细胞分析聚类数据挖掘机器学习
scRNA_pipeline\1.Seurat生物技能树可进官网查询添加链接描述分析流程准备：R包安装options("repos"="https://mirrors.ustc.edu.cn/CRAN/")if(!require("BiocManager"))install.packages("BiocManager",update=F,ask=F)options(BioC_mirror="htt
使用CentOS7系统iso构建docker基础镜像小百菜 docker 容器运维
1、下载上传系统文件CentOS-7-x86_64-Minimal-2009.iso到docker服务器。#创建挂载点mkdir/mnt/iso#挂载ISO文件mountCentOS-7-x86_64-Minimal-2009.iso/mnt/iso2、备份yum源cd/etc/yum.repos.dmkdirbakmv*bak3、新建yum源##vi/etc/yum.repo.d/local.r
了解ARM嵌入式系统以及STM32芯片物联网应用技术梁越 arm开发 stm32 嵌入式硬件
目录一、定义二、特点三、组成结构四、优势五、应用领域六、STM32芯片ARM嵌入式系统：一、定义ARM嵌入式系统是指以应用为中心，以计算机技术为基础，软件、硬件可剪裁，适应应用系统对功能、可靠性、成本、体积和功耗严格要求的专用计算机系统。它包括硬件和软件两部分，广泛应用于各个领域，如智能手机、物联网、工业控制、汽车电子和医疗设备等。二、特点专用性：ARM嵌入式系统是针对特定应用而设计的，软硬件都可
ARM架构与ARM内核 tangYi0_0 #MCU ARM架构 ARM内核 Cortex-M
参考：https://blog.csdn.net/qq_34160841/article/details/105611131到底什么是Cortex、ARMv8、arm架构、ARM指令集、soc？一文帮你梳理基础概念认识ARM、Cortex-M内核，以及ARMv8-M架构ARM架构ARM的架构指的是ARM的指令集架构。ARM指令集从1985年ARMv1架构诞生起，到2011年，ARM架构已经发展到了
LLM的实时性：迈向毫秒级响应的AI AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
LargeLanguageModel(LLM),实时性,响应时间,微服务架构,并行处理,知识图谱,优化算法,延迟最小化1.背景介绍大型语言模型(LLM)在自然语言处理领域取得了令人瞩目的成就，展现出强大的文本生成、翻译、摘要和问答能力。然而，现有的LLM模型通常面临着响应时间较慢的问题，这限制了其在实时应用场景中的应用。例如，在聊天机器人、实时翻译和智能客服等领域，用户期望能够获得即时响应，而传统
网络安全实战指南：攻防技术与防御策略一ge科研小菜鸡运维网络
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着数字化转型的加速，网络安全已成为各行业不可忽视的重要领域。从数据泄露到勒索软件攻击，网络威胁日益复杂，企业和个人都面临严峻挑战。本教程将介绍网络安全的基础知识、攻击方式、防御策略，并提供实践案例与技术示例，帮助读者掌握关键安全技术。2.网络安全基础2.1网络安全的主要领域网络安全涉及多个方面，以下是主要的安全领域：安全领域描述常见技术
云原生后端开发：技术、实践与应用一ge科研小菜鸡 Java 后端后端
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言云原生技术的快速发展彻底改变了后端开发的模式，使应用能够在现代化的基础设施上高效运行。云原生后端的核心理念是通过容器化、微服务、持续集成与交付（CI/CD）、可观察性等技术，构建高度可扩展、弹性、高可用的后端服务。本文将围绕云原生后端的技术栈与架构设计展开，结合实践案例，介绍云原生后端的关键技术、开发流程和最佳实践。一、云原生后端的核心概念1
FFmpeg工具使用基础 2035去旅行 FFmpeg ffmpeg
一、FFmpeg工具介绍FFmpeg命令行工具主要包括以下几个部分：‌ffmpeg‌：编解码工具‌ffprobe‌：多媒体分析器‌ffplay‌：简单的音视频播放器这些工具共同构成了FFmpeg的核心功能，支持各种音视频格式的处理和转换‌二、在Ubuntu18.04上安装FFmpeg工具1、sudoapt-update2、sudoapt-getinstallffmpeg3、安装完成后，使用ffmp
测试基础知识测试-东方不败之鸭梨测试基础回归测试用例数据挖掘
什么是回归测试？开发人员把Bug修复好之后，测试人员需要重新验证Bug是否修复好了，同时在新版本中进行测试以检测开发人员在修复代码过程中是否引入新的Bug，此过程就称为回归测试。（1）即使上一轮的Bug被修复了，在下一轮的测试中还可能发现新的Bug，并不是说上一轮的Bug修复好了就不会再出现其他问题了；（2）软件测试并不是测试一轮就完成了，一般情况下，一个软件产品可能需要经过多轮反复测试和验证才能
前端工程化实践 - 代码规范 & 提交规范 & 构建流程 & Monorepo（附 React Native 案例）绿胡子大叔前端 react native 代码规范 git yarn
前端工程化实践-代码规范&提交规范&构建流程&Monorepo前言仓库策略Multirepo什么是Multirepo？Multirepo的优点Multirepo的缺点Monorepo什么是Monorepo？Monorepo的优点Monorepo的缺点和限制依赖管理Yarnworkspace-高效管理工作区依赖简介如何使用所有依赖都需要提升到根仓库吗？基础命令Lerna-简化多包管理过程Lerna是
Python Uvicorn库：构建高性能的异步Web服务器程序员喵哥 python 前端服务器开发语言运维
更多Python学习内容：ipengtao.comPythonUvicorn库是一个基于ASGI（AsynchronousServerGatewayInterface）标准的高性能异步Web服务器，它能够处理大量并发请求并提供快速响应。本文将详细介绍Uvicorn库的功能和用法，并通过丰富的示例代码演示其强大之处。安装和基础用法安装Uvicorn库首先，需要安装Uvicorn库。可以通过以下命令进
深入解析：Python中的决策树与随机森林小鹿( ﹡ˆoˆ﹡ ) Python python 决策树随机森林 Python
在这个数据驱动的时代，机器学习技术已经成为许多企业和研究机构不可或缺的一部分。其中，决策树和随机森林作为两种强大的算法，在分类和回归任务中表现尤为出色。本文将带领大家深入了解这两种算法在Python中的实现，从基础到实战，逐步揭开它们的神秘面纱。引言决策树是一种非常直观的预测模型，它通过一系列规则对数据进行分割，最终形成树状结构。而随机森林则是基于决策树的一种集成学习方法，通过构建多个决策树并取其
JS深度剖析异步编程方式天涯学馆大前端&移动端全栈架构 javascript ecmascript 前端架构
目录回调函数事件监听发布/订阅Promiseasync/awaitGenerator函数与迭代器深度剖析JavaScript异步编程方式，主要涉及以下几个核心概念和技术回调函数回调函数的基本概念回调函数（CallbackFunction）是一种在特定事件或条件触发时被调用的函数，常用于处理异步操作的结果。在JavaScript中，回调函数是实现异步编程的最初也是最基础的方式。它的工作原理是：将一个
Ajax的基本使用和原理天涯学馆大前端&移动端全栈架构 ajax 前端 javascript
目录基础概念简单示例原理解析原理深入基础概念什么是Ajax？Ajax是一种在无需重新加载整个网页的情况下，通过JavaScript异步地从服务器获取数据并更新部分网页的技术。关键技术组成：XMLHttpRequest(XHR)对象：这是实现Ajax通信的核心对象，用于在后台与服务器交换数据。JavaScript：编写客户端逻辑，处理用户交互，发送请求和处理响应。HTML/CSS：构建和美化用户界面
CSS预处理器Stylus 天涯学馆大前端&移动端全栈架构 css stylus 前端
CSS预处理器StylusStylus是一款高效的CSS预处理器，它提供了简洁灵活的语法来帮助开发者更高效地编写和管理CSS代码。下面是一些基础到进阶的Stylus代码教程，涵盖变量、嵌套、混合、继承、运算符等核心特性。1.安装Stylus在项目中使用Stylus前，你需要先安装Stylus编译器。如果你使用的是Node.js，可以通过npm安装：npminstall-Dstylus2.基本使用变
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR