2301_79306982

不同模型对 Emoji 和普通文本的处理表现，Emoji的向量嵌入（含测试代码）

数据处理目标

保留emoji和文本的原始形态。
分词时不拆分emoji符号，让emoji成为一个完整的Token。
确保分词结果与模型兼容，既能表达语义，也能保留emoji的特性。

验证代码

from transformers import AutoTokenizer

# 测试的模型列表
models = [
    "bert-base-uncased",          # BERT
    "vinai/bertweet-base",        # BERTweet
    "roberta-base",               # RoBERTa
    "hfl/chinese-bert-wwm" 
]

# 示例句子
texts = [
    "I am ",  # 含有 emoji
    " is funny!",  # 多个相同的 emoji
    "No emoji here."  # 没有 emoji
]

# 遍历测试每个模型
for model_name in models:
    print(f"模型: {model_name}")
    tokenizer = AutoTokenizer.from_pretrained(model_name)

    for text in texts:
        encoded = tokenizer(text, return_tensors="pt")
        tokens = tokenizer.convert_ids_to_tokens(encoded["input_ids"][0])
        print(f"原始文本: {text}")
        print(f"Token IDs: {encoded['input_ids'][0].tolist()}")
        print(f"分词结果: {tokens}")
        print()
    print("-" * 50)

模型: bert-base-uncased
原始文本: I am 
Token IDs: [101, 1045, 2572, 100, 102]
分词结果: ['[CLS]', 'i', 'am', '[UNK]', '[SEP]']

原始文本:  is funny!
Token IDs: [101, 100, 2003, 6057, 999, 102]
分词结果: ['[CLS]', '[UNK]', 'is', 'funny', '!', '[SEP]']

原始文本: No emoji here.
Token IDs: [101, 2053, 7861, 29147, 2072, 2182, 1012, 102]
分词结果: ['[CLS]', 'no', 'em', '##oj', '##i', 'here', '.', '[SEP]']

--------------------------------------------------
模型: vinai/bertweet-base
emoji is not installed, thus not converting emoticons or emojis into text. Install emoji: pip3 install emoji==0.6.0
原始文本: I am 
Token IDs: [0, 8, 155, 3, 2]
分词结果: ['', 'I', 'am', '', '']

原始文本:  is funny!
Token IDs: [0, 3, 3, 3, 17, 55784, 12, 2]
分词结果: ['', '', '', '', 'is', 'funny@@', '!', '']

原始文本: No emoji here.
Token IDs: [0, 218, 6728, 3506, 3, 2]
分词结果: ['', 'No', 'emoji', 'her@@', '', '']

--------------------------------------------------
模型: roberta-base
原始文本: I am 
Token IDs: [0, 100, 524, 17841, 27969, 2]
分词结果: ['', 'I', 'Ġam', 'ĠðŁĺ', 'Ĭ', '']

原始文本:  is funny!
Token IDs: [0, 18636, 9264, 18636, 9264, 18636, 9264, 16, 6269, 328, 2]
分词结果: ['', 'ðŁĺ', 'Ĥ', 'ðŁĺ', 'Ĥ', 'ðŁĺ', 'Ĥ', 'Ġis', 'Ġfunny', '!', '']

原始文本: No emoji here.
Token IDs: [0, 3084, 21554, 259, 4, 2]
分词结果: ['', 'No', 'Ġemoji', 'Ġhere', '.', '']

--------------------------------------------------
模型: hfl/chinese-bert-wwm
原始文本: I am 
Token IDs: [101, 151, 8413, 100, 102]
分词结果: ['[CLS]', 'i', 'am', '[UNK]', '[SEP]']

原始文本:  is funny!
Token IDs: [101, 8104, 21126, 21126, 8310, 9575, 8680, 106, 102]
分词结果: ['[CLS]', '', '##', '##', 'is', 'fun', '##ny', '!', '[SEP]']

原始文本: No emoji here.
Token IDs: [101, 8275, 13152, 8167, 9343, 10815, 119, 102]
分词结果: ['[CLS]', 'no', 'em', '##o', '##ji', 'here', '.', '[SEP]']

--------------------------------------------------

问题 1：为什么连续的三个 emoji 被映射到同一个 [UNK]，而不是占据三个 [UNK]？
        无法识别 emoji：BERT 的词表（vocab.txt）中并没有预定义 emoji 的 token。
        连续字符的处理规则：WordPiece 会将连续的未知字符视为一个整体。
        结果：连续的 emoji 被当作一个整体，分配一个 [UNK]。
问题 2：BERTweet 为什么生成的标签是，而不是 [SEP]
         ~~表示句子开始，类似于 BERT 的 [CLS]。~~
         表示句子结束，类似于 BERT 的 [SEP]。
问题 3：BERTweet 为什么将 "here" 分成了 her@@ 和？
        这是 SentencePiece Tokenizer 的特点，它会尝试将无法完全匹配的词分割为子词或子字符。@@ 表示这是一个未完成的子词片段。SentencePiece 使用子词分割尝试匹配已知的词汇部分。例如，"here" 被分割为 her@@ 和 e（这里可能 e 无法匹配到已知 token，因此标记为）。
问题 4：为什么 RoBERTa 给正常的单词（如 "here"）前面加了奇怪的符号（如 Ġ）？
        这是 RoBERTa 的 Byte-Pair Encoding (BPE) 分词器的特性。在 BPE 分词中，Ġ 是特殊的空格标记，用于区分单词边界。例如：" here"（带空格的 here）被分割为 Ġhere。
"there"（不带空格的 there）被分割为 there。

不同模型对 Emoji 和普通文本的处理表现总结

模型	处理 Emoji 的行为	特殊标记	普通单词的分词情况	特点
bert-base-uncased	- Emoji 被标记为 `[UNK]`，无法识别。	`[CLS]` 和 `[SEP]`	使用 WordPiece 分词，分割成子词，例如 `em` 和 `##oji`。	无法识别 emoji，连续多个 emoji 会被视为一个 `[UNK]`。
vinai/bertweet-base	- 每个 Emoji 被标记为，无法单独识别。	和	`here` 被分割为 `her@@` 和，属于 SentencePiece 特性。	SentencePiece 分词器，emoji 和部分单词无法完全匹配，会有标记。
roberta-base	- Emoji 被拆分为多个子词（如 `ðŁĺ` 和 `Ĥ`）。	和	普通单词前添加 `Ġ` 表示空格（如 `Ġhere`）。	使用 BPE 分词器，支持部分 emoji，但会对其进行子词拆分。
hfl/chinese-bert-wwm	- 部分 Emoji 被正确识别（如和 `##`）。	`[CLS]` 和 `[SEP]`	普通单词按子词拆分，例如 `em` 和 `##oji`。	能正确处理部分 emoji，但表现不稳定；针对中文优化，更适合中文语料。

模型	适用场景
bert-base-uncased	适合处理一般英语文本，但不适用于包含大量 emoji 的数据。
vinai/bertweet-base	适合社交媒体语料（如推文），但需要额外处理以保证语义一致性。
roberta-base	适合处理需要精确分词和保留子词信息的任务，不适合直接用于 emoji 检索。
hfl/chinese-bert-wwm	中文语料优化模型，适合包含中文和部分 emoji 的文本，但需要验证分词一致性。

问题来了，如果转换为描述字符串，会被分开，导致本质上还是无法检索。

emoji 库 和 spaCy 对于 emoji 的处理方式有何区别？

`emoji` 这个 Python 库会将 emoji 转换为描述性字符串。例如：

import emoji
text = "I am "
print(emoji.demojize(text))  # 输出: "I am :smiling_face_with_smiling_eyes:"

spaCy 的处理方式

spaCy 的 spacy-emoji 扩展能够直接识别 emoji 并将其作为独立的 Token。spaCy 不会将 emoji 转换为描述性字符串，而是保留原始 emoji 符号作为一个 Token。例如：

import spacy
from spacy.lang.en import English
from spacymoji import Emoji

nlp = English()
emoji_ext = Emoji(nlp)
nlp.add_pipe("emoji", first=True)

doc = nlp("I am ")
print([token.text for token in doc])  # 输出: ["I", "am", ""]

使用描述字符串是否会被分词？

如果你将 emoji 转换为描述字符串（如 :smiling_face_with_smiling_eyes:），BERT 的分词器会将其视为普通文本，并进行子词分割。例如：

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
text = "I am :smiling_face_with_smiling_eyes:"
encoded = tokenizer(text)
print(tokenizer.convert_ids_to_tokens(encoded["input_ids"]))

输出：

['[CLS]', 'i', 'am', ':', 'smiling', '_', 'face', '_', 'with', '_', 'smiling', '_', 'eyes', ':', '[SEP]']

问题：

分词干扰语义：一个 emoji 描述字符串被分割成多个子词（如 smiling、_、face），导致其向量表示不再对应单个 emoji，而是描述字符串的组合。
无法进行直接检索：你无法通过描述字符串的嵌入直接检索原始 emoji 的语义表示。

如何避免这种干扰，确保 emoji 的一致性？

方法：为 emoji 定义专属 Token

你可以扩展 BERT 的分词器，增加 emoji 的自定义 Token，这样每个 emoji 都会被视为单独的 Token，而不是 [UNK] 或描述字符串。

示例：

from transformers import BertTokenizer

# 加载预训练分词器
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

# 添加自定义 Token
emoji_tokens = ["", "", ""]  # 添加常用 emoji
tokenizer.add_tokens(emoji_tokens)

# 更新模型
from transformers import BertModel
model = BertModel.from_pretrained("bert-base-uncased")
model.resize_token_embeddings(len(tokenizer))

# 测试分词器
text = "I am "
encoded = tokenizer(text)
print(tokenizer.convert_ids_to_tokens(encoded["input_ids"]))

总结

emoji 库将 emoji 转换为描述字符串。spacy-emoji 能直接识别 emoji，并将其作为独立的 Token。
BERT 对描述字符串的分词：默认情况下，描述字符串会被分词，破坏 emoji 的语义一致性。
解决方案：保留原始 emoji，不将其转换为描述字符串。为 emoji 定义自定义 Token，确保其生成独立的向量。

许多分词工具默认会忽略或拆分emoji，因此需要选择支持emoji的分词器：

推荐工具：Hugging Face的BertTokenizer或emoji库配合分词工具。
特点：这些工具能直接将emoji作为完整的Token处理。

示例代码：

from transformers import BertTokenizer

# 加载支持emoji的分词器
tokenizer = BertTokenizer.from_pretrained("bert-base-multilingual-cased")

# 示例文本，含emoji
text = "这个视频笑死我了  太搞笑了！"

# 分词
tokens = tokenizer.tokenize(text)
print("分词结果：", tokens)

输出示例：

['这', '个', '视频', '笑', '死', '我', '了', '', '', '太', '搞', '笑', '了', '！']

(2) 保证emoji作为自然语言处理的单位

对于不支持emoji的分词工具（如某些传统中文分词工具），可以预处理文本，将emoji保留为单独的符号单元。示例如下：

import re

# 分离emoji与文本
def split_emoji_and_text(text):
    emoji_pattern = re.compile("["
        u"\U0001F600-\U0001F64F"  # 表情符号
        u"\U0001F300-\U0001F5FF"  # 符号和图形
        u"\U0001F680-\U0001F6FF"  # 交通工具
        u"\U0001F700-\U0001F77F"  # 额外符号
        "]+", flags=re.UNICODE)
    tokens = re.split(f"({emoji_pattern.pattern})", text)
    return [t for t in tokens if t.strip()]

# 示例文本
text = "这个视频笑死我了太搞笑了！"
tokens = split_emoji_and_text(text)
print("分词结果：", tokens)

输出示例：

['这个视频笑死我了', '', '', '太搞笑了！']

(3) 自定义分词与BERT Tokenizer结合

为了兼容BERT输入格式，同时确保emoji和文本被完整处理，可以自定义分词流程：

# 自定义分词函数与BERT结合
def custom_tokenize_with_emoji(text, tokenizer):
    tokens = split_emoji_and_text(text)  # 先用正则分离emoji
    final_tokens = []
    for token in tokens:
        if re.match("[\U0001F600-\U0001F77F]", token):  # 如果是emoji，直接保留
            final_tokens.append(token)
        else:
            final_tokens.extend(tokenizer.tokenize(token))  # 非emoji部分用BERT分词
    return final_tokens

# 示例
tokenizer = BertTokenizer.from_pretrained("bert-base-multilingual-cased")
text = "这个视频笑死我了太搞笑了！"
tokens = custom_tokenize_with_emoji(text, tokenizer)
print("分词结果：", tokens)

输出示例：

['这', '个', '视频', '笑', '死', '我', '了', '', '', '太', '搞', '笑', '了', '！']

兼容emoji的模型推荐

Emoji2Vec（若需单独处理emoji语义）

1. BERT 如何处理 Emoji

词汇表（Vocabulary）：
- BERT 的词汇表是由训练数据的 Tokenization 生成的，基于常见的词片段（subword）。
- 如果 emoji 出现在 BERT 的词汇表中（如常见的或 ❤️），则会被当作单独的 Token。
- 如果某个 emoji 不在词汇表中（如一些不常见的符号组合），BERT 会将其拆分为多个 Token 或标记为 [UNK]（未知符号）。
嵌入空间：
- 每个 Token（包括 emoji）的嵌入向量是基于上下文生成的，因此不同 emoji 的语义取决于其上下文。
- 如果 emoji 在训练数据中出现频率高，则模型能够更准确地捕捉其语义关系。
语义关系：
- BERT 使用自注意力机制（Self-Attention）捕捉句子中 Token（包括 emoji）之间的语义关系。
- 类似于单词，emoji 的语义关系可以通过其嵌入向量的相似度来衡量。

2. 可以像单词一样处理 Emoji 吗？

是的，你可以像处理普通单词一样处理 emoji，例如计算嵌入向量的相似度、聚类或分类任务。
注意：不同 emoji 的处理效果依赖于模型的训练数据。如果训练数据包含大量 emoji，上下文语义会更准确。

3. 测试代码：验证 BERT 对 Emoji 的处理

以下代码展示了如何加载 BERT 模型，提取 emoji 的嵌入向量，并验证它们之间的语义关系。

from transformers import BertTokenizer, BertModel
import torch
from sklearn.metrics.pairwise import cosine_similarity

# 加载 BERT 模型和分词器
tokenizer = BertTokenizer.from_pretrained("bert-base-multilingual-cased")
model = BertModel.from_pretrained("bert-base-multilingual-cased")

# 示例文本（包含 emoji）
text1 = "这个视频太搞笑了 "
text2 = "哈哈哈  我笑得停不下来"
text3 = "太可爱了 ❤️"

# 对文本进行分词并生成嵌入
def get_embeddings(text):
    inputs = tokenizer(text, return_tensors="pt")
    outputs = model(**inputs)
    # 返回最后一层的隐藏状态，取出 [CLS] Token 的向量表示
    return outputs.last_hidden_state[0][0].detach().numpy()

# 获取每个文本的嵌入向量
embedding1 = get_embeddings(text1)
embedding2 = get_embeddings(text2)
embedding3 = get_embeddings(text3)

# 计算语义相似度
similarity_1_2 = cosine_similarity([embedding1], [embedding2])[0][0]
similarity_1_3 = cosine_similarity([embedding1], [embedding3])[0][0]

print(" 和  的相似度：", similarity_1_2)
print(" 和 ❤️ 的相似度：", similarity_1_3)

输出示例

如果和在语义上是相似的，你会看到较高的相似度值。
如果和 ❤️ 语义不同，相似度会较低。

4. 进一步验证：查看 Token 化结果

可以通过以下代码查看 BERT 如何将文本和 emoji 转换为 Token：

# 查看 Token 化结果
tokens = tokenizer.tokenize("这个视频太搞笑了 ")
print("Token 化结果：", tokens)

# 查看 Token ID
token_ids = tokenizer.convert_tokens_to_ids(tokens)
print("Token IDs：", token_ids)

输出示例：

Token 化结果： ['这', '个', '视频', '太', '搞', '笑', '了', '']
Token IDs： [6821, 702, 6422, 1922, 3300, 3630, 749, 160002]

如果被当作一个 Token，则会有一个独立的 Token ID。
如果不在词汇表中，则可能会被拆分或标记为 [UNK]。

5. 进一步分析 Emoji 嵌入

(1) 可视化嵌入空间

可以使用降维工具（如 t-SNE 或 PCA）将 emoji 和其他单词的嵌入向量可视化，观察其分布。

from sklearn.manifold import TSNE
import matplotlib.pyplot as plt

# 获取多个文本的嵌入向量
texts = ["", "", "❤️", "", "", "", ""]
embeddings = [get_embeddings(t) for t in texts]

# 使用 t-SNE 降维
tsne = TSNE(n_components=2, random_state=42)
reduced_embeddings = tsne.fit_transform(embeddings)

# 可视化
plt.figure(figsize=(8, 6))
for i, label in enumerate(texts):
    plt.scatter(reduced_embeddings[i, 0], reduced_embeddings[i, 1])
    plt.annotate(label, (reduced_embeddings[i, 0], reduced_embeddings[i, 1]))
plt.title("Emoji 嵌入空间分布")
plt.show()

(2) 聚类分析

可以对 emoji 嵌入向量进行聚类，观察相似语义的 emoji 是否被分为一组。

from transformers import BertForSequenceClassification, Trainer, TrainingArguments

# 模型加载
model = BertForSequenceClassification.from_pretrained("bert-base-multilingual-cased", num_labels=2)

# 示例输入
text = "这个视频笑死我了太搞笑了！"
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)

# 模型预测
outputs = model(**inputs)
logits = outputs.logits
predicted_label = logits.argmax().item()
print("预测类别：", "正面" if predicted_label == 1 else "负面")

PyTorch 学习路线 gorgor在码农 #python入门基础 python pytorch
学习PyTorch需要结合理论理解和实践编码，逐步掌握其核心功能和实际应用。以下是分阶段的学习路径和资源推荐，适合从入门到进阶：1.基础知识准备前提条件Python基础：熟悉Python语法（变量、函数、类、模块等）。数学基础：了解线性代数、微积分、概率论（深度学习的基础）。机器学习基础：理解神经网络、损失函数、优化器（如梯度下降）等概念。学习资源Python入门：Python官方教程机器学习基础
七成月活过亿 APP 已接入人工智能自不量力的A同学人工智能
2025年3月4日，第三方数据机构QuestMobile发布的《2024中国移动互联网年度大报告》显示，截至2024年12月，月活用户过亿的APP中，有超过七成已接入AI123。相关具体情况如下2：整体背景：2024年全网月活用户已达12.57亿，一线、新一线、二线城市用户接近五成，其中一线城市用户同比增长了1.2%。用户对互联网的使用程度加深，整体月人均使用时长达到171.7小时，短视频、即时通
Imagen原理与代码实例讲解 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Imagen原理与代码实例讲解1.背景介绍在人工智能领域中,图像生成一直是一个具有挑战性的任务。传统的计算机视觉模型通常专注于理解和分析现有图像,而生成全新的高质量图像则需要更高级的技术。随着深度学习技术的不断发展,生成式对抗网络(GenerativeAdversarialNetworks,GAN)等新型模型逐渐展现出了令人惊叹的图像生成能力。谷歌的Imagen就是一种基于大型视觉语言模型的全新图
大数据分析服务器硬件配置如何选择 elva428204358 服务器服务器
大数据，现如今已被人工智能替代。我们先不讨论人工智能，就大数据而言，我们都是在强调他的技术，而我们在用大数据时候，经常用它的来神话它的影响。例如，广告投放精准化，社会安全管理有序，医药行业智能化等。一、建立大数据分析服务器的五个基本方面1、可视化分析：大数据分析的使用者有大数据分析专家，同时还有普通用户，但是他们二者对于大数据分析最基本的要求就是可视化分析，因为可视化分析能够直观的呈现大数据特点，
机器学习篇——决策树基础巷955 机器学习算法决策树
引言：决策树是一种常见的机器学习算法，广泛应用于分类和回归任务。它通过树状结构表示决策过程，每个内部节点代表一个特征测试，每个分支代表一个可能的测试结果，而每个叶节点则代表一个类别或回归值。本文将详细介绍决策树的原理、构建过程、优缺点以及实际应用。1.决策树的基本概念1.1什么是决策树？决策树是一种监督学习算法，主要用于分类和回归任务。它通过递归地将数据集划分为更小的子集，最终生成一棵树状结构。决
无监督AI训练:机遇与挑战并存 AI天才研究院计算 ChatGPT DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
无监督AI训练：机遇与挑战并存关键词：无监督学习、AI训练、机器学习、聚类算法、降维技术、深度学习摘要：本文深入探讨无监督AI训练这一新兴领域，首先介绍了其基本概念与原理，然后详细解析了无监督AI训练的核心技术，如聚类算法和降维技术，以及无监督深度学习。接着，本文通过实际项目案例分析，展示了无监督AI训练的应用实践。最后，本文分析了无监督AI训练面临的挑战，并展望了其未来发展趋势。通过本文的阅读，
提高客户体验：人类计算在营销中的应用 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
人类计算与营销：开启个性化时代的未来人类计算与营销：开启个性化时代的未来关键词：人工智能、个性化营销、客户体验、数据驱动、客户关系管理摘要：本文探讨了人类计算在营销中的应用，包括语音识别、人脸识别、自然语言处理等技术，以及如何通过这些技术实现个性化营销、客户关系管理和用户体验优化。文章分析了当前技术的发展趋势和面临的挑战，并提出了未来发展的方向。引言随着人工智能技术的飞速发展，人类计算在各个领域中
《DeepSeek+Langchain落地实操:RAG知识增强检索和智能体实战开发》 AI周红伟 langchain
大数据与人工智能实战专家—周红伟老师法国科学院数据算法博士/曾任阿里人工智能专家/曾任马上消费金融风控负责人课程背景LangChain是一项旨在赋能开发人员利用语言模型构建端到端应用程序的强大框架。它的设计理念在于简化和加速利用大型语言模型（LLM）和对话模型构建应用程序的过程。这个框架提供了一套全面的工具、组件和接口，旨在简化基于大型语言模型和对话模型的应用程序开发过程。LangChain本质上
PyTorch：Python深度学习框架使用详解零度° python python 深度学习 pytorch
PyTorch是一个开源的机器学习库，广泛用于计算机视觉和自然语言处理领域。它由Facebook的AI研究团队开发，因其动态计算图、易用性以及与Python的紧密集成而受到开发者的青睐。PyTorch的主要特点动态计算图：PyTorch的计算图在运行时构建，使得模型的修改和调试更加灵活。自动微分：自动计算梯度，简化了机器学习模型的训练过程。丰富的API：提供了丰富的神经网络层、函数和损失函数。跨平
大模型时代，什么是tokens？人工智能
大模型时代，什么是tokens？前言在当今大模型主导的人工智能浪潮中，我们见证了诸多令人惊叹的应用。从精准流畅的语言翻译，到能够根据简单提示创作出富有创意故事的文本生成工具，大模型展现出了强大的能力。然而，在这些复杂且神奇的模型背后，有一个基础而关键的概念——tokens，它犹如大模型世界的基石，支撑着整个模型的运行与发展。理解tokens，对于我们深入认识大模型如何处理信息、优化性能以及合理应用
AI时代的多模态输入与理解：挑战与局限性智享食事人工智能
随着人工智能技术的快速发展，以及AI的普及，AI系统逐渐在各个领域展现出强大的潜力，一种感觉AI已经无所不能，已经很快就要取代我们人类，甚至代替我们工作。然而，现实情况并没有这么乐观，现实中AI要实现与人类相似的感知和理解，仍然面临着许多技术和应用上的难题。本文将从几个方面探讨当前AI在多模态输入与理解中的局限性，特别是在教育、心理咨询、医疗诊断等领域的应用挑战。一、多模态输入的现状与不完善所谓多
Python3 与 VSCode：深度对比分析 lly202406 开发语言
Python3与VSCode：深度对比分析引言Python3和VisualStudioCode（VSCode）在软件开发领域扮演着举足轻重的角色。Python3作为一门强大的编程语言，拥有丰富的库和框架，广泛应用于数据科学、人工智能、网络开发等多个领域。而VSCode作为一款轻量级且功能强大的代码编辑器，以其出色的性能和丰富的插件支持，受到了广大开发者的喜爱。本文将对Python3和VSCode进
python | flower，一个强大的 Python 库！双木的木 python拓展学习 python库 python 开发语言计算机视觉人工智能算法联邦学习深度学习
本文来源公众号“python”，仅用于学术分享，侵权删，干货满满。原文链接：flower，一个强大的Python库！大家好，今天为大家分享一个强大的Python库-flower。Github地址：https://github.com/mher/flower随着机器学习模型应用的增长，联邦学习（FederatedLearning，FL）逐渐成为一个重要方向。联邦学习允许多个客户端在不共享原始数据的情
Transformer 工作原理图文详解和实践：在生成式对话系统中的核心技术剖析 AI天才研究院 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
https://www.youtube.com/watch?v=wjZofJX0v4M&t=33sTransformer在生成式对话系统中的核心技术剖析作者：禅与计算机程序设计艺术文章目录Transformer在生成式对话系统中的核心技术剖析1.背景介绍2.核心概念与联系2.1生成式对话系统2.2Transformer模型3.核心算法原理和具体操作步骤3.1Transformer编码器3.2Tra
【开源项目】2024最新PHP在线客服系统源码/带预知消息/带搭建教程于飞SEO 免费资源分享开源 php 开发语言
简介随着人工智能技术的飞速发展，AI驱动的在线客服系统已经成为企业提升客户服务质量和效率的重要工具。本文将探讨AI在线客服系统的理论基础，并展示如何使用PHP语言实现一个简单的AI客服系统。源码仓库地址：ym.fzapp.top在线客服系统的理论基础AI在线客服系统通过自然语言处理（NLP）、机器学习（ML）和深度学习（DL）技术，能够理解和响应客户的查询。这些系统通常包括以下几个关键组件：自然语
文生图图生视频文生视频人工智能AI工具节选行思理 AI 人工智能文生图文生视频图生视频数字人
1、MidjourneyAI图像和插画生成工具，官网地址：Midjourney中文站,MJ中文站-专业AI绘图网站2、StableDiffusion一种基于扩散技术的深度学习文本转图像模型，演示地址：StabilityAI3、通义万相阿里云通义大模型旗下的AI创意作画与视频生成平台，官网地址：通义万相_AI创意作画_AI绘画_人工智能-阿里云4、PhotoStudioAI模特AI商品图及视频一键生
ChatGPT-4o引领医学革命：临床科研创新与效率的新纪元小艳加油教程语言类人工智能数据分析 ChatGPT-4o 临床医学
2024年5月12日，更强版本的ChatGPT-4o上线，文本、语音、图像等多模态交互方式使其在各行各业的应用呈现了更多的可能性。因此，帮助广大临床医学相关的医院管理人员、医生、学生、科研人员更加熟练地掌握ChatGPT-4o在临床医学日常生活、工作与学习、课题申报、论文选题、实验方案设计、实验数据统计分析与可视化等方面的强大功能，同时更加系统地学习人工智能（包括传统机器学习、深度学习等）的基础理
Manus：通用型Agent的技术革新与多元应用场景蚂蚁质量其他 python 深度学习
一、Manus前沿洞察Manus，作为Monica团队匠心打造的全球首款通用型Agent产品，名称源于拉丁文“mensetmanus”，意即“手”，深刻寓意着知识与行动的深度融合。其核心理念独树一帜，旨在为大语言模型（LLM）赋予“手”的能力，使其借助工具调用与任务执行，将抽象知识转化为切实可行的实际操作，开启人工智能应用的崭新时代。二、精巧技术架构Manus的技术架构兼具高度灵活性与卓越扩展性，
AIGC从入门到实战：ChatGPT+Midjourney，绘出中国古风意境之美杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据 java python javascript kotlin golang 架构人工智能
AIGC从入门到实战：ChatGPT+Midjourney，绘出中国古风意境之美关键词：AI生成内容(AIGC),ChatGPT,Midjourney,中国古风,创意设计,艺术表达1.背景介绍1.1问题由来人工智能生成内容（ArtificialIntelligenceGeneratedContent,AIGC）作为AI技术的重要分支，近年来在视觉、音乐、文本等多个领域取得了显著进展，引领了内容创作
人工智能引领技术革命：ChatGPT与深度学习的突破性进展撒旦骑路西法，大战吕布国内外安全资讯人工智能
在全球科技快速发展的今天，人工智能（AI）正以前所未有的速度渗透到各个行业，成为推动社会变革的重要力量。特别是在自然语言处理（NLP）领域，OpenAI的ChatGPT凭借深度学习技术的持续突破，展现了AI在理解、推理、对话生成等方面的惊人进步。本文将深入探讨ChatGPT及深度学习的最新突破，以及它对不同行业的深远影响。1.ChatGPT：AI语言模型的革新者1.1什么是ChatGPT？Chat
《即梦牵手DeepSeek，AI创作领域的变革与未来》空云风语人工智能人工智能
《即梦牵手DeepSeek，AI创作领域的变革与未来》开篇：科技融合，梦想启航在当今科技飞速发展的时代，人工智能（AI）无疑是最为耀眼的领域之一。新的技术和创新不断涌现，推动着AI行业的边界持续拓展。近期，AI领域又迎来了一个令人瞩目的大事件：即梦正式接入DeepSeek，这一强强联合的举措，犹如一颗投入湖面的巨石，激起千层浪，在整个AI行业引发了广泛关注和热烈讨论。即梦，作为字节跳动旗下极具创新
大模型与Java的深度融合：现状、实践、挑战与未来软件职业规划 java 开发语言
一、引言：大模型与Java的交汇近年来，大模型技术在人工智能领域迅速崛起，成为推动智能应用发展的核心力量。与此同时，Java作为一种历史悠久且广泛应用于企业级开发的编程语言，凭借其强大的生态系统、跨平台特性和稳定性，一直是软件开发领域的中流砥柱。随着大模型技术的普及，Java与大模型的结合成为了一个备受关注的热点话题。这种结合不仅为Java开发者带来了新的机遇，也为大模型的落地应用提供了更广阔的场
电机的声音数据进行AI分析鹿屿二向箔人工智能
对电机的声音数据进行分析，尤其是当数据来源于加速度传感器时，涉及到的不仅仅是声音分析，还包含了振动分析。这类问题通常可以归类于机械故障诊断或预测性维护领域。以下是一些适合处理这种类型数据的人工智能模型和方法：1.特征工程+传统机器学习模型在直接应用深度学习之前，通常首先会进行特征提取。对于振动信号（即使通过加速度传感器采集），常用的方法包括计算频域特征（如傅里叶变换后的频谱）、时域特征（如均方根值
可解释性机器学习——从金融科技视角（1） flex_university 可解释性机器学习与金融科技机器学习深度学习金融
可解释性机器学习——从金融科技视角（1）内容摘要：可解释性的重要性文章目录可解释性机器学习——从金融科技视角（1）1、过程为什么重要2、可解释性机器学习模型能做到什么3、什么时候不需要可解释性1、过程为什么重要尽管机器学习模型表现良好，但单一指标（如分类准确性）是对大多数实际任务的不完整表述。（Doshi-Velez&Kim2017）。某些任务不仅需要得到预测结果，更需要解释模型是如何得出预测的。
Python简介 Gao_xu_sheng python 开发语言
Python前言Python一直是一门优秀的编程语言，不仅简洁、易用，而且功能强大，它能做到的事情太多了，既可用于开发桌面应用，也可用于做网络编程，网络爬虫，还有很重要的领域就是AI大模型开发。近年来，随着人工智能（AI）和机器学习（ML）领域的迅猛发展，Python在这些前沿技术中扮演了至关重要的角色，特别是在构建和训练大规模机器学习方面。Python拥有丰富的库和框架，这些工具极大地促进了AI
深度解析DeepSeek：从技术架构到实战应用 YY...yy ai DeepSeek
一、引言：为什么选择DeepSeek？在2025年人工智能领域竞争白热化的今天，DeepSeek以其超低训练成本（仅为GPT-4o的1/20）和业界领先的推理能力，成为全球开发者关注的焦点。据权威数据显示，DeepSeek-V3在多语言编程和数学推理任务中的表现已超越Llama-3.1等主流模型4，而其最新发布的DeepSeek-R1更是在苹果应用商店美区免费榜冲至第六名6。二、技术架构解析2.1
vscode 都有哪些大模型编程插件魔王阿卡纳兹 IT杂谈开源项目观察 vscode ide 编辑器
VSCode中有许多基于大模型的编程插件，这些插件通过集成人工智能技术，显著提升了开发者的编程效率和体验。以下是一些主要的大模型编程插件及其功能：GitHubCopilotGitHubCopilot是由OpenAI开发的插件，能够根据代码上下文自动生成代码建议，支持多种编程语言。它与VSCode的集成使得开发者可以在熟悉的开发环境中直接利用AI功能，提高代码生成和调试的效率。DevChatDevC
DeepSeek大模型技术解析：从架构到应用的全面探索小涂Ss 架构人工智能语言模型 AI大模型 DeepSeek agi ai
一、引言在人工智能领域，大模型的发展日新月异，其中DeepSeek大模型凭借其卓越的性能和广泛的应用场景，迅速成为业界的焦点。本文旨在深入剖析DeepSeek大模型的技术细节，从架构到应用进行全面探索，以期为读者提供一个全面而深入的理解。官网：https://www.deepseek.com/1、DeepSeek大模型简介DeepSeek大模型是由北京深度求索人工智能基础技术研究有限公司开发的一款
Manus全球首个通用Agent，Manus AI：Agent应用的ChatGPT时刻 ππ记录人工智能 chatgpt Manus详细介绍 Manus介绍 Manus详细应用 Manus教程 Manus详情介绍
文章目录前言ManusAI:全球首个通用AgentManusAI:技术架构与创始人经历AIAgent的实现框架与启示AIAgent的发展预测行业风险提示前言这是一篇关于ManusAI及其在通用人工智能领域的应用和前景的报告，主要介绍了ManusAI的产品定位、功能、技术架构、创始人经历以及AIAgent的发展预测和实现框架。以下是对这些核心内容的简要概述：Manus全网最全资料（持续更新）链接：h
PyTorch系列教程：编写高效模型训练流程梦想画家人工智能 #python pytorch 人工智能 python
当使用PyTorch开发机器学习模型时，建立一个有效的训练循环是至关重要的。这个过程包括组织和执行对数据、参数和计算资源的操作序列。让我们深入了解关键组件，并演示如何构建一个精细的训练循环流程，有效地处理数据处理，向前和向后传递以及参数更新。模型训练流程PyTorch训练循环流程通常包括：加载数据批量处理执行正向传播计算损失反向传播更新权重一个典型的训练流程将这些步骤合并到一个迭代过程中，在数据集
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj

不同模型对 Emoji 和普通文本的处理表现，Emoji的向量嵌入（含测试代码）

问题来了，如果转换为描述字符串，会被分开，导致本质上还是无法检索。

emoji 这个 Python 库会将 emoji 转换为描述性字符串。例如：

spaCy 的处理方式

使用描述字符串是否会被分词？

问题：

如何避免这种干扰，确保 emoji 的一致性？

方法 ：为 emoji 定义专属 Token

(2) 保证emoji作为自然语言处理的单位

(3) 自定义分词与BERT Tokenizer结合

兼容emoji的模型推荐

1. BERT 如何处理 Emoji

2. 可以像单词一样处理 Emoji 吗？

3. 测试代码：验证 BERT 对 Emoji 的处理

输出示例

4. 进一步验证：查看 Token 化结果

5. 进一步分析 Emoji 嵌入

(1) 可视化嵌入空间

(2) 聚类分析

你可能感兴趣的:(机器学习,人工智能,bert,transformer)

`emoji` 这个 Python 库会将 emoji 转换为描述性字符串。例如：

方法：为 emoji 定义专属 Token