账户不存在

CountVectorizer和TfidfVectorizer学习笔记（详细）

1.CountVectorizer（）

这个函数的作用是：生产 文档 - 词频 矩阵，如：

1.1 导入

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

1.2 调用

实例化

#只列出常用的参数
contv = CountVectorizer(encoding=u'utf-8', decode_error=u'strict',
lowercase=True,  stop_words=None,token_pattern=u'(?u)\b\w\w+\b', ngram_range=(1, 1), analyzer=u'word', max_df=1.0, min_df=1,max_features=None, vocabulary=None, binary=False, dtype=<type 'numpy.int64'>)

训练-传入数据

texts: 文档集合
cv_fit=contv.fit_transform(texts)

调用结果

print(cv_fit)   
print(cv_fit.toarray())    # 文档-词频 矩阵
print(contv.vocabulary_)   # 词库

1.3 参数解释

lowercase : boolean,True by default：统计 词频(tf) 前，先将所有单词 转化为 小写。这个参数一般为True。

stop_words : string {‘english’}, list, or None (default)：如果是‘english’, 则使用默认的内置英语停用词库。如果是 list，那么最后形成的 词库 将不包含 list 中的所有的stop word。如果是None, 则不处理停顿词。

token_pattern : string：正则表达式'(?u)\\b\\w\\w+\\b'，默认筛选长度大于等于 2 的字母和数字混合字符，参数analyzer 设置为 word 时才有效。
如果想保留一个字符，可以将 pattern 改为 '(?u)\\b\\w*\\w*\\b'

ngram_range : tuple (min_n, max_n)：默认是ngram_range=(1, 1)，该范围之内的 n 元 feature 都会被提取出来！这个参数要根据自己的需求调整

analyzer : string, {‘word’, ‘char’, ‘char_wb’} or callable：特征基于 wordn-grams 还是character n-grams

max_df : float in range [0.0, 1.0] or int, default=1.0 设置最大 词频阈值， 大于这个词频 的 词 都不会包含在 词库 中，小数表示占所有词数的百分比。该参数只适用于 自己没有指定词库的情况下

min_df : float in range [0.0, 1.0] or int, default=1 设置最小 词频阈值， 小这个词频 的 词 都不会包含在 词库 中，小数表示占所有词数的百分比。该参数只适用于 自己没有指定词库的情况下

max_features : int or None, default=None：选择 词频 最大的 max_features个特征（单词）。有效的前提是参数vocabulary设置成Node，即自己没有指定 词库。

vocabulary : 字典 or iterable, optional：自定义的词库，如果不是None，则只计算自定义 词库中的词的词频。

binary : boolean, default=False：如果是True，词频 的值只有0和1，表示单词 出现和不出现 在词库中

dtype, default=np.int64 : Type of the matrix returned by fit_transform() or transform()

1.4 例子1

例子参考sklearn函数CountVectorizer()和TfidfVectorizer()计算方法介绍

from sklearn.feature_extraction.text import CountVectorizer
texts=["orange banana apple grape app",  "banana apple apple",  "grape app",  "orange apple"] 
# doc0: "orange banana apple grape app"
# doc1: "banana apple apple"
# doc2:  "grape app"
# doc3: "orange apple"
cv = CountVectorizer()   ## 实例化（不传入任何参数）
cv_fit=cv.fit_transform(texts)  ## 训练-传入数据texts
print(cv.vocabulary_)   ## 调取结果
print(cv_fit)
print(cv_fit.toarray())

输出结果：

## 函数自动生成的词库是根据 首字母 顺序，将texts中所有单词进行排序从0,1,2...排起，apple首字母为a所以排第一，banana首字母为b所以排第二
{'orange': 4, 'banana': 2, 'apple': 1, 'grape': 3, 'app': 0}

(0, 4)	1
(0, 2)	1 ## (0, 2)  1  中 0 表示 doc0 "orange banana apple grape app", 2 对应上面的 'banana': 2, 1表示出现频次 1。即 doc0 中 banana 出现了一次
(0, 1)	1
(0, 3)	1
(0, 0)	1
(1, 2)	1
(1, 1)	2
(2, 3)	1
(2, 0)	1
(3, 4)	1
(3, 1)	1

[[1 1 1 1 1]   # 对于doc0，按 {'orange': 4, 'banana': 2, 'apple': 1, 'grape': 3, 'app': 0} 中的顺序统计 词频，如 doc0 中 app 出现 1次， apple 出现 1次，banana 出现 1 次， grape 出现 1 次， orange 出现 1 次
 [0 2 1 0 0] 
 [1 0 0 1 0]  # 对于doc2，按 {'orange': 4, 'banana': 2, 'apple': 1, 'grape': 3, 'app': 0} 中的顺序统计 词频，如 doc2 中 app 出现 1次， apple 出现 0 次，banana 出现 0 次， grape 出现 1 次， orange 出现 0 次
 [0 1 0 0 1]]

1.5 例子2

这个例子是传入中文的文本，对于中文文本，这个函数会直接过滤掉只有一个字的中文如：我，上，走，坑等，解决方法是改写torken_patten 为：’(?u)\b\w*\w*\b’，大家可以试试采用默认的torken_patten 会怎么样呢

import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer

text = ["今天 上 NLP 课程",  "今天 的 课程 有 意思" ,  "数据 课程 也有 意思"]

vocabulary = ["今天", "上" , "NLP", "课程", "的", "有", "意思",  "数据", "也"]

contv = CountVectorizer(vocabulary=vocabulary, stop_words=[], min_df=0, token_pattern='(?u)\\b\\w*\\w*\\b', lowercase=False) # 实例化
contv1 = contv.fit_transform(text)  # 训练-传入数据
print(contv1)   #调取结果
print(contv1.toarray())
print(contv.vocabulary_)

输出：

{'今天': 0, '上': 1, 'NLP': 2, '课程': 3, '的': 4, '有': 5, '意思': 6, '数据': 7, '也': 8}

 (0, 0)	1
  (0, 1)	1
  (0, 2)	1
  (0, 3)	1
  (1, 0)	1
  (1, 3)	1
  (1, 4)	1
  (1, 5)	1
  (1, 6)	1
  (2, 3)	1
  (2, 6)	1
  (2, 7)	1
  
[[1 1 1 1 0 0 0 0 0]
 [1 0 0 1 1 1 1 0 0]
 [0 0 0 1 0 0 1 1 0]]

2.TfidfVectorizer()

对于 tf-idf 的原理，大家可以看看这个句子的向量表达，写的还是很详细的^^
但是：这个函数所用的公式有点不一样：
原来公式：

TfidfVectorizer() 用的公式：

平滑参数=True之后：

2.1 导入

from sklearn.feature_extraction.text import TfidfVectorizer

2.2 实例化

tfidf = TfidfVectorizer()

2.2 训练-导入数据

tf_fit=tfidf.fit_transform(texts)

2.3 调用结果

print(tfidf.vocabulary_)  #词库
print(tfidf.idf_)   # 词库中单词的 idf 值
print(tfidf_fit.toarray())  # tf-idf文档-词频 矩阵
print(tf_fit)

2.4 参数解释

这里面很多参数与 CountVectorizer()是相似的，这里只说道常用的几个参数

norm：'l1', 'l2', or None,optional， 默认为 l2， 表示对 TF-IDF文档-词频矩阵 的 每一行进行归一化

use_idf：boolean， optional，当为 True 时，计算 TF-IDF文档-词频矩阵， 当为 False 时 计算
文档-词频矩阵，相当于 CountVectorizer()

smooth_idf：boolean，optional，当为 True 时 就是：平滑参数=True之后的公式，默认是 True

sublinear_tf：boolean， optional, 当为 True 时, tf(d,w) 变成 1 + log[tf(d,w)]

2.5 例子

例子参考sklearn函数CountVectorizer()和TfidfVectorizer()计算方法介绍

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

texts=["orange banana apple grape app","banana apple apple","grape app", 'orange apple']
# doc0: "orange banana apple grape app"
# doc1: "banana apple apple"
# doc2:  "grape app"
# doc3: "orange apple"

cv = TfidfVectorizer(norm=None) # 实例化， 不对TF-IDF文档-词频矩阵 作归一化
cv_fit=cv.fit_transform(texts)   # 训练-导入数据
print('词库')
print(cv.vocabulary_)
print('IDF值')
print(cv.idf_)  # 计算 单词的 idf_值
print('文档-词频 矩阵')
print([[1 1 1 1 1]   # 对于doc0，按 {'orange': 4, 'banana': 2, 'apple': 1, 'grape': 3, 'app': 0} 中的顺序统计 词频，如 doc0 中 app 出现 1次， apple 出现 1次，banana 出现 1 次， grape 出现 1 次， orange 出现 1 次
       [0 2 1 0 0] 
       [1 0 0 1 0]  # 对于doc2，按 {'orange': 4, 'banana': 2, 'apple': 1, 'grape': 3, 'app': 0} 中的顺序统计 词频，如 doc2 中 app 出现 1次， apple 出现 0 次，banana 出现 0 次， grape 出现 1 次， orange 出现 0 次
       [0 1 0 0 1]])
print('TF-IDF文档-词矩阵')
print(cv_fit.toarray())
print(cv_fit)

输出词库

词库
{'orange': 4, 'banana': 2, 'apple': 1, 'grape': 3, 'app': 0}

计算词库中单词的 idf 值 # 注意默认是平滑的
N：总文档个数是 4
N（app）= 2， app 出现在两个文档中
N（apple）=3，apple 出现在三个文档中
N（banana）=2， banana 出现在两个文档中
N (grape) = 2
N (orange) = 2

看程序输出结果：是一致的

IDF值
[1.51082562 1.22314355 1.51082562 1.51082562 1.51082562]

文档-词频 矩阵
[[1 1 1 1 1]
 [0 2 1 0 0] 
 [1 0 0 1 0]      
 [0 1 0 0 1]]

计算 tf-idf文档-词频矩阵
先看第一行：

再看第二行：

在看第三行：

最后一行：

看程序输出结果：是一致的

TF-IDF文档-词矩阵
[[1.51082562 1.22314355 1.51082562 1.51082562 1.51082562]
 [0.         2.4462871  1.51082562 0.         0.        ]
 [1.51082562 0.         0.         1.51082562 0.        ]
 [0.         1.22314355 0.         0.         1.51082562]]

print(cv.fit)
(0, 0)	1.5108256237659907  # doc0 中 app 的 idf
(0, 3)	1.5108256237659907  # doc0 中 apple 的 idf
(0, 1)	1.2231435513142097
(0, 2)	1.5108256237659907
(0, 4)	1.5108256237659907
(1, 1)	2.4462871026284194
(1, 2)	1.5108256237659907
(2, 0)	1.5108256237659907
(2, 3)	1.5108256237659907
(3, 1)	1.2231435513142097
(3, 4)	1.5108256237659907

采用 l2 正则化会怎样呢？

其余不变，只是 tf-idf文档-词频矩阵归一化了

cv = TfidfVectorizer()
cv_fit=cv.fit_transform(texts)
print(cv.vocabulary_)
print(cv.idf_)
print(cv_fit.toarray())
print(cv_fit)

输出

词库
{'orange': 4, 'banana': 2, 'apple': 1, 'grape': 3, 'app': 0}

IDF值
[1.51082562 1.22314355 1.51082562 1.51082562 1.51082562]

文档-词频 矩阵
[[1 1 1 1 1]
 [0 2 1 0 0] 
 [1 0 0 1 0]      
 [0 1 0 0 1]] 
 
TF-IDF文档-词矩阵
[[0.46346838 0.3752176  0.46346838 0.46346838 0.46346838]
 [0.         0.8508161  0.52546357 0.         0.        ]
 [0.70710678 0.         0.         0.70710678 0.        ]
 [0.         0.62922751 0.         0.         0.77722116]]

cv_fit
  (0, 0)	0.46346837948164166
  (0, 3)	0.46346837948164166
  (0, 1)	0.3752175967124194
  (0, 2)	0.46346837948164166
  (0, 4)	0.46346837948164166
  (1, 1)	0.8508160982744233
  (1, 2)	0.5254635733493682
  (2, 0)	0.7071067811865475
  (2, 3)	0.7071067811865475
  (3, 1)	0.6292275146695526
  (3, 4)	0.7772211620785797

以 tf-idf文档-词频矩阵中的 1.51082562为例，进行正则化

你可能感兴趣的:(NLP自学笔记,自然语言处理,深度学习)

智源社区AI周刊：Hinton预测破解大脑机制时间；Gary Marcus批判追捧深度学习风潮；谷歌发布Imagen... 智源社区机器学习人工智能深度学习编程语言大数据
汇聚每周必看AI观点、研究和各类资源，不错过一条重要资讯！欢迎扫码订阅，获取邮件推送。观点“我们会在未来的五年内破解这些（人脑的）程序......现有的一切人工智能，都是建立在与大脑高层次上所做的事情完全不同的基础上......假设有数十亿的参数，这些神经元间的权重在大量训练实例的基础上去调整，会发生奇妙的事情。大脑是如此，深度学习也是如此。但问题在于，如何获得调整参数的梯度......目前我的信
想转行到人工智能领域，我该学什么，怎么学？张登杰踩人工智能 python
转行到人工智能（AI）领域需要系统的学习和实践，以下是详细的路径建议，涵盖基础知识、技能学习、项目实践和求职准备：一、明确目标和领域方向人工智能领域广泛，建议先了解细分方向（如机器学习、深度学习、计算机视觉、自然语言处理、强化学习等），结合兴趣和职业规划选择切入点。二、构建基础知识1.数学基础线性代数：矩阵运算、特征值、向量空间。微积分：导数、梯度、优化理论。概率与统计：贝叶斯定理、分布、假设检验
自然语言处理的发展历程数亦有术自然语言处理人工智能
1.自然语言处理发展的7个阶段序号阶段时间贡献代表人物1起源期1913-1956思考使用图灵算法计量模型来描述自然语言，描述词语及词语之间的关系。这一阶段停留在理论层面做探索图灵、马尔可夫、香农2基于规则的形式语言理论期1957-1970形式语言理论的提出，开启了学术界对自然语言结构的研究、建模和解析，从而为基于结构与规则的文本识别、生成和翻译开辟了一条康庄大道诺姆·乔姆斯基、冯志伟3基于规则、概
【自然语言处理（NLP）】NLTK的使用（分句、分词、词频提取）道友老李自然语言处理(NLP)自然语言处理人工智能
文章目录介绍NLTK主要功能模块安装使用分句分词去除标点符号去除停用词stopword噪音单词,词频提取个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍自然语言处理（NaturalLanguageProcessing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类（自然）语言与计算机之间的交互。NLP的目标是让计算机能够理解、解析、生成人类语言，并且能够以有意义的方式
【自然语言处理（NLP）】序列数据研究（创建序列数据、简单的MLP模型、预测结果分析）道友老李自然语言处理(NLP)自然语言处理人工智能
文章目录介绍序列数据研究导包安装d2l创建序列数据创建模型开始训练预测多步预测结论个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍自然语言处理（NaturalLanguageProcessing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类（自然）语言与计算机之间的交互。NLP的目标是让计算机能够理解、解析、生成人类语言，并且能够以有意义的方式回应和操作这些信息。N
深度学习-94-大语言模型LLM之基于langchain的链Chain的基础应用和调用方式皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1Chain链的分类1.1LCELChains(链构造器)1.2LegacyChains(遗留链)2链的基础应用2.1OllamaLLM2.2是否使用chain的对比2.2.1不使用Chain2.2.2使用Chain3链的调用方式3.1通过invoke方法【推荐】3.2通过predict方法3.3通过apply方法3.4通过generate方法4参考附录1Chain链的分类为开发更复杂的应
网络安全大模型和人工智能场景及应用理解 hao_wujing web安全安全
本文通过通俗易懂的方式的进行阐述，大家读完觉得有帮助记得及时关注和点赞！！！一、网络安全大模型的概述网络安全大模型是一种用于识别和应对各种网络安全威胁的模型。它通过分析网络数据包、网络行为等信息，识别潜在的网络安全事件，并采取相应的措施进行防御。人工智能（AI）是指由计算机系统或机器执行的智能任务，通常需要人类智能来完成。AI的一个重要分支是（NLP），即让计算机理解和生成自然语言。NLP的一个核
Swin-Unet：图像分割领域的强大工具陈凯韵
Swin-Unet：图像分割领域的强大工具【下载地址】Swin-UnetPyTorch代码仓库本仓库提供了一个基于PyTorch实现的Swin-Unet模型的代码资源。Swin-Unet是一种结合了SwinTransformer和U-Net结构的深度学习模型，适用于图像分割任务。该代码可以帮助研究人员和开发者快速上手并应用Swin-Unet模型进行图像分割实验项目地址:https://gitcod
新质生产力与核心竞争力提升 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
新质生产力、人工智能、机器学习、深度学习、算法优化、数据驱动、核心竞争力、数字化转型1.背景介绍在当今数字化时代，科技创新正以惊人的速度推动着社会发展。人工智能（AI）作为科技发展的重要驱动力，正在深刻地改变着生产方式和生活方式。从自动驾驶汽车到智能语音助手，从个性化推荐系统到医疗诊断辅助，AI技术的应用场景日益广泛，为人类社会带来了前所未有的机遇。然而，AI技术的应用并非一帆风顺。如何有效地利用
李开复：苹果发布AI应用的未来 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
苹果,AI,应用,未来,深度学习,自然语言处理,计算机视觉1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，并开始渗透到人们生活的方方面面。从智能手机的语音助手到自动驾驶汽车，AI正在改变着我们的世界。作为科技巨头，苹果也积极布局AI领域，并将其融入到其产品和服务中。2017年，苹果发布了其首款AI芯片A11Bionic，并将其应用于iPhoneX等产品。该芯片拥有强大的神经网络处理能力，为
推荐系统的未来发展方向：大模型的主流化 AI天才研究院计算大数据AI人工智能 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《推荐系统的未来发展方向：大模型的主流化》关键词：推荐系统，大模型，深度学习，人工智能，未来趋势摘要：本文深入探讨了推荐系统的发展历程及其在当前人工智能时代的重要性。重点分析了深度学习在大模型中的应用，探讨了大模型的主流化趋势及其面临的挑战。通过案例研究，展示了大模型在实际推荐系统中的应用效果，并对未来的发展方向进行了展望。目录大纲推荐系统的概述1.1推荐系统的发展历程1.2推荐系统的基本架构深度
计算广告（一）爱学习的菜鸟罢了搜广推人工智能
计算广告学是一个十分庞大的学科，里面涵盖了自然语言处理、机器学习、推荐系统等众多研究方向。而且广告作为互联网行业的三大盈利模式（广告、电商、游戏）之一，也是这三大模式中最有技术含量的，计算广告学一直都吸引着无数学术界/工业界的精英投入其中（ps：计算广告学也是机器学习在商业界最成功的应用之一）。行业分类例子盈利搜索引擎Google百度广告社交网络腾讯facebook广告增值服务游戏电商网站亚马逊阿
快速入门Volc Engine的MaaS LLM模型 azzxcvhj python
在这篇文章中，我将为你详细介绍如何使用VolcEngine的MaaSLLM模型。我们将从安装库开始，然后深入到具体的代码实现，最后分析其应用场景及实践建议。技术背景介绍VolcEngine（火山引擎）提供了一个强大的MaaS（ModelasaService）平台，支持多种语言模型。这个平台旨在让开发者更容易地集成和使用先进的自然语言处理能力。通过VolcEngine，开发者可以轻松实现文本生成、文
自动驾驶中的虚实迁移学习:降低对真实世界数据的依赖 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
自动驾驶,迁移学习,虚实环境,数据效率,深度学习,强化学习1.背景介绍自动驾驶技术作为人工智能领域的重要应用之一，其发展离不开海量真实世界驾驶数据。然而，收集和标注真实世界驾驶数据成本高昂，且存在安全隐患。因此，如何降低对真实世界数据的依赖，提高自动驾驶系统的训练效率和安全性，成为一个亟待解决的关键问题。虚实迁移学习(Virtual-to-RealTransferLearning)作为一种新兴的机
详细介绍 NVIDIA GeForce RTX 系列，各显卡配置参数（长期更新 - 2024.12） JiaWen技术圈人工智能深度学习机器学习 gpu算力 AIGC 人工智能图形渲染
NVIDIAGeForceRTX系列是NVIDIA面向消费级市场的高性能GPU产品线，注重提供高性能的图形处理能力和游戏特性。主要面向游戏玩家和普通用户，同时也被广泛用于深度学习推理和训练等计算密集型任务。主要GPU产品有：50Series、40Series、30Series、20Series、10Series。其主要参数如下：NVIDIAGeForceRTX50Series规格架构：Blackw
使用SolarChat实现中英韩翻译的实战指南 azzxcvhj python
在这篇文章中，我们将探索如何利用SolarChat这一强大的聊天模型来实现中英韩翻译功能。SolarChat是一个方便的语言模型接口，能够帮助我们将自然语言处理任务集成到项目中。本文将详细介绍这个模型的核心原理，并通过示例代码展示如何使用它进行翻译。技术背景介绍随着人工智能的发展，语言模型在各种自然语言处理任务中扮演了重要角色。特别是在翻译、对话生成等领域，先进的语言模型如SolarChat为我们
自动检测和机器审核系统实现 ╰つ゛木槿 java easyui javascript python java 自然语言处理
目录一、自动检测和机器审核实现步骤1.文本预处理步骤细节：2.关键词检测步骤细节：3.情感分析与情境理解步骤细节：4.机器学习模型训练步骤细节：5.深度学习模型步骤细节：6.多模态审查步骤细节：7.用户行为分析与违规预测步骤细节：总结二、常用的分词工具1.jieba2.THULAC3.HanLP4.SnowNLP5.LAC（LexicalAnalysisofChinese）6.PyLDAvis（结
使用 Tokenizers 分割文本：深入了解与实践 AWsggdrg python
在开发应用自然语言处理（NLP）模型时，一个常见的需求是将文本拆分为较小的块，通常称为“tokens”。现代语言模型对tokens的数量有限制，因此在处理长文本时，我们需要仔细计算tokens以避免超过限制。本文将介绍如何使用不同的tokenizer来分割文本，并提供实用代码示例。技术背景介绍自然语言处理中的tokenization是指将文本拆分为更小的、可管理的单元，称为tokens。使用tok
Python 如何使用 Bert 进行中文情感分析程序员徐师兄 Python 入门专栏 python bert 开发语言情感分析
前言在自然语言处理（NLP）领域，情感分析是一个非常常见且重要的应用。情感分析通常用于识别文本中的情感，例如判断一条微博或评论是正面、负面还是中性。在过去的几年中，随着深度学习的发展，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型迅速成为了处理自然语言的强大工具。BERT是一种基于Transformer架构的预训练模型，它能够
PyTorch深度学习实战（43）——手写文本识别盼小辉丶深度学习 pytorch 人工智能
PyTorch深度学习实战（43）——手写文本识别0.前言1.手写文本识别1.1基本概念1.2输入和输出格式1.3CTC损失值2.模型与数据集分析2.1数据集分析2.2模型分析3.实现手写文本识别模型小结系列链接0.前言手写文本识别，也称为手写文本的光学字符识别(OpticalCharacterRecognition,OCR)，是计算机视觉和自然语言处理中的一项具有挑战性的任务。与印刷文本不同，手
算法中的时间复杂度和空间复杂度 CM莫问人工智能算法常见概念算法人工智能 python 时间复杂度空间复杂度
一、背景随着人工智能的纵深发展，我们会发现现在做算法很多时候都是通过掉包来解决问题了。Torch或者Tensorflow之类的深度学习库大大减少了算法工程师的工作量，而且在张量运算、反向传播等环节，这些深度学习库的模块设计也尽最大可能地降低了计算的时间和空间复杂度，从而不需要我们额外进行过多的干预。如果不是科班读计算机相关专业的，相信不少朋友第一次听说时间复杂度和空间复杂度的概念是在找工作刷lee
深入理解旋转位置编码（RoPE）及其在大型语言模型中的应用 tangjunjun-owen 语言模型-多模态大模型语言模型人工智能自然语言处理 RoPE 旋转位置编码
文章目录前言一、旋转位置编码原理1、RoPE概述2、复数域内的旋转1、位置编码生成2、应用位置编码二、RoPE的实现细节1、RotaryEmbedding类设计2、apply_rotary_pos_emb函数3、demo_apply_rotary_pos_emb函数三、完整RoPE代码Demo前言随着自然语言处理（NLP）领域的快速发展，预训练的语言模型如BERT、GPT系列、PaLM、Qwen等
ARM Cortex-M3与Cortex-M4权威指南胡妃意
ARMCortex-M3与Cortex-M4权威指南【下载地址】ARMCortex-M3与Cortex-M4权威指南ARMCortex-M3与Cortex-M4权威指南欢迎阅读《ARMCortex-M3与Cortex-M4权威指南（第3版）》，这是一本针对嵌入式系统开发者量身打造的深度学习手册项目地址:https://gitcode.com/Open-source-documentation-tu
python LTP 安装 failed building wheel for pyltp Waldenz NLP Python LTP python ltp wheel failed building wheel
LTP（LanguageTechnologyPlatform）语言技术平台。LTP提供了一系列中文自然语言处理工具，用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。主页GitHubpyltpwin10pip直接安装pyltp时的各种报错，Faildbuildingwheelforpyltp或者Runningsetup.pybdist_wheelforpyltp...error
【数据挖掘实战】房价预测机器学习司猫白数据挖掘人工智能 python 机器学习
本次对kaggle中的入门级数据集，房价回归数据集进行数据挖掘，预测房屋价格。本人主页：机器学习司猫白机器学习专栏：机器学习实战PyTorch入门专栏：PyTorch入门深度学习实战：深度学习ok，话不多说，我们进入正题吧概述本次竞赛有79个解释变量（几乎）描述了爱荷华州艾姆斯住宅的各个方面，需要预测每套住宅的最终价格。数据集描述本次数据集已经上传，大家可以自行下载尝试文件说明train.csv-
GPT-4对话模型在客服中的应用与前景：开启智能客服新时代 Echo_Wish 前沿技术人工智能 python 人工智能 gpt
GPT-4对话模型在客服中的应用与前景：开启智能客服新时代随着人工智能技术的迅猛发展，基于深度学习的对话模型在各个领域中得到了广泛应用。其中，GPT-4对话模型在客服系统中的应用尤为引人注目。本文将探讨GPT-4在客服中的应用与未来发展前景，并结合具体代码示例进行说明。一、GPT-4对话模型概述GPT-4（GenerativePre-trainedTransformer4）是OpenAI开发的一种
模型压缩与优化技术——神经架构搜索（Neural Architecture Search, NAS） DuHz 轻量化模型机器学习计算机视觉人工智能神经网络深度学习数据挖掘语音识别
模型压缩与优化技术中的神经架构搜索（NeuralArchitectureSearch,NAS）技术1.引言在深度学习领域，神经网络的架构设计对模型的性能至关重要。传统的手动设计网络架构的过程费时费力，且通常依赖于经验和直觉。为了提升效率与效果，神经架构搜索（NeuralArchitectureSearch,NAS）作为一种自动化的方法，能够通过算法寻找和优化最佳的神经网络架构。NAS可以在图像识别
面向 Data+AI 的统一数据目录探索 | Data Infra NO.22 回顾（含资料发布）数据库
随着生成式人工智能（GenerativeAI）的崛起，从图像生成、自然语言处理到个性化推荐系统，生成式AI技术正迅速改变着各行各业的面貌。而在这场变革背后，数据的管理和治理显得尤为重要。对于企业来说，数据不仅是基础资源，更是构建AI应用和增强业务能力的关键。ApacheGravitino（incubating）与Databend作为数据领域两个知名的开源项目，正通过各自的创新技术和实践，为数据管理
QAT与PTQ模型量化方法的区别 old_power 计算机视觉模型量化深度学习计算机视觉
QAT（QuantizationAwareTraining）和PTQ（PostTrainingQuantization）是两种常见的模型量化方法，用于减少深度学习模型的计算和存储开销，同时尽量保持模型的性能。1.QAT（QuantizationAwareTraining）定义：QAT是在模型训练过程中引入量化操作，使模型在训练时就能感知到量化带来的影响，从而更好地适应量化后的精度损失。流程：在训练
毕设分享深度学习街道行人流量计数系统 fawubio_A 毕业设计 python 毕设
文章目录0前言1项目运行效果2设计概要2原理介绍2.1目标检测概况什么是目标检测？发展阶段2.2行人检测行人检测简介行人检测技术难点行人检测实现效果4最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他