小孩不要怕

文本数据处理

文本数据处理常见任务

文本分类
文本分类是按照一定的分类体系，将文档判别为预定的若干类中的某一类或某几类。

信息检索
指将信息（此处指代文本）按一定的方式组织起来，根据用户的需求将相关信息查找出来

信息抽取
将文本中包含的结构化或非结构化的信息抽取出来，组成类似表格的形式

自动问答
用准确、简洁的自然语言回答用户以文本形式提出的问题

机器翻译
一种自然语言文本自动转换为另一种自然语言文本

自动摘要
从一份或多份文本中提取出来部分文字，它包含了原文本中的重要信息，且长度不超过或远小于原文本的一半

文本处理的基本步骤

Step1：文本采集
文本提取与整理
Step2：文本预处理
文本分词、去停用词、词性标注、样本标注
Step3：特征选择—>特征提取
Step4：建模分析（分类模型、CRF模型、RNN模型、LSTM模型）

文本预处理—中文分词

词：最小的能够独立活动的有意义的语言成分
英文单词之间以空格分界
汉语以字为基本书写单位，词语之间没有明确的区分

分词
将连续的字序列按照一定的规范重新组合成词序列

Python分词库：jieiba库

精确模式：将句子最精确地且分开，适合文本分析

搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词

全模式：把句子中所有的可以成词的词语都扫描出来，速度快但不能解决歧义。

jieba中文分词函数：

函数	参数说明
lcut(sentence, cut_all= False, HMM= True)	sentence：待分词的字符串；cut_all：是否采用全模式；HMM：是否使用HMM模型。直接返回词列表。适用于精确模式和全模式
lcut_for_search (sentence, HMM= True)	sentence：待分词的字符串；HMM：是否使用 HMM 模型。直接返回词列表
cut(sentence, cut_all= False, HMM= True)	等同于lcut()函数，但不会直接返回词列表，返回的是可迭代的generator。若想直接返回词列表，则需要做其他操作
cut_for_search (sentence, HMM= True)	等同于lcut_for_search()函数，但不会直接返回词列表，返回的是可迭代的generator。若想直接返回词列表，则需要做其他操作
详见例题6-1

例题6-1：将文本句子 “2018年世界杯小组赛抽签在莫斯科克里姆林宫举行”进行分词

'''方式一：利用lcut()和lcut_for_search()函数'''
import jieba
print("精确模式切分为：\n",jieba.lcut("2018年世界杯小组赛抽签在莫斯科克里姆林宫据举行"))
print("搜索引擎模式切分为：\n",jieba.lcut_for_search("2018年世界杯小组赛抽签在莫斯科克里姆林宫据举行"))
print("全模式切分为：\n",jieba.lcut("2018年世界杯小组赛抽签在莫斯科克里姆林宫据举行",cut_all= True))

'''方式二：利用cut()和cut_for_search()函数,此处仅以精确模式为例'''
import jieba
words= jieba.cut_for_search("2018年世界杯小组赛抽签在莫斯科克里姆林宫据举行")
print(words)
for word in words:
	print(word)

文本预处理—词性标注

jieba库的posseg模块提供词性标注from jieba import posseg as pseg
pseg.lcut()或pseg.lcut_for_search()
等同于pseg.cut或pseg.cut_for_search()

词性：如名词、动词、形容词、代词等

利用cut()或cut_for_search()函数
from jieba import posseg as pseg
words= pseg.cut("2018年世界杯小组赛抽签在莫斯科克里姆林宫据举行")
for word, tag in words:
    print("word:{}, tag:{}".format(word, tag))

利用lcut()或lcut_for_search()函数
方式一：
from jieba import posseg as pseg
pseg.lcut("2018年世界杯小组赛抽签在莫斯科克里姆林宫据举行")
方式二：
from jieba import posseg as pseg
for word,tag in pseg.lcut("2018年世界杯小组赛抽签在莫斯科克里姆林宫据举行"):
    print("word:{},tag:{}".format(word,tag))

方式一：

方式二：

特征选择与特征提取

作用：将文本内容转换成数字特征向量

有三种模型可供转换：
词袋模型、TF-IDF模型、词向量模型--------本章只讲前两种模型

词袋模型

基本思想：
将一条文本仅看作一些独立的词语的集合，忽略文本的词序、语法和句法。
简单讲就是将每条文本都堪看成一个袋子，里面装的是词，成为词袋，分析时用词袋代表整个文本。
词袋模型统计在一个句子中每个单词出现的频数

词袋模型构建过程：
对文档集进行分词—>构造字典—>生成词袋向量

词袋模型实现：
sklean库中的feature_extraction.text模块的CountVectorizer类
from sklearn.feature_extraction.text import CountVectorizer
词袋模型初始化：
cv= CountVectorizer(token_pattern, max_features)
生成词袋向量
cv_fit= cv.fit_transform(split_corpus)
生成特征列表
cv.get_feature_names()
生成特征向量
cv_fit.toarray()

参数说明如下：

例题6-2文本词袋特征生成。

from sklearn.feature_extraction.text import CountVectorizer
import jieba
'''给出文档集，放在字符串列表中'''
corpus= [
    '我是中国人，我爱中国',
    '我是上海人',
    '我住在上海松江大学城']

'''定义字符串空列表，用来存文档集中每个字符串的词袋'''
split_corpus= []

'''初始化分词结果的列表，循环为corpus中的每个字符串分词，即对文档集进行分词'''
for c in corpus:
    s= ' '.join(jieba.lcut(c))
    split_corpus.append(s)
print(split_corpus)

'''生成词袋'''
'''词袋模型初始化'''
cv= CountVectorizer()
'''构造字典生成词袋向量'''
cv_fit= cv.fit_transform(split_corpus)
'''显示特征列表'''
print(cv.get_feature_names())
'''显示特征向量'''
print(cv_fit.toarray())

TF-IDF模型

定义：
“词频-逆文本频率”，是词袋模型的一个变种，区别是将词频值改为TF-IDF值，用于评估一个词对于一个文档的重要程度。

TF：词频
某个词在文档中出现的次数或频率
若某个词在某文档中出现多次，则说明这个词可能比较重要或者是文档常用词

IDF：逆文档频率
计算方法：将文档集中总文档数量除以包含该词语的文档数量，再将得到的商取对数。
DF主要用来取出文档常用词，如停用词的IDF值就会很低。
TF-IDF：TF和IDF乘积
作用：过滤到常见的词语，保留重要的词语。

TF-IDF模型构建过程
对文档集进行分词—>构造字典—>生成TF-IDF向量
注意：构建过程与词袋模型一致，唯一区别：在构造字典时，将词对应的词频改为TF-IDF值
TF-IDF模型实现
方法一
sklearn库中的feature_extraction.text模块中的TfidfTransformer类。
在词袋向量的基础上TfidTransformer类完成TF-IDF计算。
from sklearn.feature_extraction.text import TfidfTransformer
TF-IDF模型初始化
tfidf= TfidfTransformer()
生成TF-IDF向量
tfidf_fit= tfidf.fit_transform(cv_fit)—cv_fit为ConubtVectiorizer类生成的词袋向量
生成TF-IDF特征向量
tfidf_fit.toarray()
方法二
sklearn库中的feature_extraction.text模块中的TfidfVectorizer类完成向量化、TF-IDF计算。
from sklearn.feature_extraction.text import TfidfVectorizer
TF-IDF模型初始化
tfidf= TfidfVectorizer(token_pattern)------参数与词袋模型参数一样
生成TF-IDF向量
tfidf_fit= tfidf.fit_transform(split_corpus)
生成TF-IDF特征向量
tfidf_fit.toarray()

方法一：feature_extraction.text模块的TfidfTransformer类

import jieba
'''给出文档集，放在字符串列表中'''
corpus= [
    '我是中国人，我爱中国',
    '我是上海人',
    '我住在上海松江大学城']

'''定义字符串空列表，用来存文档集中每个字符串的词袋'''
split_corpus= []

'''初始化分词结果的列表，循环为corpus中的每个字符串分词，即对文档集进行分词'''
for c in corpus:
    s= ' '.join(jieba.lcut(c))
    split_corpus.append(s)
print(split_corpus)
'''生成词袋'''
'''词袋模型初始化'''
from sklearn.feature_extraction.text import CountVectorizer
#(?u)\b\w\w+\b为其默认参数
cv= CountVectorizer(token_pattern= r"(?u)\b\w\w+\b")
'''构造字典生成词袋向量'''
cv_fit= cv.fit_transform(split_corpus)

'''在例题6-2后加如下代码即可变为TF-IDF模型'''
from sklearn.feature_extraction.text import TfidfTransformer
'''TF-IDF模型初始化'''
tfidf_transformer= TfidfTransformer()
'''生成TF-IDF向量'''
tfidf_fit= tfidf_transformer.fit_transform(cv_fit)
'''显示TF-IDF特征向量'''
print(tfidf_fit.toarray())

方法二：直接用分词后得到的列表计算TF-IDF特征表示

import jieba
'''给出文档集，放在字符串列表中'''
corpus= [
    '我是中国人，我爱中国',
    '我是上海人',
    '我住在上海松江大学城']

'''定义字符串空列表，用来存文档集中每个字符串的词袋'''
split_corpus= []

'''初始化分词结果的列表，循环为corpus中的每个字符串分词，即对文档集进行分词'''
for c in corpus:
    s= ' '.join(jieba.lcut(c))
    split_corpus.append(s)
print(split_corpus)
print('-----------------------')
from sklearn.feature_extraction.text import TfidfVectorizer
'''TF-IDF模型初始化'''
tfidf= TfidfVectorizer(token_pattern= r"(?u)\b\w\w+\b")
'''生成TF-IDF向量'''
tfidf_fit= tfidf.fit_transform(split_corpus)
'''显示特征向量'''
print(tfidf_fit.toarray())

思考与练习1

在例6-2的文档集中添加2条文本，“松江大学城有很多大学”、“大学城共有15万余大学生”。计算文档集中每条文本的词袋和TF-IDF特征表示。
方法一：feature_extraction.text模块的TfidfTransformer类

import jieba
from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformer
corpus= [
    '我是中国人，我爱中国',
    '我是上海人',
    '我住在上海松江大学城',
    '松江大学城有很多大学',
    '大学城共有15万余大学生']
split_corpus= []
for c in corpus:
        s= " ".join(jieba.lcut(c))
        split_corpus.append(s)
print("每条文本的词袋为：\n",split_corpus)
print('-------------------------------------------------------------')
from sklearn.feature_extraction.text import CountVectorizer
cv= CountVectorizer(token_pattern= r"(?u)\b\w\w+\b")
cv_fit= cv.fit_transform(split_corpus)
print("词袋模型的特征列表为：\n",cv.get_feature_names())
print("词袋模型的特征向量为：\n",cv_fit.toarray())

from sklearn.feature_extraction.text import TfidfTransformer
tfidf_transformer= TfidfTransformer()
tfidf_fit= tfidf_transformer.fit_transform(cv_fit)
'''显示TF-IDF的特征向量'''
print(tfidf_fit.toarray())

方法二：直接用分词后得到的列表计算TF-IDF特征表示

'''方式二'''
import jieba 
from sklearn.feature_extraction.text import TfidfVectorizer
corpus= [
    '我是中国人，我爱中国',
    '我是上海人',
    '我住在上海松江大学城',
    '松江大学城有很多大学',
    '大学城共有15万余大学生']
split_corpus= []
for c in corpus:
    s= " ".join(jieba.lcut(c))
    split_corpus.append(s)
print(split_corpus)
print('----------------------------------------------------------')
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf= TfidfVectorizer(token_pattern= r"(?u)\b\w\w+\b")
tfidf_fit= tfidf.fit_transform(split_corpus)
'''显示TF-IDF特征向量'''
print(tfidf_fit.toarray())

垃圾邮件识别—此处利用分类算法中的SVM模型

垃圾邮件识别技术
关键词识别
IP黑名单
反向DNS查找
意图分析技术链接URL
分类算法（最常见）等

分类算法进行垃圾邮件识别

实现步骤：
收集大量的垃圾邮件和非垃圾邮件
建立垃圾邮件库和非垃圾邮件库
提取其中的特征
训练分类模型

使用词袋模型或TF-IDF模型提取特征
得到m*n的矩阵X。m为10000，n为文本集的字典词条数目
标签向量y长度为m，元素值为0或1

import jieba
#从文本中读取文本，放在列表中
mail= open('E:\data\mailcorpus.txt', 'r', encoding= 'utf-8')
corpus= mail.readlines()#列表中的每个元素为一行文本
split_corpus= []
for c in corpus:
    s= " ".join(jieba.lcut(c))
    split_corpus.append(s)
from sklearn.feature_extraction.text import CountVectorizer
cv= CountVectorizer()
X= cv.fit_transform(split_corpus).toarray()
'''
等同于：
cv_fit= cv.fit_transform(split_corpus)
X= cv_fit.toarray()
'''
#构造标签向量，垃圾标签为0，正常标签为1
y= [0]*5000+[1]*5000

#将数据集切分为训练集和测试集
from sklearn import model_selection
from sklearn import svm
from sklearn import metrics
X_train, X_test, y_train, y_test= model_selection.train_test_split(X, y, test_size= 0.4, random_state= 0)

#使用SVM训练分类器模型
#利用高斯核函数,并设置其系数为0.7，误差项的惩罚参数为1
svm= svm.SVC(kernel= 'rbf', gamma= 0.7, C= 1.0)
svm.fit(X_train, y_train)
#测试集模型预测
predicted_ytest= svm.predict(X_test)
#测试集的准确率
print("SVM accuracy：\n", svm.score(X_test, y_test))
#SVM分类性能报告
print("SVM report：\n", metrics.classification_report(y_test, predicted_ytest))
#SVM混淆矩阵计算
print("SVM matrix：\n",mean.confusion_matrix(y_test,predicted_ytest))

思考与练习2

第一题：将邮件特征提取从词袋模型改为TF-IDF模型，比较使用不同的特征计算模型的分类性能。

import jieba
mail= open('E:\data\mailcorpus.txt', 'r', encoding= 'utf-8')
corpus= mail.readlines()
split_corpus= []
for c in corpus:
    s= " ".join(jieba.lcut(c))
    split_corpus.append(s)
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf= TfidfVectorizer(token_pattern= r"(?u)\b\w+\b")
tfidf_fit= tfidf.fit_transform(split_corpus)
X= tfidf_fit.toarray()
y= [0]*5000+[1]*5000

from sklearn import model_selection, metrics, svm

X_train, X_test, y_train, y_test= model_selection.train_test_split(X, y, test_size= 0.4, random_state= 0)
svm= svm.SVC(kernel= 'rbf', gamma= 0.7, C= 1.0)
svm.fit(X_train, y_train)
predicted_ytest= svm.predict(X_test)
print("SVM accuracy:\n",svm.score(X_test, y_test))
print("SVM report:\n",metrics.classification_report(y_test, predicted_ytest))
print("SVM matrix:\n", metrics.confusion_matrix(y_test, predicted_ytest))

第二题：使用Scikit-learn的CountVectorizer()函数初始化词袋模型时，设置不同的特征个数生成邮件的特征表示向量，比较训练分类模型所耗费的时间，以及分类模型分类的准确性。特征个数越多是否意味分类性能越好？

import jieba
from sklearn import metrics,svm,model_selection

def svmm(a,b):
    X_train, X_test, y_train, y_test= model_selection.train_test_split(a, b, test_size= 0.7, random_state= 0)
    svm= svm.SVC(kernel= 'rbf', gamma= 0.7, C= 1.0)
    svm.fit(X_train, y_train)
    predicted_ytest= svm.predict(X_train)
    print("SVM accuracy:\n",svm.score(X_test, y_test))
    print("SVM report:\n",metrics.classification_report(y_test, predicted_ytest))
    print("SVM matrix:\n", metrics.confusion_matrix(y_test, predicted_ytest))
    return

mail= open('E:\data\mailcorpus.txt', 'r', encoding= 'utf-8')
corpus= mail.readlines()
split_corpus= []
for c in corpus:
    s= " ".join(jieba.lcut(c))
    split_corpus.append(s)
from sklearn.feature_extraction.text import CountVectorizer
cv= CountVectorizer(token_pattern= r"(?u)\b\w+\b")
cv_fit= cv.fit_transform(split_corpus)
for i in range(500,10000,500):
    X= cv_fit.toarray()[0:i]
    y= [0]*i+[1]*i
    svmm(X, y)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
xilinx vivado PULLMODE 设置思路坚持每天写程序 fpga开发
1.xilinx引脚分类XilinxIO的分类：以XC7A100TFGG484为例，其引脚分类如下：1.UserIO(用户IO)：用户使用的普通IO1.1专用(Dedicated)IO：命名为IO_LXXY_#、IO_XX_#的引脚，有固定的特定用途，多为底层特定功能的直接实现，如差分对信号、关键控制信号等，不能随意变更。1.2多功能(Multi-Function)IO：命名为IO_LXXY_ZZ
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
网络通信流程记得开心一点啊服务器网络运维
目录♫IP地址♫子网掩码♫MAC地址♫相关设备♫ARP寻址♫网络通信流程♫IP地址我们已经知道IP地址由网络号+主机号组成，根据IP地址的不同可以有5钟划分网络号和主机号的方案：其中，各类地址的表示范围是：分类范围适用网络网络数量主机最大连接数A类0.0.0.0~127.255.255.255大型网络12616777214【(2^24)-2】B类128.0.0.0~191.255.255.255中
5分钟说透AppStore审核原理，让你拥有上架新思路！ Q仔本人噢
在AppStore上架是越来越难了!相信非常多公司的技术人员都为此困扰，然而外包团队水平又层次不齐，容易遇坑，实在是内忧外患。是什么原因导致审核机制频繁调整？又是什么原因使得审核变得越发严格？那么接下来听小Q分解，马上给各位带来解答!首先看一下近一年的上下架的情况：近一年上架情况近一年下架情况通过数据我们发现越是马甲包产量权重高的分类里被下架的app数量越多，苹果此举可谓是上有政策，下有对策。通过
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
【自动化测试】UI自动化的分类、如何选择合适的自动化测试工具以及其中appium的设计理念、引擎和引擎如何工作 Lossya ui 自动化测试工具自动化测试 appium
引言UI自动化测试主要针对软件的用户界面进行测试，以确保用户界面元素的交互和功能符合预期文章目录引言一、UI自动化的分类1.1基于代码的自动化测试1.2基于录制/回放的自动化测试1.3基于框架的自动化测试1.4按测试对象分类1.5按测试层次分类1.6按测试执行方式分类1.7按测试目的分类二、如何选择合适的自动化测试工具2.1项目需求分析2.2工具特性评估2.3成本考虑2.4团队技能2.5试用和评估
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
性格小测试熹大头
有些人非常肯定自己属于外向型，有些人则发现自己是绝对的内向型。然而，多数人却发现他们似乎介于两者之间，是两种性格的结合。现在我们就来看看你在这种分类中处在何种位置。阅读以下问题，从a、b、c中选出最适合自己的选项。你可能会发现三个选项都不合适，或者合适的不止一项，这种情况下，选出相对来说更适合自己的即可。1人们经常会用下列哪个词语描述你：a善于分析b遵守纪律c有创造力2一连几天参与社交活动（比如，
李克富 | 咨询师推荐阅读书目李克富
最重要的书籍不是别人的推荐，而是自己学过的教材，不论当初使用的是哪个版本，它都是我们专业的底层代码，具有不可替代性。前不久，中国心理咨询师筹委会的一位老师邀请我罗列一个推荐书目清单作为咨询师工具包的内容，并要求“说明一下简单的分类或者作三言两语的说明”。斟酌后，我觉得自己推荐的书目大体可以分为普及类书籍、心理学书籍和心理咨询与治疗专业书籍，第三类又分为适合于咨询师新手的和有经验咨询师的。经过严格筛
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

文本数据处理

文本数据处理

文本数据处理常见任务

文本处理的基本步骤

文本预处理—中文分词

文本预处理—词性标注

特征选择与特征提取

词袋模型

TF-IDF模型

思考与练习1

垃圾邮件识别—此处利用分类算法中的SVM模型

分类算法进行垃圾邮件识别

思考与练习2

你可能感兴趣的:(数据科学,深度学习,人工智能,scikit-learn,分类,自然语言处理)