程序猿进化之旅

scikit - learn 做文本分类

文章来源： https://my.oschina.net/u/175377/blog/84420

Scikit Learn: 在python中机器学习

Warning

警告：有些没能理解的句子，我以自己的理解意译。

翻译自：Scikit Learn:Machine Learning in Python

作者: Fabian Pedregosa, Gael Varoquaux

先决条件

Numpy, Scipy
IPython
matplotlib
scikit-learn

- 载入示例数据
  - 一个改变数据集大小的示例：数码数据集(digits datasets)
  - 学习和预测
- 分类
  - K最近邻(KNN)分类器
    - 训练集和测试集
  - 分类支持向量机(SVMs)
    - 线性支持向量机
    - 使用核
- 聚类：将观测值聚合
  - k均值聚类
    - 应用到图像压缩
- 用主成分分析降维
- 将一切放在一起：人脸识别
- 线性模型：从回归到稀疏
  - 稀疏模型
    - 同一问题的不同算法
- 模型选择：选择估计器和它们的参数
  - 格点搜索和交叉验证估计器
    - 格点搜索
    - 交叉验证估计器
- Footnotes

警告：在0.9版中(2011年9月发行)，scikit-learn的导入路径从scikits.learn更改为sklearn

载入示例数据

首先我们载入一些用来玩耍的数据。我们将使用的数据是非常简单的著名的花朵数据——安德森鸢尾花卉数据集。

我们有一百五十个鸢尾花的一些尺寸的观测值：萼片长度、宽度，花瓣长度和宽度。还有它们的亚属：山鸢尾（Iris setosa）、变色鸢尾（Iris versicolor）和维吉尼亚鸢尾（Iris virginica）

向python对象载入数据：

In [1]: from sklearn import datasets
In [2]: iris = datasets.load_iris()

数据存储在.data项中，是一个(n_samples, n_features)数组。

In [3]: iris.data.shape
Out[3]: (150, 4)

每个观察对象的种类存贮在数据集的.target属性中。这是一个长度为n_samples的整数一维数组:

In [5]: iris.target.shape
Out[5]: (150,)

In [6]: import numpy as np

In [7]: np.unique(iris.target)
Out[7]: array([0, 1, 2])

一个改变数据集大小的示例：数码数据集(digits datasets)

数码数据集¹包括1797个图像，每一个都是个代表手写数字的8x8像素图像

In [8]: digits = datasets.load_digits()

In [9]: digits.images.shape
Out[9]: (1797, 8, 8)

In [10]: import pylab as pl

In [11]: pl.imshow(digits.images[0], cmap=pl.cm.gray_r) 
Out[11]: 0x3285b90>

In [13]: pl.show()

为了在scikit中使用这个数据集，我们把每个8x8图像转换成长度为64的矢量。(译者注：或者直接用digits.data)

In [12]: data = digits.images.reshape((digits.images.shape[0], -1))

学习和预测

现在我们已经获得一些数据，我们想要从中学习和预测一个新的数据。在scikit-learn中，我们通过创建一个估计器(estimator)从已经存在的数据学习，并且调用它的fit(X,Y)方法。

In [14]: from sklearn import svm

In [15]: clf = svm.LinearSVC()

In [16]: clf.fit(iris.data, iris.target) # learn from the data 
Out[16]: 
LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='l2', multi_class='ovr', penalty='l2',
     tol=0.0001, verbose=0)

一旦我们已经从数据学习，我们可以使用我们的模型来预测未观测数据最可能的结果。

In [17]: clf.predict([[ 5.0,  3.6,  1.3,  0.25]])
Out[17]: array([0], dtype=int32)

注意：我们可以通过它以下划线结束的属性存取模型的参数：

In [18]: clf.coef_  
Out[18]: 
array([[ 0.18424352,  0.45122644, -0.8079467 , -0.45071302],
       [ 0.05190619, -0.89423619,  0.40519245, -0.93781587],
       [-0.85087844, -0.98667529,  1.38088883,  1.86538111]])

分类

K最近邻(KNN)分类器

最简单的可能的分类器是最近邻：给定一个新的观测值，将n维空间中最靠近它的训练样本标签给它。其中n是每个样本中特性(features)数。

k最近邻²分类器内部使用基于球树(ball tree)³来代表它训练的样本。

KNN分类示例：

In [19]: # Create and fit a nearest-neighbor classifier

In [20]: from sklearn import neighbors

In [21]: knn = neighbors.KNeighborsClassifier()

In [22]: knn.fit(iris.data, iris.target) 
Out[22]: 
KNeighborsClassifier(algorithm='auto', leaf_size=30, n_neighbors=5, p=2,
           warn_on_equidistant=True, weights='uniform')

In [23]: knn.predict([[0.1, 0.2, 0.3, 0.4]])
Out[23]: array([0])

训练集和测试集

当验证学习算法时，不要用一个用来拟合估计器的数据来验证估计器的预测非常重要。确实，通过kNN估计器，我们将总是获得关于训练集完美的预测。

In [24]: perm = np.random.permutation(iris.target.size)

In [25]: iris.data = iris.data[perm]

In [26]: iris.target = iris.target[perm]

In [27]: knn.fit(iris.data[:100], iris.target[:100]) 
Out[27]: 
KNeighborsClassifier(algorithm='auto', leaf_size=30, n_neighbors=5, p=2,
           warn_on_equidistant=True, weights='uniform')

In [28]: knn.score(iris.data[100:], iris.target[100:]) 
/usr/lib/python2.7/site-packages/sklearn/neighbors/classification.py:129: NeighborsWarning: kneighbors: neighbor k+1 and neighbor k have the same distance: results will be dependent on data order.
  neigh_dist, neigh_ind = self.kneighbors(X)
Out[28]: 0.95999999999999996

Bonus的问题：为什么我们使用随机的排列？

分类支持向量机(SVMs)

线性支持向量机

SVMs⁴尝试构建一个两个类别的最大间隔超平面。它选择输入的子集，调用支持向量即离分离的超平面最近的样本点。

In [60]: from sklearn import svm

In [61]: svc = svm.SVC(kernel='linear')

In [62]: svc.fit(iris.data, iris.target)
Out[62]: 
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, degree=3, gamma=0.0,
  kernel='linear', probability=False, shrinking=True, tol=0.001,
  verbose=False)

scikit-learn中有好几种支持向量机实现。最普遍使用的是svm.SVC，svm.NuSVC和svm.LinearSVC;“SVC”代表支持向量分类器(Support Vector Classifier)(也存在回归SVMs，在scikit-learn中叫作“SVR”)。

练习

训练一个数字数据集的svm.SVC。省略最后10%并且检验观测值的预测表现。

使用核

类别不总是可以用超平面分离，所以人们指望有些可能是多项式或指数实例的非线性决策函数：

线性核

svc = svm.SVC(kernel=’linear’)
多项式核

svc = svm.SVC(kernel=’poly’, … degree=3) # degree: polynomial degree
RBF核(径向基函数)⁵

svc = svm.SVC(kernel=’rbf’) # gamma: inverse of size of # radial kernel

练习

以上提到的哪些核对数字数据集有更好的预测性能？(译者：前两个)

聚类：将观测值聚合

给定鸢尾花数据集，如果我们知道这有三种鸢尾花，但是无法得到它们的标签，我们可以尝试非监督学习：我们可以通过某些标准聚类观测值到几个组别里。

k均值聚类

最简答的聚类算法是k均值算法。这将一个数据分成k个集群，以最小化观测值(n维空间中)到聚类中心的均值来分配每个观测点到集群;然后均值重新被计算。这个操作递归运行直到聚类收敛，在max_iter回合内到最大值。⁶

(一个替代的k均值算法实现在scipy中的cluster包中。这个scikit-learn实现与之不同，通过提供对象API和几个额外的特性，包括智能初始化。)

In [82]: from sklearn import cluster, datasets

In [83]: iris = datasets.load_iris()

In [84]: k_means = cluster.KMeans(k=3)

In [85]: k_means.fit(iris.data) 
Out[85]: 
KMeans(copy_x=True, init='k-means++', k=3, max_iter=300, n_init=10, n_jobs=1,
    precompute_distances=True,
    random_state=0x7f4d860642d0>, tol=0.0001,
    verbose=0)

In [86]: print k_means.labels_[::10]
[1 1 1 1 1 2 2 2 2 2 0 0 0 0 0]

In [87]: print iris.target[::10]
[0 0 0 0 0 1 1 1 1 1 2 2 2 2 2]

应用到图像压缩

译者注：Lena是经典的图像处理实例图像, 8位灰度色深, 尺寸512 x 512

聚类可以被看作是一种从信息中选择一小部分观测值。例如，这个可以被用来海报化一个图像(将连续变化的色调转换成更少几个色调)：

In [95]: from scipy import misc

In [96]: lena = misc.lena().astype(np.float32)

In [97]: X = lena.reshape((-1, 1)) # We need an (n_sample, n_feature) array

In [98]: k_means = cluster.KMeans(5)

In [99]: k_means.fit(X)
Out[99]: 
KMeans(copy_x=True, init='k-means++', k=5, max_iter=300, n_init=10, n_jobs=1,
    precompute_distances=True,
    random_state=0x7f4d860642d0>, tol=0.0001,
    verbose=0)

In [100]: values = k_means.cluster_centers_.squeeze()

In [101]: labels = k_means.labels_

In [102]: lena_compressed = np.choose(labels, values)

In [103]: lena_compressed.shape = lena.shape

译者注：想看效果？

In [31]: import matplotlib.pyplot as plt

In [32]: plt.gray()

In [33]: plt.imshow(lena_compressed)
Out[33]: <matplotlib.image.AxesImage at 0x4b2c510>

In [34]: plt.show()

原图类似。

![Image]

用主成分分析降维

以上根据观测值标记的点云在一个方向非常平坦，所以一个特性几乎可以用其它两个确切地计算。PCA发现哪个方向的数据不是平的并且它可以通过在一个子空间投影来降维。

警告：PCA将在模块decomposition或pca中，这取决于你scikit-learn的版本。

In [75]: from sklearn import decomposition

In [76]: pca = decomposition.PCA(n_components=2)

In [77]: pca.fit(iris.data)
Out[77]: PCA(copy=True, n_components=2, whiten=False)

In [78]: X = pca.transform(iris.data)

现在我们可以可视化(降维过的)鸢尾花数据集：

In [79]: import pylab as pl

In [80]: pl.scatter(X[:, 0], X[:, 1], c=iris.target)
Out[80]: PathCollection at 0x4104310>

PCA不仅在可视化高维数据集时非常有用。它可以用来作为帮助加速对高维数据不那么有效率的监督方法⁷的预处理步骤。

将一切放在一起：人脸识别

一个实例使用主成分分析来降维和支持向量机来分类进行人脸识别。

译者注：让程序自动下载(确保联网，文件较大，要等待很久)或者手动下载数据并放到./scikit_learn_data/lfw_home/下。

"""
Stripped-down version of the face recognition example by Olivier Grisel

http://scikit-learn.org/dev/auto_examples/applications/face_recognition.html

## original shape of images: 50, 37
"""
import numpy as np
import pylab as pl
from sklearn import cross_val, datasets, decomposition, svm

# ..
# .. load data ..
lfw_people = datasets.fetch_lfw_people(min_faces_per_person=70, resize=0.4)
perm = np.random.permutation(lfw_people.target.size)
lfw_people.data = lfw_people.data[perm]
lfw_people.target = lfw_people.target[perm]
faces = np.reshape(lfw_people.data, (lfw_people.target.shape[0], -1))
train, test = iter(cross_val.StratifiedKFold(lfw_people.target, k=4)).next()
X_train, X_test = faces[train], faces[test]
y_train, y_test = lfw_people.target[train], lfw_people.target[test]

# ..
# .. dimension reduction ..
pca = decomposition.RandomizedPCA(n_components=150, whiten=True)
pca.fit(X_train)
X_train_pca = pca.transform(X_train)
X_test_pca = pca.transform(X_test)

# ..
# .. classification ..
clf = svm.SVC(C=5., gamma=0.001)
clf.fit(X_train_pca, y_train)

# ..
# .. predict on new images ..
for i in range(10):
    print lfw_people.target_names[clf.predict(X_test_pca[i])[0]]
    _ = pl.imshow(X_test[i].reshape(50, 37), cmap=pl.cm.gray)
    _ = raw_input()

全部代码：face.py

线性模型：从回归到稀疏

糖尿病数据集

糖尿病数据集包含442个病人的测量而得的10项生理指标(年龄，性别，体重，血压)，和一年后疾病进展的指示：

In [104]: diabetes = datasets.load_diabetes()

In [105]: diabetes_X_train = diabetes.data[:-20]

In [106]: diabetes_X_test  = diabetes.data[-20:]

In [107]: diabetes_y_train = diabetes.target[:-20]

In [108]: diabetes_y_test  = diabetes.target[-20:]

这个手头的任务是用来从生理指标预测疾病。

稀疏模型

为了改善问题的条件(无信息变量，减少维度的不利影响，作为一个特性(feature)选择的预处理，等等)，我们只关注有信息的特性将没有信息的特性设置为0.这个罚则函数法⁸,叫作套索(Lasso)⁹，可以将一些系数设置为0.这些方法叫作稀疏方法(sparse method)，稀疏化可以被视作奥卡姆剃刀：相对于复杂模型更倾向于简单的。

In [109]: from sklearn import linear_model

In [110]: regr = linear_model.Lasso(alpha=.3)

In [111]: regr.fit(diabetes_X_train, diabetes_y_train)
Out[111]: 
Lasso(alpha=0.3, copy_X=True, fit_intercept=True, max_iter=1000,
   normalize=False, positive=False, precompute='auto', tol=0.0001,
   warm_start=False)

In [112]: regr.coef_ # very sparse coefficients
Out[112]: 
array([   0.        ,   -0.        ,  497.34075682,  199.17441034,
         -0.        ,   -0.        , -118.89291545,    0.        ,
        430.9379595 ,    0.        ])

In [113]: regr.score(diabetes_X_test, diabetes_y_test) 
Out[113]: 0.55108354530029791

这个分数和线性回归(最小二乘法)非常相似：

In [114]: lin = linear_model.LinearRegression()

In [115]: lin.fit(diabetes_X_train, diabetes_y_train) 
Out[115]: LinearRegression(copy_X=True, fit_intercept=True, normalize=False)

In [116]: lin.score(diabetes_X_test, diabetes_y_test) 
Out[116]: 0.58507530226905713

同一问题的不同算法

同一数学问题可以用不同算法解决。例如,sklearn中的Lasso对象使用坐标下降(coordinate descent)方法¹⁰解决套索回归，这在大数据集时非常有效率。然而，sklearn也提供了LassoLARS对象，使用LARS这种在解决权重向量估计非常稀疏，观测值很少的问题很有效率的方法。

模型选择：选择估计器和它们的参数

格点搜索和交叉验证估计器

格点搜索

scikit-learn提供了一个对象，该对象给定数据，在拟合一个参数网格的估计器时计算分数，并且选择参数最大化交叉验证分数。这个对象在构建时采用一个估计器并且暴露一个估计器API：

In [117]: from sklearn import svm, grid_search

In [118]: gammas = np.logspace(-6, -1, 10)

In [119]: svc = svm.SVC()

In [120]: clf = grid_search.GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas),n_jobs=-1)

In [121]: clf.fit(digits.data[:1000], digits.target[:1000]) 
Out[121]: 
GridSearchCV(cv=None,
       estimator=SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, degree=3, gamma=0.0,
  kernel='rbf', probability=False, shrinking=True, tol=0.001,
  verbose=False),
       fit_params={}, iid=True, loss_func=None, n_jobs=-1,
       param_grid={'gamma': array([  1.00000e-06,   3.59381e-06,   1.29155e-05,   4.64159e-05,
         1.66810e-04,   5.99484e-04,   2.15443e-03,   7.74264e-03,
         2.78256e-02,   1.00000e-01])},
       pre_dispatch='2*n_jobs', refit=True, score_func=None, verbose=0)

In [122]: clf.best_score
/usr/lib/python2.7/site-packages/sklearn/utils/__init__.py:79: DeprecationWarning: Function best_score is deprecated; GridSearchCV.best_score is deprecated and will be removed in version 0.12. Please use ``GridSearchCV.best_score_`` instead.
  warnings.warn(msg, category=DeprecationWarning)
Out[122]: 0.98600097103091122

In [123]: clf.best_estimator.gamma
/usr/lib/python2.7/site-packages/sklearn/utils/__init__.py:79: DeprecationWarning: Function best_estimator is deprecated; GridSearchCV.best_estimator is deprecated and will be removed in version 0.12. Please use ``GridSearchCV.best_estimator_`` instead.
  warnings.warn(msg, category=DeprecationWarning)
Out[123]: 0.0021544346900318843

默认GridSearchCV使用三次(3-fold)交叉验证。然而，如果它探测到一个分类器被传递，而不是一个回归量，它使用分层的3次。

交叉验证估计器

交叉验证在一个algorithm by algorithm基础上可以更有效地设定参数。这就是为何，对给定的估计器，scikit-learn使用“CV”估计器，通过交叉验证自动设定参数。

In [125]: from sklearn import linear_model, datasets

In [126]: lasso = linear_model.LassoCV()

In [127]: diabetes = datasets.load_diabetes()

In [128]: X_diabetes = diabetes.data

In [129]: y_diabetes = diabetes.target

In [130]: lasso.fit(X_diabetes, y_diabetes)
Out[130]: 
LassoCV(alphas=array([ 2.14804,  2.00327, ...,  0.0023 ,  0.00215]),
    copy_X=True, cv=None, eps=0.001, fit_intercept=True, max_iter=1000,
    n_alphas=100, normalize=False, precompute='auto', tol=0.0001,
    verbose=False)

In [131]: # The estimator chose automatically its lambda:

In [132]: lasso.alpha 
Out[132]: 0.013180196198701137

这些估计器是相似的，以‘CV’为它们名字的后缀。

ChatGPT如何实现文字分类？精选案例和最佳实践山城程序员
ChatGPT是一种预训练语言模型，通常用于生成自然语言文本。但是，在将其应用于分类任务时，它也可以表现出色。本文将介绍如何使用ChatGPT实现文本分类，并提供实践步骤和示例代码。1.数据准备在进行文本分类之前，您需要选择一个合适的数据集并对其进行清理和预处理。确保您的数据集包含带有标签的文本数据。例如，您可能拥有一些产品评论，并且需要将它们分类为积极或消极。以下是一个示例代码，演示如何加载数据
AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
bert中 [CLS] 和 [SEP] 表示什么意思？
[CLS]和[SEP]是BERT中的两个特殊标记符号，在BERT的输入文本中起到特殊的作用。[CLS]是"classification"的缩写，在文本分类任务中，它通常表示句子或文档的开头。在BERT中，[CLS]对应着输入文本中第一个词的词向量，输出层中的第一个神经元通常会被用来预测文本的类别。[SEP]是"separator"的缩写，它通常表示句子或文档的结尾。在BERT中，[SEP]对应着输
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
happy-llm 第一章 NLP 基础概念 weixin_38374194 自然语言处理人工智能学习
文章目录一、什么是NLP？二、NLP发展三大阶段三、NLP核心任务精要四、文本表示演进史1.传统方法：统计表征2.神经网络：语义向量化课程地址：happy-llmNLP基础概念一、什么是NLP？核心目标：让计算机理解、生成、处理人类语言，实现人机自然交互。现状与挑战：成就：深度学习推动文本分类、翻译等任务达到近人类水平。瓶颈：歧义性、隐喻理解、跨文化差异等。二、NLP发展三大阶段时期代表技术核心思
[AI笔记]-LLM中的3种架构:Encoder-Only、Decoder-Only、Encoder-Decoder Micheal超 AI笔记人工智能笔记架构
一、概述架构描述特点案例Encoder-Only仅包含编码器部分这类模型主要专注输入数据中提取特征或上下文信息，通常不需要生成新内容、只需要理解输入的任务，如：分类(文本分类、情感分析等)、信息抽取、序列标注等。在这种架构中，所有的注意力机制和网络层都集中在编码输入数据上，其输出通常是关于输入的复杂语义表示。谷歌的BERT、智谱AI发布的第四代基座大语言模型GLM4Decoder-Only也被称为
07-Seq2Seq英译法案例郜太素自然语言处理人工智能 nlp 自然语言处理 word2vec 机器翻译分类
Seq2Seq英译法案例1任务目的：目的:给定一段英文，翻译为法文典型的文本分类（token分类）任务:每个时间步去预测应该属于哪个法文单词2数据格式注意：两列数据，第一列是英文文本，第二列是法文文本，中间用制表符号"\t"隔开iamfrombrazil.jeviensdubresil.iamfromfrance.jeviensdefrance.iamfromrussia.jeviensderus
RNN人名分类器案例
RNN人名分类器案例1任务目的：目的:给定一个人名，来判定这个人名属于哪个国家典型的文本分类任务:18分类---多分类任务2数据格式注意：两列数据，第一列是人名，第二列是国家类别，中间用制表符号"\t"隔开AngChineseAuYongChineseYuasaJapaneseYuharaJapaneseYunokawaJapanese3任务实现流程1.获取数据:案例中是直接给定的2.数据预处理:
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
中文工单分类模型选择 SugarPPig 人工智能分类人工智能数据挖掘
采用基于预训练模型的微调（Fine-tuning）方案来做中文工单分类，这是非常明智的选择，因为预训练模型已经在大量中文语料上学习了丰富的语言知识，能大幅提升分类效果。在HuggingFace上，针对中文文本分类，我为你推荐以下最合适的模型：最推荐的模型：BERT-base-chinese模型名称(HuggingFaceID):google-bert/bert-base-chinese为什么推荐它
使用LangChain与Solar进行文本嵌入 Zbb159 langchain
使用LangChain与Solar进行文本嵌入在处理自然语言处理中，文本嵌入是将文本转换为数字向量的一种技术，它使计算机能够理解和处理文本数据。在这篇文章中，我们将探索如何使用LangChain与Solar进行文本嵌入。技术背景介绍文本嵌入可以用于多种自然语言处理任务，例如文本分类、情感分析和语义搜索等。Solar是一种简单易用的嵌入服务，提供了强大的推理能力，可以轻松地将文本转换为嵌入向量。核心
预训练语言模型 lynnzon 语言模型人工智能自然语言处理
1.1Encoder-onlyPLMEncoder-only架构是Transformer的重要分支，专注于自然语言理解（NLU）任务，核心代表是BERT及其优化模型（RoBERTa、ALBERT）。其特点是：仅使用Encoder层：堆叠多层TransformerEncoder，捕捉文本双向语义。预训练任务：通过掩码语言模型（MLM）学习上下文依赖。应用场景：文本分类、实体识别、语义匹配等NLU任务
一起学习swin-transformer（一） Vertira pytorch 学习 transformer 深度学习
Transform学习链接从零开始设计Transformer模型（1/2）——剥离RNN，保留Attention-CSDN博客Transformer-PyTorch实战项目——文本分类_transformer文本分类pytorch-CSDN博客从零开始设计Transformer模型（2/2）——从Attention层到transformer网络_trasformer输入矩阵,吐出一个矩阵?-CSD
深度学习Day-38：Pytorch文本分类入门 Point__Nemo 深度学习自然语言处理人工智能
本文为：[365天深度学习训练营]中的学习记录博客原作者：[K同学啊|接辅导、项目定制]任务：了解文本分类的基本流程学习常用数据清洗方法学习如何使用jieba实现英文分词学习如何构建文本向量1.前期准备1.1环境安装pipinstalltorchvision==0.15.0pipinstalltorchaudio==2.0.1pipinstalltorch==2.0.01.2加载数据importt
自然语言处理之文本分类：Transformer：文本分类数据集分析 zhubeibei168 自然语言处理自然语言处理分类 transformer 数据挖掘人工智能支持向量机
自然语言处理之文本分类：Transformer：文本分类数据集分析自然语言处理基础NLP概述自然语言处理（NaturalLanguageProcessing，NLP）是人工智能领域的一个重要分支，专注于使计算机能够理解、解释和生成人类语言。NLP技术广泛应用于文本分类、情感分析、机器翻译、问答系统、语音识别等场景。其核心挑战在于理解语言的复杂性和多义性，以及处理大
人工智能-准确率（Precision）、召回率（Recall）和 F1 分数高效匠人人工智能人工智能
嗯，用户让我详细解释准确率、召回率和F1分数这三个概念在大模型中的应用。首先，我需要确认自己对这些概念的理解是否正确。准确率（Precision）是指预测为正类中实际为正的比例，召回率（Recall）是实际正类中被正确预测的比例，而F1分数是两者的调和平均数。不过，用户提到的是“大模型”，可能指的是像GPT这样的大型语言模型，所以需要考虑这些指标在自然语言处理任务中的具体应用场景，比如文本分类、实
【机器学习】机器学习重要分支——集成学习：理论、算法与实践 E绵绵 Everything 机器学习集成学习算法 python AIGC 人工智能应用
文章目录引言第一章集成学习的基本概念1.1什么是集成学习1.2集成学习的类型1.3集成学习的优势第二章集成学习的核心算法2.1Bagging方法2.2Boosting方法2.3Stacking方法第三章集成学习的应用实例3.1图像分类3.2文本分类第四章集成学习的未来发展与挑战4.1模型多样性与集成策略4.2大规模数据与计算资源4.3集成学习的解释性与可视化结论引言集成学习（EnsembleLea
资深Java工程师的面试题目（八）AI大模型刘一说后端技术栈 Java AI自说 java 面试人工智能
以下是针对Java面试者的AI大模型相关题目，涵盖基础理论、实际应用、代码实现和部署优化等方向：一、基础理论类题目1.Transformer架构与应用场景题目：请说明Encoder-Only、Decoder-Only和Encoder-Decoder架构的区别，并举例说明它们在AI大模型中的典型应用场景。解析：Encoder-Only（如BERT）：用于理解型任务（如文本分类、问答系统）。原理：通过
自然语言处理分类要奋斗呀自然语言处理
NLP学习Nlp基本分类NLP领域的任务分为两个类别:第一类是人工智能NLP。包括词性标注，分词，语法解析，语言模型，信息检索，信息抽取，语义表示，文本分类。这些任务发展较为成熟，各种相关工作的主要目的是提高当前模型的性能。第二类是人工智障NLP。包括机器翻译，对话系统，问答系统。目前模型的性能尚不尽如人意，有些任务上甚至没有足够多的，真正有影响力的工作。一、文本分类--情感分类1.定义情感分类是
自然语言处理文本分类愚者大大 NLP 自然语言处理分类人工智能
一、文本分类基础定义：将文本文档或句子分类到预定义类别，包括单标签多类别（如新闻分娱乐/体育）和多标签多类别（如文档同时属“相机”“芯片”类）。基准公开数据集|Dataset|Type|Labels|Size(train/test)|Avg.length||---------|------|--------|------------------|-------------||SST|情感|5/2|
SpringBoot项目接入DeepSeek指南：从零开始实现AI能力整合 cyc&阿灿 spring boot 人工智能后端
一、DeepSeek简介与应用场景DeepSeek是国内领先的人工智能大模型平台，提供强大的自然语言处理能力。通过API接入，开发者可以快速为应用添加以下AI功能：智能问答系统：构建知识库驱动的问答机器人内容生成：自动生成文章、摘要、广告文案等代码辅助：代码补全、解释、翻译和优化文本处理：情感分析、关键词提取、文本分类等二、准备工作2.1获取DeepSeekAPI密钥访问DeepSeek官网注册开
基于bert预训练模型transformer架构的中文文本多标签分类的双向语义理解。
基于bert预训练模型transformer架构的中文文本多标签分类的双向语义理解。文章目录1.安装必要的库2.数据准备3.模型定义4.训练模型5.评估模型6.部署与应用概述：BERT多标签中文文本分类系统是一款先进的自然语言处理工具，专为中文文本分析和多标签分类设计。该系统利用BERT模型的强大能力，能够精确地对中文文本进行多维度的标签分类，广泛应用于内容管理、信息检索、情感分析等领域。主要特性
BERT 模型微调与传统机器学习的对比 MYH516 bert 机器学习人工智能
BERT微调与传统机器学习的区别和联系：传统机器学习流程传统机器学习处理文本分类通常包含以下步骤：特征工程：手动设计特征（如TF-IDF、词袋模型）模型训练：使用分类器（如SVM、随机森林、逻辑回归）特征和模型调优：反复调整特征和超参数BERT微调流程BERT微调的典型流程：预训练：使用大规模无标注数据预训练BERT模型数据准备：将文本转换为BERT输入格式（tokenize、添加特殊标记）模型微
传统机器学习与大模型 + Prompt 的对比示例 MYH516 机器学习 prompt 自然语言处理
下面两段代码分别展示了传统机器学习和大模型+Prompt在文本分类任务上的实现方式，帮助你直观感受两者的差异。传统机器学习方法（使用BERT微调）traditional-ml-text-classification传统机器学习文本分类实现importtorchfromtorch.utils.dataimportDataset,DataLoaderfromtransformersimportBert
NLP-文本表示 Carrie_Lei NLP 自然语言处理人工智能
文本表示（TextRepresentation）是自然语言处理（NLP）中的一个关键步骤，它将文本数据转换为机器学习模型可以理解的格式。不同的文本表示方法有助于不同的任务，如文本分类、情感分析、机器翻译等。以下是常见的文本表示方法及其简介：1.词袋模型（BagofWords,BoW）定义：将文本表示为词汇表中所有词的出现频次。忽略词的顺序和语法结构。优点：简单易懂，适用于基础文本分类任务。缺点：高
基于 CNN-SHAP 分析卷积神经网络的多分类预测【MATLAB】沅_Yuan 炼丹师 cnn 分类 matlab 神经网络 SHAP可解释性
在当今这个数据爆炸的时代，人工智能技术正以前所未有的速度改变着我们的生活和工作方式。特别是在图像识别、文本分类、医学诊断等领域，卷积神经网络（ConvolutionalNeuralNetwork,CNN）已成为实现高精度多分类任务的重要工具。然而，随着模型复杂度的提升，人们开始越来越关注：模型到底是如何做出决策的？它的判断依据是否合理？是否存在某些特征被过度依赖或忽略的情况？为此，一种可解释性分析
Python爬虫实战：基于Tumblr API的图片与博文采集与下载 Python爬虫项目 python 爬虫开发语言数据分析信息可视化
一、项目背景与需求分析1.Tumblr是什么？Tumblr是全球知名的轻博客平台，用户可以发布图像、短文、GIF、音频、视频等内容，是一个结合社交与创作的平台。Tumblr拥有大量优质的图片博文资源，在艺术、摄影、文学、动漫等领域尤为活跃，适合进行：图片采集和分析数据挖掘建模情感文本分类网络文学研究生成推荐系统二、技术方案与工具选型模块技术/工具API调用Tumblr官方APIv2认证方式OAut
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><