https://github.com/songys/Chatbot_data(ChatbotData.csv文件)
https://raw.githubusercontent.com/songys/Chatbot_data/master/ChatbotData.csv
此聊天机器人数据位于 CSV 文件中,
它由三列组成:Q、A 和标签。
每个数据都有以下标签之一:日常生活为 0,分手为 1(负面),爱情为 2(正面)。
把这个数据的Q和A连成一句话后,
将数据打乱后,除以训练/测试数据 (8:2),
构建一个自动分类为三类 (0, 1, 2) 的逻辑回归分类器,
找出测试数据的分类准确率。
使用 scikit-learn 的 CountVectorizer 和 LogisticRegression 分类器来解决问题。
sklearn.feature_extraction.text.CountVectorizer — scikit-learn 1.2.2 documentation
sklearn.linear_model.LogisticRegression — scikit-learn 1.2.2 documentation
!wget Chatbot_data/ChatbotData.csv at master · songys/Chatbot_data · GitHub
1.自己实现一个逻辑回归分类器
之前,我们了解了逻辑回归作为使用机器学习的自动文本分类方法之一。
现在,根据我们所学的知识,让我们实现我们自己的逻辑回归分类器。
我们这里要解决的问题是将英文短信(SMS)分类为普通短信或垃圾短信的问题。
换句话说,我们实现的逻辑回归分类器是一个垃圾邮件过滤器(垃圾邮件文本分类器)。
分类器实现代码取自下面的代码。
IBM Developer
在创建垃圾邮件字符分类器之前,在一个名为UCI 机器学习存储库的公共数据存储库中,
让我们获取目标数据(基准数据集)。
UCI Machine Learning Repository: SMS Spam Collection Data Set
如果您查看数据的描述,正常字符被标记为“火腿”,垃圾字符被标记为“垃圾邮件”。
在这里,我们将通过将标签“火腿”更改为 0 并将“垃圾邮件”更改为 1 来准备训练数据集。
我们将按以下顺序实现垃圾邮件文本分类器。
首先获取目标文档。
将文档分成训练数据和测试(评估)数据。(训练/测试)
每个数据都经过预处理。(英文大写转小写并去掉标点符号)
统计每个单词出现的频率。
创建文档 X 字矩阵。
我们使用训练数据学习逻辑回归的权重 w 和偏差 b。
逻辑回归分类器自动将新字符(评估数据)分类为垃圾邮件或正常字符。
计算分类精度。
!wget https://archive.ics.uci.edu/ml/machine-learning-databases/00228/smsspamcollection.zip
!unzip /content/smsspamcollection.zip
import pandas as pd sms_spam = pd.read_csv('/content/SMSSpamCollection', sep='\t', header='infer', names=['Label', 'SMS']) print(sms_spam.shape) sms_spam.head()
#查看数据集中ham和spam的比例
sms_spam ['Label']value_counts normalize=True
火腿0.865937
垃圾邮件0.134063
名称:标签,dtype:f1oat64
这段代码使用了scikit-learn库中的CountVectorizer类来进行文本特征提取。
具体解释如下:
1. 导入CountVectorizer类:首先,从sklearn.feature_extraction.text模块中导入CountVectorizer类。这个类用于将文本数据转换为特征向量。
2. 实例化CountVectorizer对象:通过调用CountVectorizer(),创建了一个CountVectorizer的实例对象,将其赋值给vectorizer变量。这个实例对象将用于对文本数据进行特征提取。
3. 特征提取:接下来,使用vectorizer对象的fit_transform()方法对训练集中的'SMS'列进行特征提取。fit_transform()方法会将文本数据转换为稀疏矩阵表示的特征向量。train_set['SMS']表示从训练集(train_set)中获取'SMS'列的数据。
4. X_train_final.shape:这行代码用于获取X_train_final的形状(shape),即特征提取后的稀疏矩阵的维度信息。shape是一个元组,包含两个值,分别表示矩阵的行数和列数。所以,X_train_final.shape返回的结果是一个元组,可以通过该结果了解特征提取后的稀疏矩阵的维度情况。
综上所述,这段代码的作用是使用CountVectorizer对训练集中的'SMS'列进行特征提取,并获取特征提取后稀疏矩阵的维度信息。
from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer() # 객체를 선언 X_train_final = vectorizer.fit_transform(train_set['SMS']) X_train_final.shape
要将"Q"和"A"两列数据都转换成向量,你可以使用CountVectorizer
对它们进行分别的特征提取。下面是示例代码:
from sklearn.feature_extraction.text import CountVectorizer # 创建CountVectorizer对象 vectorizer_q = CountVectorizer() vectorizer_a = CountVectorizer() # 对"Q"列进行特征提取 X_q = vectorizer_q.fit_transform(train_set['Q']) # 对"A"列进行特征提取 X_a = vectorizer_a.fit_transform(train_set['A'])
这样,X_q
和X_a
分别表示经过特征提取后的稀疏矩阵,其中X_q
对应于"Q"列的特征向量,X_a
对应于"A"列的特征向量。
请注意,针对不同的列进行特征提取时,需要使用不同的CountVectorizer
对象来独立进行处理。这样可以确保每列的特征提取都是基于该列的文本数据。
如果你希望将"Q"和"A"列的特征向量进行合并,可以使用适当的方法(例如hstack
或concatenate
)将它们连接起来。这将取决于你在后续处理中的需求和算法选择。