小熊Spring

Python SVM分类器 XGBOOST分类器文本情绪分析

Python SVM分类器 XGBOOST分类器文本情绪分析微博网民情绪识别比赛

Python SVM分类器 XGBOOST分类器文本情绪分析疫情期间网民情绪识别比赛

一：比赛相关事项

二：使用工具PyCharm配合Anaconda3

三：文本处理

四：分类器使用

几个月前数据挖掘实验室的老师向我们介绍了这个比赛，选出了两个人去参加比赛，算是简单的了解下文本分类。
我和我的队友在比赛中尝试了了SVM分类器，XGBOOST分类器以及CNN卷积神经网络，其中我负责的工作是SVM分类器以及XGBOOST分类器。
比赛的A榜在2020.4.30结束A榜提交，在这里先Mark一下自己的思路，以后应该会用得到。

一：比赛相关事项

暂无

1.题目要求

给定微博ID和微博内容，设计算法对微博内容进行情绪识别，判断微博内容是积极的、消极的还是中性的。

2.数据说明

竞赛数据以csv格式进行存储，包括nCoV_100k.labled.csv和nCoV_900k.unlabled.csv两个文件，其中：nCoV_100k.labled.csv：包含10万条用户标注的微博数据，具体格式如下：[微博id,微博发布时间,发布人账号,微博中文内容,微博图片,微博视频,情感倾向]
微博id，格式为整型。
微博发布时间，格式为xx月xx日 xx:xx。
发布人账号，格式为字符串。
微博中文内容，格式为字符串。
微博图片，格式为url超链接，[]代表不含图片。
微博视频，格式为url超链接，[]代表不含视频。
情感倾向,取值为{1,0,-1}。
nCoV_900k.unlabled.csv为90万条未标注的微博数据，包含与“新冠肺炎”相关的90万条未标注的微博数据，具体格式如下：
[微博id,微博发布时间,发布人账号,微博中文内容,微博图片,微博视频]
1.微博id，格式为整型。
2.微博发布时间，格式为xx月xx日 xx:xx。
3.发布人账号，格式为字符串。
4.微博中文内容，格式为字符串。
5.微博图片，格式为url超链接，[]代表不含图片。
6.微博视频，格式为url超链接，[]代表不含视频。

3.数据截图

赛题数据-训练集：train_ dataset.zip
（nCoV_100k_train.labled.csv，nCoV_900k_train.unlabled.csv）

赛题数据-测试集：test_dataset.zip
(nCov_10k_test.csv)

提交样例-提交样例：submit_example.csv

4.数据拿取
由于版权问题无法分享

二：使用工具

PyCharm配合Anaconda3

三：文本处理（以train.csv为例子）

1.文本分词

文本使用了jieba分词工具，将每条博文去停用词之后分成一个个词语，由队友完成，截图如下。

2.文本数据处理

文本在分词之后有两种处理思路，一种是
（1）对文本使用tfidf（词频-逆文件频率）
将分词后的数据变成稀疏矩阵，然后使用SVM分类器进行训练。
这样只能对文本进行分类预测，微博其他的数据都被忽略了

在这里插入代码片，tfidf处理之后直接训练

# created by LiYing 5/22/2020
import csv
import sys
import datetime
from sklearn import preprocessing
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
import pandas as pd
import time
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import f1_score
from sklearn.preprocessing import StandardScaler
from sklearn import model_selection as ms, preprocessing

#pos=pd.read_csv('D:\\work_Competition\\alldata.csv',index_col=[0],lineterminator='\n')
starttime = datetime.datetime.now()

dataset = pd.read_csv('D:\\work_Competition\\alldata.csv',index_col=[0],encoding='utf-8-sig',lineterminator='\n')
data_samples = dataset['aa\r']  # data_samples是一个string list,'去停用词\r'是表头

# print(data_samples)
# print(data_samples.values)

max_df = 0.8 # 在超过这一比例的文档中出现的关键词（过于平凡），去除掉。
min_df = 3 # 在低于这一数量的文档中出现的关键词（过于独特），去除掉。
# token_pattern=u'(?u)\\b[^\\d\\W]\\w+\\b'#后面是正则表达式，剔除数字
tfi=TfidfVectorizer(max_features=1000,max_df = max_df,
                       min_df = min_df,
                       token_pattern=u'(?u)\\b[^\\d\\W]\\w+\\b')
X = tfi.fit_transform(data_samples.values)#获得稀疏矩阵

term_matrix = pd.DataFrame(X.toarray(), columns=tfi.get_feature_names())
print(term_matrix.head())
print("tfidf yes")
result_label=(dataset)['情感倾向'].values

# 数据归一化处理,scale进行的操作是按列减去均值, 除以方差, 因此数据的均值为0, 方差为1
X = StandardScaler(with_mean=False).fit_transform(X)
term_matrix = pd.DataFrame(X.toarray(), columns=tfi.get_feature_names())
print(term_matrix.head())
print('scale yes')

#print(X)
#print(result_label)
#print(tfidf_model.vocabulary_)#得到了top1000的词语

#现在，我们已经有了待训练的数据X_train,y_train，待测试数据X_test,y_test。
#X是文本的特征，y是监督项，即label数据。X负责将特征输送进分类器，而result_label的作用
# 就是告诉机器什么样的X对应positive，什么样的X对应nagative，是这个意思。
#那为什么要构造测试集呢？其实与其叫测试集，不如叫验证集。我们拿到的数据是有
# review又有label的，我们用训练集做训练之后，为了检验机器学习的效果，用测
# 试集的特征做预测，预测结果准不准呢？我们并不知道，所以要和真实情况比较一下。
# 即现有学习过X_train,y_train的分类器，将X_test输入，预测测试集的label，
# 再用y_test进行比较。

X_train,X_test,y_train,y_test=ms.train_test_split(X,result_label,test_size=0.2,random_state=10)#test_size指的是测试集所占比例

print('split yes')

print("train_size:",X_train.shape)
print("test_size:",y_train.shape)
#print(y_train)
# 一种可能是占多数的类占的比重太大了，svm只是找到了使损失函数最小化的方法，即把所有样本都预测成多数类。
# 第二种可能是不平衡性并不严重，但是你的特征不够好，svm从你的特征里学不到有用信息，所以为了降低损失函
# 数还是只能全部预测成多数类。这种情况就暗示你要改进特征工程了。如果这两种情况都不是，那就要修改损失函数
# ，让少数类被误分的惩罚更大。一般这样会降低总准确率，但会提升少数类的准确率。如何取舍还是要看你实际问题
# 中真正的目标函数是什么了。对于其他分类器比如决策树还可以resampling，并对少数类的样本更多取样。不过对于
# svm这样做我不看好，因为svm的结果取决于少数support vector，而resampling是一个离散的过程，variance会
# 比较大。
#三种是要做数据归一化处理
#第四种是max_iter次数的设置，默认为-1，即无限制

from sklearn import svm  #
clf = svm.SVC(C=10,kernel='linear',probability=True,gamma='auto',max_iter=5000,decision_function_shape='ovo')#时间和max_iter有很大关系
#gamma: 核函数系数，该参数是rbf，poly和sigmoid的内核系数；默认是'auto'，那么将会使用特征位数的倒数，即1 / n_features。
# （即核函数的带宽，超圆的半径）。gamma越大，σ越小，使得高斯分布又高又瘦，造成模型只能作用于支持向量附近，可能导致过拟合；
# 反之，gamma越小，σ越大，高斯分布会过于平滑，在训练集上分类效果不佳，可能导致欠拟合。
print('build new svm yes')

#kernel=‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’
clf.fit(X_train,y_train,sample_weight=None) # 训练模型。参数sample_weight
print('train svm yes')
endtime = datetime.datetime.now()
print('Train time: %s Seconds'%(endtime-starttime))
print("准确率",clf.score(X_train,y_train))#:返回给定测试集和对应标签的平均准确率
# 为每个样本设置权重。应对非均衡问题
result = clf.predict(X_test)
f1 = f1_score( y_test, result, average='macro' )
print('f1=',f1)
print(result)


endtime = datetime.datetime.now()
print('Running time: %s Seconds'%(endtime-starttime))
# sparse_result = tfidf_model.transform(data_samples)
# print(sparse_resusys.exit(0)lt)

sys.exit(0)
#惩罚系数5，迭代次数5000，49956行训练集，49956行测试集，linear核函数，前一千维，去除数字，f1=0.39，时间8分钟
#惩罚系数5，迭代次数5000，19982行训练集，79928行测试集，linear核函数，前一千维，去除数字，f1=0.43，时间1分钟33秒
#惩罚系数5，迭代次数5000，79930行训练集，     行测试集，linear核函数，前一千维，去除数字，f1=0.38，时间11分钟35秒,decision_function_shape='ovo'

（2）对整体数据使用onehot编码
onthot编码的定义是一种比较复杂的概念，我使用的是比较简单的方式，使用出现率为前1000的词语构建1000的onehot向量。
每条微博发言都可以变成为一个1000维数组，初始化为[0，0，0，0，......，0]，若前1000个词语出现，该词语下标就会由0变为1。
还可以考虑加入其他的数据作为onehot编码，一星期从周一到周日有7维，一天之内的24小时制有24维，发布的微博是否包含图片有1维，发布的微博是否包含视频有1维。

在这里插入代码片

#对数据进行处理，一共有1035=1000（高频词）+24（一天的时间day）+7（一周的时间week）+1（含视频video）+1（照片picture）+2（情感特征，总和为一emotion）
# created by LiYing 5/22/2020
import sys
import pandas as pd
import numpy as np
import math
import datetime


def day_index(str):#返回星期几
    dict = {1:1, 2:2, 3:3, 4:4, 5:5, 6:6, 0:7}
    y=2020
    m=int(str[0:2])
    d=int(str[3:5])
    allday=math.floor((y-1)+(y-1)/4-(y-1)/100+(y-1)/400+13*(m+1)/5+(m-1)*28-7+d)
    x=allday%7
    return dict.get(x)

def find(list,a):#发现有词在词库里面，返回词语的下标，下标范围0-999
    for i in range(0,len(list)):
        if list[i]==a and i

 
  四：分类器使用 
   1. SVM分类器： 
  支持向量机，是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。
 是一种比较经典的分类器； 
  基于onehot编码使用分类器： 
  对于train.csv进行onehot处理并且保存成文件，进行svm训练并且保存下模型。 
  代码如下： 
  import csv
import sys
import datetime
from sklearn import model_selection as ms, preprocessing
from imblearn.over_sampling import RandomOverSampler
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.externals import joblib
import numpy as np
import pandas as pd

from sklearn.metrics import f1_score, accuracy_score
from sklearn.preprocessing import StandardScaler

def sparse (a):
    pos = neg = mid = 0

    for i in a:
        if i == 1: pos = pos + 1
        if i == 0: mid = mid + 1
        if i == -1: neg = neg + 1
    print("pos", pos)
    print("neg", neg)
    print("mid", mid)

starttime = datetime.datetime.now()
dataset = pd.read_csv('D:\\work_Competition\\alldata.csv',encoding='utf-8-sig',lineterminator='\n')
result_label=(dataset)['情感倾向'].values#得到标签集
open_path="D:\\work_Competition\\onehot_transion_data\\new_1009.csv"
onehot = np.loadtxt(open(open_path,"rb"),delimiter=",",skiprows=0)#得到训练数据
print(open_path)

# print(onehot)
#onehot = StandardScaler(with_mean=False).fit_transform(onehot)#归一化处理

X_train,X_test,y_train,y_test=ms.train_test_split(onehot,result_label,test_size=0.8,random_state=8)#test_size指的是测试集所占比例
# ros = RandomOverSampler(random_state=0)
# X_train,y_train=ros.fit_sample(X_train,y_train)

from sklearn import svm  #
clf = svm.SVC(C=100,cache_size=200,kernel='linear',probability=True,gamma='auto',max_iter=2000,decision_function_shape='ovo')
#clf = joblib.load("D:\\work_Competition\\svm_model\\3.m")#C=5，max_iter=500,decision_function_shape='ovo',linear
time2 = datetime.datetime.now()
clf.fit(X_train,y_train,sample_weight=None) # 训练模型。参数sample_weight
print('train svm yes')
model_path="D:\\work_Competition\\svm_model\\0_6.m"
joblib.dump(clf, model_path)
print('save svm yes',model_path)
time3 = datetime.datetime.now()
print("cost time",time3-time2)#训练完成

# 为每个样本设置权重。应对非均衡问题
result = clf.predict(X_test)
print("准确率",accuracy_score(y_test, result))#:返回给定测试集和对应标签的平均准确率
f1 = f1_score(y_test, result, average='macro' )
print('f1',f1)
print('0.2 result',result)
# print('f1=',f1)
# print(result)
endtime = datetime.datetime.now()
print("all cost time",(endtime-starttime))
sys.exit(0)

 
   
  2. XGBClassifier： 
  XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。
  根据导师说XGBoost可以用来组合模型，不过比赛的时间有限，自己和队友有点拖延症（笑），查找了一些资料和视频之后只学会用XGBClassifier了； 
  3.模型训练测试集 
  使用保存下的模型对test.csv的onehot编码训练，生成结果进行提交。 
  代码如下： 
  import csv
import sys
import datetime
import xgboost as xgb
from sklearn import model_selection as ms, preprocessing
from sklearn.externals import joblib
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
import pandas as pd

from sklearn.metrics import f1_score
from sklearn.preprocessing import StandardScaler

starttime = datetime.datetime.now()
test_onehot = np.loadtxt(open("D:\\work_Competition\\onehot_transion_data\\new_1009_test.csv","rb"),delimiter=",",skiprows=0)
time1 = datetime.datetime.now()
print("test_onehot.shape",test_onehot.shape)
print("get data cost time",time1-starttime)#得到数据所用的时间

from sklearn import svm  #
#clf = svm.SVC(C=10,kernel='linear',probability=True,gamma='auto',max_iter=3000,decision_function_shape='ovo')
#clf = joblib.load("D:\\work_Competition\\svm_model\\new_read_sigmoid.m")
model = xgb.Booster(model_file='D:\\work_Competition\\svm_model\\init_xgb.model')
time2 = datetime.datetime.now()
print('get model yes')
# 为每个样本设置权重。应对非均衡问题
result = model.predict(xgb.DMatrix(test_onehot))
print('result:')
print(result)
#将结果输出到文件
data_test =pd.read_csv("D:\\work_Competition\\1\\nCov_10k_test.csv",encoding='ansi',lineterminator='\n')
data_id =data_test['微博id']
# print(data_id.head())
data_id=np.array(data_id)
data_result=np.array(result)
result_push ={'id':data_id,'y':data_result}
result =pd.DataFrame(result_push)
result=result.astype({'y':'int'})
print(result)
result.to_csv("D:\\work_Competition\\1\\result\\onehot_submit.csv",index=False)
#result=pd.DataFrame(result)
endtime = datetime.datetime.now()
print("all cost time",(endtime-starttime))
sys.exit(0)

 
  本项目的资料因为版权问题，无法分享给大家了，十分抱歉，仅记录一下思路和大家一起学习

Streamlit，一个超强的 Python 应用开发库！一行玩python python 开发语言
大家好，我是“一行”。今天，我们要来聊一个非常酷的Python库——Streamlit。如果你有过构建Web应用的经验，或者你对快速搭建交互式应用感兴趣，那么Streamlit会是一个非常棒的工具。它可以让你用极少的代码，快速创建出功能强大且美观的Web应用。无论你是数据分析师、机器学习工程师，还是Python初学者，Streamlit都能帮你轻松实现数据可视化、模型展示等功能。今天我们就从基础开
python 开发app 三希 python 开发语言
在Python中开发应用程序（通常指的是移动应用）有多种方法。以下是两种常见的技术栈：KivyKivy是一个开源Python库，用于快速开发跨平台的触控应用。它支持Android、iOS、Windows、MacOS和Linux。以下是使用Kivy开发的基本步骤：1.安装Kivy:在命令行中使用pip安装Kivy：pipinstallkivy2.创建你的应用:创建一个简单的Python文件，比如ma
在Python中实现一个简单的社交媒体应用清水白石008 Python题库 python python 媒体开发语言
在Python中实现一个简单的社交媒体应用社交媒体应用是现代互联网的重要组成部分，允许用户分享信息、交流和互动。在这篇博文中，我们将使用Python构建一个简单的社交媒体应用，涵盖用户注册、发布动态、评论和查看动态等基本功能。我们将使用Flask框架作为后端，SQLite作为数据库，前端使用HTML和Bootstrap进行简单的界面设计。一、项目准备1.环境设置首先，确保你已经安装了Python和
Python的那些事第二篇：编程界的“交通规则”基本语法与编程的“食材”和“容器”数据类型与变量暮雨哀尘 Python的那些事 python vscode visual studio pycharm 开发语言 windows
摘要Python以其简洁易懂的语法和强大的功能，成为了编程界的“小白福音”。本文将带你从Python的基本语法入手，深入探讨标识符命名规则、缩进的重要性、注释的使用，以及数据类型与变量的定义和操作。通过幽默的语言和丰富的实例代码，我们将一步步揭开Python的神秘面纱，让你在轻松愉快的氛围中掌握这门强大的编程语言。1.Python基本语法1.1标识符命名规则在Python的世界里，标识符就像是给变
【使用PyQt创建美观和功能丰富界面】 Dreams°123 pyqt microsoft python
使用PyQt创建美观和功能丰富界面-适用于APP一、基本概念与环境搭建二、布局管理三、部件使用与定制四、信号与槽机制深入应用五、样式表（stylesheet）和主题应用一、基本概念与环境搭建安装PyQt使用以下命令安装PyQt：pipinstallPyQt5（如果使用Python3）。理解信号与槽机制信号（Signal）：是对象发出的事件通知，例如按钮的点击、文本框内容的改变等。槽（Slot）：是
python+selenium获取cookie session_Python3+Selenium获取session和token供Requests使用教程 weixin_39997695 session
#!/usr/bin/python3#coding:utf-8importtimefromseleniumimportwebdriverfromselenium.webdriver.support.waitimportWebDriverWaitfromselenium.webdriver.supportimportexpected_conditionsasECfromselenium.webdri
python聊天软件_python开发简单的聊天工具 weixin_39644139 python聊天软件
python太强大了，以至于它什么都可以做，哈哈，开个玩笑。但是今天要讲的真的是一个非常神奇的应用。使用python写一个聊天工具其实大家平时用的QQ类似的聊天工具，也是使用socket进行聊天，只是它还包含了更加复杂的功能。基本原理是一样的。python实现聊天功能，主要用到了socket模块。下面直接上实例吧server端importsockets=socket.socket()#建立sock
Centos安装python3详细教程 Circle square 自学 python centos linux
文章目录Centos安装python3详细教程1、先查看系统python的位置在哪儿2、下载python3的包之前，要先安装相关的依赖包，用于下载编译python3：3、默认的centos7是没有安装pip，先添加epel扩展源4、安装pip5、用pip装wget6、用wget下载python3的源码包，或者自己先下载好，上传到服务器再安装，如果网络快可以直接安装7、编译python3源码包，解压
nvdia triton server运行pt文件滑稽的柴犬神经网络机器学习 python
tritonserver默认都是tensorrt推理。但也会出现有操作不支持，导致无法转模型为engine的情况。可以选择直接运行pytorch的pt文件，以下为操作步骤。1.pytorch后端环境编译步骤原理是使用pytorchC++API运行pt文件模型。安装依赖项apt-getinstallpatchelfrapidjson-devpython3-dev构建NGC的PyTorch容器。例如，
【小黑送书—第十八期】＞＞让工作自动化起来！无所不能的Python(文末送书） 2401_84302628 程序员自动化 python 运维
随着我国企业数字化和信息化的深入，企业对办公自动化的效率和灵活性要求越来越高。Python作为一种开源的软件应用开发方式，通过提供强大丰富的库文件包，极大地简化了应用开发过程，降低了技术门槛。Python开发有哪些优势、挑战以及实践方法呢？一、Python是办公自动化的重要工具在我们的日常工作中，有不少工作是重复的，例如不少办公文档的处理工作等，这些重复工作如果用Python来实现办公自动化，效率
2024年网络安全最全让工作自动化起来！无所不能的Python(1) 2401_84281638 程序员自动化 python 运维
1.3.2多攒代码71.3.3学会并且精通代码调试81.3.4伤其五指不如断其一指8第2章Python的工作环境102.1Python工作环境的构成102.1.1Python的核心软件102.1.2Anaconda112.1.3IDE工具122.2安装过程中的常见问题122.3Python中的两种解释器132.4包的安装202.4.1在线安装202.4.2离线安装212.5Pycharm中的解释器
【Python进阶】5步掌握Pandas数据结构，你真的学会了吗？墨瑾轩 Python入门~精通 python pandas 数据结构
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣5步掌握Pandas数据结构，你真的学会了吗？引言❓亲爱的小伙伴们，你们有没有遇到过这样的情况：在处理结构化数据时，总是觉得Python内置的列表和字典不够灵活？别担心，今天我们就来一场“Pandas数据结构大挑战”，手把手教你如何使用Pandas的两大核心数
Python3 搭建本地 PyPi 源极客点儿 #Python python pip
搭建本地PyPi源的方式有很多，也有很多软件，较常用就是在官方PyPi中自带的pypiserver包。1.安装pypiserverpipinstallpypiserver2.启动pypiserverpypi-server3.上传Python包将我们打包好的Python包放到~/packages目录下，tar和whl都可以。4.远程上传Python包创建~/.pypirc文件，添加如下内容：[dis
Python从0到100（六十一）：机器学习实战-实现客户细分是Dream呀 python 机器学习开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python数据获取：从基础到实践，一场数据探索之旅傻啦嘿哟关于python那些事儿 python oracle 开发语言
目录一、引言二、理解数据获取的基本概念三、使用Python进行网络数据抓取3.1基础工具：requests库3.2解析HTML：BeautifulSoup库3.3实战案例：抓取网页新闻列表四、从文件中读取数据4.1使用pandas读取CSV文件4.2读取Excel文件五、数据库数据访问六、数据清洗与预处理6.1处理缺失值6.2处理异常值6.3处理重复值6.4数据格式化与编码6.5数据标准化与归一化
使用Python进行高并发压测：技术指南与实战案例傻啦嘿哟关于python那些事儿 python 开发语言
目录一、引言二、压测基础知识压测的目的与类型压测工具的选择三、使用Python进行压测Python压测框架的选择压测脚本的编写压测的执行与监控四、实战案例分析案例背景介绍压测计划制定压测实施过程结果分析与优化建议五、常见问题与解决方案六、总结一、引言在软件开发过程中，性能测试是确保软件系统质量的关键环节之一。高并发压测作为性能测试的一种重要形式，通过模拟大量用户同时访问系统，以检验系统在极限负载下
python 获取windows管理员权限天涯望小楼 python 开发语言
Python,Windows相关视频讲解：python的or运算赋值用法用python编程Excel有没有用处？011_编程到底好玩在哪？查看python文件_输出py文件_cat_运行python文件_shelPython获取Windows管理员权限在Windows操作系统中，有时我们需要运行一些需要管理员权限的任务，例如修改系统设置、安装软件等。在Python中，我们可以通过一些方法来获取管理
python可执行程序必须以管理员_Python实现管理员权限运行CMD指令 weixin_39977488
一、subprocess.PopenPython执行cmd指令属于外部调用，subprocess.Popen方法即可，实现如下：#!/usr/bin/python3#coding:utf-8importsubprocessdefcommand(cmd,timeout=1800000):try:sp=subprocess.Popen(cmd,shell=True,stdout=subprocess.
搭建python本地源 weixin_34234829 python 开发工具
1.安装pip工具[root@tongc-yum162~]#wgethttps://files.pythonhosted.org/packages/d3/3e/1d74cdcb393b68ab9ee18d78c11ae6df8447099f55fe86ee842f9c5b166c/setuptools-40.0.0.zip[root@tongc-yum162~]#cdsetuptools-40.0
解决python -m pip install --upgrade pip更新失败 svygh123 python pip 开发语言
C:\Users\Administrator>python-mpipinstall--upgradepipLookinginindexes:https://pypi.tuna.tsinghua.edu.cn/simpleCollectingpipERROR:HTTPerror403whilegettinghttps://pypi.tuna.tsinghua.edu.cn/packages/8a/6
搭建自定义的Python pip源教程代码编织匠人 python pip 开发语言 Python
在Python开发过程中，我们经常使用pip来安装各种Python包和库。pip是Python的包管理工具，它可以从互联网上下载并安装Python包。默认情况下，pip使用官方的Python包源，但有时我们需要搭建自己的pip源，以便在内部网络或特定环境中使用。本教程将向您展示如何在Python环境下搭建属于自己的pip源。我们将使用pip的配置文件来指定自定义源的URL，并演示如何测试和使用自定
windows基于face_recognition实现人脸识别 Python小萝卜计算机视觉 python 人脸识别 python face_recogni
环境搭建pipinstallopencv-python--user-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-contrib-python--user-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallcmake--user-ihttps://pypi.tuna.tsing
Python计算离差与标准计分 Mr数据杨 Python 数据分析师 python 数据分析开发语言
离差和标准计分是统计学和数据分析中的重要概念，广泛应用于各类数据集的处理和分析过程中。掌握离差和标准计分有助于理解数据的分布情况，评估数据在群体中的相对位置，尤其在处理大规模数据或数据分析时非常重要。本教程将通过详细解释离差与标准计分的概念，并结合实际示例，帮助读者在编程环境下应用这些知识。离差与标准计分不仅在统计学中有理论意义，在实际工作场景中，比如教育测评、金融分析、科研实验等领域，也能帮助数
振动分析-7-轴承数据库之时频域连续小波变换CWT 皮皮冰燃振动分析振动分析
Python-凯斯西储大学（CWRU）轴承数据解读与分类处理滚动轴承发生故障时，其振动信号往往具有非线性、非平稳性特点。相比传统的时域和频域分析方法，在处理非线性、非平稳信号时，时频分析方法更加有效。时频分析方法采用时域和频域的二维联合表示，可以实现非平稳信号局部特性的精确描述，具有时域和频域等传统方法无法比拟的优势，已经被广泛地应用于机械故障诊断领域。常用的时频分析方法有：（1）傅里叶变换（Fo
【Python】Linux/CentOS安装Python3 qilei2010 Python python
不到100买了个1年的X里云服务器后，欲安装Python3练手。但网络上安装方法五花八门，经我实践，此法最妥，特记于此。1.说明1.1系统自带Python2的处理CentOS7自带Python2，不要轻易卸载和删除，很多其它软件依赖自带的python2。此方法较为稳妥，将安装后的python3做了软链接，方便使用，也不影响python2的存在。只是以后使用Python3时，命令是python3yo
如何利用virtualenv和python命令创建Python虚拟环境满天点点星辰随手杂记 python virtualenv linux
一、引言创建Python虚拟环境可以利用多种方法来实现，如：Anaconda3、Miniconda、virtualenv以及python自带的命令(python-m)进行创建。Anaconda3、Miniconda创建python虚拟环境时，主机必须要接入互联网远程channel中取下下载需要的包才可以创建，如果不连接互联网的话，创建python虚拟环境时，需要只下载环境需在的包，然后再把包导入到
使用Python打开和执行BAT文件的简单指南 JmLei Win python
使用Python打开和执行BAT文件的简单指南在现代计算机中，批处理文件（.bat或.cmd文件）是一种强大的工具，可以有效地执行一系列命令，这些命令可以由操作系统直接运行。在某些情况下，我们希望通过Python程序来调用和执行这些批处理文件。本篇文章将详细介绍如何用Python打开和执行BAT文件，并提供代码示例。什么是BAT文件？BAT文件是一种文本文件，通常含有Windows命令行中的一系列
Python 接收标准输入 python输入法控制台文件
在Python中，可以绑定sys.stdin和死循环实现无限接收标准输入的能力。具体示例代码如下：main.py:importjsonimportsysdefparse_line(line:str)->(bool,str):try:d=json.loads(line)except:returnFalse,"failedtoloadsfromcontent"if"prompt"notind:retu
python-jenkins api详解小测. jenkins python 运维
最近在将小程序自动化整合到平台，主要借助的是jenkins；本文主要讲解一下jenkins常用的api1获取jenkins链接importjenkinsbase_config={'url':'jenkins_url','username':'admin','password':'123456'}jenkins_server=jenkins.Jenkins(**self.base_config)2创
请问Python怎么安装vlfeat？ cda2024 python 开发语言
在当今数据驱动的时代，图像处理和计算机视觉成为了许多前沿应用的核心技术之一。作为一门强大的编程语言，Python在这些领域中扮演着极其重要的角色。而vlfeat是一个广泛使用的计算机视觉库，它提供了许多经典的计算机视觉算法实现，如SIFT、HOG等。本文将详细介绍如何在Python中安装和使用vlfeat，帮助你在项目中高效地集成这些强大的工具。什么是vlfeat？vlfeat是一个开源的计算机视
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

Python SVM分类器 XGBOOST分类器 文本情绪分析

Python SVM分类器 XGBOOST分类器 文本情绪分析 微博网民情绪识别比赛

一：比赛相关事项

1.题目要求

2.数据说明

3.数据截图

二：使用工具

三：文本处理 （以train.csv为例子）

1.文本分词

2.文本数据处理

四：分类器使用

1. SVM分类器：

2. XGBClassifier：

3.模型训练测试集

本项目的资料因为版权问题，无法分享给大家了，十分抱歉，仅记录一下思路和大家一起学习

你可能感兴趣的:(数据挖掘,python,支持向量机)

Python SVM分类器 XGBOOST分类器文本情绪分析

Python SVM分类器 XGBOOST分类器文本情绪分析微博网民情绪识别比赛

三：文本处理（以train.csv为例子）