沐阳zz

cicids2017数据集训练

1、数据集预处理

1.1 整合数据并剔除脏数据

如上图所示，整个数据集是分开的，想要训练，必须要整合在一起，同时在数据集中存在 Nan 和 Infiniti 脏数据（只有第 15 列和第 16 列存在）需要剔除：

具体代码如下：

import pandas as pd
 
# 按行合并多个Dataframe数据
def mergeData():
    monday = writeData("data\MachineLearningCVE\Monday-WorkingHours.pcap_ISCX.csv")
 
    # 剔除第一行属性特征名称
    monday = monday.drop([0])
    friday1 = writeData("data\MachineLearningCVE\Friday-WorkingHours-Afternoon-DDos.pcap_ISCX.csv")
    friday1 = friday1.drop([0])
    friday2 = writeData("data\MachineLearningCVE\Friday-WorkingHours-Afternoon-PortScan.pcap_ISCX.csv")
    friday2 = friday2.drop([0])
    friday3 = writeData("data\MachineLearningCVE\Friday-WorkingHours-Morning.pcap_ISCX.csv")
    friday3 = friday3.drop([0])
    thursday1 = writeData("data\MachineLearningCVE\Thursday-WorkingHours-Afternoon-Infilteration.pcap_ISCX.csv")
    thursday1 = thursday1.drop([0])
    thursday2 = writeData("data\MachineLearningCVE\Thursday-WorkingHours-Morning-WebAttacks.pcap_ISCX.csv")
    thursday2 = thursday2.drop([0])
    tuesday = writeData("data\MachineLearningCVE\Tuesday-WorkingHours.pcap_ISCX.csv")
    tuesday = tuesday.drop([0])
    wednesday = writeData("data\MachineLearningCVE\Wednesday-workingHours.pcap_ISCX.csv")
    wednesday = wednesday.drop([0])
    frame = [monday,friday1,friday2,friday3,thursday1,thursday2,tuesday,wednesday]
 
    # 合并数据
    result = pd.concat(frame)
    list = clearDirtyData(result)
    result = result.drop(list)
    return result
 
 
# 清除CIC-IDS数据集中的脏数据，第一行特征名称和含有Nan、Infiniti等数据的行数
def clearDirtyData(df):
    dropList = df[(df[14]=="Nan")|(df[15]=="Infinity")].index.tolist()
    return dropList
 
raw_data=mergeData()
file = 'data/total.csv'
raw_data.to_csv(file, index=False, header=False)

将合并文件保存为 total.csv，省去每次训练都要重复操作的步骤

1.2 分析数据

在 panda 库中，dataframe 类型有一个很好用的函数 value_counts，可以用来统计标签数量，加载 total.csv 得到 raw_data，运行下面代码：

# 得到标签列索引
last_column_index = raw_data.shape[1] - 1
print(raw_data[last_column_index].value_counts())

打印结果如下：

由上图可以看到，整个数据集相当不平衡，正常数据非常大，而攻击流量却相当少，可以说整个数据集是相当不平衡的，怎么解决这个问题，下一节来说一说。

1.3 平衡数据集
针对这种情况，一般而言，是要扩充小的攻击数据集，其扩充方法有很多：

从数据源头采集更多数据
复制原有数据并加上随机噪声
重采样
根据当前数据集估计数据分布参数，使用该分布产生更多数据等
上面的方法都不太好整：

数据源头不用想了；
复制数据加上加上随机噪声，需要对于数据本身比较理解，否则容易出现问题；
重采样，因为数据量很少，想要达到平衡必须百倍扩充数据，重采样只适用于扩充量不大的情况（个人见解）
根据分布产生更多数据，因为数据太少了（只有几十个），而且特征太多，估计出来的分布会十分不准确，而由此分布产生的数据则更加不准确了。
由于上述方法不好整，我只好用一个不算方法的方法去做：复制粘贴，将每个数据集扩充到 5000 条以上（其实本质上类似于重采样），具体代码如下：

import pandas as pd
 
# 根据file读取数据
def writeData(file):
    print("Loading raw data...")
    raw_data = pd.read_csv(file, header=None,low_memory=False)
    return raw_data
 
 
# 将大的数据集根据标签特征分为15类，存储到lists集合中
def separateData(raw_data):
    # dataframe数据转换为多维数组
    lists=raw_data.values.tolist()
    temp_lists=[]
 
    # 生成15个空的list集合，用来暂存生成的15种特征集
    for i in range(0,15):
        temp_lists.append([])
 
    # 得到raw_data的数据标签集合
    label_set = lookData(raw_data)
 
    # 将无序的数据标签集合转换为有序的list
    label_list = list(label_set)
 
    for i in range(0,len(lists)):
        # 得到所属标签的索引号
        data_index = label_list.index(lists[i][len(lists[0])-1])
        temp_lists[data_index].append(lists[i])
        if i%5000==0:
            print(i)
    saveData(temp_lists,'data/expendData/')
    return temp_lists
 
 
# 将lists分批保存到file文件路径下
def saveData(lists,file):
    label_set = lookData(raw_data)
    label_list = list(label_set)
    for i in range(0,len(lists)):
        save = pd.DataFrame(lists[i])
        file1 = file+label_list[i]+'.csv'
        save.to_csv(file1,index=False,header=False)
 
def lookData(raw_data):
    # 打印数据集的标签数据数量
    last_column_index = raw_data.shape[1] - 1
    print(raw_data[last_column_index].value_counts())
 
    # 取出数据集标签部分
    labels = raw_data.iloc[:, raw_data.shape[1] - 1:]
 
    # 多维数组转为以为数组
    labels = labels.values.ravel()
    label_set = set(labels)
    return label_set
 
# lists存储着15类数据集，将数据集数量少的扩充到至少不少于5000条，然后存储起来。
def expendData(lists):
    totall_list = []
    for i in range(0,len(lists)):
        while len(lists[i])<5000:
            lists[i].extend(lists[i])
        print(i)
        totall_list.extend(lists[i])
    saveData(lists,'data/expendData/')
    save = pd.DataFrame(totall_list)
    file = 'data/expendData/totall_extend.csv'
    save.to_csv(file, index=False, header=False)
 
 
file = 'data/clearData/total.csv'
raw_data = writeData(file)
lists = separateData(raw_data)
expendData(lists)

再来看一下数据集的统计情况：

将这个数据集命名为 total_expend.csv，等使用的时候，我们仔细分析一下两个数据集对于模型训练到底有什么区别。

2、使用 sklearn 进行训练和测试
sklearn 分类算法有很多，这里以决策树为例。

2.1 数据处理
直接上代码吧：

import pandas as pd
import numpy as np
from sklearn.metrics import confusion_matrix, zero_one_loss
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from sklearn import preprocessing
 
# 加载数据
raw_data_filename = "data/clearData/total_expend.csv"
print("Loading raw data...")
raw_data = pd.read_csv(raw_data_filename, header=None,low_memory=False)
 
# 随机抽取比例，当数据集比较大的时候，可以采用这个，可选项
raw_data=raw_data.sample(frac=0.03)
 
# 查看标签数据情况
last_column_index = raw_data.shape[1] - 1
print("print data labels:")
print(raw_data[last_column_index].value_counts())
 
# 将非数值型的数据转换为数值型数据
# print("Transforming data...")
raw_data[last_column_index], attacks = pd.factorize(raw_data[last_column_index], sort=True)
 
# 对原始数据进行切片，分离出特征和标签，第1~78列是特征，第79列是标签
features = raw_data.iloc[:, :raw_data.shape[1] - 1]  # pandas中的iloc切片是完全基于位置的索引
labels = raw_data.iloc[:, raw_data.shape[1] - 1:]
 
# 特征数据标准化，这一步是可选项
features = preprocessing.scale(features)
features = pd.DataFrame(features)
 
# 将多维的标签转为一维的数组
labels = labels.values.ravel()
 
# 将数据分为训练集和测试集,并打印维数
df = pd.DataFrame(features)
X_train, X_test, y_train, y_test = train_test_split(df, labels, train_size=0.8, test_size=0.2, stratify=labels)
 
# print("X_train,y_train:", X_train.shape, y_train.shape)
# print("X_test,y_test:", X_test.shape, y_test.shape)

上述大概流程可以分为：

加载数据
分析数据
非数值型数据转换数值数据
分离特征和标签
数据标准化\归一化\正则化
将这个数据集切分为训练集合测试集

2.2 训练和测试

import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, zero_one_loss
 
# 训练模型
print("Training model...")
clf = DecisionTreeClassifier(criterion='entropy', max_depth=12, min_samples_leaf=1, splitter="best")
trained_model = clf.fit(X_train, y_train)
print("Score:", trained_model.score(X_train, y_train))
 
# 预测
print("Predicting...")
y_pred = clf.predict(X_test)
print("Computing performance metrics...")
results = confusion_matrix(y_test, y_pred)
error = zero_one_loss(y_test, y_pred)
 
# 根据混淆矩阵求预测精度
list_diag = np.diag(results)
list_raw_sum = np.sum(results, axis=1)
print("Predict accuracy of the decisionTree: ", np.mean(list_diag) / np.mean(list_raw_sum))

在 sklearn 中，训练模型和预测模型几乎是一个模板，想要换算法，只需要将上面的算法行替换即可，也就是：

clf = DecisionTreeClassifier(criterion='entropy', max_depth=12, min_samples_leaf=1, splitter="best")

其他都可以不变

来看一下预测结果：

预测准确率为 99.56，算是很高了。

2.3 测试 total.csv 和 total_expend.csv 的区别
上面一节采用的数据集是 total.csv，也就是数据不平衡的数据集，但是从结果来看，其准确率很高，达到了 99.56%，然而，评价一个模型，准确率只是一个指标而已，我们来打印一下其混淆矩阵：

由上图可以看到，存在很多类别被误分的，但是为什么其准确率依然这么高呢？

这是因为数据不平衡，total.csv 数据集中，正常数据（也就是标签为 begin）的数据太多了，占据了几乎 99%的比例，只要它预测正确，那么整个数据集的准确率就会很高，至于其他标签的准确率哪怕再低，也不会有多大影响。

再来看看如果使用 total_expend.csv 数据集，先看准确率：

99.70%的准确率也很高，再看混淆矩阵打印：

可以看到，相比上面的，要好了很多，大部分类别都预测正确了（当然，这个也可能是因为类别标签大都重复造成的。）

绘制混淆矩阵代码：

class PlotConfusionMatrix:
    def plot_confusion_matrix(self,labels,cm, title='Confusion Matrix', cmap=plt.cm.binary):
        plt.imshow(cm, interpolation='nearest', cmap=cmap)
        plt.title(title)
        plt.colorbar()
        xlocations = np.array(range(len(labels)))
        plt.xticks(xlocations, labels, rotation=90)
        plt.yticks(xlocations, labels)
        plt.ylabel('True label')
        plt.xlabel('Predicted label')
 
    def prepareWork(self,labels, y_true, y_pred):
        tick_marks = np.array(range(len(labels))) + 0.5
        cm = confusion_matrix(y_true, y_pred)
        np.set_printoptions(precision=2)
        cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        plt.figure(figsize=(12, 8), dpi=120)
 
        ind_array = np.arange(len(labels))
        x, y = np.meshgrid(ind_array, ind_array)
 
        for x_val, y_val in zip(x.flatten(), y.flatten()):
            c = cm_normalized[y_val][x_val]
            if c > 0.01:
                plt.text(x_val, y_val, "%0.2f" % (c,), color='red', fontsize=7, va='center', ha='center')
        # offset the tick
        plt.gca().set_xticks(tick_marks, minor=True)
        plt.gca().set_yticks(tick_marks, minor=True)
        plt.gca().xaxis.set_ticks_position('none')
        plt.gca().yaxis.set_ticks_position('none')
        plt.grid(True, which='minor', linestyle='-')
        plt.gcf().subplots_adjust(bottom=0.15)
 
        self.plot_confusion_matrix(labels,cm_normalized, title='Normalized confusion matrix')
        # show confusion matrix
        # plt.savefig('image/confusion_matrix.png', format='png')
        plt.show()
 
# 绘制混淆矩阵
def plotMatrix(attacks, y_test, y_pred):
    # attacks是整个数据集的标签集合，但是切分测试集的时候，某些标签数量很少，可能会被去掉，这里要剔除掉这些标签
    y_test_set = set(y_test)
    y_test_list = list(y_test_set)
    attacks_test = []
    for i in range(0, len(y_test_set)):
        attacks_test.append(attacks[y_test_list[i]])
    p = PlotConfusionMatrix()
    p.prepareWork(attacks_test, y_test, y_pred)
 
# 绘制混淆矩阵图形，attacks是标签列表，y_test是测试结果，y_pred是预测结果
plotMatrix(attacks,y_test,y_pred)

2.4 调参
调参，就我所知有两种，一种是通过绘制学习曲线来调节某个超参数——横坐标为参数，纵坐标为准确度或者其他模型度量；另外一种是通过网格搜索交叉验证来调节多个超参数（本质是组合参数，然后循环验证）

2.4.1 绘制学习曲线调节决策树最优深度
参数那么多，如何确定最优的参数呢？针对一个参数调节的时候，可以画出学习曲线——横坐标为参数，纵坐标为准确度：

import matplotlib.pyplot as plt
 
test = []
for i in range(10):
    clf = tree.DecisionTreeClassifier(max_depth=i+1
 
                                    ,criterion="entropy"
 
                                    ,random_state=30
 
                                    ,splitter="random"
 
                                    )
    clf = clf.fit(Xtrain, Ytrain)
    score = clf.score(Xtest, Ytest)
    test.append(score)
plt.plot(range(1,11),test,color="red",label="max_depth")
plt.legend()
plt.show()

2.4.2 网格搜索寻找最优参数组合

#网格搜索：能够帮助我们同时调整多个参数的技术，枚举技术
import numpy as np
 
gini_thresholds = np.linspace(0,0.5,20)#基尼系数的边界
#entropy_thresholds = np.linespace(0, 1, 50)
 
#一串参数和这些参数对应的，我们希望网格搜索来搜索的参数的取值范围
parameters = {'splitter':('best','random')
              ,'criterion':("gini","entropy")
              ,"max_depth":[*range(1,10)]
              ,'min_samples_leaf':[*range(1,50,5)]
              ,'min_impurity_decrease':[*gini_thresholds]}
 
clf = DecisionTreeClassifier(random_state=25)#实例化决策树
GS = GridSearchCV(clf, parameters, cv=10)#实例化网格搜索，cv指的是交叉验证
GS.fit(Xtrain,Ytrain)
print(GS.best_params_)#从我们输入的参数和参数取值的列表中，返回最佳组合
print(GS.best_score_)#网格搜索后的模型的评判标准

python进阶，类的继承，封装，多态，super 胡萝卜糊了 python 开发语言
#单继承#子类只继承一个父类classPerson:defsay(self,value):print('say:',value)defwalk(self,value):print('walk:',value,'km')#Student类继承PersonclassStudent(Person):defstudy(self,value):print('study:',value)#Teacher类继承
python进阶，迭代器和生成器，函数式编程，闭包，装饰器胡萝卜糊了 python 开发语言
l=[1,2,3,4]it=iter(l)print(next(it))print(next(it))print(next(it))print(next(it))#while循环l=[1,2,3,4]len=len(l)i=0it=iter(l)whilei=self.end:raiseStopIterationself.current+=1returnself.current-1it=MyIte
Day6：python面向对象编程——构建可扩展的订单管理系统 weixin_44650422 python 开发语言
目标：掌握类与对象的核心概念，实现模块化的订单业务逻辑一、类与对象：订单管理系统核心1.基础订单类classOrder:"""订单基类"""def__init__(self,order_id,customer):self.order_id=order_id#订单号self.customer=customer#客户名self.items=[]#商品列表self.total=0.0#总金额defadd
python assert()函数欢天喜地小姐姐 python编程学习 python
1.断言函数作用断言函数是对表达式布尔值的判断，要求表达式计算值必须为真。可用于自动调试。如果表达式为假，触发异常；如果表达式为真，不会报错。2.使用assert判断数组是否相等np.array.any()和numpy.array.all()np.array.any()是或操作，任意一个元素为True，输出为True。np.array.all()是与操作，所有元素为True，输出为True。当我们
【LeetCode 热题100】 23. 合并 K 个升序链表的算法思路及python代码 pljnb LeetCode热题100 算法 leetcode 链表
23.合并K个升序链表给你一个链表数组，每个链表都已经按升序排列。请你将所有链表合并到一个升序链表中，返回合并后的链表。示例1：输入：lists=[[1,4,5],[1,3,4],[2,6]]输出：[1,1,2,3,4,4,5,6]解释：链表数组如下：[1->4->5,1->3->4,2->6]将它们合并到一个有序链表中得到。1->1->2->3->4->4->5->6示例2：输入：lists=[
人生重开模拟器 -deepseek版 Cccc吃吃吃 python 开发语言
人生重开模拟器是一个有趣的文字类游戏，玩家可以通过选择不同的选项来体验不同的人生轨迹。下面是一个简单的Python实现，模拟了人生重开的过程。玩家可以通过输入数字来选择不同的选项，游戏会根据选择生成不同的人生结局。```pythonimportrandomdefprint_intro():print("欢迎来到人生重开模拟器！")print("你将重新开始你的人生，通过不同的选择体验不同的人生轨迹
PTA天梯赛Python7-52 古风排版胡同Alley python
中国的古人写文字，是从右向左竖向排版的。本题就请你编写程序，把一段文字按古风排版。输入格式：输入在第一行给出一个正整数N（<100），是每一列的字符数。第二行给出一个长度不超过1000的非空字符串，以回车结束。输出格式：按古风格式排版给定的字符串，每列N个字符（除了最后一列可能不足N个）。输入样例：4Thisisatestcase输出样例：asaTstihetsices代码长度限制16KB时间限制
详细介绍 Jupyter nbconvert 工具及其用法：如何将 Notebook 转换为 Python 脚本源代码杀手 python使用技巧 python jupyter ide
nbconvert是Jupyter提供的一个非常强大的工具，允许用户将JupyterNotebook文件（.ipynb）转换成多种格式，包括Python脚本（.py）、HTML、PDF、LaTeX等。你可以通过命令行来运行nbconvert，也可以在JupyterNotebook中通过一些自定义的设置来实现转换。安装nbconvert通常情况下，nbconvert会随Jupyter一起安装，因此不
python -- assert函数我不是程序员‍ python知识 python
一、assert函数在Python中，assert语句用于调试和测试代码。它用于检查某个条件是否为真。如果条件为假，assert语句会抛出一个AssertionError异常，并可以选择性地附加一条错误消息。assert语句的基本语法是：assertcondition,optional_messagecondition:一个布尔表达式。如果结果为True，程序继续执行。如果为False，会触发As
CTF杂项挑战：使用已知字典破解ZIP文件密码 0dayNu1L Web安全 CTF web安全网络安全
在CTF比赛中，杂项挑战通常包含一些非传统的题目，其中破解ZIP文件密码是一个常见的任务。本文将介绍两种在已知密码字典文件的情况下，破解ZIP文件密码的方法：一种是使用Python脚本进行暴力破解，另一种是通过zip2john和john命令结合进行破解。0dayNu1L-CSDN博客请一键三连吧！！！❤❤❤目录方法一：使用Python脚本进行暴力破解步骤方法二：使用zip2john和john命令结
文本转语音的Python库（pyttsx3）数产第一混子 python库 python
一、pyttsx3的概述pyttsx3isatext-to-speechconversionlibraryinPython.pyttsx3是Python中的文本到语音转换库。二、pyttsx3的安装pipinstallpyttsx3三、小试牛刀importpyttsx3engine=pyttsx3.init()engine.say("Iwillspeakthistextrightnow")engi
近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
区块链赋能：用Python开发去中心化投票系统 Echo_Wish Python！实战！区块链 python 去中心化
区块链赋能：用Python开发去中心化投票系统在这个互联网迅猛发展的时代，投票系统不仅仅停留在政务领域，它已成为社区治理、企业决策甚至区块链DAO（去中心化自治组织）中重要的机制。然而，传统投票系统往往集中化，存在信任和数据安全问题。区块链技术以其不可篡改性和透明性为去中心化投票提供了理想的解决方案。在这篇文章中，我将通过Python语言，结合区块链智能合约，教你如何从零开发一个去中心化的投票系统
Python助力区块链互通——跨链桥接的实现与实践 Echo_Wish Python！实战！区块链 python 开发语言
Python助力区块链互通——跨链桥接的实现与实践区块链技术的繁荣发展带来了巨大的生态创新，但也因各链之间的割裂局面限制了它们的潜力。例如，你或许想在以太坊上使用来自比特币的资产，却因两条链不互通而不得不求助于中心化交易所。要打破“链间壁垒”，跨链桥接（Cross-chainBridge）应运而生。今天，我以Echo_Wish的视角，通过Python代码实践，带你深入了解跨链桥接的工作原理，技术实
python pyttsx3文本转语音_python 利用pyttsx3文字转语音木大木大本太 python pyttsx3文本转语音
#-*-coding:utf-8-*-importpyttsx3f=open("all.txt",'r')line=f.readline()engine=pyttsx3.init()whileline:line=f.readline()print(line,end='')engine.say(line)engine.runAndWait()f.close()importwin32com.clien
技术沙龙 | 从高并发架构到企业级区块链探索零售创新 weixin_33984032 区块链 python 数据库
2019独角兽企业重金招聘Python工程师标准>>>伴随消费新理念的不断升级和技术创新发展，零售业逐渐被推到风口浪尖，对此京东曾表示，推动“无界零售”时代的到来理念，倡导实现成本、效率、体验的升级才是终极目标。此概念一出，零售行业的侧重点开始由销售端向技术端倾斜，趁着一年一度618来临之际，京东云特别在上海举办了主题为"从高并发架构到企业级区块链，探索无界零售的数字化创新"的技术沙龙活动。本次活
Python Pyttsx3模块墨水云烟 Python python 开发语言
大家有没有让电脑“说话”的欲望，如果我说可以帮大家实现这个愿望的话，大家肯定会说我又要用print函数，但是今天我们就可以真的让电脑说话。让电脑说话其实很简单，使用python第三方库pyttsx3模块就行了。使用之前还需要安装pyttsx3模块，安装方法：python终端或cmd输入：pipinstallpyttsx3然后就是导入pyttsx3模块：importpyttsx3后面就是使用这个模块
使用python seaborn创建配对图：从核心概念到实战案例梦想画家数据分析工程 #python 人工智能 python 机器学习
Seaborn的配对图（Pairplot）是一种用于探索多变量数据关系的可视化工具，尤其适合分析数据集中多个特征之间的相关性、分布模式或异常值。本文介绍如何生成数据集数值变量之间的配对图，并通过参数设置色系。配对图的核心作用矩阵式可视化生成一个N×N的网格图（N为特征数），每个单元格展示两列特征之间的关系。默认对角线显示单变量分布（直方图或KDE曲线），非对角线显示散点图或其他关系图。快速发现模式
如何用Python和Selenium实现表单的自动填充与提交？字节王德发 python python selenium 开发语言
在今天的数字化时代，自动化工具可以极大地提高工作效率。很多人可能会觉得填表单是个繁琐的任务，不过你知道吗？用Python和Selenium可以轻松解决这一问题！本文将带你走进如何利用这两个强大的工具，实现表单的自动填充和提交，让你省去不少时间。什么是Selenium？Selenium是一个广泛使用的自动化测试工具，它能够模拟用户在浏览器中的操作。通过它，我们可以自动化执行诸如点击按钮、输入文本、选
使用 Python 的 pyttsx3 库进行文本转语音 Bingjia_Hu python 开发语言 pyttsx3
1.什么是pyttsx3？1.1pyttsx3是一个Python库，它可以将文本转换为语音。与其他文本转语音库（如gTTS）不同，pyttsx3不依赖于网络服务，它使用本地的TTS（Text-to-Speech）引擎，这使得它在离线状态下也能正常工作1.2pyttsx3支持多平台（Windows、Linux和macOS），且可以对语音的音量、语速以及语音类型等进行控制2.安装pyttsx3要使用p
如何在 Python 中将语音转换为文本无水先生语音处理人工智能综合 python xcode 开发语言
一、说明学习如何使用语音识别Python库执行语音识别，以在Python中将音频语音转换为文本。想要更快地编码吗？我们的Python代码生成器让您只需点击几下即可创建Python脚本。现在就现在试试！二、语言AI库2.1相当给力的转文字库语音识别是计算机软件识别口语中的单词和短语并将其转换为人类可读文本的能力。在本教程中，您将学习如何使用SpeechRecognition库在Python中
Python赋能区块链溯源系统：从技术实现到应用落地 Echo_Wish Python！实战！python 区块链开发语言
Python赋能区块链溯源系统：从技术实现到应用落地在供应链管理、食品安全、药品追踪等多个领域，产品的来源和流通过程正成为消费者和企业关注的重点。传统溯源系统往往缺乏数据透明性和不可篡改性，而区块链技术的引入解决了这些痛点，将溯源信息永久记录在分布式账本上，实现全流程可追溯。那么问题来了：如何用Python这把“瑞士军刀”构建一个高效的区块链溯源系统？本文将围绕这一主题，深入探讨Python在区块
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
python-flask复习(一) 胖虎是只mao python-web python函数 python python flask
一、Python现阶段三大主流Web框架Django、Tornado、Flask对比Django主要特点是大而全，集成了很多组件（例如Models、Admin、Form等等）,不管你用得到用不到，反正它全都有，属于全能型框架，通常用于大型Web应用，由于内置组件足够强大所以使用Django开发可以一气呵成，优点是大而全，缺点也就暴露出来了，这么多的资源一次性全部加载，肯定会造成一部分的资源浪费；T
python pip报错：Preparing metadata (pyproject.toml) ... error 我有一个魔盒其他 python pip 开发语言
环境：win11（Python3.9.13）原因：想安装低版本python，结果安装成了32位的，但是依赖包基本都是64位的。解决办法：重装64位python（可能还需要VisualStudio内安装“使用C++的桌面开发”）异常报错：Collectingmatplotlib~=3.0(fromgradio)Usingcachedhttps://pypi.tuna.tsinghua.edu.cn/
python安装scipy库出错_解决scipy安装（pip install scipy）失败,以及其他问题 weixin_39663933
解决scipy安装(pipinstallscipy)失败,以及其他问题解决：1.在scipy官方库中并没有适合Windows的python3.6相关版本，故需要在网址http://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy下载适合的版本，下载如：scipy‑0.19.1‑cp36‑cp36m‑win32.whl2.Windows中scipy安装成功后，还会存
Python 安装scipy失败 _不二_ python python
在使用pip安装scipy时会报错OSError:[Errno13]Permissiondenied:'/usr/local/lib/python2.7/dist-packages/scipy'网上查了，说是由于墙的原因，但我已经翻了墙的，任然报这个错误，下载速度特别慢，到11%或者27%就挂啦，最后很无赖，直接手动安装吧。先去官网搜索scipy选择合适的版本如下图下载完成后pipinstalls
win7下python3.6通过pip安装scipy报错的解决办法青松一夏 python
一、问题描述通过pip方式安装了numpy和sklearn，但是sklearn需要依赖于scipy，但当通过pip方式安装scipy时，报错：numpy.distutils.system_info.NotFoundError:nolapack/blasresourcesfound按照网上的教程，并没有找到真正的解决办法，后来我是通过如下方式解决的。二、我的解决方案（1）首先卸载numpypipun
聊聊关于Python与人工智能那些事小G-biu- python 人工智能 tensorflow
Python与人工智能：介绍Python在人工智能方面的应用Python是一种广泛使用的编程语言，也是人工智能领域中最受欢迎的语言之一。Python提供了许多用于构建和训练人工智能模型的库和框架。本文将介绍一些常见的人工智能技术以及Python在这些技术中的应用。OpenAIOpenAI是一个非营利组织，旨在推动人工智能的发展并促进其对人类的利益。OpenAI通过开发人工智能技术、研究人工智能的影
numpy学习笔记10：arr *= 2向量化操作性能优化宁宁可可 #机器学习 #Python基础与进阶 numpy 学习笔记
numpy学习笔记10：arr*=2向量化操作性能优化在NumPy中，直接对整个数组进行向量化操作（如arr*=2）的效率远高于显式循环（如foriinrange(len(arr)):arr[i]*=2）。以下是详细的解释：1.性能差异的原理(1)底层实现不同显式循环（错误示范）：Python的for循环是解释执行的，每次迭代需要动态解析变量类型、执行函数调用等操作。对每个元素的操作会触发多次Py
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep