weixin_37988176

基于python的数据挖掘网课-利用 Python 练习数据挖掘

覆盖使用Python进行数据挖掘查找和描述数据结构模式的实践工具。

第一节

介绍

数据挖掘是一个隐式提取以前未知的潜在有用的数据信息提取方式。它使用广泛，并且是众多应用的技术基础。

本文介绍那些使用Python数据挖掘实践用于发现和描述结构模式数据的工具。近些年来，Python在开发以数据为中心的应用中被用的越来越多。感谢大型科学计算社区的支持以及大大丰富的数据分析函数库。尤其是，我们可以看到如何：

• 导入和可视化数据

• 数据分类

• 使用回归分析和相关测量法发现数据之间的关系

• 数据降维以压缩和可视化数据带来的信息

• 分析结构化数据

每个主题都会提供代码实例，它们基于四个主要的Python数据分析和处理的类库：numpy，matplotlib，sklearn和networkx。

第二节

数据导入和可视化

通常，数据分析的第一步由获取数据和导入数据到我们的工作环境组成。我们可以使用以下的Python代码简单的下载数据：

Python

importurllib2

url='http://aima.cs.berkeley.edu/data/iris.csv'

u=urllib2.urlopen(url)

localFile=open('iris.csv'', 'w')

localFile.write(u.read())

localFile.close()

在以上的代码片段中，我们使用了urllib2类库以获取伯克利大学网站的一个文件，并使用标准类库提供的File对象把它保存到本地磁盘。数据包含鸢尾花（iris）数据集，这是一个包含了三种鸢尾花（山鸢尾、维吉尼亚鸢尾和变色鸢尾）的各50个数据样本的多元数据集，每个样本都有四个特征（或者说变量），即花萼（sepal）和花瓣（petal）的长度和宽度。以厘米为单位。

数据集以CSV(逗号分割值）的格式存储。CSV文件可以很方便的转化并把其中的信息存储为适合的数据结构。此数据集有5列（译者注：原文是行，但这里应该是列的意思），前4列包含着特征值，最后一列代表着样本类型。CSV文件很容易被numpy类库的genfromtxt方法解析：

Python

fromnumpy importgenfromtxt,zeros

# read the first 4 columns

data=genfromtxt('iris.csv',delimiter=',',usecols=(0,1,2,3))

# read the fifth column

target=genfromtxt('iris.csv',delimiter=',',usecols=(4),dtype=str)

在上面的例子中我们创建了一个包含特征值的矩阵以及一个包含样本类型的向量。我们可以通过查看我们加载的数据结构的shape值来确认数据集的大小：

Python

printdata.shape

(150,4)

printtarget.shape

(150,)

我们也可以查看我们有多少种样本类型以及它们的名字：

Python

printset(target)# build a collection of unique elements

set(['setosa','versicolor','virginica'])

当我们处理新数据的时候，一项很重要的任务是尝试去理解数据包含的信息以及它的组织结构。可视化可以灵活生动的展示数据，帮助我们深入理解数据。

使用pylab类库（matplotlib的接口）的plotting方法可以建一个二维散点图让我们在两个维度上分析数据集的两个特征值：

Python

frompylab importplot,show

plot(data[target=='setosa',0],data[target=='setosa',2],'bo')

plot(data[target=='versicolor',0],data[target=='versicolor',2],'ro')

plot(data[target=='virginica',0],data[target=='virginica',2],'go')

show()

上面那段代码使用第一和第三维度（花萼的长和宽），结果如下图所示：

在上图中有150个点，不同的颜色代表不同的类型；蓝色点代表山鸢尾，红色点代表变色鸢尾，绿色点代表维吉尼亚鸢尾。

另一种常用的查看数据的方法是分特性绘制直方图。在本例中，既然数据被分为三类，我们就可以比较每一类的分布特征。下面这个代码可以绘制数据中每一类型的第一个特性（花萼的长度）：

Python

frompylab importfigure,subplot,hist,xlim,show

xmin=min(data[:,0])

xmax=max(data[:,0])

figure()

subplot(411)# distribution of the setosa class (1st, on the top)

hist(data[target=='setosa',0],color='b',alpha=.7)

xlim(xmin,xmax)

subplot(412)# distribution of the versicolor class (2nd)

hist(data[target=='versicolor',0],color='r',alpha=.7)

xlim(xmin,xmax)

subplot(413)# distribution of the virginica class (3rd)

hist(data[target=='virginica',0],color='g',alpha=.7)

xlim(xmin,xmax)

subplot(414)# global histogram (4th, on the bottom)

hist(data[:,0],color='y',alpha=.7)

xlim(xmin,xmax)

show()

结果如下图：

根据上图的直方图，我们可以根据数据类型区分理解数据的特征。例如，我们可以观察到，山鸢尾的平均花萼长度小于维吉尼亚鸢尾。

第三节 support online

分类

分类是一个数据挖掘方法，用于把一个数据集中的样本数据分配给各个目标类。实现这个方法的模块叫做分类器。使用分类器需要以下两步：训练和分类。训练是指采集已知其特定类归属的数据并基于这些数据创建分类器。分类是指使用通过这些已知数据建立的分类器来处理未知的数据，以判断未知数据的分类情况。

Sklearn类库包含很多分类器的实现，本章我们将会使用高斯朴素贝叶斯来分析我们在第一章载入的鸢尾花数据，包含山鸢尾、变色鸢尾和维吉尼亚鸢尾。最后我们把字符串数组转型成整型数据：

Python

t=zeros(len(target))

t[target=='setosa']=1

t[target=='versicolor']=2

t[target=='virginica']=3

现在我们已经做好实例化和训练分类器的准备了：

Python

fromsklearn.naive_bayes importGaussianNB

classifier=GaussianNB()

classifier.fit(data,t)# training on the iris dataset

分类器可以由predict方法完成，并且只要输出一个样例就可以很简单的检测：

Python

printclassifier.predict(data[0])

[1.]

printt[0]

上例中predicted类包含了一个正确的样本（山鸢尾），但是在广泛的样本上评估分类器并且使用非训练环节的数据测试是很重要的。最终我们通过从源数据集中随机抽取样本把数据分为训练集和测试集。我们将会使用训练集的数据来训练分类器，并使用测试集的数据来测试分类器。train_test_split方法正是实现此功能的：

Python

fromsklearn importcross_validation

train,test,t_train,t_test=cross_validation.train_test_split(data,t,…

test_size=0.4,random_state=0)

数据集被分一分为二，测试集被指定为源数据的40%（命名为test_size），我们用它反复训练我们的分类器并输出精确度：

Python

classifier.fit(train,t_train)# train

printclassifier.score(test,t_test)# test

0.93333333333333335

在此例中，我们的精确度为93%。一个分类器的精确度是通过正确分类样本的数量除以总样本的数量得出的。也就是说，它意味着我们正确预测的比例。

另一个估计分类器表现的工具叫做混淆矩阵。在此矩阵中每列代表一个预测类的实例，每行代表一个实际类的实例。使用它可以很容易的计算和打印矩阵：

Python

fromsklearn.metrics importconfusion_matrix

printconfusion_matrix(classifier.predict(test),t_test)

[[1600]

[0233]

[0018]]

在这个混淆矩阵中我们可以看到所有山鸢尾和维吉尼亚鸢尾都被正确的分类了，但是实际上应该是26个的变色鸢尾，系统却预测其中三个是维吉尼亚鸢尾。如果我们牢记所有正确的猜测都在表格的对角线上，那么观测表格的错误就很容易了，即对角线以外的非零值。

可以展示分类器性能的完整报告的方法也是很好用的：

Python

fromsklearn.metrics importclassification_report

printclassification_report(classifier.predict(test),t_test,target_names=['setosa','versicolor','virginica'])

precision recall f1-score support

setosa1.001.001.0016

versicolor1.000.850.9227

virginica0.811.000.8917

avg/total0.950.930.9360

以下是该报告使用到的方法总结：

Precision：正确预测的比例

Recall（或者叫真阳性率）：正确识别的比例

F1-Score：precision和recall的调和平均数

以上仅仅只是给出用于支撑测试分类的数据量。当然，分割数据、减少用于训练的样本数以及评估结果等操作都依赖于配对的训练集和测试集的随机选择。如果要切实评估一个分类器并与其它的分类器作比较的话，我们需要使用一个更加精确的评估模型，例如Cross Validation。该模型背后的思想很简单：多次将数据分为不同的训练集和测试集，最终分类器评估选取多次预测的平均值。这次，sklearn为我们提供了运行模型的方法：

Python

fromsklearn.cross_validation importcross_val_score

# cross validation with 6 iterations

scores=cross_val_score(classifier,data,t,cv=6)

printscores

[0.840.961.1.1.0.96]

如上所见，输出是每次模型迭代产生的精确度的数组。我们可以很容易计算出平均精确度：

Python

fromnumpy importmean

printmean(scores)

0.96

第四章

聚类

通常我们的数据上不会有标签告诉我们它的样本类型；我们需要分析数据，把数据按照它们的相似度标准分成不同的群组，群组（或者群集）指的是相似样本的集合。这种分析被称为无监督数据分析。最著名的聚类工具之一叫做k-means算法，如下所示：

Python

fromsklearn.cluster importKMeans

kmeans=KMeans(k=3,init='random')# initialization

kmeans.fit(data)# actual execution

上述片段运行k-measn算法并把数据分为三个群集（参数k所指定的）。现在我们可以使用模型把每一个样本分配到三个群集中：

Python

c=kmeans.predict(data)

我们可以估计群集的结果，与使用完整性得分和同质性得分计算而得的标签作比较：

Python

fromsklearn.metrics importcompleteness_score,homogeneity_score

printcompleteness_score(t,c)

0.7649861514489815

printhomogeneity_score(t,c)

0.7514854021988338

当大部分数据点属于一个给定的类并且属于同一个群集，那么完整性得分就趋向于1。当所有群集都几乎只包含某个单一类的数据点时同质性得分就趋向于1.

我们可以把集群可视化并和带有真实标签的做可视化比较：

Python

figure()

subplot(211)# top figure with the real classes

plot(data[t==1,0],data[t==1,2],'bo')

plot(data[t==2,0],data[t==2,2],'ro')

plot(data[t==3,0],data[t==3,2],'go')

subplot(212)# bottom figure with classes assigned automatically

plot(data[c==1,0],data[tt==1,2],'bo',alpha=.7)

plot(data[c==2,0],data[tt==2,2],'go',alpha=.7)

plot(data[c==0,0],data[tt==0,2],'mo',alpha=.7)

show()

结果如下图所示：

观察此图我们可以看到，底部左侧的群集可以被k-means完全识别，然而顶部的两个群集有部分识别错误。

第五章

回归

回归是一个用于预测变量之间函数关系调查的方法。例如，我们有两个变量，一个被认为是解释，一个被认为是依赖。我们希望使用模型描述两者的关系。当这种关系是一条线的时候就称为线性回归。

为了应用线性回归我们建立一个由上所述的综合数据集：

Python

fromnumpy.randomimportrand

x=rand(40,1)# explanatory variable

y=x*x*x+rand(40,1)/5# depentend variable

我们可以使用在sklear.linear_model模块中发现的LinearRegression模型。该模型可以通过计算每个数据点到拟合线的垂直差的平方和，找到平方和最小的最佳拟合线。使用方法和我们之前遇到的实现sklearn的模型类似：

Python

fromsklearn.linear_model importLinearRegression

linreg=LinearRegression()

linreg.fit(x,y)

我们可以通过把拟合线和实际数据点画在同一幅图上来评估结果：

Python

fromnumpy importlinspace,matrix

xx=linspace(0,1,40)

plot(x,y,'o',xx,linreg.predict(matrix(xx).T),'--r')

show()

图见下：

观察该图我们可以得出结论：拟合线从数据点中心穿过，并可以确定是增长的趋势。

我们还可以使用均方误差来量化模型和原始数据的拟合度：

Python

fromsklearn.metrics importmean_squared_error

printmean_squared_error(linreg.predict(x),y)

0.01093512327489268

该指标度量了预期的拟合线和真实数据之间的距离平方。当拟合线很完美时该值为0。

第六章

你可能感兴趣的:(基于python的数据挖掘网课-利用 Python 练习数据挖掘)

前端面试请叫我子鱼编程语言笔试面试程序员 web interview
前端面试之道JS基础知识点及常考面试题原始（Primitive）类型面试题：原始类型有哪几种？null是对象嘛？在JS中，存在着6种原始值，分别是：booleannullundefinednumberstringsymbol首先原始类型存储的都是值，是没有函数可以调用的对象（Object）类型面试题：对象类型和原始类型的不同之处？函数参数是对象会发生什么问题？在JS中，除了原始类型那么其他的都是对
[项目]基于FreeRTOS的STM32四轴飞行器: 十.检测遥控器嵌入式T90S stm32 嵌入式硬件单片机
基于FreeRTOS的STM32四轴飞行器:十.检测遥控器一.检测遥控器连接逻辑二.遥控器的解锁情况三.遥控器控制飞机运转一.检测遥控器连接逻辑判断是否进入定高模式：根据返回值判断遥控器的连接情况：实现检测函数：因为该函数在通信任务中调度6ms一次，可以使用cnt进行计时，判断是否失联：开头初始化cnt为200可以防止一启动没有连接显示连接成功的问题。/***@description:用来检测遥控
新能源汽车驱动电机构造与原理，关键技术大不同物联高科汽车单片机运维嵌入式硬件创业创新人工智能
随着全球能源危机和环境问题的日益严峻，新能源汽车（NEV）正以惊人的速度发展。在新能源汽车的核心部件中，驱动电机扮演着至关重要的角色，它直接决定了车辆的性能、效率和可靠性。一、驱动电机的构造：精巧设计与高效集成与传统内燃机复杂的机械结构相比，驱动电机在构造上显得更为简洁。然而，这种简洁背后蕴含着精密的电气设计和高效的能量转换机制。一般来说，驱动电机主要由以下几个关键部件组成：定子（Stator）：
免费提供多样风格手机壁纸及自动更换功能的软件开开心心就好智能手机 tcp/ip macos 网络协议 android pdf python
在寻找手机壁纸时，要是能有一款软件，既免费又资源丰富，操作还简单方便，那可就太棒了。今天就给大家介绍这样一款软件——壁纸喵，它能满足你对手机壁纸的各种需求。壁纸喵是一款完全免费的手机壁纸软件，其壁纸资源极其丰富。不管你喜欢哪种风格和主题，无论是竖屏、横屏，还是追求高清品质的4K壁纸，在这里都能找到。各种风格应有尽有，从简约清新到华丽炫酷，从可爱萌系到酷炫科技，丰富的选择让你总能找到心仪的那一款。便
C语言 - getchar() 和 getch() 的区别 Peter_Deng. c语言算法
getchar()和getch()都是用于读取单个字符的函数，但它们有一些关键区别，主要涉及缓冲区、回显和移植性。1.getchar()特点头文件：#include从标准输入（stdin）读取一个字符，需要按下Enter才能生效。带缓冲（Buffered）：用户输入的内容会先存入缓冲区，只有按下Enter之后，getchar()才会从缓冲区读取数据。回显（Echo）：输入的字符会显示在屏幕上。代码
chokidar - chokidar 初识（初识案例演示、初识案例解读、初识案例测试）我命由我12345 Node.js 简化库编程 node.js js javascript 前端框架前端 npm html5
一、chokidar1、chokidar概述chokidar是一个用于监视文件系统变化的Node.js库chokidar提供了一种简单、高效的方式来监视文件和目录的创建、修改、删除等操作chokidar是是fs.watch和fs.watchFile方法的增强版，解决了它们在一些平台上的不一致性和局限性2、chokidar的特点跨平台的支持：chokidar在Windows、Linux、macOS上
MiniMind：完全从 0 训练自己的大模型三花AI 三花AI 人工智能 LLM大模型
是B站UP主近在远方的远开源的一个微型语言模型，改进自DeepSeek-V2、Llama3结构，项目包含整个数据处理、pretrain、sft、dpo的全部阶段，包含混合专家(MoE)模型。其目标是把上手LLM的门槛无限降低，直接从0开始训练一个极其轻量的语言模型，最低仅需2G显卡即可推理训练！
探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
Vue前端实现多个条件表格搜索 1724580787 前端 vue.js javascript
文章目录操作实现效果测试json数据搜索栏条件过滤完成搜索表格栏完整代码操作实现效果在vue文件中通过js代码完成多条件搜索符合条件的table数据，本文使用了element-ui组件创建表格。效果如下图所示：测试json数据[{"test1":"","test2":"","test3":"","test4":""}...//这里只展示一条数据]搜索栏条件过滤完成搜索computed计算方法监视t
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
MiniMind：3小时完全从0训练一个仅有26M的小参数GPT，最低仅需2G显卡即可推理训练！哈罗·沃德 LLM gpt
MiniMind：3小时完全从0训练一个仅有26M的小参数GPT，最低仅需2G显卡即可推理训练！概述MiniMind是一个开源的微型语言模型，它的设计目标是让个人GPU用户也能够快速推理甚至训练语言模型。它的体积仅为26M，大约是GPT3的1/7000，非常适合快速部署和实验。https://github.com/user-attachments/assets/88b98128-636e-43bc
llama源码学习·model.py[3]ROPE旋转位置编码(2)旋转角度生成代码小杜不吃糖 llama
一、源码注释defprecompute_freqs_cis(dim:int,end:int,theta:float=1000.0):'''预先计算频率和复数的cosine和sine值，用于后续的PositionalEncodingdim:维度end:一个序列的最大长度或位置的最大值theta:用于计算频率的超参数，默认值为1000.0'''#生成一个等比数列，即频率（frequencies），这种
跟着黑马学MySQL基础篇笔记(1)-概述与SQL 小杜不吃糖 mysql 笔记 sql
03.安装与启动启动netstartmysql80netstopmysql80客户端连接mysql[-h127.0.0.1][-P3306]-uroot-p04.mysql数据模型关系型数据库RDBMS05.通用语法及分类DDL：数据定义语言，用来定义数据库对象（数据库，表，字段）DML：数据操作语言，用来对数据库表中的数据进行增删改DQL：数据查询语言，用来查询数据库中表的记录DCL：数据控制语
如何编写一个Spring Boot Starter 一口酥Hac java spring boot 后端 java maven
文章目录概要创建一个SpringBootStarter的步骤创建一个Maven项目打包并发布在其他项目中使用总结概要写一个SpringBootStarter其实就是封装一部分功能，方便其他项目引入和使用。Starter是SpringBoot提供的一种机制，目的是为了简化配置和模块化开发。一般来说，SpringBootStarter会封装一个特定的功能模块，并自动配置一些常用的组件。通过写一个Sta
adb 如何导出手机的文件风继续吹.. 工具类 Uni-App adb 智能手机 uniapp sqlite
目录1.开启USB调试2.连接设备3.启动ADB4.导出文件使用adbpull命令5.可视化工具预览adb（AndroidDebugBridge）是Android开发中常用的一个工具，它允许开发者通过电脑与Android设备进行通信。如果你想通过adb导出手机上的文件，你可以按照以下步骤业务需求:前端通过使用uni-app的sqlite(关系型数据库系统),存储了大量的机密数据在手机上,直接通过代
PostgreSQL_数据使用与日数据分享程序猿与金融与科技数据库 postgresql
目录前置：1使用1.1获取前复权因子1.2查询股票的纵向数据1.3查询股票的横向数据2日数据分享（截止至：2025-03-21）总结前置：本博文是一个系列。在本人“数据库专栏”-》“PostgreSQL_”开头的博文。本文为该系列最后一篇。1使用1.1获取前复权因子访问优矿官网ticker_list=[]field_list=['secID','tradeDate','accumAdjFactor
（链表）19. 删除链表的倒数第 N 个结点蹉跎x 力扣链表数据结构算法
给你一个链表，删除链表的倒数第n个结点，并且返回链表的头结点。示例1：输入：head=[1,2,3,4,5],n=2输出：[1,2,3,5]示例2：输入：head=[1],n=1输出：[]示例3：输入：head=[1,2],n=1输出：[1]提示：链表中结点的数目为sz1next=head;intcnt=-1;ListNode*cur=dummyhead;while(cur!=nullptr){c
PostgreSQL_实例项目总述程序猿与金融与科技数据库 postgresql
目录前置：实例项目总述：前置：1最近新入PostgreSQL，打算用PostgreSQL存储股票日数据，以此为实例记录整个PostgreSQL使用过程2所以这次的博文是一个序列，都放在数据库专栏里，以PostgreSQL_打头3PostgreSQL的安装在这个系列里就不赘述了，安装过程简单。（如果有人实在搞不懂怎么安装，可以留言）实例项目总述：项目描述：股票日数据仓库数据来源：优矿1数据表结构设计
minimind2学习：（1）训练溯源006 minimind学习学习深度学习生成模型
1、数据下载参考：https://github.com/jingyaogong/minimind/tree/master2、预训练训练6个epochspythontrain_pretrain.py--epochs6训练过程：LLM总参数量：25.830百万Epoch:[1/6](0/11040)loss:8.940lr:0.000550000000epoch_Time:106.0min:Epoch
DPO 核心理论推导：参考策略距离约束下的最优策略 + 损失函数设计 iiiiii11 机器学习人工智能论文阅读笔记语言模型深度学习
Rafailov,Rafael,etal.“Directpreferenceoptimization:Yourlanguagemodelissecretlyarewardmodel.”AdvancesinNeuralInformationProcessingSystems36(2023):53728-53741.本文整理了DPO论文中两个核心结论的推导，包括参考策略距离约束下的最优策略的形式，以及
使用Seaborn库中的`violinplot`函数绘制水平小提琴图（Violin Plot）是一种常见的数据可视化方法 code_welike 信息可视化数据分析数据挖掘 Python
使用Seaborn库中的violinplot函数绘制水平小提琴图（ViolinPlot）是一种常见的数据可视化方法。水平小提琴图可以展示数据的分布特征，并可以对比不同组别之间的差异。本文将介绍如何使用Python和Seaborn库绘制水平小提琴图，并提供相应的源代码示例。首先，我们需要确保已经安装了Seaborn库。可以使用以下命令在Python中安装Seaborn：pipinstallseabo
llama-factory 微调 Qwen2.5-3B-Instruct coco_1998_2 llama factory fine tune
0、资源链接官方readme:https://github.com/hiyouga/LLaMA-Factory/blob/v0.9.1/README_zh.md官方文档:https://llamafactory.readthedocs.io/zh-cn/latest/官方推荐的知乎教程：https://zhuanlan.zhihu.com/p/6952876071、安装LLaMAFactorygi
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
Android 车联网——汽车系统介绍（附2） c小旭 Android 车联网 android 车联网
汽车系统指的是由多个模块或组件组成的系统，如发动机系统、制动系统、空调系统等，这些系统通常由多个ECU协同工作来完成特定的任务。一、汽车系统1、防抱死制动系统ABS（Anti-lockBrakingSystem，防抱死制动系统）是一项重要的汽车安全技术，其主要功能是在车辆紧急制动时防止车轮完全锁死（抱死）。ABS系统通过自动控制制动力，使得车轮在制动过程中仍然能够保持一定的转动，从而避免因车轮抱死
MiniMind 亚伯拉罕·黄肯大模型人工智能
数据集分类：tokenizer训练集：这个数据集用于训练分词器（tokenizer），是文本处理中的一个重要步骤。它可以帮助模型更好地理解文本数据的结构。Pretrain数据：这是用于预训练模型的数据集，它可以帮助模型学习语言的基本结构和特征。SFT数据：SFT（SupervisedFine-Tuning）数据集，用于监督式微调，可以提高模型在特定任务上的性能。DPO数据1和DPO数据2：这两个数
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
StarRocks 排查单副本表 Shyllin StarRocks StarRocks
文章目录StarRocks排查单副本表方式1查询元数据，检查分区级的副本数方式2SHOWPARTITIONS命令查看ReplicationNum修改副本数命令StarRocks排查单副本表方式1查询元数据，检查分区级的副本数#方式一查询元数据，检查分区级的副本数withv_tmp1as(selectTABLE_ID,PARTITION_ID,tablet_id,count(*)ascntfromi
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
使用Seaborn绘制水平小提琴图 YOUFDJ python 开发语言 Python
使用Seaborn绘制水平小提琴图水平小提琴图是一种常用的数据可视化工具，可以用于展示不同类别之间的分布情况。在Python中，我们可以使用Seaborn库的catplot函数来轻松地绘制水平小提琴图。本文将介绍如何使用Seaborn绘制水平小提琴图，并附带相应的源代码示例。首先，确保你已经安装了Seaborn库。如果没有安装，可以使用以下命令在命令行中安装：pipinstallseaborn安装
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?