Micoreal

35 机器学习（三）：混淆矩阵|朴素贝叶斯|决策树|随机森林

文章目录

分类模型的评估
- 混淆矩阵
- - 精确率和召回率
- 接口介绍
- 其他的补充
朴素贝叶斯
- 基础原理介绍
- 拉普拉斯平滑
- 下面给出应用的例子
- 朴素贝叶斯的思辨
决策树
- 基础使用
- 基本原理
- - 信息熵
  - 信息增益
  - 信息增益率
  - Gini指数
- 剪枝
- api介绍
随机森林------集成学习初识
- 基本使用
- api介绍

分类模型的评估

一般最常见使用的是准确率，即预测结果正确的百分比，我们之前写的那个KNN所使用的就是准确率，但是实际上在很多的别的使用场景上，我们关注的并不只有准确性，比如后面会举一个个人理解的例子，进行分析。

混淆矩阵

在分类任务下，预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合，构成混淆矩阵。

这边的理解我们带入例子，进行理解，并理解一下为什么只有准确度并不能完全说明这个模型预测的好坏，我们把这个带入医生系统，去判断病人是否有病

TP：病人有病，被你预测成有病。
TN：病人没病，被你预测成没病。
FP：病人没病，被你预测成有病。
FN：病人有病，被你预测成没病。

明显对于医生预测系统来说，我们除了关注准确度来说，FN也是一个关键值，对于一个病人有病，却被诊断为没病，这是非常致命的缺陷，我们甚至希望牺牲掉部分准确性，去提升这一事故的发生。

精确率和召回率

精确率：预测结果为正例样本中真实为正例的比例（查得准）：TP/TP+FP
召回率：真实为正例的样本中预测结果为正例的比例（查的全，对正样本的区分能力）：TP/TP+FN

接口介绍

这个只是做接口介绍，具体的使用放在下面的朴素贝叶斯进行使用。

sklearn.metrics.classification_report(y_true, y_pred, labels=[], target_names=None )

y_true：真实目标值
y_pred：估计器预测目标值
labels:指定类别对应的数字
target_names：目标类别名称
return：每个类别精确率与召回率

其他的补充

参考链接：链接1
链接2

朴素贝叶斯

基础原理介绍

在学习概率论的时候，我们已经学习过了朴素贝叶斯，这是一个后验概率。
详细见链接

下面讲点，自己的理解：

即我们对于这个公式的分类理解：
我们现在想要做一个根据文章出现的关键词，进行判断这篇文章是不是属于科技类的新闻，那么概率就是P(科技|‘云计算’ ‘高帧’ ‘计算机’···)，但这个概率明显是没有办法进行求取的，但是我们可以根据这个贝叶斯公式进行转化

直接变成（P(云计算|科技) * P（科技） * ···）/ P（‘云计算’ ‘高帧’ ‘计算机’···）

这明显都可以根据已有的条件进行推出，这也就是这个公式的意义。

朴素贝叶斯的实现API：

sklearn.naive_bayes.MultinomialNB

拉普拉斯平滑

在求取概率的时候，有时候由于每个参数出现的次数太少，然后根据我们上面的公式一个为0之后，那么之后所有的样本都不用进行计算，直接全为0了，所以我们这边采用拉普拉斯平滑进行处理，让其脱离0的局限。

处理就是在求条件概率的时候，上方加上一个alpha，下方加上alpha*样本数目。

实现接口：

sklearn.naive_bayes.MultinomialNB(alpha = 1.0)

下面给出应用的例子

数据就是20类新闻的那个数据。

# 朴素贝叶斯进行文本分类 以及使用检测那个混淆矩阵的 精确率和回归率
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report,roc_auc_score

# 数据准备 sklearn就是好啊，直接给的都不需要进行数据处理
news = fetch_20newsgroups(subset='all', data_home='dataset')
print(len(news.data)) # 看一下共有多少条新闻

# 进行数据分割
x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25, random_state=1)

# 开始特征工程的工作 对数据集进行特征抽取 这一部分之前也讲解过，不细看，由于这个数据是纯英文的，所以不需要进行jieba分词
tfidef = TfidfVectorizer()
x_train = tfidef.fit_transform(x_train)
x_test = tfidef.transform(x_test)

# 训练 准备开始训练
# 进行朴素贝叶斯算法的预测,alpha是拉普拉斯平滑系数，分子和分母加上一个系数，分母加alpha*特征词数目
mlt = MultinomialNB(alpha=1.0)

# 开始训练
mlt.fit(x_train, y_train)

# 训练结束 开始预测
y_predict = mlt.predict(x_test)


# 得出准确率,这个是很难提高准确率，为什么呢？
print("准确率为：", mlt.score(x_test, y_test))

# 计算精准率和召回率
print("每个类别的精确率和召回率：\n", classification_report(y_test, y_predict, target_names=news.target_names))

# 把0-19总计20个分类，变为0和1 这个是计算AUC用的，AUC只能用于二分类
y_test = np.where(y_test == 0, 1, 0)
y_predict = np.where(y_predict == 0, 1, 0)
# roc_auc_score的y_test只能是二分类,针对多分类如何计算AUC
print("AUC指标：\n", roc_auc_score(y_test, y_predict))

输出：

18846
准确率为： 0.8518675721561969
每个类别的精确率和召回率：
                           precision    recall  f1-score   support

             alt.atheism       0.91      0.77      0.83       199
           comp.graphics       0.83      0.79      0.81       242
 comp.os.ms-windows.misc       0.89      0.83      0.86       263
comp.sys.ibm.pc.hardware       0.80      0.83      0.81       262
   comp.sys.mac.hardware       0.90      0.88      0.89       234
          comp.windows.x       0.92      0.85      0.88       230
            misc.forsale       0.96      0.67      0.79       257
               rec.autos       0.90      0.87      0.88       265
         rec.motorcycles       0.90      0.95      0.92       251
      rec.sport.baseball       0.89      0.96      0.93       226
        rec.sport.hockey       0.95      0.98      0.96       262
               sci.crypt       0.76      0.97      0.85       257
         sci.electronics       0.84      0.80      0.82       229
                 sci.med       0.97      0.86      0.91       249
               sci.space       0.92      0.96      0.94       256
  soc.religion.christian       0.55      0.98      0.70       243
      talk.politics.guns       0.76      0.96      0.85       234
   talk.politics.mideast       0.93      0.99      0.96       224
      talk.politics.misc       0.98      0.56      0.72       197
      talk.religion.misc       0.97      0.26      0.41       132

                accuracy                           0.85      4712
               macro avg       0.88      0.84      0.84      4712
            weighted avg       0.87      0.85      0.85      4712

AUC指标：
 0.8827602448315142

朴素贝叶斯的思辨

优点：

朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。
对缺失数据不太敏感，算法也比较简单，常用于文本分类。
分类准确度高，速度快

缺点：

需要知道先验概率 P(F1,F2,…|C)，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
假设了文章当中一些词语另外一些是独立没关系—-如果有关系，会造成不太靠谱
训练集当中去进行统计词这些工作文章收集的不好，比如有作弊文章，充斥某个词会对结果造成干扰

朴素贝叶斯常用于文本领域，但是现在神经网络的transformer做的更好，朴素贝叶斯也属于lazy learning的类型的。

决策树

基础使用

# 决策树
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier

# 获取数据 观察数据的内容
titan = pd.read_csv("./dataset/titanic/titan_train.csv")

# 确定特征值 目标值
x = titan[["Pclass", "Age", "Sex"]]
y = titan["Survived"]
print(x.info()) # 打印出来说明存在nan
print(x.shape)
print('-'*20)

# 处理空值 直接平均值填写吧
im = SimpleImputer(missing_values=np.nan, strategy='mean')
x['Age'] = im.fit_transform(x[['Age']])

# 数据集划分
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)

# 查看数据，存在字符串，所以需要转化为one-hot Dict顾名思义需要传入的是字典
transfer = DictVectorizer()
x_train = transfer.fit_transform(x_train.to_dict(orient="records"))
x_test = transfer.fit_transform(x_test.to_dict(orient="records"))

# 决策树训练
estimator = DecisionTreeClassifier(criterion="entropy", max_depth=5)
estimator.fit(x_train, y_train)

# 模型评估
print(estimator.score(x_test, y_test))

输出：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Pclass  891 non-null    int64  
 1   Age     714 non-null    float64
 2   Sex     891 non-null    object 
dtypes: float64(1), int64(1), object(1)
memory usage: 21.0+ KB
None
(891, 3)
--------------------
0.7757847533632287

基本原理

决策树的基本原理：

决策树的基本原理就是类似我们的if-else，从根节点开始，不断进行判断，最后走到一个叶子节点，就是我们相对应的结局，而我们需要根据自己的需要去构建出这么一棵决策树，构建决策树要根据什么原则来构建呢？实际上采用的熵

信息熵

系统越有序，熵值越低；系统越混乱或者分散，熵值越高，在之前的决策树，我们采用的是香农的信息熵公式进行判断到底是什么需要优先排在上面，什么排在下面再进行判断。

而我么进行排列的顺序一大顺序就是按照信息熵的信息增益来进行判断的。

信息增益

信息增益：以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。

信息增益 = entroy(前) - entroy(后)，然后来判断到底是哪一个来的效果更好，就是选择哪一个。

这个就是经典的id3 算法，但是对于id3算法来说，他的一个巨大的缺陷就是他受特征量多的那一个影响太严重，这个需要根据个人的想法进行判断是否采用这个算法。

信息增益率

这个就是在原本的计算的时候除掉一个总数。

Gini指数

基尼值Gini（D）：从数据集D中随机抽取两个样本，其类别标记不一致的概率。故，Gini（D）值越小，数据集D的纯度越高。

一般，选择使划分后基尼系数最小的属性作为最优化分属性

剪枝

为了防止过拟合现象，需要剪枝进行剪掉我们的部分数据。

预剪枝：

每一个结点所包含的最小样本数目，例如10，则该结点总样本数小于10时，则不再分
指定树的高度或者深度，例如树的最大深度为4
指定结点的熵小于某个值，不再划分。随着树的增长，在训练样集上的精度是单调上升的，然而在独立的测试样例上测出的精度先上升后下降。

后剪枝：
实际上就是在看到了前面的效果之后的剪枝，剪枝也跟上面是一致的。

api介绍

class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)

criterion 特征选择标准
"gini"或者"entropy"，前者代表基尼系数，后者代表信息增益。一默认"gini"，即CART算法。

min_samples_split
内部节点再划分所需最小样本数
这个值限制了子树继续划分的条件，如果某节点的样本数少于min_samples_split，则不会继续再尝试选择最优特征来进行划分。 默认是2.如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。我之前的一个项目例子，有大概10万样本，建立决策树时，我选择了min_samples_split=10。可以作为参考。

min_samples_leaf
叶子节点最少样本数
这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。 默认是1,可以输入最少的样本数的整数，或者最少样本数占样本总数的百分比。如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。之前的10万样本项目使用min_samples_leaf的值为5，仅供参考。

max_depth
决策树最大深度
决策树的最大深度，默认可以不输入，如果不输入的话，决策树在建立子树的时候不会限制子树的深度。一般来说，数据少或者特征少的时候可以不管这个值。如果模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布。常用的可以取值10-100之间

random_state
随机数种子

随机森林------集成学习初识

基本使用

# 随机森林 使用了集成学习
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

# 还是使用上面的数据 不详细介绍
#----------------------------------------------------------------------
titan = pd.read_csv("./dataset/titanic/titan_train.csv")
x = titan[["Pclass", "Age", "Sex"]]
y = titan["Survived"]
im = SimpleImputer(missing_values=np.nan, strategy='mean')
x['Age'] = im.fit_transform(x[['Age']])
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)
transfer = DictVectorizer()
x_train = transfer.fit_transform(x_train.to_dict(orient="records"))
x_test = transfer.fit_transform(x_test.to_dict(orient="records"))
#----------------------------------------------------------------------

# 随机森林进行训练 随机森林搭配网格训练
rf = RandomForestClassifier()
# n_estimators 代表的就是有几棵树
param = {"n_estimators": [120,200,300], "max_depth": [5, 8, 15, 25, 30]}
gc = GridSearchCV(rf, param_grid=param, cv=2)
gc.fit(x_train, y_train)
print("随机森林预测的准确率为：", gc.score(x_test, y_test))

输出：

随机森林预测的准确率为： 0.7802690582959642

api介绍

sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True, random_state=None, min_samples_split=2)

n_estimators：integer，optional（default = 10）森林里的树木数量120,200,300,500,800,1200

Criterion：string，可选（default =“gini”）分割特征的测量方法

max_depth：integer或None，可选（默认=无）树的最大深度 5,8,15,25,30

max_features="auto”,每个决策树的最大特征数量
If "auto", then max_features=sqrt(n_features).
If "sqrt", then max_features=sqrt(n_features)(same as "auto").
If "log2", then max_features=log2(n_features).
If None, then max_features=n_features.

bootstrap：boolean，optional（default = True）是否在构建树时使用放回抽样

min_samples_split:节点划分最少样本数

min_samples_leaf:叶子节点的最小样本数


超参数：n_estimator, max_depth, min_samples_split,min_samples_leaf

提供住宿，还有什么？瑶静
今天单位出差，下午7点25分的火车刚刚到站，就有一位阿姨上前来，拿着一张小卡片，可以说是小牌子，上面写着“住宿”的字样。随后和我说，“美女，住宿吗？我这里住宿条件可好了，有住宿还有其他服务……”。当时，我带着满身疲惫，随口便问道：“您说的其他服务都有什么呀？您这里不就是提供住宿吗？”。“姑娘，一看你就是单身呢！一个人来这里，多少有点不安全，先在阿姨家里住上一晚，明天再走吧！”说到明天再走，我不想理
Python 网络爬虫 —— 代理服务器 WeiJingYu. 爬虫服务器前端
一、会话（Session）（一）核心逻辑HTTP本身无记忆，每次请求独立。会话（Session）就是为解决这问题，让客户端（浏览器）和服务器“记住”交互状态（比如登录态），常用Cookie实现：服务器发Cookie给客户端存着，下次请求带着，服务器就知道“是同一用户”。（二）创建会话（requests实现）用requests库的Session类，自动维持会话、管理Cookie，代码形式：impor
Python 中的闭包：原理、应用与实践小羊苏八 python 开发语言
目录前言1.什么是闭包？2.闭包的基本结构3.闭包的应用场景4.闭包的高级特性5.闭包的性能与内存管理6.闭包的实践案例7.总结前言在Python编程中，闭包是一个非常强大且灵活的特性。闭包允许嵌套函数访问外部函数的变量，即使外部函数已经返回。这种特性使得闭包在函数式编程、装饰器、回调函数等场景中非常有用。本文将通过详细的示例和解释，深入探讨Python中的闭包。1.什么是闭包？闭包（Closur
放飞梦想朗月微光
书籍:《少做一点不会死》字数:659每个人都向往自由自在的生活，每个人都想成就梦想，这本书不会交我们做什么，但却可以指引我们简化生活，腾空自己的内在空间，让梦想的心飞翔。001自省内心我们在各种各样的框架里，过着一成不变的生活，就像《装在套子里的人》，被各种负面情绪包裹，兢兢业业的过着别人认可的生活。想让自己的生活发生改变，首先要自省内心，找到心底的渴望，每天都给自己留出一点点自由的时间和空间，想
安利尚龙大大的书♥ 夜灵玖
……选自《你只是看起来很努力》我们总是容易被光芒吸引，却不知道每个人前显贵的人，背后跪过多少次。那些倒霉的日子，我们往往看不到，可不代表他们没有经历，不代表他们没有看清。所以我们没有必要羡慕嫉妒那些光亮的，更没必要自怨自艾，那些不过是人生的不同阶段，都会过去，都会更好，只要你还肯相信努力的意义，相信生活能靠双手改变。打不倒你的，只会让你变得更强。至给那些仍在奋斗的路上拼搏的人，我们都要相信，自己有
活好自己，一心助人灵心_心理咨询_邱玉东
一活好自已学习并受益于“应用心理学”快两年了！两年的学习、改变与“回潮反复”，使我确认一项事实：在我的潜意识里，过去的东西都在！任何时候，只要有类似于过去经历中的人、事、物、场景（比如，家里人同样的态度、类似的做法）出现，储藏在潜意识里面情绪、表情或身体状态，都会转瞬即至！类似这样能唤起潜意识“电影”的事还有许多：同事、邻居、家人，所有熟悉的建筑，熟悉的房子，熟悉的道路，熟悉的路边景观，熟悉的人事
python-第五课-绘线段、正方形布口袋_天晴了
1.绘制第一个海龟图形A.课程内容：通过绘制线段和正方形来学习导入海归模块、创建画笔、移动和旋转画笔。通过绘制图形来学习python编程的基本方法。B.知识点(1)导入海龟绘图模块(2)创建画笔(3)向前移动(4)画笔旋转C.用到的基本指令(1)import(2)turtle.Pen()(3)forward()(4)right()海龟绘图(turle)是python内置的一个比较有趣味的模块。使用
python爬虫技术——基础知识、实战南瓜AI python 爬虫 scrapy
参考文献：Python爬虫入门(一)（适合初学者）-CSDN博客一、常用爬虫工具包Scrapy语言:Python特点:高效、灵活的爬虫框架，适合大型爬虫项目。BeautifulSoup语言:Python特点:用于解析HTML和XML，简单易用。Selenium语言:Python/Java/C#特点:支持浏览器自动化，适合处理JavaScript渲染的网页。Requests语言:Python特点:简
分享两个爬虫练习网站高质量海王哦爬虫爬虫 python
Python爬虫案例|ScrapeCenterSpiderbuf|Python爬虫练习靶场
卢悦丹：如果你拖延，请远离不停给你讲道理的人卢悦丹拖延症
我的写作目的：帮更多人不再拖延今天是我分享的第375篇文章经过这么久对拖延的人的观察以及自我实践，又基于我无比纯正的想要“帮更多人不再拖延”的目标，我发现一个人拖延，只有一个原因，那就是：能量太低而成为一个不再拖延的人，也就只有一个方法，那就是：提高能量所以说，一切能提高能量的动作，一切能减少能量消耗的动作，才是战胜拖延的关键。所以，再来看看标题，为什么要远离给你讲道理的人呢？为什么要远离给你讲道
Python之print打印追捕的风 Python之数据处理 python 开发语言爬虫
python是一门脚本语言，少不了使用各种print打印调试，本文总结一下pythonprint打印的几种方法。1单独打印变量1.1只打印变量：方法：print(variable)示例：name="Mike"age=21print(name)print(age)输出：Mike211.2带其他信息：示例：name="Mike"age=21print('mynameis',name)print('my
python3——print使用 weixin_30404405
print的初步认识：对于科班出身的或有相关经验的人来说，学习python是相当有趣的事,因为可以做日常任务，比如自动备份你的MP3；可以做网站，如YouTube就是Python写的；可以做网络游戏的后台，很多在线游戏的后台都是Python开发的；可以爬数据，得到你想要的内容。总之就是能干很多很多事啦。而对于非科班的我来说，学习python是非常辛苦的，从一行行print打印,到一个个关键字，从思
MySql学习(二)日志系统一条SQL更新语句是如何执行的？ lconcise
目录：更新语句执行流程重要日志模块：redolog重要日志模块：binlog两阶段提交小结更新语句执行流程一条更新语句的执行流程是怎样的呢？我们还是从一个表的一条更新语句说起，下面是这个表的创建语句，这个表有一个主键ID和一个整型字段c：mysql>createtableT(IDintprimarykey,cint);如果要将ID=2这一行的值加1，SQL语句就会这么写：mysql>updateT
控制欲太强的妈妈，在20岁儿子眼里什么样儿？悦来越好1
男孩，20岁，在读大学生，苦恼父母一直仍把他当小孩子看。比如，妈妈规定他晚上十点前回家，别管他在做什么。但是，他特意强调如是妈妈在玩自己的事情，就不会催他到点赶快回家。都已成年，他还被妈妈这样牢牢控制，以致于遭到同学对他的鄙视，同学默默竖起的这个中指，让他既尴尬又无奈。这位妈妈就是把自己的孩子当成了私有财产，全然不顾孩子的内心是否快乐，也从未想过这样是否给孩子身心带来伤害。因此，他不愿给孩子个人空
前端转后端学习路线整理
一、背景本人是一名Web前端开发，技术栈是Vue和React，不会Node。之前学过，但是因为一些原因（比如没有使用场景，很多概念无法理解，学完就忘等）一直也没有掌握。因为在CMS部门耳濡目染时间久了，感觉不学点后端有点说不过去，而且学起来之后发现也挺有兴趣的。但是对于一名前端开发（而且在学校的时候基本没学习）来说要学习的内容实在太多了，开始的困难在于理清各种技术都是干什么的以及它们之间的关系。现
GIMP 3.0 中文版下载与安装全指南，附软件下载链接
GIMP（GNUImageManipulationProgram）作为开源图像处理领域的标杆工具，其3.0版本在技术架构上实现了多项突破：界面与性能升级基于GTK3重构的UI支持高分辨率屏幕，SVG图标体系带来更现代的视觉体验；引入多线程渲染与SIMD指令集加速，滤镜处理效率提升300%+非破坏性编辑机制通过图层版本控制与历史状态隔离，实现图像修改与原始数据的分离，这一特性对专业设计流程至关重要跨
2020-02-25 醉翁
生命生命，那是自然会给人类去雕琢的宝石。——诺贝尔请原谅我大胆猜想，诺贝尔先生的原意可能并非是“宝石”，而仅仅是一块“石头”。但每个人一出生，都同样是一块普通的石头。至于你要怎么把它变得不一样，那得基于你后天对它的“处分”——我们都知道，在政治法律上，财产拥有一个处分权，即财产所有人对其财产在法律规定的范围内最终处理的权利。而我说的“处分”就跟这个意思一样。所以说，很多人到生命的最后一刻都没有修得
DAY2——Python 基础变量类型之字符串和数字类型 .venn PYTHON学习 python 开发语言算法
字符串类型（str）字符串是Python中最常用的数据类型之一，用于表示文本信息。字符串可以用单引号（''）、双引号（""）或三引号（''''''或""""""）定义。三引号通常用于多行字符串。字符串是不可变序列，支持索引和切片操作。以下是一些常见操作：#定义字符串s1='hello's2="world"s3='''Thisisamulti-linestring'''#字符串拼接combined=
DAY4——Python 推导式及常见语句和内置函数个人总结
Python推导式Python推导式是一种简洁的语法结构，用于快速生成列表、字典、集合或生成器。推导式通常比传统的循环更高效且更易读。常见的推导式包括列表推导式、字典推导式、集合推导式和生成器推导式。列表推导式语法：[expressionforiteminiterableifcondition]示例：#生成平方数列表squares=[x**2forxinrange(10)]print(square
论语学习第二十一天一尘了心
子罕篇9.15：子曰：“吾自卫反鲁，然后乐正，《雅》《颂》各得其所。”译文：孔子说：我从卫国返回鲁国，开始整理《诗经》，《雅》《颂》都梳理好。感悟：孔子曾说过，兴于诗，立于礼，成于乐！最后的快乐归就于诗悦。我们都要学点诗韵，享受人生最美好快乐。9.16：子曰：“出则事公卿，入则事父兄，丧事不敢不勉，不为酒困，何有于我哉？”译文：孔子说：外在（为上级）工作做事，回家侍奉父兄（家人），村里办理丧礼不能
程序员的一生：代码、挑战与无限可能 Jay_MIng 开发语言 php linux 运维 nginx java python
程序员的职业生涯呈现出鲜明的阶段性特征，每个阶段都面临不同的挑战与机遇：成长期（22-30岁）：黄金学习期。在这个阶段中的你身体机能处于巅峰，自由时间也充沛，你大多是一个人，没有太多的压力，核心任务是构建技术根基。从学校的书本知识到企业级开发实战的跨越在此阶段完成，需掌握团队协作、版本控制、代码测试等工程化能力。黄金期（30-45岁）：上有老下有小的负重攀登期。技术能力达到高峰，却面临家庭责任挤压
悠悠同学情（第510篇）宜可老师
图片发自App2019年6月25日星期二晴同学，越来越觉得亲切，同学情越来越珍贵了！同学十天，年龄差距悬殊，性格相反，今天，我们竟然一起学习一起玩耍的这么开心，我们还要一起做事！北开大学家庭教育大师班同学刘艳萍，我们的班长，性格开朗活泼，热情洋溢，不辞劳苦为大家服务，让我们都深深地记住了她！今天，我们因为金榜学霸走在了一起，这个暑假，我们和孩子一起成为学霸！今天，在课堂上留下了我们共同学习的身影；
对象的本质：OOP编程核心揭秘止观止计算机科学 OOP 面对对象编程
引言面向对象编程（OOP）革命性地重塑了软件开发，其核心在于“对象”——一种模拟现实实体的计算模型。对象不仅是数据容器，更是封装了状态和行为的自治单元，使程序从指令序列转变为交互网络。通过本解析，我们将层层递进，揭示对象在OOP中的根本角色：从定义延伸到设计实践，帮助读者跨越语言差异（如Java、Python或C++），掌握这一范式的精髓。章节构建遵循技术演进：先解剖对象本质，再关联OOP支柱，最
逆境更能造就人才魏小强
越是逆境，越能激发一个人的斗志。在上初中的时候，因为成绩好受人妒忌，加上不善处理人际关系，结果是在寒冷黑暗的冬日清晨，一个人走五六里，穿过乱坟堆，穿过荒岗去上学。这段经历铸就我坚忍、早熟的性格。因为个子矮、瘦小，常被他人欺负，迫使我不断锻炼身体，使自己强大。这段经历鞭笞我奋发向上，是我人生中最宝贵的财富。作为农家子弟，能从偏僻的乡村考进大学，摆脱脸朝黄土背朝天修理地球的命运，想到在初中求学的三年，
python怎么打印 _python大神_ python python
python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？py
幸福是什么？不过是生活着、爱着、努力着有情七分饱
在忙碌的生活中穿梭，我们经常会有这样的感受：尝试着把所有的事情都放下，可是到最后却因为太清闲而心慌意乱；在茫茫人海中委屈无人诉说，希望有那么一个人在身边关心着自己；日子一成不变，没了激情，可又找不到方向，一边自责，一边失望。渴望幸福，却很迷茫……作家巴克莱说过这样一句话：“幸福有三个不可或缺的因素，一是有事做，二是有人爱，三是有希望。”的确如此，一个人最好的生活状态无非是：有事做，有人爱，有所期待
2018-06-08 浙江路人甲
【日精进打卡第67天】姓名：杜俊杰公司：浙江省东阳市东元食品有限公司【知～学习】诵读《干法》2节。【经典名句分享】知止而后有定，定而后能静，静而后能安，安而后能虑，虑而后能得。知道自己该达到的境界才能志向坚定，志向坚定才能镇静不躁，镇静不躁后才能心安理得，心安理得后才能思虑周祥，思虑周祥后才能有所获得。【行～实践】一、修身:运动打篮球二、齐家：与家人一起去夏苑散步三、建功：组织学习《干法》。｛积善
参加幸福心理学第二天体会阿杜_0bc5
第1个体会，关于家族图谱，一是家族图谱显示的是用遗传来展示爱自己喜欢的和不喜欢的都会遗传。二是家族图谱可以画，每次都可能不一样。这说明每次看的视角不一样了。三是通过多次绘制家族图谱可以看见自己有升华的过程。四是自己会无意识的传承父母的特质。五是身教大于言传。六是一个人有机会影响另一个人。七是家族图谱要先用到自己的身上。第2个体会，关于人生脚本。对此我的理解，人生脚本就是自动化运行的人生程序，也就是
opencv 4.12.0版本发布详解：核心优化与新特性全解析 Risehuxyc #opencv opencv 人工智能计算机视觉
OpenCV4.12.0夏季更新带来核心模块优化、图像处理增强、深度学习支持扩展及新兴硬件适配，全面提升计算机视觉开发效率与性能。引言OpenCV（开源计算机视觉库）作为计算机视觉领域最受欢迎的开源库之一，在2025年7月发布了4.12.0版本。这个夏季更新带来了大量性能优化、新功能和错误修复，覆盖了核心模块、图像处理、3D校准、深度学习等多个领域。本文将详细介绍OpenCV4.12.0的主要更新
关于恋爱，你应该明白一些东西君先生的书屋
《我想和你白头，也想自由》是畅销作者姬晓安所著，以女性的视角来写两性在恋爱关系。作者的观点在很多地方与独立女性或是“女强人”的观点不谋而合，我认为这是新时代女性应该有的观点，不论男女，自力更生从某种角度上讲也是自我尊重。从失恋悲伤中站起来如今的时代，不像以前生活很慢，一生只能够爱一个人。现在谁还不是一个有故事的男孩/女孩，谁能够拍着胸脯说这一生就他/她了，或许可以当作一个情话说出来，可是问问自己的
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

35 机器学习（三）：混淆矩阵|朴素贝叶斯|决策树|随机森林

文章目录

分类模型的评估

混淆矩阵

精确率和召回率

接口介绍

其他的补充

朴素贝叶斯

基础原理介绍

拉普拉斯平滑

下面给出应用的例子

朴素贝叶斯的思辨

决策树

基础使用

基本原理

信息熵

信息增益

信息增益率

Gini指数

剪枝

api介绍

随机森林------集成学习初识

基本使用

api介绍

你可能感兴趣的:(个人python流程学习,机器学习,矩阵,决策树)