ecnu_frc_new

决策树原理详解及python代码实现

决策树算法（信贷中常用来寻找规则）

1、算法原理
- 1.1 ID3（多叉树分类）
- 1.2 C4.5（多叉树分类）
- 1.3 Cart（二叉树分类+回归）
2、ID3、C4.5与Cart比较
3、算法优缺点
4、算法需要注意的点
5、python代码实现
- 5.1导入相关包
- 5.2 读取数据并数据处理
- 5.3 模型训练
- 5.4 评估指标
- 5.4 决策树以图的形式输出

1、算法原理

1.1 ID3（多叉树分类）

信息熵： $Ent(D)=-\sum_{i=1}^np_ilogp_i$ 其中n为类别， $p_i$ 为每个类别的概率， $D$ 为某个特征，越小越确定

信息增益： $Gain(D,a)=Ent(D)=-\sum_{v=1}^v\frac{|D^v|}{|D|}Ent(D^v)$ 越大纯度提升越大，所以分裂 $a r g m a x G a i n (D, a)$

eg.15个样本，9个1和6个0；有个特征A（取值 $A_1$ 、 $A_2$ 、 $A_3$ ，其中 $A_1$ （3个1，2个0），其中 $A_2$ （2个1，3个0）其中 $A_3$ （4个1，1个0））

$Ent(A)=-(\frac{9}{15}*log_2\frac{9}{15}+\frac{6}{15}*log_2\frac{6}{15})=0.971$

$Gain(A,a)=0.971-(\frac{5}{15}Ent(A1)+\frac{5}{15}Ent(A2)+\frac{5}{15}Ent(A3))=0.083$

ID3在相同条件下取值较多的比较少的信息增益要大（2个值为 $\frac{1}{2}$ ,3个值为 $\frac{1}{3}$ ，但是3个信息增益会更大）
ID3没有考虑连续特征
ID3对缺失值未考虑

需要惩罚取值较多的信息增益，引出了信息增益率，即C4.5的算法

1.2 C4.5（多叉树分类）

$IV(a)=-\sum_{v=1}^v\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}$ 特征取值越多， $I V (a)$ 越大

信息增益率： $Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$ argmax $Gain\_ratio(D,a)$

如果为连续型变量，先从大到小排序，分别取2个中值（均值）作为划分点计算

引出了分类+回归的决策树

1.3 Cart（二叉树分类+回归）

$Gini(D)=1-\sum_{i=1}^np_i^2$ 反映随机抽2个样本，不一致的概率，越小越好（越纯）

$Gini_{split}(D)=1-\sum_{v=1}^v\frac{|D^v|}{|D|}Gini(D^v)$

eg.Age(youth(5)、middle(5)、senior(4))，以youth(5)和middle+senior(9)分割为例：

$Gini_{split}(Age)=\frac{5}{14}[1-[(\frac{3}{5})^2+(\frac{2}{5})^2]]+\frac{9}{14}[1-[(\frac{2}{9})^2+(\frac{7}{9})^2]]=0.39$
如果为连续性变量处理方式与C4.5相同

回归mse：

根据每一个连续值作为划分点（或用分类的方式取均值作为划分点），将其划分 $S_1$ 、 $S_2$
计算每个分支（ $S_1$ 、 $S_2$ ）的均值。 $mean=\frac{sum(s_1或s_2里真实值)}{该集合样本总数}$ 即为该分支的预测值
计算 $S_1$ 、 $S_2$ 的mse的和。 $mse=(该集合每一个样本真实值-mean)^2$

注：实践证明 $G i n i$ 和 $G a i n$ 效果差不多

2、ID3、C4.5与Cart比较

处理方式	信息增益（ID3）	信息增益率（C4.5）	Gini（Cart）
连续值处理	$\times$	$\surd$	$\surd$
缺失值处理	$\times$	$\surd$	$\surd$
剪枝	$\times$	$\surd$	$\surd$

ID3、C4.5与Cart特征选择只选一个特征。但大多数由一组特征决定。这样得到的决策树更准确（oc1）
样本发生一点改变，树的结构可能会发生剧烈的变化

3、算法优缺点

一、优点：

简单直观，生成的决策树可解释性强
不需要数据预处理（例如归一化处理，但封装的scikit-learn需要处理缺失值与字符型变量）
可以处理多维度多分类问题

一、缺点：

容易过拟合
样本发生改变可能导致完全不同的树
样本不平衡时，树会偏向于类别较多的一类

4、算法需要注意的点

决策树的构建过程中出现过拟合的原因及解决方法
原因：

在构建过程中没有进行合理的限制（如树的深度等）
样本中有噪声数据，没有进行有效的剔除
变量较多也容易产生过拟合

解决方法： 剪枝、限制深度、RF、正则化等

决策树如何处理缺失值
1、使用权重方法重构。（可认为以前1 $* G a i n$ ，现在无缺失比率 $* G a i n$ ）训练时特征出现缺失怎么处理（划分）即不考虑缺失，然后重赋权重
2、将缺失（划分变量）的样本中分别放到不同分支再进行分支。缺失变量样本的归属分支问题
3、同时探查所有分支，然后算每个类别的概率，取概率最大的类别赋值该样本。测试集中缺失处理

决策树递归终止的条件
1、所有子集被正确分类；2、没有合适的特征选择或信息增益(信息增益率/Gini)很小

决策树的变量重要性
如样本分裂占比 $*$ Gini/信息增益比

5、python代码实现

5.1导入相关包

import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder #分类变量编码包
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
import variable_iv as vi
import Logistic_model as lm

import os
os.chdir('E:/wyz/Desktop/cart/')
os.environ["PATH"] += os.pathsep + 'D:/Program Files (x86)/Graphviz2.38/bin/'#决策树可视化的包

5.2 读取数据并数据处理

data = pd.read_excel('ceshi.xlsx',sheet_name = 'Sheet2')
#分类变量编码
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
str_variable = list(data.dtypes[data.dtypes.values == object].index)
for col in str_variable:    
    data[col] = le.fit_transform(data[col].astype(str))
#在单变量分析的基础上填充缺失值（看哪一组的1的比率最接近于缺失值的那一组）
data['var1'] = data['var1'].fillna(0.42089)
data['var2'] = data['var2'].fillna(125.854)
#划分数据集
y = data_model['target']
x = data_model.drop('target', axis=1)
x_train, x_test, y_train, y_test = train_test_split(x, y,random_state=0,train_size=0.7)

5.3 模型训练

#建立模型(min_samples_leaf和min_samples_split需要慎重选择)（和传统决策树有很大区别）
model_tree = DecisionTreeClassifier(
             criterion='gini',#划分标准
             splitter='best',#特征划分标准
             max_depth=3,#树的最大深度
             min_samples_split=20,#划分所需要的最小样本数
             min_samples_leaf=10,#分到每个叶子最小样本数
             max_features=None,#用于参与划分的变量个数 
             max_leaf_nodes=None,#最大叶子节点数 
             min_impurity_decrease=0.0,#节点划分最小不纯度 
             min_weight_fraction_leaf=0.0,#叶子节点最小的样本权重和
             presort=False,#进行拟合前是否预分数据来加快树的构建
             random_state=None, 
             )#建模要class_weight='balanced'
model_tree.fit(x_train, y_train)

5.4 评估指标

test_proba = pd.DataFrame(model_tree.predict_proba(x_test))[1].values#预测为0的概率
print('测试集AUC: %.4f'%roc_auc_score(y_test,test_proba))#AUC，预测为概率

#变量重要性（是由该节点样本占总体样本*gini的减少量）
importances = list(model_tree.feature_importances_)
print(importances)

#输出变量重要的前几个变量（求最大的三个索引nsmallest与nlargest相反求最小）
import heapq
imp_index = list(map(importances.index, heapq.nlargest(3,importances)))
var_imp = []
for i in imp_index:
    var_imp.append(list1[i])
print(var_imp)

5.4 决策树以图的形式输出

#解决中文乱码问题(含中文的输出方式)
from sklearn.externals.six import StringIO
import pydotplus
from IPython.display import Image
dot_data = StringIO()
#决策树图
list1 = ['var1','var2','var3','var4','var5','var6']
tree.export_graphviz(model_tree, out_file=dot_data,  
                                    feature_names=list1,
                                    filled=True, rounded=True, 
                                    special_characters=True)
graph = pydotplus.graph_from_dot_data(dot_data.getvalue().replace( 'helvetica' ,' "Microsoft YaHei" '))
graph.write_png("result1.png")#将图画出来
#https://blog.csdn.net/qq_39386012/article/details/83857609#commentBox
Image(graph.create_png())#在jupter中可视化出来

from sklearn import tree
import pydotplus
#决策树图(不含含中文的输出方式)
list1 = ['var1','var2','var3','var4','var5','var6']
dot_data = tree.export_graphviz(model_tree, out_file=None,  
                                    feature_names=list1,
                                    filled=True, rounded=True, 
                                    special_characters=True)
graph = pydotplus.graph_from_dot_data(dot_data) 
graph.write_png("result2.png")#将图画出来

决策树参数详解

参数	默认值及输入类型	介绍
criterion	默认值：gini，即CART算法输入：entropy, gini	特征选择标准
splitter	默认值：best 输入：best, random	best在特征的所有划分点中找出最优的划分点，random随机的在部分划分点中找局部最优的划分点。默认的‘best’适合样本量不大的时候，而如果样本数据量非常大，此时决策树构建推荐‘random’
max_depth	默认值：None 输入：int, None	决策树最大深度。一般数据比较少或者特征少的时候可以不用管这个值，如果模型样本数量多，特征也多时，推荐限制这个最大深度，具体取值取决于数据的分布。常用的可以取值10-100之间，常用来解决过拟合
min_samples_split	默认值：2 输入：int, float	内部节点（即判断条件）再划分所需最小样本数。如果是int，则取传入值本身作为最小样本数；如果是float，则取ceil(min_samples_split*样本数量)作为最小样本数。（向上取整）
min_samples_leaf	输入：int, float	叶子节点（即分类）最少样本数。如果是int，则取传入值本身作为最小样本数；如果是float，则取ceil(min_samples_leaf*样本数量)的值作为最小样本数。这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝
min_weight_fraction_leaf	默认值：0 输入：float	叶子节点（即分类）最小的样本权重和，【float】。这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝。默认是0，就是不考虑权重问题，所有样本的权重相同。注：一般来说如果我们有较多样本有缺失值或者分类树样本的分布类别偏差很大，就会引入样本权重，这时就要注意此值
max_features	输入：int,float	在划分数据集时考虑的最多的特征值数量，【int值】。在每次split时最大特征数；【float值】表示百分数，即（max_features*n_features）
random_state	默认值：None 输入：int, randomSate instance, None
max_leaf_nodes	默认值：None 输入：int, None	最大叶子节点数。通过设置最大叶子节点数，可以防止过拟合。默认值None，默认情况下不设置最大叶子节点数。如果加了限制，算法会建立在最大叶子节点数内最优的决策树。如果特征不多，可以不考虑这个值，但是如果特征多，可以加限制，具体的值可以通过交叉验证得到
min_impurity_decrease	默认值：0 输入：float	节点划分最小不纯度，默认值为‘0’。限制决策树的增长，节点的不纯度（基尼系数，信息增益，均方差，绝对差）必须大于这个阈值，否则该节点不再生成子节点
class_weight	默认值：None 输入：dict, list of dicts, balanced	类别权重(不适用于回归树，sklearn.tree.DecisionTreeRegressor) 指定样本各类别的权重，主要是为了防止训练集某些类别的样本过多，导致训练的决策树过于偏向这些类别。balanced，算法自己计算权重，样本量少的类别所对应的样本权重会更高。如果样本类别分布没有明显的偏倚，则可以不管这个参数
presort	默认值：False 输入：bool	表示在进行拟合之前，是否预分数据来加快树的构建注：对于数据集非常庞大的分类，presort=true将导致整个分类变得缓慢；当数据集较小，且树的深度有限制，presort=true才会加速分类

决策树调参注意事项

当样本少数量但是样本特征非常多的时候，决策树很容易过拟合，一般来说，样本数比特征数多一些会比较容易建立健壮的模型
如果样本数量少但是样本特征非常多，在拟合决策树模型前，推荐先做维度规约，比如主成分分析（PCA），特征选择（Losso）或者独立成分分析（ICA）。这样特征的维度会大大减小。再来拟合决策树模型效果会好。
推荐多用决策树的可视化，同时先限制决策树的深度（比如最多3层），这样可以先观察下生成的决策树里数据的初步拟合情况，然后再决定是否要增加深度。
在训练模型先，注意观察样本的类别情况（主要指分类树），如果类别分布非常不均匀，就要考虑用class_weight来限制模型过于偏向样本多的类别。
决策树的数组使用的是numpy的float32类型，如果训练数据不是这样的格式，算法会先做copy再运行。
如果输入的样本矩阵是稀疏的，推荐在拟合前调用csc_matrix稀疏化，在预测前调用csr_matrix稀疏化。

python 变量进阶 ottox
目标变量的引用可变和不可变类型局部变量和全局变量01.变量的引用变量和数据都是保存在内存中的在Python中函数的参数传递以及返回值都是靠引用传递的1.1引用的概念在Python中变量和数据是分开存储的数据保存在内存中的一个位置变量中保存着数据在内存中的地址变量中记录数据的地址，就叫做引用使用id()函数可以查看变量中保存数据所在的内存地址注意：如果变量已经被定义，当给一个变量赋值的时候，本质上是
使用Python将多张图片转换为动态GIF图像 FLK_9090 python 开发语言 pillow
在本文中，我们将学习如何使用Python编写代码，将多张静态图片转换为一个动态的GIF图像。无论你的图片格式是JPEG（.jpg）还是PNG（.png），我们都将使用Python中的PIL库来实现这一功能。通过本文的学习，你将了解如何利用Python编写简洁、高效的代码来处理图像，并创建出生动的动画效果。介绍动态GIF图像是一种在网络上广泛使用的图像格式，它可以将一系列静态图片串联起来，形成连续的
Anaconda安装与Python虚拟环境配置保姆级图文教程(附速查字典)_anaconda配置python环境 2401_84976246 程序员 c语言 c++学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！目录1混乱的Python库2什么是Anacond
自学黑客（网络安全）白袍无涯 web安全网络安全网络安全系统安全运维计算机网络
前言：想自学网络安全（黑客技术）首先你得了解什么是网络安全！什么是黑客！网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。无论网络、Web、移动、桌面、云等哪个领域，都有攻与防两面性，例如Web安全技术，既有Web渗透，也有Web防御技术（WAF）。作为一个合格的网络安全工程师，应该做到攻守兼备，毕竟
算法知识点————【LRU算法】 shan_shmily 算法
思想：淘汰最久没有使用的应用场景：手机清后台的时候先清最久没有使用的应用设计一种数据结构：接收一个capacity参数作为缓存的最大容量，然后实现两个API，一个是put(key,val)方法存入键值对，另一个是get(key)方法获取key对应的val，如果key不存在则返回-1。要求：get和put方法必须都是O(1)的时间复杂度。哈希链表：哈希的查找配合双向链表的快速插入和删除classNo
【Python】已解决：ModuleNotFoundError: No module named ‘cv2‘ 屿小夏 python opencv 开发语言
文章目录一、分析问题背景示例代码片段二、可能出错的原因三、错误代码示例四、正确代码示例安装OpenCV库正确的代码示例五、注意事项已解决：ModuleNotFoundError:Nomodulenamed‘cv2’一、分析问题背景在Python开发过程中，图像处理是一个常见的需求，OpenCV（cv2）是一个广泛使用的图像处理库。当开发者在运行涉及图像处理的代码时，可能会遇到ModuleNotFo
【已解决】onnx无法找到CUDA的路径烟花节已解决人工智能深度学习 python pip
报错RuntimeError:D:\a\_work\1\s\onnxruntime\python\onnxruntime_pybind_state.cc:857onnxruntime::python::CreateExecutionProviderInstanceCUDA_PATHissetbutCUDAwasntabletobeloaded.Pleaseinstallthecorrectvers
Python史上最全知识重点（超详细版）进阶篇码农必胜客 Python零基础入门 python 网络 java
Python进阶进程间通信：Manager(内置了好多数据结构，可以实现多进程间内存共享)frommultiprocessingimportManager,Processdefadd_data(p_dict,key,value):p_dict[key]=valueif__name__=="__main__":progress_dict=Manager().dict()fromqueueimport
Matlab实现BP-NSGA-II多目标预测优化方法含老司开挖掘机
本文还有配套的精品资源，点击获取简介：本文涉及将遗传算法优化的BP神经网络与NSGA-II相结合，应用于多目标预测问题的解决。主要内容包括BP神经网络的学习原理、适应度函数的设计与应用、NSGA-II在多目标优化中的作用、多目标预测的策略以及Matlab工具在算法实现中的使用。本文旨在通过这些技术，帮助读者构建出能在多个相互冲突的目标间取得平衡的优化解决方案，并提供完整的Matlab代码实现，以供
python释放变量内存_Python变量内存管理 weixin_39669761
一、变量存哪了？x=10当我们在p1.py中定义一个变量x=10，那么计算机把这个变量值10存放在哪里呢了？我们回顾计算机的三大核心组件为：CPU、内存和硬盘。一定不是CPU，那是存放在内存还是硬盘中了呢？我们再回顾变量运行的三个过程，如果我们没有使用python解释器运行p1.py这个文件，那么x=10很明显只是很普通的四个字符x、=、1、0。而只有Python解释器运行了这个文件，那字符进入了
python 强制释放内存_python 内存释放问题,高手请帮帮忙 weixin_39593498 python 强制释放内存
该楼层疑似违规已被系统折叠隐藏此楼查看此楼我重复一楼的问题，range(1024*1024)确实占用很大内存，但是del后，内存几乎是马上就释放了，没有内存持续占用问题。我测试操作系统是macox10.5.6在实际应用中，range对大的数是不适合的，应该用xrange。可以参考：http://avinashv.net/2008/05/pythons-range-and-xrange/Origin
c语言atomic能用数组的,属性关键字非著名程序~~~ c语言atomic能用数组的
一.属性关键字的分类？读写权限：readonly、readwrite(默认)原子相关：atomic(默认)、nonatomic(常用)aomic：可以保证赋值和获取是线程安全的。指的是成员属性直接的获取和赋值，不包括操作和访问。eg：用atomic修饰数组，获取和赋值保证线程安全，添加、移除对象，是不保证线程安全的。引用计数retain(mrc)、strong(arc)：修饰对象assign(修饰
类方法、类实例方法和类静态方法（Python） Qh果壳 python 开发语言
目录1.类方法（ClassMethod）2.类实例方法（InstanceMethod）3.类静态方法（StaticMethod）在Python中，类方法、类实例方法和类静态方法是与类相关联的三种不同类型的方法。1.类方法（ClassMethod）：类方法是通过装饰器@classmethod来定义的，它的第一个参数是类本身（通常被命名为"cls"），而不是实例。类方法可以通过类名调用，也可以通过实例
python面试知识汇总 m0_61721020 python
读写锁，不同点，应用场景互斥锁：mutex，用于保证在任何时刻，都只能有一个线程访问该对象。当获取锁操作失败时，线程会进入睡眠，等待锁释放时被唤醒自旋锁：spinlock，在任何时刻同样只能有一个线程访问对象。但是当获取锁操作失败时，不会进入睡眠，而是会在原地自旋，直到锁被释放。这样节省了线程从睡眠状态到被唤醒期间的消耗，在加锁时间短暂的环境下会极大的提高效率。但如果加锁时间过长，则会非常浪费CP
【Python笔记】向量：@classmethod与 @staticmethod。零基础万物皆可.C Python笔记 python
类成员比较@classmethod与@staticmethod共同点：两个都是装饰器，装饰的成员函数可以通过类名.方法名(…)来调用区别：最显著的特点是classmethod需要传递一个参数cls，而staticmethod不需要。因此可以访问、修改类的属性，类的方法，实例化对象等，避免硬编码；而staticmethod不行，classmethod可以判断出自己是通过基类被调用，还是通过某个子类被
MoveNet: PyTorch实现的轻量级人体姿态估计框架侯深业Dorian
MoveNet:PyTorch实现的轻量级人体姿态估计框架movenet.pytorch项目地址:https://gitcode.com/gh_mirrors/mo/movenet.pytorchMoveNet是一个基于PyTorch的人体姿态估计算法实现，由开发者fire717贡献至GitCode平台。该项目旨在提供一个高效、易用的解决方案，用于实时处理视频或图像中的人体动作识别。通过其强大的性
从管控角度谈慢SQL治理 egzosn sql 数据库服务器 oracle 运维
一、什么是慢SQL慢SQL是指那些执行效率低下、响应时间长，导致用户等待时间变长和服务器资源利用率下降的SQL查询。那么，如何定义一个SQL查询是"慢"的呢？这不是一个绝对时间的问题，而是需要从多维度考量。时间维度最常见的定义慢SQL的方法是时间阈值。这个阈值可以根据不同的系统和性能要求设置。例如，一个查询如果在网页应用中执行时间超过2秒，或在数据分析系统中执行超过30秒，就可以被认为是慢的。业务
《Python 面试热门问题五》陈在天box python 开发语言
一、引言Python作为一种广泛应用的高级编程语言，在各个领域都有着重要的地位。在面试中，Python相关的问题常常涉及到语言的基础知识、编程技巧、常用库的使用以及实际项目经验等方面。本文将围绕五个热门的Python面试问题进行深入探讨，帮助读者更好地准备Python面试，提升自己的编程能力和竞争力。二、问题一：Python的数据类型有哪些？（一）基本数据类型数字类型整数（int）：Python中
《Nginx 负载均衡详解》陈在天box nginx 负载均衡运维
一、引言在当今互联网时代，随着业务的不断发展和用户量的持续增长，单一服务器往往难以满足高并发的访问需求。为了提高系统的可用性、可靠性和性能，负载均衡技术应运而生。Nginx作为一款高性能的Web服务器和反向代理服务器，提供了强大的负载均衡功能。本文将深入探讨Nginx负载均衡的原理、配置方法、算法以及实际应用中的注意事项，帮助读者更好地理解和运用Nginx负载均衡技术。二、负载均衡概述（一）负载均
使用 MongoDB 构建 AI：Patronus 如何自动进行大语言模型评估来增强对生成式 AI 的信心 MongoDB 数据平台 AI应用客户案例人工智能 mongodb
大语言模型可能不可靠，这几乎算不上头条新闻。对于某些用例，这可能会带来不便。而对于其他行业，尤其是受监管行业，后果则要严重得多。于是，业内首个大语言模型自动评估平台PatronusAI应运而生。PatronusAI由MetaAI和MetaRealityLabs的机器学习专家创立，旨在增强企业对生成式AI应用程序的信心，在塑造值得信赖的AI生态方面处于领先地位。Patronus联合创始人兼首席技术官
python(64) 内存的几个现象，主动释放内存 python开发笔记 Python python
1.主动释放内存的方式在Python中使用gc.collect()方法清除内存使用del语句清除Python中的内存gc.collect(generation=2)方法用于清除或释放Python中未引用的内存。未引用的内存是无法访问且无法使用的内存。可选参数generation是一个整数，值的范围是0到2。它使用gc.collect()方法指定要收集的对象的生成。在Python中，寿命短的对象存储
Python的Pillow（图像处理库）非常详细的学习笔记深蓝海拓机器视觉 pillow学习笔记 pillow 计算机视觉 python 图像处理
Python的Pillow库是一个非常强大的图像处理库。安装Pillow库：在终端或命令行中输入以下命令来安装Pillow：pipinstallpillow安装后查看是否安装成功以及当前版本pipshowPillow升级库：pipinstallpillow--upgrade 一些基础的应用1、图像文件方面的：打开文件1）直接打开文件：这种方式是最常见的直接打开图片文件的方法，以文件路径作为参数，P
python中csv文件的详细操作 GY-1997 python笔记 python 开发语言
在Python中，可以使用内置的csv模块来操作CSV文件。以下是一些常见的CSV文件操作示例：1.读取CSV文件：importcsvwithopen('file.csv','r')asfile:reader=csv.reader(file)forrowinreader:print(row)2.写入CSV文件：importcsvdata=[['Name','Age','City'],['John'
Java数据结构与算法：动态规划之斐波那契数列省赚客APP开发者@聚娃科技 java 动态规划代理模式
Java数据结构与算法：动态规划之斐波那契数列大家好，我是免费搭建查券返利机器人赚佣金就用微赚淘客系统3.0的小编。在这寒冷的季节里，让我们一同探讨Java中的动态规划，重点关注解决问题的经典代表之一——斐波那契数列。动态规划简介动态规划是一种解决问题的数学方法，通常用于优化递归算法。它通过将问题分解为子问题并保存它们的解，避免重复计算，从而提高算法效率。在动态规划的应用中，最常见的问题之一就是求
成为数据分析师的必要条件 HsuHeinrich 数据分析数据分析
开篇成为数据分析师的必要条件作为一名成熟的数据分析师，那必然是要头顶Python，脚踩SQL，左手一个Tableau，右手一个Excel。能取数，会报表，埋点AB两不误，分析落地显价值。那在日常工作中具体需要具备哪些技能呢？笔者根据个人工作学习，对自己做了个技能画像。接下来，笔者将从工具应用、理论基础、数字基建、分析思维四个方面介绍数据分析的必要条件。对其中一些基本技能附上基础教程，帮助初学者迈进
MYSQL--数据查询语言DQL--连接查询\分页查询\子查询\联合查询 _twinkle_ 每天学习8h MYSQL sql 数据库 mysql
连接查询含义：又称多表查询，当查询的字段来自于多个表时，就会用到连接查询笛卡尔乘积现象：表1有m行，表2有n行，结果=m*n行发生原因：没有有效的连接条件如何避免：添加有效的连接条件分类：按年代分类：sql92标准:仅仅支持内连接sql99标准【推荐】：支持内连接+外连接（左外和右外）+交叉连接按功能分类：内连接：等值连接非等值连接自连接外连接：左外连接右外连接全外连接(Oracle支持)交叉连接
Python+requests+pytest+openpyxl+allure+loguru框架详解乐瓜乐虫 python pytest
一、框架目录结构1）tools目录用来放公共方法存储，如发送接口以及读取测试数据的方法，响应断言数据库断言前置sql等方法；2）datas目录用例存储接口用例的测试数据，我是用excel来存储的数据，文件数据图片数据等；3）testcases目录用来存放测试用例，一个python文件对应一个接口模块的测试用例，不同接口分别别多个不同的python文件；4）outputs里有reports和logs
python 3D体感游戏雨轩智能 Unity3D教程游戏 python 开发语言
python和Unity制作的3D体感游戏初步，python获取手势关键点控制Uinty场景中游戏物体，实现3D场景游戏，python代码如下fromcvzone.HandTrackingModuleimportHandDetectorimportcv2importsocketcap=cv2.VideoCapture(0)cap.set(3,1280)cap.set(4,720)success,i
【软考】希尔排序算法分析王佑辉软考算法算法软考
目录1.c代码2.运行截图3.运行解析1.c代码#include#includevoidshellSort(intdata[],intn){//划分的数组，例如8个数则为[4,2,1]int*delta;intk;//i控制delta的轮次inti;//临时变量，换值inttemp;intdk;intj;k=n;delta=(int*)malloc(sizeof(int)*(n/2));i=0;d
每日一题(力扣213)：打家劫舍2--dp+分治 UndefindX-Z 算法动态规划
与打家劫舍1不同的是它最后一个和第一个会相邻，事实上，从结果思考，最后只会有三种：1第一家不被抢最后一家被抢2第一家被抢最后一家不被抢3第一和最后一家都不被抢。那么，根据打家劫舍1中的算法我们能算出在i到j房子区间内能抢到的最大金额，那我们可以考虑计算两路1从1到n-1的结果和从2到n的结果，最后取两者的最大即可。（第一家和最后一家都没被抢的情况实际可以包括在两种情况的任意一种中）classSol
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修