程序员吉塔

python 随机森林算法及其优化详解

这篇文章主要介绍了ptyhon 随机森林算法及其优化详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
前言

优化随机森林算法，正确率提高1%~5%（已经有90%+的正确率，再调高会导致过拟合）
论文当然是参考的，毕竟出现早的算法都被人研究烂了，什么优化基本都做过。而人类最高明之处就是懂得利用前人总结的经验和制造的工具（说了这么多就是为偷懒找借口。hhhh）

优化思路

计算传统模型准确率
计算设定树木颗数时最佳树深度，以最佳深度重新生成随机森林
计算新生成森林中每棵树的AUC，选取AUC靠前的一定百分比的树
通过计算各个树的数据相似度，排除相似度超过设定值且AUC较小的树
计算最终的准确率

主要代码粘贴如下（注释比较详细，就不介绍代码了）

#-*- coding: utf-8 -*-
import time
from csv import reader
from random import randint
from random import seed
 
import numpy as np
from numpy import mat
 
from group_11 import caculateAUC_1, plotTree
 
# 建立一棵CART树
'''试探分枝'''
def data_split(index, value, dataset):
 left, right = list(), list()
 for row in dataset:
  if row[index] < value:
   left.append(row)
  else:
   right.append(row)
 return left, right
 
'''计算基尼指数'''
def calc_gini(groups, class_values):
 gini = 0.0
 total_size = 0
 for group in groups:
  total_size += len(group)
 for group in groups:
  size = len(group)
  if size == 0:
   continue
  for class_value in class_values:
   proportion = [row[-1] for row in group].count(class_value) / float(size)
   gini += (size / float(total_size)) * (proportion * (1.0 - proportion))# 二分类执行两次，相当于*2
 return gini
 
'''找最佳分叉点'''
def get_split(dataset, n_features):
 class_values = list(set(row[-1] for row in dataset))# 类别标签集合
 b_index, b_value, b_score, b_groups = 999, 999, 999, None
 
 # 随机选取特征子集，包含n_features个特征
 features = list()
 while len(features) < n_features:
  # 随机选取特征
  # 特征索引
  index = randint(0, len(dataset[0]) - 2) # 往features添加n_features个特征（n_feature等于特征数的根号），特征索引从dataset中随机取
  if index not in features:
   features.append(index)
 for index in features:  # 对每一个特征
  # 计算Gini指数
  for row in dataset: # 按照每个记录的该特征的取值划分成两个子集，计算对于的Gini（D，A），取最小的
   groups = data_split(index, row[index], dataset)
   gini = calc_gini(groups, class_values)
   if gini < b_score:
    b_index, b_value, b_score, b_groups = index, row[index], gini, groups
 return {'index': b_index, 'value': b_value, 'groups': b_groups} # 每个节点由字典组成
 
'''多数表决'''
def to_terminal(group):
 outcomes = [row[-1] for row in group]
 return max(set(outcomes), key=outcomes.count)
 
'''分枝'''
def split(node, max_depth, min_size, n_features, depth):
 left, right = node['groups'] # 自动分包/切片
 del (node['groups'])
 if not left or not right: # left或者right为空时
  node['left'] = node['right'] = to_terminal(left + right) # 叶节点不好理解
  return
 
 if depth >= max_depth:
  node['left'], node['right'] = to_terminal(left), to_terminal(right)
  return
 # 左子树
 if len(left) <= min_size:
  node['left'] = to_terminal(left)
 else:
  node['left'] = get_split(left, n_features)
  split(node['left'], max_depth, min_size, n_features, depth + 1)
 # 右子树
 if len(right) <= min_size: # min_size最小的的分枝样本数
  node['right'] = to_terminal(right)
 else:
  node['right'] = get_split(right, n_features)
  split(node['right'], max_depth, min_size, n_features, depth + 1)
 
'''建立一棵树'''
def build_one_tree(train, max_depth, min_size, n_features):
 # 寻找最佳分裂点作为根节点
 root = get_split(train, n_features)
 split(root, max_depth, min_size, n_features, 1)
 return root
 
'''用森林里的一棵树来预测'''
def predict(node, row):
 if row[node['index']] < node['value']:
  if isinstance(node['left'], dict):
   return predict(node['left'], row)
  else:
   return node['left']
 else:
  if isinstance(node['right'], dict):
   return predict(node['right'], row)
  else:
   return node['right']
 
 
# 随机森林类
class randomForest:
 def __init__(self,trees_num, max_depth, leaf_min_size, sample_ratio, feature_ratio):
  self.trees_num = trees_num    # 森林的树的数目
  self.max_depth = max_depth    # 树深
  self.leaf_min_size = leaf_min_size  # 建立树时，停止的分枝样本最小数目
  self.samples_split_ratio = sample_ratio # 采样，创建子集的比例（行采样）
  self.feature_ratio = feature_ratio  # 特征比例（列采样）
  self.trees = list()      # 森林
 
 '''有放回的采样，创建数据子集'''
 def sample_split(self, dataset):
  sample = list()
  n_sample = round(len(dataset) * self.samples_split_ratio) #每棵树的采样数
  while len(sample) < n_sample:
   index = randint(0, len(dataset) - 2) #随机有放回的采样
   sample.append(dataset[index])
  return sample
 
 ##############***Out-of-Bag***################################
 # 进行袋外估计等相关函数的实现,需要注意并不是每个样本都可能出现在随机森林的袋外数据中
 # 因此进行oob估计时需要注意估计样本的数量
 def OOB(self, oobdata, train, trees):
  '''输入为：袋外数据dict,训练集,tree_list
  return oob准确率'''
 
  n_rows = []
  count = 0
  n_trees = len(trees) # 森林中树的棵树
 
  for key, item in oobdata.items():
   n_rows.append(item)
 
  # print(len(n_rows)) # 所有trees中的oob数据的合集
 
  n_rows_list = sum(n_rows, [])
 
  unique_list = []
  for l1 in n_rows_list: # 从oob合集中计算独立样本数量
   if l1 not in unique_list:
    unique_list.append(l1)
 
  n = len(unique_list)
  # print(n)
 
  # 对训练集中的每个数据，进行遍历，寻找其作为oob数据时的所有trees,并进行多数投票
  for row in train:
   pre = []
   for i in range(n_trees):
    if row not in oobdata[i]:
     # print('row: ',row)
     # print('trees[i]: ', trees[i])
     pre.append(predict(trees[i], row))
   if len(pre) > 0:
    label = max(set(pre), key=pre.count)
    if label == row[-1]:
     count += 1
 
  return (float(count) / n) * 100
 
 '''建立随机森林'''
 def build_randomforest(self, train):
  temp_flag = 0
  max_depth = self.max_depth   # 树深
  min_size = self.leaf_min_size  # 建立树时，停止的分枝样本最小数目
  n_trees = self.trees_num    # 森林的树的数目
  n_features = int(self.feature_ratio * (len(train[0])-1)) #列采样，从M个feature中，选择m个(m<
  # print('特征值为 : ',n_features)
  oobs = {} # ----------------------
  for i in range(n_trees):   # 建立n_trees棵决策树
   sample = self.sample_split(train)  # 有放回的采样，创建数据子集
   oobs[i] = sample # ----------------
   tree = build_one_tree(sample, max_depth, min_size, n_features) # 建立决策树
   self.trees.append(tree)
   temp_flag += 1
   # print(i,tree)
  oob_score = self.OOB(oobs, train, self.trees) # oob准确率---------
  print("oob_score is ", oob_score) # 打印oob准确率---------
  return self.trees
 
 '''随机森林预测的多数表决'''
 def bagging_predict(self, onetestdata):
  predictions = [predict(tree, onetestdata) for tree in self.trees]
  return max(set(predictions), key=predictions.count)
 
 '''计算建立的森林的精确度'''
 def accuracy_metric(self, testdata):
  correct = 0
  for i in range(len(testdata)):
   predicted = self.bagging_predict(testdata[i])
   if testdata[i][-1] == predicted:
    correct += 1
  return correct / float(len(testdata)) * 100.0
 
 
# 数据处理
'''导入数据'''
def load_csv(filename):
 dataset = list()
 with open(filename, 'r') as file:
  csv_reader = reader(file)
  for row in csv_reader:
   if not row:
    continue
   # dataset.append(row)
   dataset.append(row[:-1])
 # return dataset
 return dataset[1:], dataset[0]
 
'''划分训练数据与测试数据'''
def split_train_test(dataset, ratio=0.3):
 #ratio = 0.2 # 取百分之二十的数据当做测试数据
 num = len(dataset)
 train_num = int((1-ratio) * num)
 dataset_copy = list(dataset)
 traindata = list()
 while len(traindata) < train_num:
  index = randint(0,len(dataset_copy)-1)
  traindata.append(dataset_copy.pop(index))
 testdata = dataset_copy
 return traindata, testdata
 
'''分析树，将向量内积写入list'''
def analyListTree(node, tag, result):
 # 叶子节点的父节点
 if (isinstance(node['left'], dict)):
  # 计算node与node[tag]的内积
  tag="left"
  re = Inner_product(node, tag)
  result.append(re)
  analyListTree(node['left'], 'left', result)
  return
 elif (isinstance(node['right'], dict)):
  # 计算node与node[tag]的内积
  tag = "right"
  re = Inner_product(node, tag)
  result.append(re)
  analyListTree(node['right'], 'right', result)
  return
 else:
  return
 
'''求向量内积'''
# 计算node与node[tag]的内积
def Inner_product(node ,tag):
 a = mat([[float(node['index'])], [float(node['value'])]])
 b = mat([[float(node[tag]['index'])], [float(node[tag]['value'])]])
 return (a.T * b)[0,0]
 
'''相似度优化'''
''' same_value = 20  # 向量内积的差（小于此值认为相似）
 same_rate = 0.63  # 树的相似度（大于此值认为相似）
 返回新的森林（已去掉相似度高的树）'''
def similarity_optimization(newforest, samevalue, samerate):
 res = list()    # 存储森林的内积
 result = list()    # 存储某棵树的内积
 i = 1
 for tree in newforest:
  # 分析树，将向量内积写入list
  # result 存储tree的内积
  analyListTree(tree, None, result)
  res.append(result)
  # print('第',i,'棵树：',len(result),result)
  result = []
 # print('res = ',len(res),res)
 # 取一棵树的单个向量内积与其他树的单个向量内积做完全对比（相似度）
 # 遍历列表的列
 for i in range(0, len(res) - 1):
  # 保证此列未被置空、
  if not newforest[i] == None:
   # 遍历做对比的树的列
   for k in range(i + 1, len(res)):
    if not newforest[k] == None:
     # time用于统计相似的次数，在每次更换对比树时重置为0
     time = 0
     # 遍历列表的当前行
     for j in range(0, len(res[i])):
      # 当前两颗树对比次数
      all_contrast = (res[ i].__len__() * res[k].__len__())
      # 遍历做对比的树的行
      for l in range(0, len(res[k])):
       # 如果向量的内积相等，计数器加一
       if res[i][j] - res[k][l] < samevalue:
        time = time + 1
      # 如果相似度大于设定值
     real_same_rate = time / all_contrast
     if (real_same_rate > samerate):
      # 将对比树置空
      newforest[k] = None
 result_forest = list()
 for i in range(0, newforest.__len__()):
  if not newforest[i] == None:
   result_forest.append(newforest[i])
 return result_forest
 
 
'''auc优化method'''
def auc_optimization(auclist,trees_num,trees):
 # 为auc排序，获取从大到小的与trees相对应的索引列表
 b = sorted(enumerate(auclist), key=lambda x: x[1], reverse=True)
 index_list = [x[0] for x in b]
 auc_num = int(trees_num * 2 / 3)
 # 取auc高的前auc_num个
 print('auc: ', auc_num, index_list)
 newTempForest = list()
 for i in range(auc_num):
  # myRF.trees.append(tempForest[i])
  # newTempForest.append(myRF.trees[index_list[i]])
  newTempForest.append(trees[index_list[i]])
 return newTempForest
 
'''得到森林中决策树的最佳深度'''
def getBestDepth(min_size,sample_ratio,trees_num,feature_ratio,traindata,testdata):
 max_depth = np.linspace(1, 15, 15, endpoint=True)
 # max_depth=[5,6,7,8,9,10,11,12,13,14,15]
 scores_final = []
 i=0
 for depth in max_depth:
  # 初始化随机森林
  # print('=========>',i,'<=============')
  myRF_ = randomForest(trees_num, depth, min_size, sample_ratio, feature_ratio)
  # 生成随机森林
  myRF_.build_randomforest(traindata)
  # 测试评估
  acc = myRF_.accuracy_metric(testdata[:-1])
  # print('模型准确率：', acc, '%')
  # scores_final.append(acc.mean())
  scores_final.append(acc*0.01)
  i=i+1
 # print('scores_final: ',scores_final)
 # 找到深度小且准确率高的值
 best_depth = 0
 temp_score = 0
 for i in range(len(scores_final)):
  if scores_final[i] > temp_score:
   temp_score = scores_final[i]
   best_depth = max_depth[i]
 # print('best_depth:',np.mean(scores_final),best_depth)
 # plt.plot(max_depth, scores_final, 'r-', lw=2)
 # # plt.plot(max_depth, list(range(0,max(scores_final))), 'r-', lw=2)
 # plt.xlabel('max_depth')
 # plt.ylabel('CV scores')
 # plt.ylim(bottom=0.0,top=1.0)
 # plt.grid()
 # plt.show()
 return best_depth
 
 
'''对比不同树个数时的模型正确率'''
def getMyRFAcclist(treenum_list):
 seed(1) # 每一次执行本文件时都能产生同一个随机数
 filename = 'DataSet3.csv'   #SMOTE处理过的数据
 min_size = 1
 sample_ratio = 1
 feature_ratio = 0.3 # 尽可能小，但是要保证 int(self.feature_ratio * (len(train[0])-1)) 大于1
 same_value = 20 # 向量内积的差（小于此值认为相似）
 same_rate = 0.63 # 树的相似度（大于此值认为相似）
 
 # 加载数据
 dataset, features = load_csv(filename)
 traindata, testdata = split_train_test(dataset, feature_ratio)
 # 森林中不同树个数的对比
 # treenum_list = [20, 30, 40, 50, 60]
 acc_num_list = list()
 acc_list=list()
 for trees_num in treenum_list:
  # 优化1-获取最优深度
  max_depth = getBestDepth(min_size, sample_ratio, trees_num, feature_ratio, traindata, testdata)
  print('max_depth is ', max_depth)
 
  # 初始化随机森林
  myRF = randomForest(trees_num, max_depth, min_size, sample_ratio, feature_ratio)
  # 生成随机森林
  myRF.build_randomforest(traindata)
 
  print('Tree_number: ', myRF.trees.__len__())
  # 计算森林中每棵树的AUC
  auc_list = caculateAUC_1.caculateRFAUC(testdata, myRF.trees)
  # 选取AUC高的决策数形成新的森林(auc优化)
  newTempForest = auc_optimization(auc_list,trees_num,myRF.trees)
  # 相似度优化
  myRF.trees = similarity_optimization(newTempForest, same_value, same_rate)
  # 测试评估
  acc = myRF.accuracy_metric(testdata[:-1])
  print('myRF1_模型准确率：', acc, '%')
  acc_num_list.append([myRF.trees.__len__(), acc])
  acc_list.append(acc)
 print('trees_num from 20 to 60: ', acc_num_list)
 return acc_list
 
 
if __name__ == '__main__':
 start = time.clock()
 seed(1) # 每一次执行本文件时都能产生同一个随机数
 filename = 'DataSet3.csv'  # 这里是已经利用SMOTE进行过预处理的数据集
 max_depth = 15 # 调参（自己修改） #决策树深度不能太深，不然容易导致过拟合
 min_size = 1
 sample_ratio = 1
 trees_num = 20
 
 feature_ratio = 0.3  # 尽可能小，但是要保证 int(self.feature_ratio * (len(train[0])-1)) 大于1
 same_value = 20  # 向量内积的差（小于此值认为相似）
 same_rate = 0.82  # 树的相似度（大于此值认为相似）
 # 加载数据
 dataset,features = load_csv(filename)
 traindata,testdata = split_train_test(dataset, feature_ratio)
 
 # 优化1-获取最优深度
 # max_depth = getBestDepth(min_size, sample_ratio, trees_num, feature_ratio, traindata, testdata)
 # print('max_depth is ',max_depth)
 
 # 初始化随机森林
 myRF = randomForest(trees_num, max_depth, min_size, sample_ratio, feature_ratio)
 # 生成随机森林
 myRF.build_randomforest(traindata)
 
 print('Tree_number: ', myRF.trees.__len__())
 acc = myRF.accuracy_metric(testdata[:-1])
 print('传统RF模型准确率：',acc,'%')
 
 # 画出某棵树用以可视化观察（这里是第一棵树）
 # plotTree.creatPlot(myRF.trees[0], features)
 # 计算森林中每棵树的AUC
 auc_list = caculateAUC_1.caculateRFAUC(testdata,myRF.trees)
 # 画出每棵树的auc——柱状图
 # plotTree.plotAUCbar(auc_list.__len__(),auc_list)
 
 # 选取AUC高的决策数形成新的森林(auc优化)
 newTempForest = auc_optimization(auc_list,trees_num,myRF.trees)
 # 相似度优化
 myRF.trees=similarity_optimization(newTempForest, same_value, same_rate)
 
 print('优化后Tree_number: ', myRF.trees.__len__())
 # 测试评估
 acc = myRF.accuracy_metric(testdata[:-1])
 # print('优化后模型准确率：', acc, '%')
 print('myRF1_模型准确率：', acc, '%')
 # 画出某棵树用以可视化观察（这里是第一棵树）
 # plotTree.creatPlot(myRF.trees[0], features)
 # 计算森林中每棵树的AUC
 auc_list = caculateAUC_1.caculateRFAUC(testdata, myRF.trees)
 # 画出每棵树的auc——柱状图
 plotTree.plotAUCbar(auc_list.__len__(), auc_list)
 end = time.clock()
 print('The end!')
 print(end-start)

写到这里，给大家推荐一个资源很全的python学习聚集地，点击进入，这里有资深程序员分享以前学习心得，学习笔记，还有一线企业的工作经验，且给大家精心整理一份python零基础到项目实战的资料，每天给大家讲解python最新的技术，前景，学习需要留言的小细节

Python基础教程： json序列化详细用法介绍 2401_84569545 程序员 python 学习面试
文末有福利领取哦~一、Python所有方向的学习路线Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。二、Python必备开发工具三、Python视频合集观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。四、实战案例光学理论是没用的，要学会跟着
Python基础教程 —— 自定义函数小桃在改bug Python基础教程 python 开发语言算法数据结构
Python基础教程——Python基础教程之自定义函数文章目录Python基础教程函数是什么一、内置函数与自定义函数1.Python内置函数2.Python自定义函数二、使用def自定义函数1.创建一个简单的自定义函数的步骤2.定义函数的关键点3.callable()函数callable()函数作用与意义三、给函数编写文档1.什么是文档字符串2.定义文档字符串及应包含内容3.访问文档字符串使用内
python基础教程-《Python基础教程(第3版)》PDF高清版编程大乐趣
《python基础教程第3版》PDF高清版百度云资源，内涵教材源代码百度云链接：百度云盘提取码：7r7o编辑推荐久负盛名的Python入门经典，是非常优秀的基础教程，深入浅出，讲解到位。本书包括Python程序设计的方方面面：首先从Python的安装开始，随后介绍了Python的基础知识和基本概念，包括列表、元组、字符串、字典以及各种语句；然后循序渐进地介绍了一些相对高级的主题，包括抽象、异常、魔
python基础教程九抽象四(函数参数终) 小强同学： python基础教程（第三版）python 开发语言
文章预览：1.分配参数2.作用域3.递归1.俩个经典案例：阶层和幂2.递归的意义1.递归二分查找1.二分查找的条件1.二分查找的意义1.分配参数前面介绍了如何将参数收集到元组和字典当中，但同样的俩个运算符，也可以执行相反的操作。与收集参数相反的操作是分配。假设有如下函数：defadd(x,y):returnx+y同时假设还有一个元组,其中包含俩个你要相加的数。params=(1,2)这与前面执行的
这才是最适合新手的python基础教程，640页超详细程序员老冉 python 开发语言 pycharm 青少年编程汇编
python入门虽然简单，很多新手依然卡在基础安装阶段，大部分教程对一些基础内容都是一带而过，好多新手朋友，对一些基础知识常常一知半解，需要在网上查询很久。扎实的基础知识，对之后的学习、工作都是非常必要的。**这份640页的python基础教程，平常所有的疑难点都可以从中找到答案（比培训机构讲的都详细）。最基础的编程环境搭建就做了84页的详细讲解！其他基础语法、函数、模块和包均一一精细解答。**新
学习通考试怎么搜题找答案？ #学习方法#微信#其他一梦繁星33 学习学习方法
大学生必备的做题、搜题神器，收录上万本教材辅助书籍，像什么高数、物理、计算机、外语等都有，资源十分丰富。1.菜鸟教程菜鸟教程是一个完全免费的编程学习软件。它免费提供了HTML/CSS、JavaScript、服务端、移动端、XML教程、http://ASP.NET、WebService、开发工具、网站建设；每类教程还细分了很多种不同的教程，例如服务端学习教程包括：PHP教程、Python基础教程、P
大学生怎么搜题答案？7个公众号和软件推荐清单! #媒体#笔记#知识分享红色小鬼头媒体笔记
在信息爆炸的时代，选择适合自己的学习辅助工具和资料，能够提供更高效、便捷和多样化的学习方式。1.菜鸟教程菜鸟教程是一个完全免费的编程学习软件。它免费提供了HTML/CSS、JavaScript、服务端、移动端、XML教程、http://ASP.NET、WebService、开发工具、网站建设；每类教程还细分了很多种不同的教程，例如服务端学习教程包括：PHP教程、Python基础教程、Python3
python基础教程+使用input函数输入大写的C. 笔记
使用input函数输入在Python中，使用内置函数input可以接收用户的键盘输入。input函数的基本语法格式如下：variablc=input(“提示文字”)其中，variablc为保存输入结果的变量，双引号内的文宁用于提示要输入的内容。例如，想要接收用户输入的内容，并保存到变量tip中，可以使月下面的代码：tip=input(“请输入文字：”)在Python3.x中，无论输入数字还足字都将
《Python基础教程》05 算术运算符 Python私教 Python基础教程 python 开发语言
05算术运算符《Python基础教程》05算术运算符算术运算符在Python中，使用以下符号进行算术运算：+：加法-：减法*：乘法/：除法，得到的结果是一个小数%：取余，得到的是两个数相除之后的余数，不包含商**：求幂，比如a**b，结果是a的b次方//：整除，得到的结果是商，不包含余数赋值运算符可以在算术运算符的后面加上=等于符号，变成赋值运算符。比如a+=b，相当于a=a+b。当a=1,b=2
Python是什么？Python入门必看的7本书，小白Python基础教程，公众号自取 Python小白集训营
当年我看过不下十本适合小白的编程圣经，却发现里面有一部分是浪得虚名，被吹上了天。唯独有这么七本书，确实配得上“零基础编程圣经”的名号，不枉我花半年时间一本一本啃下来。以下推荐，童叟无欺，仙仙出品，必属精品，篇幅不长，三分钟就能看完。为了防止你回头忘了书名，可以点个赞并收藏起来，上个双保险。以下书籍我都整理成电子版PDF，需要的关注公众号/Python小白集训营/回复/电子书/，即可自动获取。仙仙敲
python快速入门：基础语法精讲徐小潜 python python 学习方法笔记经验分享开发语言网络安全
目录01注释与引号02变量和数据类型03常用函数及运算符04索引和切片05程序结构06函数07模块的导入08pip包管理工具觉得这篇文章不错的话，欢迎收藏、点赞、评论，还可以关注我哦~声明：本文仅为快速入门，不能保证涵盖全部内容。需要更全面的学习可移步官方文档python学习资料推荐：阿里云社区-Python学习路线，菜鸟教程-Python基础教程01注释与引号pyhton中注释分为单行注释和多行
python基础教程：属性查询顺序，数据描述符茜茜是帅哥 python python 开发语言 pycharm 学习
嗨喽，大家好呀~这里是爱看美女的茜茜呐数据描述符，属性查找优先级如果在一个类中定义了__get__(),__set__(),__delete__()这三种方法之一，那么这个类是一个描述符。描述符分成两种：如果这种类只定义了__get__方法，那么就是一个非数据描述符，定义了__get__()和__set__()的数据描述符。描述符的用处就是，当一个对象的某个属性是一个描述符时，你访问这个描述符类型
2018-11-28 wangyou2550
python书籍入门：python基础教程第二版，笨方法学python进阶：流畅的python，effictivepython，Python编程实战，编写高质量代码：python，python核心编程第三版，PythonCookbook中文版第3版计算：python科学计算，利用Python进行数据分析前端：FlaskWeb开发：基于Python的Web应用开发实战，DjangoWeb开发指南网络
一篇文章教会你Python网络爬虫程序的基本执行流程 chinaherolts2008 python基础教程 python基础教程
网络爬虫是指在互联网上自动爬取网站内容信息的程序，也被称作网络蜘蛛或网络机器人。大型的爬虫程序被广泛应用python基础教程于搜索引擎、数据挖掘等领域，个人用户或企业也可以利用爬虫收集对自身有价c#教程值的数据。一个网络爬虫程序的基本执行流程可以总结三个过程：请求数据，解析数据，保存数据请求数据请求的数据除了普通的HTML之外，还有json数据、字符串数据、图片、视频、音频等。解析数据当一个数据下
python并发处理机制_Python基础教程之利用期物处理并发 weixin_39646405 python并发处理机制
前言抨击线程的往往是系统程序员，他们考虑的使用场景对一般的应用程序员来说，也许一生都不会遇到……应用程序员遇到的使用场景，99%的情况下只需知道如何派生一堆独立的线程，然后用队列收集结果。本文章记录了本人在学习Python基础之控制流程篇的重点知识及个人心得，打算入门Python的朋友们可以来一起学习并交流。本文重点：1、掌握异步编程的相关概念；2、了解期物future的概念、意义和使用方法；3、
【python基础教程】使用python读写各种格式的文件 babybin Python python 开发语言
引言今天，小哥给大家提供了丰富的文件读写功能，可应用于各种文件格式。本篇博客将总结Python中读写各类文件的方法，包括文本文件、CSV文件、JSON文件、Excel文件等。无论你是初学者还是有经验的开发者，这里都将为你提供一份全面的文件操作指南。1.文本文件读取文本文件file_path='example.txt'withopen(file_path,'r')asfile:content=fil
python基础教程九抽象二（函数参数）小强同学： python基础教程（第三版）python
1.值从哪里来定义函数时，你可能心存疑虑，参数的值是怎么来的呢？在def语句中，位于函数名后面的变量通常称为形式参数，在调用函数时提供的值称为实参，但在本书不做严格区分。2.我能修改参数吗函数通过参数获得了一些列值，你能对其修改吗？如果这样做，结果将如何？参数不过变量而已，行为与你的预期完全相同。在函数内部给参数赋值对外部没有任何影响。>>>deftry_to_change(n):...n='ss
python基础教程九抽象一（函数初步）小强同学： python基础教程（第三版）python
1.懒惰是种美德前面编写的程序都很小，但如果要编写大型程序，你很快会遇到麻烦。想想看，如果你在一个地方编写了一些代码，但需要在另一个地方再次使用，该如何办?例如，假设你编写了一段代码，他计算一些斐波那契数(一种数列，其中每个数都是前俩个数的和)。fib=[0,1]foriinrange(8):fib.append(fib[-2]+fib[-1])运行上述代码后，fib将包含前十个斐波那契数>>>f
python基础教程六(字典方法) 小强同学： python基础教程（第三版）python
字典方法与其他内置类型一样，字典也有方法。字典的方法很有用，但其使用频率可能不高。1.clear方法clear删除所有的字典项，这中操作时就地执行的（就像list.sort一样），因此什么都不返回。>>>d={}>>>d{'name':'gumby'}>>>d.clear()>>>d{}这为何很有用呢？我们来看俩个场景。下面是第一个场景:>>>x={}>>>y=xx['key']='value'>
python基础教程八（循环完）小强同学： python基础教程（第三版）python
本章最后我们介绍另外三条语句:pass,del,exec1.pass什么都不做,没错pass就是什么都不做。这种情况不多，但一旦遇到，知道可使用pass语句大有裨益。>>>pass>>>这里什么都没发生。那为何需要一条什么都不做的语句呢?在你编写代码时，可将其用作占位符。例如，你可能编写了一条if语句并想尝试运行它，但是缺少一个代码块，如下所示while(True):x=int(input())i
python基础教程九抽象三(函数参数续) 小强同学： python基础教程（第三版）python 开发语言
1.关键字参数和默认值前面使用的都是位置参数，因为它们的位置至关重要。本节介绍的技巧让你能完全的忽略位置。要熟悉这种技巧需要一段时间，但随着程序规模的增大，你很快就发现它很有用。>>>defhello_1(greeting,name):...print('{},{}'.format(greeting,name))...>>>defhello_2(name,greeting):...print("{
400页Python学习PDF笔记，全面总结零基础入门看这一篇足够了程序员小八 python 学习 pdf 服务器开发语言
我们都知道Python入门比较简单，但仍有很多想要学习的新手依然卡在基础的安装阶段，尽管如此，网络上的大部分的教程却对这些基础内容都是一带而过，导致许多新手朋友对这些基础知识一知半解，往往一个小问题都需要在网上查询很久。扎实的基础知识，对之后的学习、工作都是非常必要的。这份python基础教程，平常所有的疑难点都可以从中找到答案。其中最基础的英语基础/编程环境搭建都做了详细讲解！其他基础语法、函数
初学必备网站 Attitude Rabbit 其他开发语言
初学必备网站文章目录初学必备网站1.菜鸟教程1.1菜鸟工具1.2百度AI文心一言2.leetcode1.菜鸟教程https://www.runoob.com/这个算必备NO.1菜鸟作为初学者的启蒙老师，提供了最全的的web技术基础教程,介绍了HTML教程、CSS教程、Javascript教程、Python基础教程，PHP教程等各种建站基础，其中的接口文档，和案例也方便了菜鸟们的使用，但菜鸟不仅仅只
《Python基础教程》示例14-1和14-2不能正常运行的解决办法 wokaoyan1981 python socket
修改后的14-1代码，注意两处注释：importsockets=socket.socket()host='192.168.0.109'#需要把单引号里的IP地址改为服务器主机IP地址port=1234s.bind((host,port))s.listen(5)whileTrue:c,addr=s.accept()print('Gotconnectionfrom',addr)c.send('Than
400页Python学习PDF笔记，全面总结零基础入门看这一篇足够了再不会python就不礼貌了 python 学习 pdf 爬虫服务器开发语言
我们都知道Python入门比较简单，但仍有很多想要学习的新手依然卡在基础的安装阶段，尽管如此，网络上的大部分的教程却对这些基础内容都是一带而过，导致许多新手朋友对这些基础知识一知半解，往往一个小问题都需要在网上查询很久。扎实的基础知识，对之后的学习、工作都是非常必要的。这份python基础教程，平常所有的疑难点都可以从中找到答案。其中最基础的英语基础/编程环境搭建都做了详细讲解！其他基础语法、函数
Python教父推荐：《Python基础教程》(第3版) 中文PDF电子版限免 IT猫仔 python pdf 开发语言
《Python基础教程第3版》包括Python程序设计的方方面面：首先，从Python的安装开始，随后介绍了Python的基础知识和基本概念，包括列表、元组、字符串、字典以及各种语句；然后循序渐进地介绍了一些相对高-级的主题，包括抽象、异常、魔法方法、属性、迭代器；此后探讨了如何将Python与数据库、网络、C语言等工具结合使用，从而发挥出Python的强大功能，同时介绍了Python程序测试、打
【python基础教程】print输出函数和range()函数的正确使用方式茜茜是帅哥 python python 开发语言 pycharm
嗨喽，大家好呀~这里是爱看美女的茜茜呐print()有多个参数，参数个数不固定。有四个关键字参数（sependfileflush），这四个关键字参数都有默认值。print作用是将objects的内容输出到file中，objects中的各个参数以sep为间隔，以end为结尾。sep默认值是一个空格；end默认值为’\n’即“回车换行”；file的默认值是sys.stdout，即标准输出终端；flus
【python】python基础教程 java转python快速入门孟秋与你 python python
前言：很多同学估计和博主一样，照葫芦画瓢写点python是没问题的，理论上只要懂一门语言学其它语言的基本语法都是很容易的，难点在于针对什么场景用什么框架，如何针对并发做设计等。虽说我们画瓢都能画，但是基础的入门语法还是要熟练的，博主是java开发，所以本文有时会以java的语言来阐述。文章目录python环境变量最基础语法及重要概念pycharm快捷键面对对象基础变量作用域基础循环基础线程安全问题
数学和英语都很差，学习Python难吗？看完我相信你会坚定你的选择 PathonDiss
前言首先！我想说：python不需要很高的数学水平，英语也是很初级就可以入门，因为它的语法很简单，若你的英语不是很好，可以看很多中文的书，比如python基础教程，廖雪峰的python教程，或者看一些imooc的视频教程，但是当你的python学了一段时间，需要去了解一些新的库或者框架的时候，比如web开发里面的flask,django或者一些人工智能的数据处理，必须要看英文的网站。至于数学水平，
python基础教程八（循环1）小强同学： python基础教程（第三版）python
1.while循环为避免多次重复的代码，我们会用到循环while(condition):执行语句while循环的结构非常简单只要条件满足就一直循环直到，条件不满足为止。例子如下：x=1whilex>>words=['this','is','an','ex','parrot']>>>forwordinwords:...print(word)...thisisanexparrot1.range鉴于迭代
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

python 随机森林算法及其优化详解

你可能感兴趣的:(python基础教程)