李逍遥敲代码

决策树算法（C4.5算法）

决策树算法（C4.5算法）

1．1 题目的主要研究内容

组的主要任务描述

熟悉和掌握决策树的分类原理、实质和过程，掌握决策树典型算法（ID3、C4.5、CART）的核心思想和实现过程。

（2）自己工作的主要描述（宋体小四号不加粗1.5倍行距）

首先进行决策树中C4.5算法的概述及其C4.5算法的思想、说明C4.5算法的原理及其推导过程、C4.5算法的流程、C4.5算法就ID3算法的差异、C4.5算法改进的优缺点。

1.2 C4.5算法概述

C4.5算法之所以是最常用的决策树算法，是因为它继承了ID3算法的所有优点并对ID3算的进行了改进和补充。C4.5算法采用信息增益率作为选择分支属性的标准，克服了ID3算法中信息增益选择属性时偏向选择取值多的属性的不足，并能够完成对连续属性离散化是处理，还能够对不完整数据进行处理。C4.5算法属于基于信息论（Information Theory）的方法，它是以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳分类。

1.3 C4.5算法的思想

C4.5算法与ID3算法生成决策树的步骤过程基本相同，主要区别在于连续型属性和属性度量的计算，ID3算法不能处理连续型属性，而C4.5算法可以先离散化连续型属性，然后进行属性选择计算；在属性度量计算时，ID3算法利用信息增益进行属性选择计算，C4.5 算法则运用信息增益率计算。

1.4 C4.5算法相对于ID3算法改进之后有如下优点:

(1) C4.5算法的最大改进就是不在用信息增益来选择属性，而是采用信息增率，这么做就可以避免那些样本数量多但却对分类贡献少的属性作为根节点，提高了算法准确率。

(2)对树进行前剪枝，发现数据有问题可以及时处理，不用等到树建完后在对其剪枝，这样就大大提高了算法效率。

(3)能够通过对数据进行泛化，使连续数据离散化，从而增加了对连续数据的处理能力。

(4)在面对有缺失的数据时，C4.5算法依然能够有效处理。

1．5 C4.5算法信息增益率

信息增益率就是对信息增益进行了规范化，即C4.5算法思想运用信息增益率公式替换了ID3算法中的信息增益的计算思想。

信息增益的规范化用到了“分裂信息(split information)”的概念。

在训练集T中，公式表达了属性A的分裂信息。

与信息增益不同的是，信息增益率是用来计量相同的划分所获得的信息。

即为属性A的增益率的计算公式。

由上面公式公式可知C4.5算法的具体具体公式。

在用C4.5算法构造决策树时，信息增益率最大的属性即为当前节点的分裂属性，随着递归计算，被计算的属性的信息增益率会变得越来越小，到后期则选择相对比较大的信息增益率的条件属性作为分裂属性。

1．6 C4.5算法流程图

1．7 C4.5算法生成决策树的步骤

Stepl:创建一个节点N。

Step2:IF训练数据集为空，THEN返回单个节点N作为空的叶子节点。

Step3:IF训练集中的所有样本都属于同一个类C,THEN返回节点N为叶节点并将该节点标记为类C。

Step4:IF训练集的属性列表为空，THEN返回N作为叶节点，并标记为数据集中样本多的类别。

Step5:IF属性是连续型的，THEN对该属性进行离散化。

Step6:根据公式(2.8)计算属性列表中属性的信息增益率。

Step7:选择最高的信息增益率的属性A,并把节点N标记为属性A

Step8:递归方式循环以上步骤，得到初步决策树。

Step9:利用更大的训练数据集对决策树进行修剪(优化)。

在进行决策树构造时，会根据数据集中的信息判断是否满足停止建树的条件，否则继续迭代。一般情况下，结束的条件主要有:属性列表为空; 数据集中样本都已经归类;所剩样本都属于同一个类。满足其中一个条件便结束建树，得到初始的决策树。接着运用后剪枝的策略进行剪枝，简化决策树。

1．8主要程序代码

import numpy as np

import pandas as pd

import time

from sklearn.metrics import accuracy_score

from utils.plotDecisionTree import *

#计算经验熵

def calcEntropy(dataSet):

mD = len(dataSet) # mD表示数据集的数据向量个数

dataLabelList = [x[-1] for x in dataSet] # 数据集最后一列标签

dataLabelSet = set(dataLabelList) # 转化为标签集合，集合不重复，所以转化

ent = 0

for label in dataLabelSet: # 对于集合中的每一个标签

mDv = dataLabelList.count(label) # 统计它出现的次数

prop = float(mDv) / mD # 计算频率

ent = ent - prop * np.math.log(prop, 2) # 计算条件熵，见算法预备知识

return ent

#计算经验条件熵

def calcCondEntropy(dataSet,featureSet,i):

mD = len(dataSet)

ent=0

for feature in featureSet:

# 拆分数据集，去除第i行数据特征

splitedDataSet = splitDataSet(dataSet, i, feature)

mDv = len(splitedDataSet)

ent = ent + float(mDv) / mD * calcEntropy(splitedDataSet)

return ent

# 拆分数据集

# index 要拆分的特征的下标

# feature 要拆分的特征

# 返回值 dataSet中index所在特征为feature，且去掉index一列的集合

def splitDataSet(dataSet, index, feature):

splitedDataSet = []

mD = len(dataSet)

for data in dataSet:

if(data[index] == feature): # 将数据集拆分

sliceTmp = data[:index] # 取[0,index)

sliceTmp.extend(data[index + 1:]) # 扩展(index,len]

splitedDataSet.append(sliceTmp)

return splitedDataSet

# 根据信息增益比，选择最佳的特征，并且返回最佳特征的下标

def chooseBestFeature_C45(dataSet):

entD = calcEntropy(dataSet) # 计算经验熵

featureNumber = len(dataSet[0]) - 1

maxGainRatio = -100 # 最大增益比

maxIndex = -1 # 最大增益比下标

GainRatio=0

for i in range(featureNumber):

featureI = [x[i] for x in dataSet] # 数据集合中的第i列特征

featureSet = set(featureI) # 特征集合

# 计算信息增益比

GainRatio = (entD - calcCondEntropy(dataSet,featureSet,i)) / entD

if(maxIndex == -1):

maxGainRatio = GainRatio #利用GainRatio选择子树的根节点

maxIndex = i

elif(maxGainRatio < GainRatio): # 记录最大的信息增益和下标

maxGainRatio = GainRatio

maxIndex = i

return maxIndex # 返回下标

# 寻找最多的特征，作为标签

def mainLabel(labelList):

labelRec = labelList[0]

maxLabelCount = -1

labelSet = set(labelList)

for label in labelSet:

if(labelList.count(label) > maxLabelCount):

maxLabelCount = labelList.count(label)

labelRec = label

return labelRec

# 生成决策树

# dataSet：数据集, featureNames：数据属性类别, featureNamesSet：属性类别集合, labelListParent：父节点标签列表

def createFullDecisionTree(dataSet, featureNames, featureNamesSet, labelListParent):

labelList = [x[-1] for x in dataSet]

if(len(dataSet) == 0): # 如果数据集为空，返回父节点标签列表的主要标签

return mainLabel(labelListParent)

elif(len(dataSet[0]) == 1): # 没有可划分的属性，选出最多的label作为该数据集的标签

return mainLabel(labelList)

elif(labelList.count(labelList[0]) == len(labelList)): # 全部都属于同一个Label，返回labList[0]

return labelList[0]

# 不满足上面的边界情况则需要创建新的分支节点

bestFeatureIndex = chooseBestFeature_C45(dataSet) # 根据信息增益，选择数据集中最好的特征下标

bestFeatureName = featureNames.pop(bestFeatureIndex) # 取出属性类别

myTree = {bestFeatureName: {}} # 新建节点，一个字典

featureList = featureNamesSet.pop(bestFeatureIndex) # 取出最佳属性的类别

featureSet = set(featureList) # 剔除属性类别集合

for feature in featureSet: # 遍历最佳属性所有取值

featureNamesNext = featureNames[:]

featureNamesSetNext = featureNamesSet[:][:]

splitedDataSet = splitDataSet(dataSet, bestFeatureIndex, feature) # 剔除最佳特征

# 递归地生成新的节点

# featureNames：数据属性类别, featureNamesSet：属性类别集合, labelListParent：父节点标签列表

# 一个二叉树

myTree[bestFeatureName][feature] = createFullDecisionTree(splitedDataSet, featureNamesNext, featureNamesSetNext, labelList)

return myTree

# 读取数据集

def readDataSet(path):

ifile = open(path,"r",encoding="utf-8")

#表头

featureName = ifile.readline()

featureName = featureName.rstrip("\n")

#类别,属性

featureNames = (featureName.split(' ')[0]).split(',')

#读取文件

lines = ifile.readlines()

#数据集

dataSet = []

for line in lines:

tmp = line.split('\n')[0]

tmp = tmp.split(',')

dataSet.append(tmp)

#获取标签

labelList = [x[-1] for x in dataSet]

#获取featureNamesSet

featureNamesSet = []

for i in range(len(dataSet[0]) - 1):

col = [x[i] for x in dataSet]

colSet = set(col)

featureNamesSet.append(list(colSet))

#返回数据集，属性名，所有属性的取值集合，以及标签列表

return dataSet, featureNames, featureNamesSet,labelList

def tree_predict(tree, data):

#print(data)

feature = list(tree.keys())[0] #取树第一个结点的键（特征）

#print(feature)

label = data[feature] #该特征下的属性

next_tree = tree[feature][label] #取下一个结点树

if type(next_tree) == str: #如果是个字符串，说明已经到达叶节点返回分类结果

return next_tree

else: # 否则继续如上处理

return tree_predict(next_tree, data)

def main():

#获取训练集,所有属性名称，每个属性的类别，所有标签

dataTrain, featureNames, featureNamesSet,labelList = readDataSet("data/ex3data.csv")

print("dataTrain: \n",dataTrain,"featureNames:\n",featureNames,"featureNamesSet:\n",featureNamesSet,"labelList:\n",labelList)

#获取测试集

train= pd.read_csv("data/ex3data.csv")

test = pd.read_csv("data/ex3data.csv")

print("train:\n",train[:10])

print("test:\n",test[:10])

#生成决策树

t0 = time.time()

tree=createFullDecisionTree(dataTrain, featureNames,featureNamesSet,labelList)

t1 = time.time()

print("C4.5算法生成决策树的时间开销：",(t1 - t0)*(10**6),"us")

createPlot(tree,"fig/C45.png")

predictTrain = train.apply(lambda x: tree_predict(tree, x), axis=1)

label_list = train.iloc[:, -1]

score = accuracy_score(label_list, predictTrain)

print('训练补全分支准确率为：' + repr(score * 100) + '%')

#预测

y_predict = test.apply(lambda x: tree_predict(tree, x), axis=1)

label_list = test.iloc[:, -1]

score = accuracy_score(label_list, y_predict)

print('测试集补全分支准确率为：' + repr(score * 100) + '%')

if __name__ == "__main__":

main()

决策树是一种类似流程图的树结构，其中每个内部节点（非树叶节点）表示在一个属性上的测试，

每个分枝代表一个测试输出，而每个树叶节点存放一个类标号。

一旦建立好决策树，对于一个未给定类标号的元组，跟踪一条有根节点到叶节点的路径，该叶节点就存放着该元组的预测。

1．9 运行结果及分析

如上图显示dataTrain数据及我们训练的数据train

上图显示我们测试的数据及C4.5算法生成决策树的时间开销和训练不全分支准确率、测试集补全分支准确率

上图为程序运行结果图，我们可以根据是否周末、天气、是否有促销等特征判断销量的高低。

Python 爬取大量数据如何并发抓取与性能优化 chusheng1840 Python 教程 python 性能优化开发语言
Python并发抓取与性能优化在进行网络爬虫开发时，爬取大量数据可能非常耗时。尤其是在处理许多网页或API请求时，逐个请求速度会非常慢。为了解决这个问题，我们可以通过并发抓取提高爬取效率。同时，通过性能优化来进一步减少耗时和资源占用，使爬虫更高效。本篇文章将带大家了解Python中常用的并发抓取方法，并介绍如何进行性能优化。1.并发抓取的基本概念并发抓取指的是同时发出多个请求的技术，而不是顺序地等
【机器学习】基于t-SNE数据可视化工程无水先生 AI原理和python实现人工智能综合人工智能算法
一、说明t-SNE(t-DistributedStochasticNeighborEmbedding)是一种常用的非线性降维技术。它可以将高维数据映射到一个低维空间（通常是2D或3D）来便于可视化。Scikit-learnAPI提供TSNE类，以使用T-SNE方法可视化数据。在本教程中，我们将简要学习如何在Python中使用TSNE拟合和可视化数据。二、t-SNE是个什么？2.1什么是t-SNE？
Conda报错解决：ProxyError: Conda cannot proceed due to an error in your proxy configuration. 三采 Linux Conda 代理
目录原因一：源配置有误原因二：代理配置有误原因三：路由配置有误在需要使用代理的服务器下，创建新conda环境时报错：condacreate-nopencompasspython=3.8/usr/lib/python3/dist-packages/requests/__init__.py:89:RequestsDependencyWarning:urllib3(1.26.9)orchardet(3.
基于asp.NET的病历管理系统 (源码+net+vue+部署文档+讲解等) qq_1406299528 计算机毕业设计 asp asp.net vue.js 后端
收藏关注不迷路！！文末获取源码+数据库感兴趣的可以先收藏起来，还有大家在毕设选题（免费咨询指导选题），项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人文章目录前言程序资料获取一、项目技术二、项目内容和功能介绍三、核心代码数据库参考四、效果图五、资料获取前言博主介绍：✨全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师，专注于Java/Python/小程序app/深度学
爬取电影标题、评论、评分（21-11-4）穆桥 Python爬虫 XPath解析 MySQL数据库电影信息疾病数据
功能描述：1、爬取网页1中的电影名称、评分、简介到mysql数据库中。2、爬取网页2中的标题、时间、正文、采集时间到mysql数据库中。使用的技术:requests请求、xpath解析、mysqlxpath解析语法//子孙节点/直接子节点.选取当前节点…选取当前节点的父节点@选取属性通过Python的lxml库，利用XPath进行HTML的解析。scrapy封装了lxml也可以导入scrapy任务
Python 爬虫实战：电影评论数据抓取与自然语言处理西攻城狮北 python 爬虫开发语言
引言作为一名对电影数据和自然语言处理感兴趣的内容创作者，我决定利用Python爬虫技术抓取IMDb上的电影评论数据，并进行自然语言处理分析。这不仅可以帮助我们了解观众对电影的反馈，还能为电影制作方提供有价值的参考。一、项目背景IMDb（互联网电影数据库）是全球最大的电影数据库，用户可以在上面查看电影信息和用户评论。本项目旨在爬取IMDb上的电影评论，并对评论进行自然语言处理（NLP），以提取情感、
linux（ubuntu）中Conda、CUDA安装Xinference报错ERROR: Failed to build (llama-cpp-python) 小胡说技书杂谈/设计模式/报错 Data/Python/大模型 linux ubuntu conda 大模型 python Xinference
文章目录一、常规办法二、继续三、继续四、缺少libgomp库（最终解决）在Conda环境中安装libgomp如果符合标题情况执行的：pipinstall"xinference[all]"大概率是最终解决的情况。一、常规办法llama-cpp-python依赖CMake、Make和g++来编译，所以可能是缺少依赖或者环境配置不对。按照以下步骤排查问题并解决：1.确保Python版本符合要求llama
基于Asp.net的汽车租赁管理系统计算机学姐 Asp精选实战项目源码 asp.net 汽车后端 mysql sqlserver vue.js c#
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于Asp.net的汽车租赁管理系统开发
使用yolo训练自己的模型数据遇到的问题次次皮 YOLO 深度学习人工智能
1、报错：NolabelsfoundinD:\xxx\valid\labels.cache查找网上的文章大多都是说文件目录没按规定创建，但我检查了我的目录没问题，后来发现是labels文件夹里的txt文件和images文件夹的图片没有一一对应，对应好之后问题解决2、解决完上个问题之后还是不报上面的错了但还是FatalPythonerror:Aborted；Restartingkernel...检查
Python——文件读取一颗小松松 python 开发语言
Python可以读取不同格式的文件，下面简单来介绍一下：1、使用read_excel或read_csv读取文件，若在路径前加r，使用“\”importpandasaspd#在路径前加r,使用“\”df=pd.read_excel(r'C:\Users\merit\Desktop\测试.xlsx')#导入.csv文件，以“，”为分隔符data=pd.read_csv(r'C:\Users\merit
给接口自动化测试框架增色，实现企业微信测试报告编程简单学软件测试 python python 单元测试压力测试 postman 功能测试
作者在新项目中搭建了python+requests+unittest+HTMLTestRunner接口自动化测试框架，通过修改配置文件实现环境隔离，一份脚本即可在不同的环境执行接口测试用例。但是没有实现任何形式的消息通知，也没有集成到jenkins，原因很简单，因为还没做到很大，而且用户活跃不够，问题也相对较少，只在上线前后执行一次uat和prod环境。那这几天想完善一下消息通知功能，让它具备发送
轻松管理CSV数据，Python csv库全解析嘎啦AGI实验室 Python python android 数据库 Python csv
文章目录轻松管理CSV数据，Pythoncsv库全解析背景介绍csv库是什么？如何安装csv库？五个简单的库函数使用方法1.读取CSV文件2.写入CSV文件3.使用DictReader读取CSV4.使用DictWriter写入CSV5.指定分隔符五个场景使用代码说明场景1：读取CSV并统计数据场景2：将查询结果写入CSV场景3：读取CSV并过滤数据场景4：读取CSV并排序数据场景5：读取CSV并合
#PyCharm 2024.1新增功能 Dingdangr pycharm ide python
PyCharm2024.1作为JetBrains专为Python开发者设计的集成开发环境（IDE）的最新版本，带来了众多令人兴奋的新增功能，旨在提升开发者的编程效率和体验。以下是对这些新增功能的详细解析：一、智能编码辅助HuggingFace模型和数据集文档预览PyCharm2024.1引入了HuggingFace模型和数据集的快速文档预览功能。开发者可以直接在PyCharm内部快速获取Huggi
2025年Python生态全景：从AI霸主到量子计算，揭秘其不可替代的技术魅力南玖yy python 人工智能量子计算
在2025年的技术浪潮中，Python凭借其极简的语法、庞大的生态系统以及跨领域融合能力，依然稳坐编程语言界的“头把交椅”。尽管Java等语言在AI领域发起挑战，但Python通过持续的技术革新和生态扩展，展现出不可撼动的生命力。本文将从技术趋势、行业应用与未来挑战三个维度，解析Python的“常青”密码。一、AI领域的持续主导：生态优势与工具革新Python在AI领域的统治地位仍未动摇。尽管有观
使用Python爬取豆瓣用户信息：从入门到实战 Python爬虫项目 2025年爬虫实战项目 python 开发语言人工智能爬虫大数据
引言豆瓣作为一个知名的社交平台，拥有丰富的用户信息。对于数据分析师、研究人员或普通用户来说，获取豆瓣用户信息具有重要的价值。本文将详细介绍如何使用Python及其相关库来爬取豆瓣用户信息，并展示如何利用最新的技术手段来实现这一目标。1.准备工作在开始编写爬虫之前，我们需要准备一些工具和环境：Python3.x：确保你已经安装了Python3.x版本。Requests库：用于发送HTTP请求。Bea
深入 Python 网络爬虫开发：从入门到实战南玖yy python python爬虫
一、为什么需要爬虫？在数据驱动的时代，网络爬虫是获取公开数据的重要工具。它可以帮助我们：监控电商价格变化抓取学术文献构建数据分析样本自动化信息收集二、基础环境搭建1.核心库安装pipinstallrequestsbeautifulsoup4lxmlseleniumscrapy2.开发工具推荐PyCharm（专业版）VSCode+Python扩展JupyterNotebook（适合调试）三、爬虫开发
python中三元运算符使用总结上趣工作室 python python 开发语言
在Python中，三元运算符通常被称为条件表达式，它的语法为：value_if_trueifconditionelsevalue_if_false这个条件表达式的含义是：如果condition为True，则返回value_if_true，否则返回value_if_false。示例以下是一些使用三元运算符的示例：1、基本使用:x=10result="Greaterthan5"ifx>5else"5o
python中将字符串转换成数字，并且保留两位小数上趣工作室 python python 后端
在Python中，你可以使用float()函数将字符串转换为数字，并使用字符串格式化来保留小数点后两位。下面是一个示例代码：defconvert_to_float(string):try:number=float(string)formatted_number="{:.2f}".format(number)returnformatted_numberexceptValueError:return"
使用 Python 编写网络爬虫：从入门到实战 Manaaaaaaa python 爬虫开发语言
网络爬虫是一种自动化获取网页信息的程序，通常用于数据采集、信息监控等领域。Python是一种广泛应用于网络爬虫开发的编程语言，具有丰富的库和框架来简化爬虫的编写和执行过程。本文将介绍如何使用Python编写网络爬虫，包括基本原理、常用库和实战案例。一、原理介绍网络爬虫是一种自动化程序，通过模拟浏览器的行为向网络服务器发送HTTP请求，获取网页内容并进一步提取所需信息的过程。网络爬虫主要用于数据采集
列表推导式_Python教程曹操贪慕小乔 python基础 python numpy 算法
内容摘要Python中存在一种特殊的表达式，名为推导式，它的作用是将一种数据结构作为输入，再经过过滤计算等处理，最后输出另一种数据结构。根据数据结构的不同会被分为列表推导式、文章正文Python中存在一种特殊的表达式，名为推导式，它的作用是将一种数据结构作为输入，再经过过滤计算等处理，最后输出另一种数据结构。根据数据结构的不同会被分为列表推导式、集合推导式和字典推导式。我们先着重来介绍最常使用的列
【数字IC验证】博客内容全览 MoorePlus 数字IC验证百宝箱经验分享面试数字IC 芯片验证 SV
【导读】：数字IC验证百宝箱涵盖博主在实际工作中常用的技能与工具，包括但不限于SV、UVM、Formal、脚本(perl/python/shell)及EDA工具快速上手使用等。无论你是刚踏入职场的验证小白，还是希望回顾基础寻找跳槽机会的从业者，本专栏都能为你提供实用的技术支持，在达成目标的路上，助你一臂之力。“凡是能用钱买来的时间就是便宜的；凡是能用时间换来的注意力持续就是有价值的。”（附上超链接
从零开始探索C++游戏开发：性能、控制与无限可能南玖yy C++游戏开发 c
一、为何选择C++开发游戏？在虚幻引擎5渲染的次世代画面背后，在《巫师3》的庞大开放世界中，在《毁灭战士》的丝滑60帧战斗里，C++始终扮演着核心技术角色。这门诞生于1983年的语言，至今仍占据着游戏引擎开发语言使用率榜首（根据2023年GameDev调查数据）。其核心竞争力体现在：硬件级控制：手动内存管理允许精确控制资源分配，这对需要管理数百万多边形和4K纹理的3A游戏至关重要零成本抽象：模板元
论单调队列优化DP VU-zFaith870 c++动态规划推荐算法
前情提要，参考资料：单调队列优化DP（超详细！！！）-endl\n-博客园【动态规划】选择数字（单调队列优化dp）_哔哩哔哩_bilibili背景：最近作者快被DP逼疯了，写篇博客做记录。以下是对各DP的原理阐释：单调队列通过队列元素的吸入与弹出，形成单调性的结构，使算法能够进行线性处理，大大优化了时间复杂度。接下来讲解单调队列在区间DP、背包DP、树形DP还有数位DP中的应用：1.单调队列优化区
[LeetCode]46.全排列（python） xyhaaab leetcode python 算法
1.代码fromtypingimportListclassSolution:defpermute(self,nums:List[int])->List[List[int]]:result:List[List[int]]=[]length=len(nums)deffill(n:int,nums:List[int]):ifn==length:result.append(nums[:])returnfo
rapidocr-onnxruntime库及在open-webui上传PDF 图像处理 (使用 OCR)应用原野AI 大模型部署 pdf ocr 深度学习 open-webui
背景rapidocr-onnxruntime是一个跨平台的OCR库，基于ONNXRuntime推理框架。目前已知运行速度最快、支持最广，完全开源免费并支持离线快速部署的多平台多语言OCR。缘起：百度paddle工程化不是太好，为了方便大家在各种端上进行ocr推理，我们将它转换为onnx格式，使用Python/C++/Java/Swift/C#将它移植到各个平台。名称来源：轻快好省并智能。基于深度学
关于scipy中uniform_filter函数的注意事项明·煜 scipy
关于scipy中uniform_filter函数的注意事项在处理分组聚合问题时，有时需要使用均值作为统计量。那其实就是一个均值滤波问题。我不希望使用for循环和均值卷积核来对二维数组进行滤波，因为这个线性运算且可用通过数字搬移来实现。在使用uniform_filter时在边界处会出现难以解释的值，不过后来发现是我对python语法不够熟悉导致的。例如以下代码：importnumpyasnpx=np
c++调用python代码，使用gpu AI改变视界 c++python 开发语言
c++调用python，使用gpu加速1、首先要配置cuda和cudnn的环境1、cmd窗口下nvidia-smi，查看电脑可以支持的最高cuda版本。如果nvidia-smi报错，那么需要去配置一下环境，网上有类似案例。或者通过NVIDIA控制面板/系统信息/组件里查看cuda_xxxx.dll，上面有版本号。2、保证安装的cuda版本要小于电脑支持的版本号。我电脑最大支持cuda11，但是安装
数组中最长递增子序列问题的深入研究 cloudman08 算法
目录摘要一、引言二、问题定义三、问题分析3.1暴力枚举法的困境3.2动态规划的应用3.3二分查找优化四、算法设计4.1动态规划算法4.2二分查找优化算法4.3代码实现（Python）4.4代码解释五、复杂度分析5.1动态规划算法复杂度5.2二分查找优化算法复杂度六、实际应用6.1数据分析6.2生物信息学6.3信号处理七、结论摘要在数组处理的算法领域，寻找最长递增子序列是一个经典且具有广泛应用的问题
Python 爬虫实战：国际航班数据抓取与全球航班网络分析西攻城狮北 python 爬虫开发语言
一、引言随着全球化的加速，国际航班网络已成为现代交通体系的重要组成部分。通过分析国际航班数据，我们可以深入了解全球航空枢纽、热门航线以及航班流量的变化趋势。本文将介绍如何通过爬取国际航班数据，分析全球航班网络的情况，并给出实现爬虫和数据分析的详细过程及代码。二、项目背景与目标2.1项目背景航空交通是全球经济和旅游业的核心部分，了解全球航班网络有助于掌握各大航空公司之间的竞争格局、全球机场的枢纽作用
《Python实战进阶》小技巧 1：一篇文章讲完网站部署如何优化网站照片加载/访问提速的方法带娃的IT创业者 Python实战进阶 python php 网络
一篇文章讲完网站部署如何优化网站照片加载/访问提速的方法摘要在网络速度较低的情况下，大量照片会导致网站加载缓慢。本文档详细介绍了优化家庭网站中照片加载速度的多种方法和技术。以下是主要的优化策略及其具体实现：1.图片压缩与优化自动压缩上传的图片：通过Python脚本使用PIL库压缩图片，调整大小、转换模式，并保存为优化的JPEG格式。批量优化现有图片：编写脚本对文件夹中的图片进行批量处理，包括创建备
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

决策树算法（C4.5算法）

你可能感兴趣的:(算法,python,计算机视觉,opencv,开发语言)