Zetrue_Li

机器学习(周志华) 西瓜书第四章课后习题4.3—— Python实现

机器学习(周志华) 西瓜书第四章课后习题4.3—— Python实现

实验题目

试编程实现基于信息熵进行划分选择的决策树算法，并为表4.3中数据生成一棵决策树。

实验原理

决策树基本算法：

基于信息熵增益的划分选择：

连续值处理：

缺省值处理

详见西瓜书4.4.2：缺失值处理讲解

实验过程

数据集获取

获取书中的西瓜数据集3.0，并存为data_3.txt

编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜
1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是
2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是
3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是
4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,0.608,0.318,是
5,浅白,蜷缩,浊响,清晰,凹陷,硬滑,0.556,0.215,是
6,青绿,稍蜷,浊响,清晰,稍凹,软粘,0.403,0.237,是
7,乌黑,稍蜷,浊响,稍糊,稍凹,软粘,0.481,0.149,是
8,乌黑,稍蜷,浊响,清晰,稍凹,硬滑,0.437,0.211,是
9,乌黑,稍蜷,沉闷,稍糊,稍凹,硬滑,0.666,0.091,否
10,青绿,硬挺,清脆,清晰,平坦,软粘,0.243,0.267,否
11,浅白,硬挺,清脆,模糊,平坦,硬滑,0.245,0.057,否
12,浅白,蜷缩,浊响,模糊,平坦,软粘,0.343,0.099,否
13,青绿,稍蜷,浊响,稍糊,凹陷,硬滑,0.639,0.161,否
14,浅白,稍蜷,沉闷,稍糊,凹陷,硬滑,0.657,0.198,否
15,乌黑,稍蜷,浊响,清晰,稍凹,软粘,0.36,0.37,否
16,浅白,蜷缩,浊响,模糊,平坦,硬滑,0.593,0.042,否
17,青绿,蜷缩,沉闷,稍糊,稍凹,硬滑,0.719,0.103,否

算法实现

数据定义，定义属性及其取值种类、类标签种类

读取数据函数：

叶节点选择标签函数：

判断D中样本在A上的取值是否相同函数

计算给定数据集的熵函数

计算按key划分的信息增益值函数

生成连续值属性的候选划分点集合T

计算样本D基于划分点t二分后的连续值属性信息增益

找出最大增益划分点

从A中选择最优的划分属性值，若为连续值，返回划分点

递归生成决策树

测试决策树的准确率

深度优先遍历，判断预测值

绘制树图的模块：

详见 https://blog.csdn.net/weixin_37922777/article/details/88821957

主函数：

实验结果

程序清单：

import json
import math
import plotTree
import numpy as np
import pandas as pd

D_keys = {
	'色泽': ['青绿', '乌黑', '浅白'], 
	'根蒂': ['蜷缩', '硬挺', '稍蜷'], 
	'敲声': ['清脆', '沉闷', '浊响'], 
	'纹理': ['稍糊', '模糊', '清晰'], 
	'脐部': ['凹陷', '稍凹', '平坦'], 
	'触感': ['软粘', '硬滑'], 
}
keys = ['是', '否']

# 读取数据
def loadData(filename):
	dataSet = pd.read_csv(filename)
	return dataSet

# 叶节点选择其类别为D中样本最多的类
def choose_largest_example(D):
	count = D['好瓜'].value_counts()
	return '是' if count['是'] > count['否'] else '否'

# 判断D中的样本在A上的取值是否相同
def same_value(D, A):
	for key in A:
		if key in D_keys and len(D[key].value_counts()) > 1:
			return False

	return True

# 计算给定数据集的熵
def calc_Ent(dataSet):
	numEntries = dataSet['power'].sum()
	Count = dataSet.groupby('好瓜')['power'].sum()
	Ent = 0.0

	for key in keys:
		#print(Count[key])
		if key not in Count:
			Ent -= 0.0
		else:
			prob = Count[key] / numEntries
			Ent -= prob * math.log(prob, 2)

	return Ent

# 计算按key划分的信息增益值
def calc_Gain_D(D, D_no_nan, key, Ent_D):
	Ent = 0.0
	D_size = D['power'].sum()
	D_nan_size = D_no_nan['power'].sum()
	for value in D_keys[key]:
		Dv = D.loc[D[key]==value]
		Dv_size = Dv['power'].sum()
		Ent_Dv = calc_Ent(Dv)
		Ent += Dv_size/D_nan_size * Ent_Dv

	return D_nan_size/D_size * (Ent_D-Ent)

# 生成连续值属性的候选划分点集合T
def candidate_T(D, key, n):
	L = set(D[key])
	T = []
	a, Sum = 0, 0
	for value in L:
		Sum += value
		a += 1
		if a == n:
			T.append(Sum/n)
			a, Sum = 0, 0

	if a > 0:
		T.append(Sum/a)

	return T

# 计算样本D基于划分点t二分后的连续值属性信息增益
def calc_Gain_t(D, D_no_nan, key, t, Ent_D):
	Ent = 0.0
	D_size = D['power'].sum()
	D_nan_size = D_no_nan['power'].sum()

	Dv = D.loc[D[key]<=t]
	Dv_size = Dv['power'].sum()
	Ent_Dv = calc_Ent(Dv)
	Ent += Dv_size/D_nan_size * Ent_Dv

	Dv = D.loc[D[key]>t]
	Dv_size = Dv['power'].sum()
	Ent_Dv = calc_Ent(Dv)
	Ent += Dv_size/D_nan_size * Ent_Dv

	return  D_nan_size/D_size * (Ent_D-Ent)


# 计算样本D基于不同划分点t二分后的连续值属性信息增益，找出最大增益划分点
def calc_Gain_C(D, D_no_nan, key, Ent_D):
	n = 2
	T = candidate_T(D, key, n)
	max_Gain, max_partition = -1, -1
	for t in T:
		Gain = calc_Gain_t(D, D_no_nan, key, t, Ent_D)
		if max_Gain < Gain:
			max_Gain = Gain
			max_partition = t

	return max_Gain, max_partition

# 从A中选择最优的划分属性值，若为连续值，返回划分点
def choose_best_attribute(D, A):
	max_Gain, max_partition, partition, best_attr = -1, -1, -1,  ''
	for key in A:
		# 划分属性为离散属性时
		if key in D_keys:
			D_no_nan = D.loc[pd.notna(D[key])]
			Ent_D = calc_Ent(D_no_nan)
			Gain = calc_Gain_D(D, D_no_nan, key, Ent_D)
		# 划分属性为连续属性时
		else:
			D_no_nan = D.loc[pd.notna(D[key])]
			Ent_D = calc_Ent(D_no_nan)
			Gain, partition = calc_Gain_C(D, D_no_nan, key, Ent_D)

		if max_Gain < Gain:
			best_attr = key
			max_Gain = Gain
			max_partition = partition

	return best_attr, max_partition

# 函数TreeGenerate 递归生成决策树，以下情形导致递归返回
# 1. 当前结点包含的样本全属于一个类别
# 2. 当前属性值为空， 或是所有样本在所有属性值上取值相同，无法划分
# 3. 当前结点包含的样本集合为空，不可划分
def TreeGenerate(D, A):
	Count = D['好瓜'].value_counts()
	if len(Count) == 1:
		return D['好瓜'].values[0]

	if len(A)==0 or same_value(D, A):
		return choose_largest_example(D)

	node = {}
	best_attr, partition = choose_best_attribute(D, A)
	D_size = D.shape[0]
	# 最优划分属性为离散属性时
	if best_attr in D_keys:
		for value in D_keys[best_attr]:
			Dv = D.loc[D[best_attr]==value].copy()
			Dv_size = Dv.shape[0]
			Dv.loc[pd.isna(Dv[best_attr]), 'power'] = Dv_size / D_size
			if Dv.shape[0] == 0:
				node[value] = choose_largest_example(D)
			else:
				new_A = [key for key in A if key != best_attr]
				node[value] = TreeGenerate(Dv, new_A)

	# 最优划分属性为连续属性时
	else:
		#print(best_attr, partition)
		#print(D.values)
		left = D.loc[D[best_attr] <= partition].copy()
		Dv_size = left.shape[0]
		left.loc[pd.isna(left[best_attr]), 'power'] = Dv_size / D_size
		left_key = '<= ' + str(partition)

		if left.shape[0] == 0:
			node[left_key] = choose_largest_example(D)
		else:
			node[left_key] = TreeGenerate(left, A)

		right = D.loc[D[best_attr] > partition].copy()
		Dv_size = right.shape[0]
		right.loc[pd.isna(right[best_attr]), 'power'] = Dv_size / D_size

		right_key = '> ' + str(partition)
		if right.shape[0] == 0:
			node[right_key] = choose_largest_example(D)
		else:
			node[right_key] = TreeGenerate(right, A)
	# plotTree.plotTree(Tree)
	return {best_attr: node}


# 获得下一层子树分支
def get_next_Tree(Tree, key, value):
	if key not in D_keys:
		partition = float(list(Tree[key].keys())[0].split(' ')[1])
		if value <= partition:
			value =  '<= ' + str(partition)
		else:
			value = '> ' + str(partition)
	
	return Tree[key][value]

# 深度优先遍历，判断预测值
def dfs_Tree(Tree, row):
	if type(Tree).__name__ == 'dict':
		key = list(Tree.keys())[0]
		value = row[key]
		if pd.isnull(value):
			result = {key: 0 for key in D_keys['好瓜']}
			for next_key in Tree[key]:
				next_Tree = Tree[key][next_key]
				temp = dfs_Tree(next_Tree, row)
				result[temp] += 1

			return '是' if count['是'] > count['否'] else '否'

		else:
			next_Tree = get_next_Tree(Tree, key, value)
			return dfs_Tree(next_Tree, row)
	else:
		return Tree

# 测试决策树的准确率
def test_Tree(Tree, data_test):
	accuracy = 0
	for index, row in data_test.iterrows():
		result = dfs_Tree(Tree, row)
		if result == row['好瓜']:
			#print(row.values, Tree)
			accuracy += 1

	print('Hit:', accuracy, '/', data_test.shape[0])
	print('Accuracy:', accuracy/data_test.shape[0])


if __name__ == '__main__':
	# 读取数据
	filename = 'data_3.txt'
	dataSet = loadData(filename)
	dataSet.drop(columns=['编号'], inplace=True)
	# 考虑缺失值
	dataSet['power'] = 1.0
	
	index_train = [0,1,2,5,6,9,13,14,15,16]
	data_train = dataSet.iloc[index_train]
	data_test = dataSet.drop(index_train)

	# 决策树训练
	A = [column for column in data_train.columns if column != '好瓜']
	Tree = TreeGenerate(data_train, A)

	# 决策树测试
	test_Tree(Tree, data_test)

	print(Tree)
	plotTree.createPlot(Tree)

你可能感兴趣的:(机器学习(周志华) 西瓜书第四章课后习题4.3—— Python实现)

如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
青少年编程与数学 02-022 专业应用软件简介 22 电子签名和合同管理平台：法大大明月看潮生编程与数学第02阶段青少年编程应用软件编程与数学电子签名合同管理
青少年编程与数学02-022专业应用软件简介22电子签名和合同管理平台：法大大引言一、法大大的背景与发展历程1.1公司概述1.2发展历程二、产品功能详解2.1核心功能介绍2.2特色功能展示三、应用场景案例分析3.1行业应用实例3.2成功案例分享四、技术安全保障措施4.1数据加密技术4.2风险控制体系4.3合规性审查五、市场地位与未来展望5.1市场份额与影响力5.2未来发展计划摘要：法大大是中国领先
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
如何使用Python控制笔记本电脑屏幕亮度？很酷的站长编程笔记电脑 python 开发语言
Python已成为世界上最受欢迎的编程语言之一，这要归功于它的简单性、多功能性和广泛的应用程序。凭借其广泛的库和框架，Python可用于从Web开发到机器学习以及介于两者之间的任何内容。在Python中，最流行的数据分析和操作库之一是Pandas，它提供了处理表格数据的强大工具。在本教程中，我们将使用Python和屏幕亮度控制库来探索如何控制笔记本电脑屏幕亮度。我们将向您展示如何使用Python通
10、量子神经网络：从理论到实践安检量子神经网络 PennyLane Qiskit
量子神经网络：从理论到实践1.量子神经网络简介量子神经网络（QuantumNeuralNetworks,QNNs）是量子计算与经典机器学习相
深度学习之迁移学习路溪非溪人工智能迁移学习机器学习
认识迁移学习迁移学习（TransferLearning）是机器学习中的一种重要技术，其核心思想是将在一个任务上学习到的知识（模型参数、特征表示等），迁移应用到另一个相关但不同的任务中，从而提升新任务的学习效率和性能，尤其是在新任务数据有限的情况下。一、迁移学习的核心动机传统机器学习通常要求为每个新任务收集大量标注数据并从头训练模型，但现实中面临以下挑战：数据稀缺：例如医疗影像分析（罕见疾病样本少）
【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）吴师兄大模型 0基础实现机器学习入门到精通机器学习计算机视觉 cnn 人工智能目标检测图像识别 pytorch
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
2048-Python 开源项目教程瞿晟垣
2048-Python开源项目教程2048-python2048项目地址:https://gitcode.com/gh_mirrors/20/2048-python本教程旨在引导您了解并运行yangshun的2048-python开源项目，一个基于Python实现的经典小游戏2048。我们将深入探索其项目结构、启动流程以及配置详情。1.项目目录结构及介绍项目遵循简洁的组织结构，便于理解和维护：20
ShaderGraph节点解析(146):面朝向判断节点（Is Front Face Node）详解
目录一、前言二、节点基础2.1功能概述2.2端口详解2.3底层实现三、工作原理3.1面朝向定义3.2法线与面朝向的关系3.3与背面剔除的区别四、应用场景4.1双面材质差异化渲染场景：正面显示纹理，背面显示纯色或另一种纹理4.2背面发光效果场景：物体背面显示自发光，创造边缘光或轮廓效果4.3翻转动画场景：当物体旋转导致正面变为背面时，显示过渡效果（如透明度变化）4.4碰撞检测可视化场景：在碰撞检测中
用Python实现数据可视化的实用指南庞队千Virginia
用Python实现数据可视化的实用指南practical-python-data-viz-guideResourcesforteaching&learningpracticaldatavisualizationwithpython.项目地址:https://gitcode.com/gh_mirrors/pr/practical-python-data-viz-guide项目介绍在数据驱动的时代，数
英伟达终为 CUDA 添加原生 Python 支持，他有什么目的？朱卫军 AI python 开发语言
CUDA原来只支持C/C++/Fortran，在2025的CES上宣布支持原生Python其实是不得已而为之，一方面现在Python的AI开发者数量过于庞大，达到数千万级别，而CUDA仅几百万，CUDA想扩大自己的用户圈子，只能拉Python入伙。另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必
微信小程序开发全解析：流程、交互、框架对比与避坑实战北辰alk 微信小程序微信小程序交互小程序
文章目录一、微信小程序开发全景认知1.1技术架构解析1.2开发模式选择二、原生开发全流程详解2.1环境搭建2.2项目结构规范2.3核心API实战三、主流框架开发实践3.1Taro（React技术栈）3.1.1项目初始化3.1.2跨平台编译3.2Uni-app（Vue技术栈）3.2.1条件编译示例四、原生开发vs框架开发深度对比4.1开发效率对比4.2性能对比（数据实测）4.3跨平台能力4.4调试复
基于小样本的高光谱图像分类任务：CMFSL方法及Python实现 pk_xz123456 仿真模型算法深度学习分类 python 人工智能深度学习机器学习
基于小样本的高光谱图像分类任务：CMFSL方法及Python实现1.引言高光谱图像分类是遥感图像处理领域的重要研究方向，它在农业监测、环境评估、军事侦察等领域有着广泛的应用。与传统RGB图像不同，高光谱图像包含数百个连续的光谱波段，能够提供丰富的光谱信息。然而，高光谱图像分类面临着维度灾难、样本获取困难等挑战，特别是在小样本条件下，传统分类方法往往表现不佳。针对这一问题，本文介绍一种基于小样本的高
Python爬虫实战：爬取网易云音乐热评的完整教程 Python爬虫项目 python 爬虫开发语言能源 selenium
1.背景介绍：为什么爬网易云音乐热评？网易云音乐是中国最受欢迎的音乐平台之一，其用户活跃度极高。评论区往往蕴含丰富的情感表达和用户反馈，是音乐数据分析、情感分析、推荐算法等领域的宝贵数据源。爬取热评可以用于：歌曲口碑分析用户情绪挖掘热门歌曲趋势追踪机器学习训练数据准备但网易云音乐对评论接口进行了加密，直接请求很难成功。本文将帮你攻克这一难点。2.网易云音乐热评接口分析我们首先用浏览器开发者工具（C
【后端开发】Flask学习教程大雨淅淅后端开发 flask 学习 python 后端
目录一、Flask是什么？二、环境搭建，准备启航2.1安装Python2.2安装Flask库三、第一个Flask程序，初窥门径3.1导入Flask类3.2创建应用实例3.3定义路由和视图函数3.4运行应用四、深入理解Flask核心概念4.1路由系统详解4.2请求与响应处理4.3模板引擎Jinja2五、Flask扩展，增强战斗力5.1Flask-SQLAlchemy：数据库操作的得力助手5.2Fla
【零基础学AI】第33讲：强化学习基础 - 游戏AI智能体 1989 0基础学AI 人工智能游戏 transformer 分类深度学习神经网络
本节课你将学到理解强化学习的基本概念和框架掌握Q-learning算法原理使用Python实现贪吃蛇游戏AI训练能够自主玩游戏的智能体开始之前环境要求Python3.8+PyTorch2.0+Gymnasium(原OpenAIGym)NumPyMatplotlib推荐使用JupyterNotebook进行实验前置知识Python基础编程（第1-8讲）基本数学概念（函数、导数）神经网络基础（第23讲
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
Day 1: 从零突破 - Go基础语法快速入门
目录Day1:从零突破-Go基础语法快速入门1.安装Go环境（或使用GoPlayground快速体验）安装Go环境GoPlayground快速体验2.基础语法2.1变量声明2.2常量2.3基础类型3.控制结构3.1if-else3.2for循环3.3switch4.函数基础4.1参数和返回值4.2多返回值4.3匿名函数5.练习5.1实现FizzBuzz5.2计算斐波那契数列总结Day1:从零突破-
03 数据可视化的世界非常广阔，除了已提到的类型，还有许多更细分或前沿的可视化形式。晨曦543210 信息可视化人工智能
十五、机器学习与数据科学专用图表特征重要性图（FeatureImportancePlot）用途：展示机器学习模型中各特征对预测结果的贡献度。示例：随机森林模型中影响房价预测的关键因素。混淆矩阵热力图（ConfusionMatrixHeatmap）用途：分类模型性能评估，显示预测结果与真实标签的对比。示例：疾病诊断模型的真阳性/假阳性分布。学习曲线（LearningCurve）用途：分析模型训练过程
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
八、提升服务高可用性退役小学生呀 K8s企业级深度研修 kubernetes 容器云原生 k8s linux
八、提升服务高可用性文章目录八、提升服务高可用性1、什么是亲和力Affinity2、认识拓扑域和拓扑键3、拓扑域划分4、K8s亲和力实战4.1同一个应用必须部署在不同的宿主机4.2同一个应用尽量部署在不同的宿主机4.3同一个应用分布在不同的机房4.4应用尽量和缓存服务部署在同一个可用域4.5计算服务必须部署至高性能机器4.6计算服务尽量部署至高性能机器4.7应用尽量不部署至低性能机器4.8应用均匀
数据分析-59-SPC统计过程控制XR图和XS图和IMR图和CPK分析图皮皮冰燃数据分析数据分析 SPC
文章目录1均值极差图XR1.1适用场景1.2构造步骤1.3代码示例2均值标准差图XS2.1适用场景2.2构造步骤2.3代码示例3IMR图3.1适用场景3.2构造步骤3.3代码示例4CPK分析图4.1CPK计算4.2创建步骤4.3代码示例XR控制图：子样本数量较小。XS控制图：子样本数量较大。IMR图。CPK分析图。1均值极差图XR均值-极差图（X̄-R图，Mean-RangeChart）是统计过程
汇编语言：基于x86处理器（原书第7版）所有课后习题答案 Up to the mountain 汇编 masm
包含3-13章所有习题答案，覆盖率95%以上，除了意义不大和重复的，高难度题目我全做了包含vs2015工程，使用时将对应的习题拖到vs工程的源码底下，一次编译一个，如果莫名报错，请将文件名改成简单英文或数字名，如a31.asm---引用请注明出处---下载地址：汇编语言：基于x86处理器（原书第7版）所有课后习题答案_汇编语言基于x86处理器第七版课后答案-其它文档类资源-CSDN下载
2025 年机器学习工作流程的 7 个 AI 代理框架盖瑞理 AI Agent 人工智能
介绍机器学习从业者花费大量时间在重复性任务上：监控模型性能、重新训练流程、检查数据质量以及跟踪实验。虽然这些操作任务至关重要，但它们通常会占用团队60%到80%的时间，几乎没有留下任何创新和模型改进的空间。传统的自动化工具可以处理简单的、基于规则的工作流程，但它们难以应对机器学习操作所需的动态决策。何时应该根据性能漂移重新训练模型？当数据分布发生变化时，如何自动调整超参数？这些场景需要能够推理复杂
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
解锁WSL：Windows下的Linux新世界奔跑吧邓邓子必备核心技能 windows linux WSL 跨平台开发
目录一、WSL是什么二、WSL的功能特点2.1运行Linux环境2.2开发工具支持2.3文件系统集成2.4命令行交互2.5性能和兼容性三、WSL的版本区别3.1WSL1介绍3.2WSL2介绍3.3两者对比四、WSL的安装教程4.1安装前准备4.2安装步骤4.3安装Linux分发版五、WSL的常用命令5.1系统镜像管理5.2系统启动与关闭5.3镜像导出与导入5.4其他常用命令六、WSL的应用场景6.
Linux系统用户和用户组管理详细介绍
文章目录1.用户与用户组基本概念1.1用户类型1.2用户组2.用户管理操作2.1创建用户2.2设置用户密码2.3删除用户2.4修改用户属性3.用户组管理操作3.1创建用户组3.2删除用户组3.3修改用户组3.4用户与组的关联4.权限管理4.1文件权限模型4.2修改文件权限4.3高级权限控制5.sudo与su5.1sudo5.2su6.配置文件与安全实践6.1关键配置文件6.2安全实践7.常见问题与
Python学习打卡：day09 胜天半子祁厅 Python python 学习开发语言
day9笔记来源于：黑马程序员python教程，8天python从入门到精通，学python看这套就够了目录day964、字典课后习题65、5类数据容器的总结对比数据容器分类数据容器特点对比66、数据容器的通用操作遍历统计len、max和min转换list(容器)、tuple(容器)、str(容器)、set(容器)排序容器通用功能总览67、拓展——字符串的大小比较ASCII码表字符串比较68、函数
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他