吴师兄大模型

【机器学习】Day 18: 告别盲猜！网格/随机/贝叶斯搜索带你精通超参数调优

Langchain系列文章目录

01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南
02-玩转 LangChain Memory 模块：四种记忆类型详解及应用场景全覆盖
03-全面掌握 LangChain：从核心链条构建到动态任务分配的实战指南
04-玩转 LangChain：从文档加载到高效问答系统构建的全程实战
05-玩转 LangChain：深度评估问答系统的三种高效方法（示例生成、手动评估与LLM辅助评估）
06-从 0 到 1 掌握 LangChain Agents：自定义工具 + LLM 打造智能工作流！
07-【深度解析】从GPT-1到GPT-4：ChatGPT背后的核心原理全揭秘

PyTorch系列文章目录

Python系列文章目录

机器学习系列文章目录

01-什么是机器学习？从零基础到自动驾驶案例全解析
02-从过拟合到强化学习：机器学习核心知识全解析
03-从零精通机器学习：线性回归入门
04-逻辑回归 vs. 线性回归：一文搞懂两者的区别与应用
05-决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型
06-集成学习与随机森林：从理论到实践的全面解析
07-支持向量机（SVM）：从入门到精通的机器学习利器
08-【机器学习】KNN算法入门：从零到电影推荐实战
09-【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战
10-【机器学习】聚类算法全解析：K-Means、层次聚类、DBSCAN在市场细分的应用
11-【机器学习】降维与特征选择全攻略：PCA、LDA与特征选择方法详解
12-【机器学习】手把手教你构建神经网络：从零到手写数字识别实战
13-【机器学习】从零开始学习卷积神经网络（CNN）：原理、架构与应用
14-【机器学习】RNN与LSTM全攻略：解锁序列数据的秘密
15-【机器学习】GAN从入门到实战：手把手教你实现生成对抗网络
16-【机器学习】强化学习入门：从零掌握 Agent 到 DQN 核心概念与 Gym 实战
17-【机器学习】AUC、F1分数不再迷茫：图解Scikit-Learn模型评估与选择核心技巧
18-【机器学习】Day 18: 告别盲猜！网格/随机/贝叶斯搜索带你精通超参数调优

文章目录

Langchain系列文章目录
PyTorch系列文章目录
Python系列文章目录
机器学习系列文章目录
前言
一、什么是超参数 (What are Hyperparameters?)
- 1.1 模型参数 vs 超参数 (Model Parameters vs. Hyperparameters)
- - 1.1.1 模型参数 (Model Parameters)
  - 1.1.2 超参数 (Hyperparameters)
- 1.2 为什么需要调优超参数 (Why Tune Hyperparameters?)
二、经典超参数搜索策略 (Classic Hyperparameter Search Strategies)
- 2.1 网格搜索 (Grid Search)
- - 2.1.1 原理与机制 (Principle and Mechanism)
  - 2.1.2 优缺点分析 (Pros and Cons)
  - 2.1.3 Scikit-Learn 实战 (Scikit-Learn Implementation)
- 2.2 随机搜索 (Random Search)
- - 2.2.1 原理与机制 (Principle and Mechanism)
  - 2.2.2 优缺点分析 (Pros and Cons)
  - 2.2.3 Scikit-Learn 实战 (Scikit-Learn Implementation)
- 2.3 网格搜索 vs 随机搜索对比 (Grid Search vs. Random Search Comparison)
三、更智能的搜索：贝叶斯优化简介 (Smarter Search: Introduction to Bayesian Optimization)
- 3.1 核心思想 (Core Idea)
- 3.2 工作流程简述 (Brief Workflow)
- 3.3 优势与适用场景 (Advantages and Use Cases)
四、自动化调优利器 (Automated Tuning Tools)
- 4.1 工具概览 (Tool Overview)
- 4.2 Optuna 简介与优势 (Introduction to Optuna and Advantages)
- 4.3 Optuna 实战：优化一个简单模型 (Optuna Practical Example: Optimizing a Simple Model)
五、实践中的注意事项 (Practical Considerations)
- 5.1 定义合理的搜索空间 (Defining a Sensible Search Space)
- 5.2 结合交叉验证 (Combining with Cross-Validation)
- 5.3 计算资源与时间考量 (Computational Resources and Time)
- 5.4 避免过拟合验证集 (Avoiding Overfitting to the Validation Set)
六、总结

前言

大家好！欢迎来到我们机器学习系列文章的第 18 天。在前面的学习中，我们已经掌握了多种机器学习模型（如线性回归、决策树、SVM 等）以及如何评估它们的性能（Day 17：模型评估与选择）。然而，仅仅选择一个模型并用默认设置训练，往往难以达到最佳效果。模型训练完成后，我们常常发现性能还有提升空间，这时就需要进行超参数调优 (Hyperparameter Tuning)。这就像烹饪一道菜，不仅需要好的食材（数据）和菜谱（模型算法），还需要精确控制火候、调料用量（超参数），才能做出真正的美味佳肴。

本文将带你深入理解超参数调优的核心概念，掌握几种主流的调优策略（网格搜索、随机搜索、贝叶斯优化），并介绍实用的自动化调优工具（如 Optuna），最终目标是帮助你的模型效果更上一层楼！无论你是刚入门的小白，还是希望深化理解的进阶者，都能从中获益。

一、什么是超参数 (What are Hyperparameters?)

在深入探讨调优技术之前，我们必须先明确区分两个容易混淆的概念：模型参数和超参数。

1.1 模型参数 vs 超参数 (Model Parameters vs. Hyperparameters)

1.1.1 模型参数 (Model Parameters)

模型参数是模型在训练过程中从数据中学习得到的变量。它们是模型内部用来进行预测的依据。

例子：
- 线性回归模型中的权重系数 (coefficients) 和偏置项 (intercept)。
- 神经网络中的权重 (weights) 和偏置 (biases)。
特点：
- 模型参数的值是在训练集上通过优化算法（如梯度下降）自动学习得到的。
- 它们是模型的核心组成部分，直接决定了模型的预测能力。
- 模型训练完成后，这些参数就确定下来了。

1.1.2 超参数 (Hyperparameters)

超参数是在开始学习过程之前设置的变量，它们用于控制学习过程本身。它们不能直接从数据中学习得到，而是由我们（机器学习工程师或数据科学家）根据经验、实验或特定的调优策略来设定。

例子：
- 学习率 (Learning Rate)：控制梯度下降算法每次更新参数的步长。
- K-近邻 (KNN) 算法中的 K 值：选择多少个最近邻居来做决策。
- 决策树的最大深度 (Max Depth)：控制树的复杂度，防止过拟合。
- 随机森林中树的数量 (n_estimators)：集成模型中基学习器的数量。
- 正则化项的强度 (Regularization Strength, 如 C 或 alpha)：控制模型的复杂度，防止过拟合。
- 神经网络的层数、每层的神经元数量、激活函数的选择等。
特点：
- 超参数需要手动设置或通过调优算法来确定。
- 它们指导模型如何学习参数，影响模型的性能、训练速度和泛化能力。
- 选择不同的超参数组合，会得到性能不同的模型。

类比理解：
想象你在烤蛋糕。

模型参数：就像蛋糕内部经过烘烤后形成的结构、质地，这是由面粉、鸡蛋、糖等原材料（数据）在烤箱（学习过程）中发生化学反应后自然形成的。
超参数：就像你设定的烤箱温度、烘烤时间、搅拌面糊的速度。这些是你需要提前决定的外部条件，它们直接影响最终蛋糕的口感和外观（模型性能）。

1.2 为什么需要调优超参数 (Why Tune Hyperparameters?)

超参数的选择对模型最终的性能有着至关重要的影响。

影响模型性能：不同的超参数组合可能导致模型性能差异巨大。一个好的超参数组合能让模型更好地拟合数据，提高预测准确率、降低损失。
控制过拟合与欠拟合：许多超参数（如正则化强度、树的深度、学习率）直接影响模型的复杂度。合适的超参数可以在欠拟合（模型太简单，无法捕捉数据规律）和过拟合（模型太复杂，学习了噪声）之间找到最佳平衡点，提升模型的泛化能力。
优化资源消耗：某些超参数（如批处理大小、树的数量）会影响模型的训练时间和内存占用。调优有时也需要在性能和资源消耗之间做权衡。

没有一套“万能”的超参数适用于所有问题和数据集。因此，超参数调优成为机器学习流程中不可或缺的一步，它的目标是找到一组能够使模型在验证集上表现最佳的超参数。

二、经典超参数搜索策略 (Classic Hyperparameter Search Strategies)

如何找到最佳的超参数组合呢？最直接的方法就是尝试不同的组合，看看哪种效果最好。下面介绍几种经典的搜索策略。

2.1 网格搜索 (Grid Search)

2.1.1 原理与机制 (Principle and Mechanism)

网格搜索是最简单、最暴力的超参数调优方法。它会尝试你预先定义好的超参数网格中的所有可能组合。

工作方式：
1. 为每个你想要调优的超参数，定义一个候选值的列表。
2. 网格搜索会生成这些列表值的笛卡尔积，形成一个包含所有可能超参数组合的“网格”。
3. 对网格中的每一个组合，使用交叉验证（通常是 K-Fold）在训练集上训练模型，并在验证集上评估性能。
4. 选择在验证集上平均性能最佳的那组超参数组合。

例子：
假设我们要调优一个 SVM 分类器，关注两个超参数：

C (正则化参数): [0.1, 1, 10]
kernel (核函数): ['linear', 'rbf']

网格搜索会尝试以下所有组合：
(C=0.1, kernel='linear'), (C=0.1, kernel='rbf'),
(C=1, kernel='linear'), (C=1, kernel='rbf'),
(C=10, kernel='linear'), (C=10, kernel='rbf')
共 3 * 2 = 6 种组合。

2.1.2 优缺点分析 (Pros and Cons)

优点：
- 简单直观：易于理解和实现。
- 彻底性：只要最佳组合在你定义的网格内，它一定能找到。
缺点：
- 计算成本高：随着超参数数量和每个参数候选值的增加，需要尝试的组合数量会呈指数级增长（维度诅咒）。如果模型训练本身就很耗时，网格搜索会非常慢。
- 对网格定义敏感：如果最佳值落在你定义的网格范围之外或两个格点之间，网格搜索就找不到它。
- 对不重要的参数浪费算力：可能花费大量时间尝试那些对模型性能影响不大的超参数的不同取值。

2.1.3 Scikit-Learn 实战 (Scikit-Learn Implementation)

Scikit-Learn 提供了 GridSearchCV 类，可以方便地实现网格搜索。

from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.svm import SVC
from sklearn.datasets import make_classification
import pandas as pd

# 1. 生成示例数据
X, y = make_classification(n_samples=1000, n_features=20, n_informative=10,
                           n_redundant=5, n_classes=2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 2. 定义模型
svc = SVC()

# 3. 定义超参数网格
param_grid = {
    'C': [0.1, 1, 10, 100],        # 正则化参数
    'gamma': [1, 0.1, 0.01, 0.001], # RBF核的系数 (仅当kernel='rbf'时)
    'kernel': ['rbf', 'linear']     # 核函数类型
}

# 4. 配置网格搜索
# cv=5 表示使用5折交叉验证
# n_jobs=-1 表示使用所有可用的CPU核心并行计算，加速搜索
grid_search = GridSearchCV(estimator=svc,
                           param_grid=param_grid,
                           cv=5,
                           scoring='accuracy', # 评估指标
                           n_jobs=-1,
                           verbose=1) # verbose控制输出信息的详细程度

# 5. 执行搜索 (在训练集上)
grid_search.fit(X_train, y_train)

# 6. 查看最佳参数和最佳得分
print(f"最佳超参数组合: {grid_search.best_params_}")
print(f"交叉验证最佳准确率: {grid_search.best_score_:.4f}")

# 7. 使用最佳参数的模型在测试集上评估
best_model = grid_search.best_estimator_
test_accuracy = best_model.score(X_test, y_test)
print(f"测试集准确率: {test_accuracy:.4f}")

# (可选) 查看所有尝试的组合及其结果
results_df = pd.DataFrame(grid_search.cv_results_)
print("\n部分搜索结果:")
print(results_df[['param_C', 'param_gamma', 'param_kernel', 'mean_test_score', 'rank_test_score']].sort_values('rank_test_score').head())

注意：gamma 参数只在 kernel='rbf' 时有效，GridSearchCV 会自动处理这种情况，对于 kernel='linear' 的组合，它不会尝试不同的 gamma 值。

2.2 随机搜索 (Random Search)

2.2.1 原理与机制 (Principle and Mechanism)

随机搜索不像网格搜索那样尝试所有组合，而是在指定的超参数空间中随机采样固定数量的参数组合。

工作方式：
1. 为每个要调优的超参数，定义一个分布（例如，均匀分布、对数均匀分布）或一个离散值的列表。
2. 指定要尝试的参数组合的总数 (n_iter)。
3. 随机搜索会从定义的分布或列表中随机抽取 n_iter 组超参数组合。
4. 对每一组随机抽取的组合，使用交叉验证进行训练和评估。
5. 选择在验证集上平均性能最佳的那组超参数组合。

例子：
同样调优 SVM 的 C 和 gamma（假设 kernel='rbf' 固定）：

C: 从 0.1 到 100 的对数均匀分布中抽取。
gamma: 从 0.001 到 1 的对数均匀分布中抽取。
设置 n_iter = 10 (尝试 10 组随机组合)。

随机搜索会随机生成 10 对 (C, gamma) 值进行评估，而不是像网格搜索那样尝试所有预设点。

2.2.2 优缺点分析 (Pros and Cons)

优点：
- 计算效率更高：通常比网格搜索更快，尤其是在高维参数空间中，因为它不尝试所有组合。
- 更可能找到好的组合：研究表明（Bergstra & Bengio, 2012），对于某些问题，只有少数几个超参数对性能影响显著。随机搜索更有可能在这些重要参数上探索到更优的值，而网格搜索可能在不重要的参数上浪费了大量计算。
- 易于控制预算：可以通过 n_iter 参数直接控制尝试的次数（计算预算）。
缺点：
- 不保证找到全局最优：由于是随机采样，可能错过理论上的最佳组合。
- 结果不可复现（除非设置随机种子）：每次运行可能得到不同的最佳参数。

2.2.3 Scikit-Learn 实战 (Scikit-Learn Implementation)

Scikit-Learn 提供了 RandomizedSearchCV 类来实现随机搜索。

from sklearn.model_selection import RandomizedSearchCV, train_test_split
from sklearn.svm import SVC
from sklearn.datasets import make_classification
from scipy.stats import expon, uniform # 用于定义连续参数的分布
import numpy as np
import pandas as pd

# 1. 生成示例数据 (同上)
X, y = make_classification(n_samples=1000, n_features=20, n_informative=10,
                           n_redundant=5, n_classes=2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 2. 定义模型
svc = SVC(probability=True) # probability=True 可能某些场景需要

# 3. 定义超参数的分布或列表
param_dist = {
    'C': expon(scale=100),        # 指数分布 (通常用于非负参数, scale控制均值)
    'gamma': expon(scale=.1),     # 指数分布
    'kernel': ['rbf', 'linear', 'poly'], # 离散列表
    'degree': [2, 3, 4]           # 仅当kernel='poly'时相关
}
# 或者使用更常见的均匀或对数均匀分布:
# param_dist = {
#     'C': uniform(0.1, 100),      # 从 0.1 到 100.1 的均匀分布
#     'gamma': uniform(0.001, 1),  # 从 0.001 到 1.001 的均匀分布
#     # 'C': loguniform(1e-3, 1e2), # 对数均匀分布 (需要 from scipy.stats import loguniform)
#     # 'gamma': loguniform(1e-4, 1e0),
#     'kernel': ['rbf', 'linear']
# }


# 4. 配置随机搜索
# n_iter=50 表示进行50次随机采样组合
random_search = RandomizedSearchCV(estimator=svc,
                                   param_distributions=param_dist,
                                   n_iter=50,       # 尝试的参数组合数量
                                   cv=5,
                                   scoring='accuracy',
                                   n_jobs=-1,
                                   verbose=1,
                                   random_state=42) # 设置随机种子保证结果可复现

# 5. 执行搜索
random_search.fit(X_train, y_train)

# 6. 查看最佳参数和最佳得分
print(f"最佳超参数组合: {random_search.best_params_}")
print(f"交叉验证最佳准确率: {random_search.best_score_:.4f}")

# 7. 使用最佳参数的模型在测试集上评估
best_model_random = random_search.best_estimator_
test_accuracy_random = best_model_random.score(X_test, y_test)
print(f"测试集准确率: {test_accuracy_random:.4f}")

# (可选) 查看部分结果
results_df_random = pd.DataFrame(random_search.cv_results_)
print("\n部分搜索结果:")
print(results_df_random[['param_C', 'param_gamma', 'param_kernel', 'mean_test_score', 'rank_test_score']].sort_values('rank_test_score').head())

2.3 网格搜索 vs 随机搜索对比 (Grid Search vs. Random Search Comparison)

理论和实践都表明，在给定相同计算预算（例如，尝试相同数量的参数组合）的情况下，随机搜索通常比网格搜索更有效，尤其是在高维空间中或者当只有少数几个参数真正重要时。

总结对比：

特性	网格搜索 (Grid Search)	随机搜索 (Random Search)
搜索方式	穷举所有预定义的组合	从参数分布中随机采样指定数量的组合
效率	低，随维度指数增长	相对较高，与尝试次数 `n_iter` 成正比
找到最优解	保证找到网格内的最优解	不保证找到全局最优，但常能找到很好的解
适用场景	低维参数空间，或需要彻底探索时	高维参数空间，计算资源有限，或参数重要性未知时
实现	`sklearn.model_selection.GridSearchCV`	`sklearn.model_selection.RandomizedSearchCV`

三、更智能的搜索：贝叶斯优化简介 (Smarter Search: Introduction to Bayesian Optimization)

网格搜索和随机搜索都是“盲目”的——它们不会利用过去评估的结果来指导未来的搜索方向。贝叶斯优化 (Bayesian Optimization) 是一种更智能的策略，它试图用更少的评估次数找到最优（或接近最优）的超参数组合，特别适用于那些评估成本非常高昂的场景（比如训练大型深度学习模型）。

3.1 核心思想 (Core Idea)

贝叶斯优化的核心思想是维护一个关于“目标函数（例如，模型在验证集上的性能）如何随超参数变化”的概率模型（称为替代模型，Surrogate Model）。每次评估一个新的超参数组合后，它会更新这个概率模型，使其更接近真实的函数形态。然后，它使用一个采集函数 (Acquisition Function) 来决定下一个最有“潜力”去评估的超参数点。这个“潜力”通常是基于替代模型预测的高性能和预测的不确定性之间的权衡（探索与利用）。

替代模型 (Surrogate Model)：通常使用高斯过程 (Gaussian Process, GP)，它可以提供对目标函数在未探索点的预测均值和不确定性（方差）。
采集函数 (Acquisition Function)：例如 Expected Improvement (EI), Probability of Improvement (PI), Upper Confidence Bound (UCB)。它们利用替代模型的预测和不确定性来计算每个潜在点的“价值”，指导下一步应该探索哪里。

3.2 工作流程简述 (Brief Workflow)

初始化：随机选择几个超参数点进行评估，构建初始的替代模型。
循环迭代 (直到达到预算或收敛)：
a. 选择下一个点：使用采集函数，在替代模型上找到“价值”最高的下一个超参数点。
b. 评估：使用选定的超参数训练模型并评估其真实性能。
c. 更新模型：将新的 (超参数, 性能) 数据点加入观测集，更新替代模型。
结束：返回迄今为止观测到的最佳超参数组合。

类比理解：
想象你在一个陌生的山区寻找最高的山峰（最佳性能），但每次爬山测量海拔（评估一次超参数）都非常耗时耗力。

贝叶斯优化：你不会随机乱爬。你会根据已经爬过的几座山的海拔（观测数据），在脑海里（或地图上）大致勾勒出山脉的可能轮廓（替代模型），并估计哪些未探索区域既可能很高，又很不确定（采集函数）。然后你选择最有希望找到更高峰的区域去探索下一座山。每次探索后，你对山脉轮廓的认识（替代模型）会更精确，下一次的选择也会更明智。

3.3 优势与适用场景 (Advantages and Use Cases)

优点：
- 样本效率高 (Sample Efficient)：通常比网格搜索和随机搜索需要更少的评估次数就能找到很好的解。
- 适用于昂贵评估：特别适合目标函数评估成本高昂的情况（如训练复杂模型、进行物理实验或模拟）。
缺点：
- 实现相对复杂：涉及概率模型和优化采集函数。
- 计算开销：选择下一个点的计算（优化采集函数）本身可能有一定开销，尤其在高维空间。
- 对先验和参数敏感：高斯过程等替代模型的性能可能受其自身参数（如核函数）影响。

适用场景：

深度学习模型的超参数调优。
计算密集型模拟的参数优化。
A/B 测试或实验设计。
任何评估一次成本很高的黑盒优化问题。

四、自动化调优利器 (Automated Tuning Tools)

手动实现贝叶斯优化或其他高级调优策略可能比较复杂。幸运的是，现在有许多优秀的开源库可以帮助我们自动化超参数调优过程。

4.1 工具概览 (Tool Overview)

Hyperopt: 较早流行的库，支持随机搜索、模拟退火和基于树的 Parzen 估计器 (TPE，一种贝叶斯优化变体)。
Optuna: 近年来非常受欢迎的框架，以其 Pythonic 的 “Define-by-run” API、灵活的搜索策略、剪枝 (Pruning) 功能和可视化工具而闻名。
Scikit-Optimize (skopt): 提供了基于 Scikit-learn API 的贝叶斯优化实现 (包括高斯过程、随机森林、梯度提升树等替代模型)。
Ray Tune: 一个可扩展的超参数调优库，支持与多种优化算法和机器学习框架集成，尤其擅长分布式调优。
Keras Tuner: 专为 Keras/TensorFlow 模型设计的调优库。

我们接下来以 Optuna 为例进行介绍和实战。

4.2 Optuna 简介与优势 (Introduction to Optuna and Advantages)

Optuna 是一个专门为机器学习设计的自动化超参数优化框架。

Define-by-run API: 你可以在一个普通的 Python 函数（称为 objective 函数）中定义模型的构建、训练和评估过程，并在函数内部使用 trial 对象来建议 (sample) 超参数。这种方式非常灵活，可以轻松处理条件参数（例如，只有当 kernel='poly' 时才需要调优 degree）。
先进的采样算法: 内置了 TPE (默认)、CMA-ES 等高效采样器，也支持随机搜索和网格搜索。
剪枝 (Pruning): 可以在早期判断某些试验 (trial) 没有希望达到好的结果，并提前终止它们，从而节省计算资源。这对于迭代式训练的模型（如神经网络、梯度提升树）特别有用。
易于并行化和分布式: 支持多进程并行和分布式计算。
可视化: 提供方便的函数来可视化优化历史、参数重要性、参数关系等。

4.3 Optuna 实战：优化一个简单模型 (Optuna Practical Example: Optimizing a Simple Model)

下面我们使用 Optuna 来优化一个 Scikit-learn 的 RandomForestClassifier 的超参数。

import optuna
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
import numpy as np

# 1. 生成示例数据
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15,
                           n_redundant=5, n_classes=2, random_state=42)
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=42) # 使用验证集进行评估

# 2. 定义目标函数 (Objective Function)
# Optuna 会尝试最大化或最小化这个函数的返回值
def objective(trial):
    """
    Optuna的目标函数，接收一个 trial 对象，返回需要优化的指标值。
    """
    # 2.1 使用 trial 对象建议超参数
    n_estimators = trial.suggest_int('n_estimators', 50, 500, step=50) # 建议范围 [50, 500] 的整数，步长50
    max_depth = trial.suggest_int('max_depth', 3, 30)                 # 建议范围 [3, 30] 的整数
    min_samples_split = trial.suggest_int('min_samples_split', 2, 20) # 建议范围 [2, 20] 的整数
    min_samples_leaf = trial.suggest_int('min_samples_leaf', 1, 20)   # 建议范围 [1, 20] 的整数
    max_features = trial.suggest_categorical('max_features', ['sqrt', 'log2', None]) # 建议分类参数
    # criterion = trial.suggest_categorical('criterion', ['gini', 'entropy']) # 可以添加更多参数

    # 2.2 创建并训练模型
    model = RandomForestClassifier(
        n_estimators=n_estimators,
        max_depth=max_depth,
        min_samples_split=min_samples_split,
        min_samples_leaf=min_samples_leaf,
        max_features=max_features,
        random_state=42, # 固定随机状态保证模型本身可复现
        n_jobs=-1
    )

    # 2.3 评估模型 (这里使用交叉验证，更稳健；也可以直接在验证集上评估)
    # 注意：在实际项目中，更推荐在objective函数内部使用交叉验证
    # score = cross_val_score(model, X_train, y_train, n_jobs=-1, cv=3, scoring='accuracy').mean()

    # 为了简单起见，这里直接在传入的验证集上评估
    model.fit(X_train, y_train)
    score = model.score(X_valid, y_valid)

    # 2.4 返回要优化的指标 (Optuna 默认是最大化该值)
    return score

# 3. 创建 Optuna Study 对象
# direction='maximize' 表示目标是最大化 objective 函数的返回值
study = optuna.create_study(direction='maximize', study_name='random_forest_optimization')

# 4. 运行优化
# n_trials=100 表示进行100次试验 (尝试100组超参数)
study.optimize(objective, n_trials=100, n_jobs=-1) # n_jobs=-1 使用所有CPU核心并行

# 5. 查看最佳结果
print("\n优化完成!")
print(f"尝试的总次数: {len(study.trials)}")
print(f"最佳试验:")
best_trial = study.best_trial
print(f"  返回值 (验证集准确率): {best_trial.value:.4f}")
print(f"  最佳超参数: {best_trial.params}")

# 6. (可选) 获取最佳参数用于最终模型训练
best_params = study.best_params
final_model = RandomForestClassifier(**best_params, random_state=42, n_jobs=-1)
# 使用完整的训练数据 (X_train + X_valid) 或原始的 X_train 来训练最终模型
# final_model.fit(np.concatenate((X_train, X_valid)), np.concatenate((y_train, y_valid)))
final_model.fit(X_train, y_train) # 演示用训练集训练
# 然后可以在独立的测试集 X_test, y_test 上评估最终性能

# 7. (可选) Optuna 可视化 (需要安装 matplotlib 和 plotly)
# pip install matplotlib plotly
# try:
#     optuna.visualization.plot_optimization_history(study).show()
#     optuna.visualization.plot_param_importances(study).show()
#     optuna.visualization.plot_slice(study, params=['n_estimators', 'max_depth']).show()
# except ImportError:
#     print("\n请安装 matplotlib 和 plotly 以启用可视化功能: pip install matplotlib plotly")

这个例子展示了 Optuna 的基本用法：定义一个清晰的 objective 函数，让 Optuna 自动探索参数空间并找到最佳组合。

五、实践中的注意事项 (Practical Considerations)

无论使用哪种调优策略，都有一些通用的实践建议：

5.1 定义合理的搜索空间 (Defining a Sensible Search Space)

基于经验和理解：根据你对算法的理解和问题的特性，设定一个大致合理的参数范围。例如，学习率通常在 1e-5 到 1e-1 之间取对数均匀分布。
从小范围开始：如果完全没有头绪，可以先用较宽泛的范围进行初步的随机搜索，找到一个大概有希望的区域，然后再进行更精细的搜索。
注意参数尺度：对于像 C 或 gamma 这样尺度变化很大的参数，通常在对数尺度上进行搜索（例如，[0.001, 0.01, 0.1, 1, 10, 100] 或使用对数均匀分布）会更有效。

5.2 结合交叉验证 (Combining with Cross-Validation)

在评估每组超参数时，务必使用交叉验证 (Cross-Validation, 如 K-Fold)。这可以提供更稳定、更可靠的性能估计，减少因特定验证集划分带来的偶然性，防止对验证集过拟合。GridSearchCV, RandomizedSearchCV 和 Optuna (如示例中注释掉的部分) 都原生支持交叉验证。

5.3 计算资源与时间考量 (Computational Resources and Time)

超参数调优通常是计算密集型的。

并行计算：利用 n_jobs=-1 参数（在 Scikit-learn 和 Optuna 中）来使用所有可用的 CPU 核心，加速搜索过程。对于更大型的任务，考虑分布式计算（如 Ray Tune, Dask, Spark）。
预算控制：对于随机搜索和贝叶斯优化，明确你的计算预算（例如，尝试的总次数 n_iter 或 n_trials，或者总时间限制）。
剪枝 (Pruning)：对于 Optuna 等支持剪枝的工具，一定要利用起来，可以显著减少在“无望”的试验上浪费的时间。

5.4 避免过拟合验证集 (Avoiding Overfitting to the Validation Set)

虽然我们用验证集来选择最佳超参数，但如果尝试了过多的超参数组合，模型最终可能会“记住”验证集的特性，导致在最终的、从未见过的测试集上表现不佳。这就是对验证集过拟合。

独立的测试集：始终保留一个完全独立的测试集，它不参与任何训练或超参数调优过程，仅用于在所有工作完成后评估最终选定模型的泛化能力。
嵌套交叉验证 (Nested Cross-Validation)：如果数据量有限，且需要非常严谨的性能评估，可以考虑嵌套交叉验证。外层循环用于评估模型泛化能力，内层循环用于超参数调优。但这计算成本更高。

六、总结

超参数调优是提升机器学习模型性能的关键环节。本文系统地梳理了超参数调优的核心知识：

区分了模型参数与超参数：前者是模型学习的，后者是需要我们设置和优化的。
介绍了经典的搜索策略：
- 网格搜索 (Grid Search)：简单但计算成本高，适合低维空间。
- 随机搜索 (Random Search)：效率更高，尤其适合高维空间，是实践中常用的基线方法。
简述了更智能的方法：
- 贝叶斯优化 (Bayesian Optimization)：利用历史评估结果指导搜索，样本效率高，适合评估成本高的场景。
展示了自动化调优工具：
- 以 Optuna 为例，演示了其灵活的 Define-by-run API 和易用性，是现代机器学习项目中强大的调优助手。
强调了实践中的注意事项：包括定义搜索空间、结合交叉验证、考虑计算资源以及避免对验证集过拟合的重要性。

掌握超参数调优技术，就像给你的模型装上了“导航系统”，能够更高效地找到通往更优性能的路径。希望通过本文的学习，你能更有信心地在实际项目中应用这些技巧，让你的模型效果真正“更上一层楼”！

在接下来的文章（Day 19）中，我们将探讨另一个提升模型性能的强大武器——特征工程 (Feature Engineering)，敬请期待！

你可能感兴趣的:(0基础实现机器学习入门到精通,机器学习,人工智能,pytorch,超参数调优,网格搜索,贝叶斯搜索,随机搜索)

AI小智项目全解析：软硬件架构与开发环境配置 Despacito0o ai语音助手人工智能硬件架构 struts
AI小智项目全解析：软硬件架构与开发环境配置一、项目整体架构AI小智是一款基于ESP32的智能物联网设备，集成了语音交互、边缘计算等功能。整体系统架构如下：终端设备：ESP32模组作为核心通信方式：WebSocket实现实时音视频传输MQTT连接物联网后台管理系统HTTP进行系统间数据交换二、软件架构详解2.1后端技术栈#核心技术栈backend_stack={"语言":"Python","框架"
在VSCode中搭建ESP32的编译环境详解承接电子控制项目开发 vscode ide 编辑器 ESP32 环境
在VSCode中搭建ESP32的编译环境，主要可通过两种方式实现：基于乐鑫官方推荐的EspressifIDF插件或使用PlatformIO插件。以下是基于EspressifIDF插件的详细步骤及注意事项：一、环境准备安装必要软件VSCode：从官网下载并安装最新版本12。Python3.8+：建议选择Python3.8或更高版本，安装时需取消勾选“Downloaddebuggingsymbols”
2021.10.4 比赛题整理伍叁壹_ 比赛整理题解 c++
2021.10.42021CSPJ初二初一冲刺七链接集合总结炸了炸了。。T3半天做了个寂寞。对算法不熟悉。T1：简单思维题；T2：KMPnxt数组的运用；T3：二分+图，代码实现可用并查集；T4：四维树形dp。T1题意设a0←1a_0\gets1a0←1，an←ai+aja_n\getsa_i+a_jan←ai+aj（i，j在[0,n−1)[0,n-1)[0,n−1)范围内随机）。求对于给定的nn
Python与ESP32开发环境搭建详解 Despacito0o ai语音助手 python 开发语言
Python与ESP32开发环境搭建详解一、前言大家好！今天给各位分享一篇超实用的开发环境配置教程，涵盖Python环境（PyCharm+Anaconda）和ESP32开发环境的完整搭建流程。无论你是新手还是老手，这篇教程都能帮你快速上手，避开各种配置陷阱。二、Python开发环境搭建2.1Anaconda安装Anaconda是Python最强大的包管理和环境管理工具之一，它可以让我们轻松创建独立
Chat Memory 虾条_花吹雪 Spring AI ai 人工智能
大型语言模型（LLM）是无状态的，这意味着它们不保留有关以前交互的信息。当您想在多个交互中维护上下文或状态时，这可能是一个限制。为了解决这个问题，SpringAI提供了聊天记忆功能，允许您在与LLM的多次交互中存储和检索信息。ChatMemory抽象允许您实现各种类型的内存来支持不同的用例。消息的底层存储由ChatMemoryRepository处理，其唯一职责是存储和检索消息。由ChatMemo
RNN案例人名分类器（完整步骤） AI扶我青云志 rnn 人工智能深度学习 nlp lstm gru
今天给大家分享一个NLP（自然语言处理）中的一个小案例，本案例讲解了RNN、LSTM、GRU模型是如何使用并进行预测的，一、案例架构人名分类器的实现可分为以下五个步骤:第一步:导入必备的工具包第二步:对data文件中的数据进行处理，满足训练要求第三步:构建RNN模型(包括传统RNN,LSTM以及GRU)第四步:构建训练函数并进行训练五步第:构建评估函数并进行预测二、实现步骤1.导包#导入torch
Redis性能优化指南
Redis的性能优化需要从内存管理、配置参数调优、客户端行为优化三个核心层面入手，结合业务场景平衡吞吐量、延迟和资源消耗。以下是具体优化策略：一、内存管理与压缩技术1.内存优化策略选择高效数据结构：优先使用Hash（存储对象）替代多个String（减少Key数量）。每一份对立的数据都有一个对应的key需要存储一份元数据(如类型、过期时间、指针等)。使用Ziplist编码的小型数据（如hash-ma
Python实例题：简单的聊天机器人狐凄实例 python 开发语言
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目简单的聊天机器人要求：实现一个基于规则的聊天机器人，支持简单问答和对话。支持以下功能：问候语识别与回应天气查询（模拟）时间/日期查询简单数学计算随机笑话生成添加对话历史记录功能，可随时查看。支持退出对话的指令。解题思路：使用关键词匹配实现简单的问答逻辑。利用Python内置模块处理时间、数学计算等功能。维护对话历史列表存储交
Spring AI 第二讲之 Chat Model API 第八节ZhiPu AI Chat 疼死老夫了人工智能
SpringAI支持知普人工智能的各种人工智能语言模型。您可以与知普人工智能语言模型互动，并基于知普人工智能模型创建多语言对话助手。先决条件您需要与ZhiPuAI创建一个API，以访问ZhiPuAI语言模型。在ZhiPuAI注册页面创建账户，并在APIKeys页面生成令牌。SpringAI项目定义了一个名为spring.ai.zhipuai.api-key的配置属性，你应将其设置为从APIKeys
Spring AI 第二讲之 Chat Model API 第五节HuggingFace Chat
HuggingFaceInferenceEndpoints允许您在云中部署和提供机器学习模型，并通过API对其进行访问。开始使用有关HuggingFaceInferenceEndpoints的更多详细信息，请访问此处。前提条件添加spring-ai-huggingface依赖关系：org.springframework.aispring-ai-huggingface获取HuggingFaceAPI
动手实践OpenHands系列学习笔记15：无头模式架构 JeffWoodNo.1 笔记架构
笔记15：无头模式架构一、引言无头模式(HeadlessMode)是现代软件系统中的重要架构模式，允许应用程序在没有图形界面的情况下运行，特别适用于自动化场景、CI/CD流水线和系统集成。OpenHands作为先进的AI驱动开发代理平台，提供了强大的无头模式支持。本笔记将探讨无头架构设计原则，分析OpenHands的无头模式实现，并通过实践构建一个使用无头模式API的自动化工作流。二、无头架构设计
动手实践OpenHands系列学习笔记9：容器安全加固 JeffWoodNo.1 笔记安全
笔记9：容器安全加固一、引言容器技术虽然提供了环境隔离，但仍存在潜在的安全风险。本笔记将探讨容器安全的基本原则，分析OpenHands中的安全考量，并实现一套容器安全加固方案，确保在保持功能性的同时提升系统安全性。二、容器安全基础理论2.1容器安全风险分析逃逸风险:容器突破隔离边界访问宿主机特权提升:获取比预期更高的系统权限资源耗尽:DoS攻击导致系统资源枯竭镜像安全:镜像中潜在的漏洞和恶意代码供
动手实践OpenHands系列学习笔记3：LLM集成基础 JeffWoodNo.1 笔记人工智能
笔记3：LLM集成基础一、引言大型语言模型(LLM)是OpenHands代理系统的核心驱动力。本笔记将深入探讨LLMAPI调用的基本原理，以及如何在实践中实现与Claude等先进模型的基础连接模块，为构建AI代理系统奠定基础。二、LLMAPI调用基础知识2.1LLMAPI基本概念API密钥认证:访问LLM服务的身份凭证提示工程:构造有效请求以获取预期响应推理参数:控制模型输出的各种参数流式响应:增
触发器设计美国VPS：优化数据库性能的关键策略 cpsvps oracle 数据库
在当今数字化时代，美国VPS（虚拟专用服务器）因其高性能和稳定性成为众多企业和开发者的首选。本文将深入探讨触发器设计在美国VPS中的应用，分析其优势、实现方法以及最佳实践，帮助您充分利用VPS资源，提升系统效率和响应速度。触发器设计美国VPS：优化数据库性能的关键策略美国VPS与触发器设计的完美结合美国VPS作为云计算领域的重要基础设施，为触发器设计提供了理想的运行环境。触发器（数据库中的自动执行
C语言之分支语句总结
学完了分支语句就浅浅的总结一下，嘿嘿！C语言是结构化的程序设计语言，这里的结构可分为顺序结构、选择结构、循环结构。其中顺序结构是一种线性、有序的程序执行结构，按照程序代码书写的先后顺序依次执行，选择结构依据条件判断，选择执行不同分支，循环结构是满足条件时，重复执行一段代码。其中我们是运用if,switch语句实现分支结构，运用while，for，do—while来实现循环结构。接下来依次进行介绍：
Chat Model API 虾条_花吹雪 Spring AI java
聊天模型API为开发人员提供了将人工智能聊天完成功能集成到应用程序中的能力。它利用预训练的语言模型，如GPT（生成预训练转换器），以自然语言对用户输入生成类似人类的响应。API通常通过向人工智能模型发送提示或部分对话来工作，然后人工智能模型根据其训练数据和对自然语言模式的理解生成对话的完成或继续。然后将完成的响应返回给应用程序，应用程序可以将其呈现给用户或用于进一步处理。Spring人工智能聊天模
Windows内核并发优化
Windows内核并发优化通过多层次技术手段提升多核环境下的系统性能，以下是关键技术实现方案：一、内核锁机制优化‌精细化锁策略‌采用自旋锁（Spinlock）替代信号量处理短临界区，减少线程切换开销对共享资源实施读写锁分离，如文件系统元数据采用ERESOURCE结构实现读写并发无锁数据结构‌关键路径（如调度队列）使用Interlocked原子操作指令（如lockcmpxchg）实现无锁同步内存分配
创客匠人深度剖析：家庭教育赛道创始人 IP 打造与知识变现的破局之道创小匠 tcp/ip 网络协议网络
在知识付费领域，家庭教育赛道的竞争日益激烈，如何从0-1打造创始人IP并实现高效拓客，成为创业者的核心难题。创客匠人服务的慈航德教育创始人陈向杰老师，通过视频号运营、产品矩阵设计与社群生态构建，实现单月拓客1.6万+，其背后的IP打造逻辑为行业提供了可复用的方法论。从慈航德教育的案例来看，创始人IP的定位需要锚定赛道本质需求。陈向杰老师将“慈、航、德”的品牌理念融入IP人设，以“帮助孩子减负”的教
创客匠人视角下：创始人 IP 如何通过内容运营实现知识变现的冷启动创小匠 tcp/ip 内容运营网络协议
知识付费创业的冷启动阶段，如何快速建立IP影响力并实现用户积累，是创业者面临的首要挑战。创客匠人服务的慈航德教育从0-1入局家庭教育赛道，单月拓客1.6万+的实践，揭示了创始人IP通过内容运营驱动知识变现的底层逻辑。视频号作为IP冷启动的核心阵地，其运营本质是价值观的持续输出。陈向杰老师通过840期连续直播（日均2小时），将“慈祥之心+明确方向+立德树人”的IP理念拆解为具体的育儿干货、案例解析与
从零开始写一个RTSP服务器（五）RTP传输AAC
从零开始写一个RTSP服务器系列★我的开源项目-RtspServer从零开始写一个RTSP服务器（一）RTSP协议讲解从零开始写一个RTSP服务器（二）RTSP协议的实现从零开始写一个RTSP服务器（三）RTP传输H.264从零开始写一个RTSP服务器（四）一个传输H.264的RTSP服务器从零开始写一个RTSP服务器（五）RTP传输AAC从零开始写一个RTSP服务器（六）一个传输AAC的RTSP
CentOS-7的“ifupdown“与Debian的“ifupdown“对比笔记250706 kfepiza OS操作系统 Windows Linux 等 #控制台命令行 Shell bash cmd 等网络通讯传输协议 IP TCP UDP 物联 centos debian 笔记 linux 网络
CentOS-7的"ifupdown"与Debian的"ifupdown"对比笔记250706CentOS7和Debian的ifupdown工具名称相同，但在实现机制、配置文件语法和系统集成上存在显著差异。以下是核心对比分析：⚙️一、核心差异概览对比维度CentOS7Debian工具定位network-scripts套件的一部分，依赖传统ifcfg文件独立包(ifupdown)，使用/etc/ne
JavaScript 中导入模块时，确实不需要显式地写 node_modules 路径。咔咔咔索菲斯 javascript vue
1.正确的导入语法在Webpack、Vite等打包工具中，node_modules目录是默认的模块搜索路径，因此直接写包名即可：//✅正确：直接使用包名import'nprogress/nprogress.css';//❌错误：不需要显式写node_modules路径import'node_modules/nprogress/nprogress.css';2.为什么不需要写node_module
mediapipe流水线分析三江太翁 Android NDK 人工智能 mediapipe android
目标检测Graph一流水线上游输入处理1TfLiteConverterCalculator将输入的数据转换成tensorflowapi支持的TensorTfLiteTensor并初始化相关输入输出节点，该类的业务主要通过interpreterstd::unique_ptrtflite::Interpreterinterpreter_=nullptr;实现类完成数据在cpu/gpu上的推理1.1Tf
7月6日星期日今日早报简报微语报早读微语早读生活
7月6日星期日，农历六月十二，早报#微语早读。1、江苏：县级以下禁止开发政务服务APP，年底前全面完成整合归并；2、台风“丹娜丝”或于7日夜间至8日上午在闽浙沿海登陆；3、中国足协：超2.5万人注册球员自荐系统，303人进入备选库；4、商务部：只要欧盟企业满足承诺条件，就不会被征收白兰地反倾销税；5、中国人民抗日战争纪念馆7月8日起恢复开放；6、WTT美国大满贯单打签表公布，孙颖莎王楚钦等将出战；
【RTSP从零实践】4、使用RTP协议封装并传输AAC
博客主页：https://blog.csdn.net/wkd_007博客内容：嵌入式开发、Linux、C语言、C++、数据结构、音视频本文内容：介绍怎么使用RTP协议封装并传输AAC金句分享：你不能选择最好的，但最好的会来选择你——泰戈尔⏰发布时间⏰：2025-07-0118:43:18本文未经允许，不得转发！！！目录一、概述二、实现步骤、实现细节✨2.1、实现AAC文件读取器✨2.2、实现AAC
面试必问之JVM原理 teayear 面试 jvm 职场和发展
1：什么是JVMJVM是JavaVirtualMachine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以
SIMULINK开发项目实例 1000 例专栏之第663例：基于simulink的SVPWM技术的研究的三相电压源逆变器建模仿真 xiaoheshang_123 MATLAB 开发项目实例 1000 例专栏手把手教你学 MATLAB 专栏 matlab simulink
目录准备工作步骤详解第一步：创建Simulink项目第二步：选择并添加合适的库组件第三步：构建基本的三相电压源逆变器模型第四步：实现SVPWM算法第五步：仿真与调试第六步：结果分析第七步：优化与改进第八步：导出与部署总结三相电压源逆变器（VoltageSourceInverter,VSI）在电力电子中是将直流电转换为交流电的一种重要设备，广泛应用于电机驱动、不间断电源（UPS）、可再生能源系统等领
JVM架构原理 cocoon-breaking jvm 架构 java
一、简介虚拟机是物理机的软件实现。Java的设计理念是WORA（WriteOnceRunAnywhere，一次编写随处运行）。编译器将Java文件编译为Java.class文件，然后将.class文件输入到JVM中，JVM执行类文件的加载和执行的操作。请看以下的JVM架二、JVM是如何工作的？如上面架构图所示，JVM分为三个主要子系统：类加载器子系统（ClassLoaderSubsystem）运行
构建智能企业知识管理平台：动态知识图谱与语义检索系统 AI天才研究院 Agentic AI 实战 AI大模型企业级应用开发实战 AI人工智能与大数据知识图谱人工智能 ai
构建智能企业知识管理平台：动态知识图谱与语义检索系统关键词：知识管理平台、动态知识图谱、语义检索、知识图谱构建、语义检索算法摘要：本文详细探讨了构建智能企业知识管理平台的核心技术，重点介绍了动态知识图谱和语义检索系统的原理与实现。通过分析知识图谱的构建方法和语义检索算法，结合实际案例，展示了如何利用这些技术提升企业的知识管理水平。文章内容包括背景介绍、核心概念、算法原理、系统架构设计、项目实战以及
基于DeepSeek × 数据治理如何落地？这套解决方案可参考！
Q：数据治理困局怎么破？3步落地DeepSeek实战方案导语："每天处理10亿条数据，却找不到关键业务指标？""数据部门80%时间在'找数据-洗数据-背锅'的死循环？"这不是危言耸听——国内83%的企业正困在数据沼泽中（IDC最新数据）。今天揭秘某头部电商企业如何用DeepSeek方案，3个月实现数据治理自动化，让数据真正成为资产！一、数据治理的三大致命误区（90%企业正在踩坑）"工具万能论"：买
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，