南师大蒜阿熏呀

机械学习模型训练常用代码（随机森林、聚类、逻辑回归、svm、线性回归、lasso回归，岭回归）

一、数据处理（特征工程）

更多pandas操作请参考添加链接描述pandas对于文件数据基本操作
导入的包sklearn

pip3 install --index-url https://pypi.douban.com/simple scikit-learn

缺失值处理

#缺失值查看
df.replace('NaN ', np.nan, inplace=True)#将数据中一些None替换为NULL
df.isnull().sum()
df.fillna(method='pad', inplace=True) # 填充前一条数据的值

类型转换

#类型转换
df[a] = df[a].apply(lambda x: float(x))

字符串编码处理，LabelEncoder

from sklearn.preprocessing import LabelEncoder
#使用LabelEncoder对数据集进行编码
le = LabelEncoder()
cat_data = ['需要编码的列名']
for i in cat_data:
    df[i] = le.fit_transform(df[i])

TfidfVectorizer结合TruncatedSVD

#向量转换
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.pipeline import Pipeline
import joblib
# raw documents to tf-idf matrix: 
vectorizer = TfidfVectorizer(stop_words='english', 
                             use_idf=True, 
                             smooth_idf=True)
# SVD to reduce dimensionality: 采用了随机SVD算法，迭代次数为10次，将维度降至5
svd_model = TruncatedSVD(n_components=5,       
                         algorithm='randomized',
                         n_iter=10)
# pipeline of tf-idf + SVD, fit to and applied to documents:流水线
svd_transformer = Pipeline([('tfidf', vectorizer), 
                            ('svd', svd_model)])
# fit and transform the data:
dc_matrix = svd_transformer.fit_transform(data['分词描述'])

# save the models to disk:
joblib.dump(svd_transformer, 'svd_transformer.joblib')
# load the models from disk:
svd_transformer = joblib.load('svd_transformer.joblib')
#转换
dc_matrix = svd_transformer.transform(data['分词描述'])
dc_matrix.shape

特征值选取

from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.model_selection import train_test_split
x_data = df.iloc[:, 1:-1]  # 特征值
y_data = df.iloc[:, -1]  # labels
# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.3, random_state=42)
# 使用ANOVA F-value作为评分函数选择最佳的10个特征
selector = SelectKBest(f_classif, k=10)
selector.fit(X_train, y_train)

# 获取选择的特征的索引
selected_features_indices = selector.get_support(indices=True)

# 获取选择的特征的名称
selected_features_names = x_data.columns[selected_features_indices]

# 打印选择的特征名称
print("Selected features:", selected_features_names)

# 绘制特征的评分图表
plt.bar(range(len(selector.scores_)), selector.scores_)
plt.xticks(range(len(selector.scores_)), x_data.columns, rotation=90)
plt.show()

数据划分

from sklearn.model_selection import train_test_split
x_data = df.iloc[:, 0:-1]  # 特征值0--2列
y_data = df.iloc[:, -1]  # labels最后一列
# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.3, random_state=42)

排除某一列，例如

x_data = df.drop(df.columns[5], axis=1)

模型训练

逻辑回归（分类模型）

from sklearn import metrics
#划分数据集，输入最佳参数
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
#需要调优的参数
#请尝试将L1正则和L2正则分开，并配合合适的优化求解算法（solver）
#tuned_parameters={'penalth':['l1','l2'],'C':[0.001,0.01,0.1,1,10,100,
# 1000]}
#参数的搜索范围
penaltys=['l1','l2']
Cs=[0.1,1,10,100,1000]
#调优的参数集合，搜索网格为2x5，在网格上的交叉点进行搜索
tuned_parameters=dict(penalty=penaltys,C=Cs)
 
lr_penalty=LogisticRegression(solver='liblinear')
grid=GridSearchCV(lr_penalty,tuned_parameters,cv=3,scoring='neg_log_loss',
    n_jobs=4)

grid.fit(x_train,y_train)
#预测
lr_y_predict = grid.predict(x_test)

# 打印最佳参数和准确率
print('Best parameters:', grid.best_params_)
print('Best accuracy:', grid.best_score_)

#评估
score_lr = metrics.accuracy_score (y_test,lr_y_predict)
#绘制预测效果
print('accuracy_score 评估逻辑回归模型:',score_lr)

随机森林（分类模型）

如果需要用到回归则换成RandomForestRegressor

from tqdm import tqdm
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
#再对RandomForestClassifier进行调优
k = []
v = []
for i in tqdm(range(1,10)):
    #数据划分
    model= RandomForestClassifier(max_depth=i, random_state=2)
    #加载模型训练
    model.fit(x_train, y_train)
    #预测
    lr_y_predict = model.predict(x_test)
    #评估
    score_lr = accuracy_score(y_test,lr_y_predict)
    #记录结果
    k.append(score_lr)
    v.append(i)
    #展示每次调整的结果
print('best max_depth',v[k.index(max(k))])
val1 = v[k.index(max(k))]
#再对RandomForestClassifier进行调优
k = []
v = []
for i in tqdm(range(1,10)):
    #数据划分
    model= RandomForestClassifier(max_depth=val1, n_estimators=i)
    #加载模型训练
    model.fit(x_train, y_train)
    #预测
    lr_y_predict = model.predict(x_test)
    #评估
    score_lr = accuracy_score(y_test,lr_y_predict)
    #记录结果
    k.append(score_lr)
    v.append(i)
print('best random_state',v[k.index(max(k))])
print('Accuracy 评估随机森林:',max(k))

svm算法（时间太长这里不调优）

from sklearn import svm
from sklearn.metrics import accuracy_score


# 创建 SVM 分类器并拟合训练数据
clf = svm.SVC(kernel='linear')
clf.fit(x_train, y_train)

# 预测测试集并计算准确率
y_pred = clf.predict(x_test)
SVMaccuracy = accuracy_score(y_test, y_pred)
print('Accuracy SVM:', SVMaccuracy)

聚类

数据在dc_matrix里面

from sklearn.model_selection import GridSearchCV
# 定义参数范围
param_grid = {
    'n_clusters': [5, 10, 15, 20],
    'init': ['k-means++', 'random'],
    'max_iter': [300, 500, 1000],
    'tol': [1e-4, 1e-5, 1e-6],
    'random_state': [42]
}
# 创建KMeans对象
kmeans = KMeans()
# 创建GridSearchCV对象
grid_search = GridSearchCV(kmeans, param_grid, n_jobs=-1)
# 对数据进行聚类和搜索最佳超参数
grid_search.fit(dc_matrix)
# 输出最佳超参数
best_params = grid_search.best_params_
print(best_params)
# 使用最佳超参数对数据进行聚类
best_kmeans = KMeans(**best_params)
kmeans_results = best_kmeans.fit_predict(dc_matrix)
plt.rcParams["figure.figsize"] = (12, 10)
plt.scatter(x = document_concept_matrix[0], y = document_concept_matrix[1], c=kmeans_results)

绘制距离

# Get distances to cluster centers
distances = best_kmeans.transform(dc_matrix)

# Plot the distances using a boxplot
sns.boxplot(data=distances)
plt.show()

#加入到表里面

dfco['分类结果']= pd.DataFrame([i for i in kmeans_results])[0]
dfco['到分类中心的距离']= pd.DataFrame([i for i in distances])[0]
dfco

模型保存与使用

师范，保存文本模型，使用其转换，调用聚类，预测

#保存聚类模型
import joblib
# save the models to disk:
joblib.dump(svd_transformer, 'svd_transformer.joblib')
# save the model to disk
filename = 'kmeans_model.sav'
joblib.dump(best_kmeans, filename)

#向量转换
import joblib
# load the models from disk:
svd_transformer = joblib.load('svd_transformer.joblib')
#转换为向量
test_dc_matrix_pf = svd_transformer.transform(dfco['分词描述2'])

# save the model to disk
filename = 'kmeans_model.sav'
# load the model from disk
loaded_model = joblib.load(filename)
# use the loaded model to make predictions
new_results_pf = loaded_model.predict(test_dc_matrix_pf)

k邻近

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import r2_score
import numpy as np
import matplotlib.pyplot as plt

# 定义参数范围
n_neighbors = list(range(1, 11))
weights = ['uniform', 'distance']
algorithms = ['ball_tree', 'kd_tree', 'brute']

# 初始化空列表存储结果
results = []

# 循环遍历所有参数组合
for n in n_neighbors:
    for w in weights:
        for a in algorithms:
            # 实例化模型
            knn = KNeighborsClassifier(n_neighbors=n, weights=w, algorithm=a)
            # 拟合数据
            knn.fit(x_train, y_train)
            # 预测测试集
            res_y = knn.predict(x_test)
            # 计算r2_score
            score_knn = r2_score(y_test, res_y)
            # 将参数组合和得分添加到结果列表
            results.append((n, w, a, score_knn))

# 将结果转换为NumPy数组并按得分进行排序
results = np.array(results)
results = results[np.argsort(results[:, 3])[::-1]]

# 打印最佳参数和得分
best_params = {'n_neighbors': results[0][0], 'weights': results[0][1], 'algorithm': results[0][2]}
best_score = results[0][3]
print('Best parameters: ', best_params)
print('Best score: ', best_score)

# 绘制折线图，显示不同参数组合的得分
fig, ax = plt.subplots(figsize=(12, 6))
for i, weight in enumerate(weights):
    mask = results[:, 1] == weight
    x = results[mask][:, 0]
    y = results[mask][:, 3]
    ax.plot(x, y, marker='o', label=weight)
ax.set_xlabel('n_neighbors')
ax.set_ylabel('r2_score')
ax.set_title('KNeighborsClassifier parameter tuning')
ax.legend()
plt.show()

Lasso回归

from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import Lasso
reg = Lasso()
param_grid = {'alpha':  np.linspace(0, 1, 100)}
###STEP3###
#问题一：创建参数优化器GridSearchCV，将参数model，param_grid传入
grid = GridSearchCV(reg, param_grid, cv=5)
grid.fit(x_train, y_train)
print(grid.best_params_)
print(grid.score(x_test, y_test))
###STEP4###
#使用最优参数(grid.best_estimator_)的Lasso模型进行预测
ridge_model=grid.best_estimator_
y_hat = ridge_model.predict(x_test)
plt.scatter(y_test, y_hat)
plt.xlabel("Actual Price")
plt.ylabel("Predicted Price")
plt.title("Predicted Vs Actual Prices", fontsize=15)
plt.show()

线性回归

from sklearn.ensemble import RandomForestRegressor
lr = LinearRegression(fit_intercept=True, normalize=False)
lr.fit(x_train, y_train)
lr_y_predict = lr.predict(x_test)
score_lr = r2_score(y_test,lr_y_predict)
plt.scatter(y_test, lr_y_predict)
plt.xlabel("Actual Price")
plt.ylabel("Predicted Price")
plt.title("Predicted Vs Actual Prices", fontsize=15)
plt.show()
print('简单评估线性回归模型:',score_lr)

岭回归

from sklearn.linear_model import RidgeCV
#加载岭回归模型
rr = RidgeCV(alphas=np.array([.1, .2, .3, .4]))
rr.fit(x_train,y_train)
rr_y_predict = rr.predict(x_test)
score_rr = r2_score(y_test,rr_y_predict)
print('简单评估岭回归模型:',score_rr)
plt.scatter(y_test, rr_y_predict)
plt.xlabel("Actual Price")
plt.ylabel("Predicted Price")
plt.title("Predicted Vs Actual Prices", fontsize=15)
plt.show()

你可能感兴趣的:(回归,随机森林,聚类)

《聚类算法》入门--大白话篇：像整理房间一样给数据分类
一、什么是聚类算法？想象一下你的衣柜里堆满了衣服，但你不想一件件整理。聚类算法就像一个聪明的助手，它能自动帮你把衣服分成几堆：T恤放一堆、裤子放一堆、外套放一堆。它通过观察衣服的颜色、大小、款式这些特征，把相似的放在一起，不相似的分开。在计算机世界里，聚类算法就是帮我们把杂乱的数据分成有意义的组。它不需要提前知道答案（这就是"无监督学习"），而是像侦探一样，从数据中发现隐藏的规律。二、最常见的三种
用Tensorflow进行线性回归和逻辑回归（十） lishaoan77 tensorflow 线性回归 tensorboard 可视化
用TensorBoard可视化线性回归模型TensorBoard是一种可视化工具，用于了解、调试和优化模型训练过程。它使用在执行程序时编写的摘要事件。上面定义的模型使用tf.summary.FileWriter来写日志到日志目录/tmp/lr-train.我们可以用命令调用日志目录的TensorBoard，见Example3-13(TensorBoard已黙认安装与TensorFlow一起).Ex
【k近邻】 K-Nearest Neighbors算法原理及流程 F_D_Z 机器学习方法数理算法学习机器学习 k近邻算法 k-近邻算法
【k近邻】K-NearestNeighbors算法原理及流程【k近邻】K-NearestNeighbors算法距离度量选择与数据维度归一化【k近邻】K-NearestNeighbors算法k值的选择【k近邻】Kd树的构造与最近邻搜索算法【k近邻】Kd树构造与最近邻搜索示例k近邻算法（K-NearestNeighbors，简称KNN）是一种常用的监督学习算法，可以用于分类和回归问题。在OpenCV中
高斯混合模型（Gaussian Mixture Model, GMM）不想秃头的程序神经网络语音识别人工智能深度学习网络
高斯混合模型（GaussianMixtureModel,GMM）是一种概率模型，用于表示数据点由多个高斯分布（GaussianDistribution）混合生成的过程。它广泛应用于聚类分析、密度估计、图像分割、语音识别等领域，尤其适合处理非球形簇或多模态数据。以下是GMM的详细介绍：一、核心思想GMM假设数据是由多个高斯分布混合生成的，每个高斯分布代表一个簇（Cluster），并引入隐变量（Lat
深入详解：决策树算法的概念、原理、实现与应用场景猿享天开算法决策树机器学习
深入详解：决策树算法的概念、原理、实现与应用场景决策树（DecisionTree）是机器学习中一种直观且广泛应用的监督学习算法，适用于分类和回归任务。其树形结构易于理解，特别适合初学者。本文将从概念、原理、实现到应用场景，全面讲解决策树，并通过流程图和可视化示例增强理解，通俗易懂，帮助小白快速掌握决策树算法相关知识。1.决策树的概念1.1什么是决策树？决策树通过一系列条件判断（决策节点）将输入数据
Python 数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙清水白石008 python Python题库 python 数据挖掘动画
Python数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙引言在数字化浪潮席卷全球的今天，数据已成为企业和组织最重要的战略资产。海量数据蕴藏着巨大的价值，等待我们去挖掘和发现。数据挖掘(DataMining)，作为从海量数据中提取有价值知识和模式的关键技术，正日益受到各行各业的重视。它如同探矿者的火眼金睛，能够穿透数据的迷雾，发现隐藏在背后的规律和趋势，为商业决策、科学研究和社会发展提供强有
高斯混合模型GMM&K均值（十三-1）——K均值是高斯混合模型的特例 phoenix@Capricornus 模式识别与机器学习均值算法机器学习算法
EM算法与K均值算法的关系K均值可以看成是高斯混合模型的特例。对K均值算法与EM算法进行比较后，可以发现它们之间有很大的相似性。K均值算法将数据点硬（hard）分配到聚类中，每个数据点唯一地与一个聚类相关联，而EM算法基于后验概率进行软（soft）分配。事实上，可以从EM算法推导出K均值算法。考虑一个高斯混合模型，其中混合分量的协方差矩阵由σ2I{\sigma^2}Iσ2I给出，其中σ2{\sig
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
MATLAB实现WOA-BP鲸鱼优化算法优化BP神经网络多输入单输出回归预测（含模型描述及示例代码） nantangyuxi MATLAB 含模型描述及示例代码算法 matlab 神经网络大数据人工智能深度学习机器学习
目录MATLAB实现WOA-BP鲸鱼优化算法优化BP神经网络多输入单输出回归预测（多指标，多图）1项目背景介绍...1项目目标与意义...2项目挑战...3项目特点与创新...5<
顺序内聚是指模块内的处理元素密切相关，并且必须按照特定的顺序执行，前一个处理元素的输出是下一个处理元素的输入 Bol5261 JVM(Java Virtual Machine)JMM(Java Memory Model)JMS(Java Message Service)服务器
该模块的内聚类型为顺序内聚。顺序内聚是指模块内的处理元素密切相关，并且必须按照特定的顺序执行，前一个处理元素的输出是下一个处理元素的输入。这种内聚类型比功能内聚稍弱，但仍然具有较高的内聚性。根据模块内聚的分类标准，当模块中各个处理元素密切相关于同一功能，且必须顺序执行，前一处理元素的输出直接作为下一处理元素的输入时，这种内聚类型属于顺序内聚（SequentialCohesion）。模块内聚类型对比
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
前端替换打包后文件中的内容方案（可用于渗透测试后将问题版本号清空临时解决方案） Anarkh_Lee 前端 node vue 前端 vue node.js
1.问题背景在前端项目安全扫描过程中，经常遇到第三方依赖库版本安全风险提示。然而，直接升级依赖库可能导致以下问题：升级成本高，需要全面回归测试可能引入新的兼容性问题项目稳定性风险增加开发周期延长本文介绍一种在构建过程中优化版本信息的技术方案，适用于紧急情况下的临时处理方案。2.实现思路该方案主要通过以下步骤实现：识别构建后文件中包含的第三方库版本信息创建构建后处理脚本，去除特定版本号信息集成到现有
（线性代数最小二乘问题）Normal Equation（正规方程）音程数学线性代数机器学习人工智能
NormalEquation（正规方程）是线性代数中的一个重要概念，主要用于解决最小二乘问题（LeastSquaresProblem）。它通过直接求解一个线性方程组，找到线性回归模型的最优参数（如权重或系数）。以下是详细介绍：1.定义与数学表达式给定一个超定方程组（方程数量多于未知数）：Ax=bA\mathbf{x}=\mathbf{b}Ax=b其中：A∈Rm×nA\in\mathbb{R}^{m
【机器学习第二期（Python）】优化梯度提升决策树 XGBoost WW、forever 深度学习原理及代码实现机器学习 python 决策树
优化梯度提升决策树XGBoost一、XGBoost简介二、原理详解2.1基础思想：改进版GBDT2.2目标函数2.3二阶泰勒展开优化2.4树结构优化三、XGBoost实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考梯度提升决策树GBDT的原理及Python代码实现可参考另一博客-【机器学习第一期（Python）】梯度提升决策树GBDT。XGBoost（ExtremeGrad
AI人工智能领域回归：实现技术与服务的深度融合 AI学长带你学AI 人工智能回归数据挖掘 ai
AI人工智能领域回归：实现技术与服务的深度融合关键词：AI人工智能、技术与服务融合、回归、实现路径、应用场景摘要：本文聚焦于AI人工智能领域中技术与服务深度融合的回归趋势。首先介绍了这一趋势的背景，包括目的、预期读者和文档结构。接着阐述了相关核心概念及联系，通过流程图清晰展示。详细讲解了核心算法原理并给出Python代码示例，还介绍了相关数学模型和公式。通过项目实战，从开发环境搭建到代码实现与解读
Prompt Engineering终极手册：构建高效AI提示词库的完整技术路线 LCG元大模型 prompt 人工智能
目录一、提示词库构建核心架构二、关键技术实现步骤1.数据采集与清洗2.提示词向量化编码3.聚类分析与分类存储三、API服务化部署四、性能优化方案五、监控与持续优化六、应用效果展示本文将深入探讨构建企业级AI提示词库的完整技术方案，含数据处理、模型训练、部署监控全流程代码实现在AI应用爆炸式增长的今天，提示词质量直接决定模型输出效果。本文将手把手教你构建企业级提示词库，涵盖以下核心技术环节：一、提示
使用随机森林实现目标检测司南锤 python基础学习 AI 随机森林
核心实现思路滑动窗口策略：在图像上滑动固定大小的窗口，对每个窗口进行分类多维特征提取：结合统计特征、纹理特征、边缘特征、形状特征等随机森林分类：训练二分类器判断窗口是否包含目标后处理优化：使用非极大值抑制减少重复检测特征工程的重要性LBP纹理特征：捕捉局部纹理模式灰度共生矩阵：描述纹理的统计特性边缘密度：反映目标边界信息形状描述符：圆形度、面积比等几何特征实际应用建议数据收集：收集大量正负样本进行
【PyCharm 使用技巧】PyCharm 基本功能详解 || 【Jupyter Notebook】如何进入其它盘，如D盘？H盘？|| 【机器学习】聚类算法详解及其应用 || 道路交通流量模拟预测追光者♂ Python从入门到人工智能工具技巧解决办法百题千解计划(项目实战案例）PyCharm使用技巧 Jupyter如何进入其它盘聚类算法练习 PyCharm详解时空交通流预测模拟
作者主页：追光者♂个人简介：在读计算机专业硕士研究生、CSDN-人工智能领域新星创作者、2022年CSDN博客之星人工智能领域TOP4、阿里云社区专家博主【无限进步，一起追光！】欢迎点赞收藏⭐留言本篇的目录一，是请看目录四——PyCharm基础设置回顾的续篇，继续记录讲解PyCharm的基本功能。目录二回顾了在使用Jupyter时的问题。目录三练习了机器学习算法中的聚类算法。目录一、再次了解PyC
Boosting：从理论到实践——集成学习中的偏差征服者大千AI助手人工智能 Python #OTHER 集成学习 boosting 机器学习 tree 人工智能 ML
核心定位：一种通过串行训练弱学习器、自适应调整数据权重，将多个弱模型组合成强模型的集成学习框架，专注于降低预测偏差。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、Boosting的本质目标：将一系列弱学习器（仅比随机猜测略好，如浅层决策树）组合成强学习器核心思想：错误驱动学习：后续模型重点修正
C4.5算法深度解析：决策树进化的里程碑大千AI助手算法决策树机器学习 C4.5 Python 人工智能 AI
C4.5是机器学习史上最经典的算法之一，由ID3之父RossQuinlan在1993年提出。作为ID3的革命性升级，它不仅解决了前代的核心缺陷，更开创了连续特征处理和剪枝技术的先河，成为现代决策树的奠基之作。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！往期文章推荐:20.用Mermaid代码画E
6.26打卡丁值心机器学习小白从0到1 人工智能深度学习机器学习 python 开发语言
@浙大疏锦行DAY55序列预测任务介绍知识点回顾1.序列预测介绍a.单步预测b.多步预测的2种方式2.序列数据的处理：滑动窗口3.多输入多输出任务的思路4.经典机器学习在序列任务上的劣势；以随机森林为例作业：手动构造类似的数据集（如cosx数据），观察不同的机器学习模型的差异#准备工作importnumpyasnpimportrandomimportosimportmatplotlib.pyplo
k近邻算法(kNearest Neighbors) 原理与代码实例讲解 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
k-近邻算法,聚类,分类,分离散数据,决策边界,邻域,机器学习,监督学习k-近邻算法(k-NearestNeighbors)-原理与代码实例讲解k-近邻算法（k-NearestNeighbors，简称kNN）是一种简单的监督学习方法，它在机器学习领域有着广泛的应用。kNN算法的核心思想是：在特征空间中，如果一个样本附近的k个最近邻样本的大多数属于某个类别，则该样本也属于这个类别。这种基于局部决策的
GBDT：梯度提升决策树——集成学习中的预测利器大千AI助手人工智能 Python #OTHER 决策树集成学习算法 GBDT 梯度提升人工智能机器学习
核心定位：一种通过串行集成弱学习器（决策树）、以梯度下降方式逐步逼近目标函数的机器学习算法，在结构化数据预测任务中表现出色。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、GBDT是什么？全称：GradientBoostingDecisionTree（梯度提升决策树）本质：Boosting集成学
Python 逻辑回归：开启分类问题的智慧之门海燕李 python 逻辑回归开发语言 scikit-learn
一、逻辑回归的魅力之源在机器学习的璀璨星空中，逻辑回归宛如一颗耀眼的明星，照亮了分类问题的求解之路。它之所以备受青睐，是因为其独特的理论架构和广泛的适用性。逻辑回归虽名为“回归”，但本质上是一种用于分类的强大算法。它巧妙地将线性关系与分类任务相结合，通过构建一个概率模型，来预测样本属于某个类别的可能性。这种对概率的估计能力，使得它在众多领域中脱颖而出。例如，在医疗诊断中，可预测患者是否患有某种疾病
机器学习算法-逻辑回归模型在交通领域的应用是一个Bug 机器学习算法逻辑回归
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档逻辑回归模型在交通领域的应用：车流数量和平均速度之间的关系前言结果分析代码分析逻辑回归可视化：交通拥堵预测的动态建模过程一、交通数据生成与预处理二、逻辑回归核心算法实现三、动态可视化：决策边界的演变过程四、特征标准化与模型评估五、实验结果与模型解读六、拓展思考：逻辑回归的局限性结语：从代码到交通智能前言紧接上文的逻辑回归原理分析讲一讲
梯度增强与XGBoost算法解析 weixin_47233946 算法算法
##一、梯度增强（GradientBoosting）原理###1.1集成学习与Boosting集成学习通过结合多个弱模型提升整体性能，主要包括Bagging（如随机森林）和Boosting两类方法。**梯度增强**属于Boosting家族，核心思想是**串行训练模型，每一步修正前序模型的残差**，最终形成强预测器。###1.2算法核心流程1.**初始化基模型**：用常数（如目标变量均值）预测。2.
机器学习之常用的回归预测模型曼城周杰伦机器学习机器学习回归人工智能算法
本文全面整理了各种回归预测模型，旨在帮助读者更好地学习回归预测模型。转载自：https://mp.weixin.qq.com/s/7m2waIASOEg90NONgRpQFQ一.线性模型线性回归是一种线性模型，通过特征的线性组合来预测连续值标签。线性回归通过拟合系数（可选择是否设置截距）的线性模型，以最小化真实值和预测值之间的残差平方和。scikit-learnlinear_models：http
GRU门控循环单元回归+SHAP分析，Matlab代码实现，通过SHAP方法量化特征贡献，构建可解释的回归模型，引入SHAP方法打破黑箱限制，提供全局及局部双重解释视角，作者：机器学习之心！机器学习之心可解释机器学习 GRU门控循环单元回归 SHAP分析
GRU门控循环单元回归+SHAP分析，Matlab代码实现，通过SHAP方法量化特征贡献，构建可解释的回归模型，引入SHAP方法打破黑箱限制，提供全局及局部双重解释视角，作者：机器学习之心！目录GRU门控循环单元回归+SHAP分析，Matlab代码实现，通过SHAP方法量化特征贡献，构建可解释的回归模型，引入SHAP方法打破黑箱限制，提供全局及局部双重解释视角，作者：机器学习之心！效果一览基本介绍
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他