微信1257309054

机器学习之逻辑斯蒂回归

逻辑斯蒂回归

【关键词】Logistics函数，最大似然估计，梯度下降法

1、Logistics回归的原理

利用Logistics回归进行分类的主要思想是：根据现有数据对分类边界线建立回归公式，以此进行分类。这里的“回归” 一词源于最佳拟合，表示要找到最佳拟合参数集。

训练分类器时的做法就是寻找最佳拟合参数，使用的是最优化算法。接下来介绍这个二值型输出分类器的数学原理。

Logistic Regression和Linear Regression的原理是相似的，可以简单的描述为这样的过程：

（1）找一个合适的预测函数，一般表示为h函数，该函数就是我们需要找的分类函数，它用来预测输入数据的判断结果。这个过程是非常关键的，需要对数据有一定的了解或分析，知道或者猜测预测函数的“大概”形式，比如是线性函数还是非线性函数。

（2）构造一个Cost函数（损失函数），该函数表示预测的输出（h）与训练数据类别（y）之间的偏差，可以是二者之间的差（h-y）或者是其他的形式。综合考虑所有训练数据的“损失”，将Cost求和或者求平均，记为J(θ)函数，表示所有训练数据预测值与实际类别的偏差。

（3）显然，J(θ)函数的值越小表示预测函数越准确（即h函数越准确），所以这一步需要做的是找到J(θ)函数的最小值。找函数的最小值有不同的方法，Logistic Regression实现时有梯度下降法（Gradient Descent）。

1) 构造预测函数

Logistic Regression虽然名字里带“回归”，但是它实际上是一种分类方法，用于二分类问题（即输出只有两种）。首先需要先找到一个预测函数（h），显然，该函数的输出必须是两类值（分别代表两个类别），所以利用了Logistic函数（或称为Sigmoid函数），函数形式为：

该函数形状为：

2）优缺点

优点：实现简单，计算代价不高，速度很快
缺点：分类精度可能不高
适用场景：样本数据量极大的情况下

2、实战

sklearn.linear_model.LogisticRegression(solver=’liblinear’)

solver参数的选择：

“liblinear”：小数量级的数据集
“lbfgs”, “sag” or “newton-cg”：大数量级的数据集以及多分类问题
“sag”：极大的数据集

注意：

以下命令都是在浏览器中输入。

cmd命令窗口输入：jupyter notebook

后打开浏览器输入网址http://localhost:8888/

1) 手写数字数据集的分类

使用KNN与Logistic回归两种方法

导包

#导入数据load_digits()
from matplotlib import pyplot as plt
from sklearn.datasets import load_digits

获取数据

digits = load_digits()
#digits

images = digits.images#表示的是真实的图片数据
data = digits.data   #样本特征数据
target = digits.target   #目标数据
#images.shape返回的（1797，8，8）表示的是一共1717张像素为8*8的图片,
#如果将每张图片作为特征样本，则一共有1717个样本数据。每一个样本数据
#都是一个8*8的二维数据。

#data是images可作为样本特征数据的一种形式。
#images本身不可作为样本的特征数据。
#原因是：特征数据都是二维形式存在的，行表示特征数据的个数，
#列表示特征的不同分类。
#而images是三维的需要进行扁平化处理成二维的才可作为特征数据。
#而data就是images经过扁平化处理之后的数据值。

如果图像样本集中没有把图像扁平化处理成二维数据，那么需要自己手动处理，处理代码如下(本实例中已经有处理好的二维数据data)

#对一个8*8的图片进行扁平化处理,通过循环逐一进行扁平化处理
data_= images[0].ravel().reshape(1,-1)
for i in range(1,images.shape[0]): 
    data_=np.concatenate((data_,images[i].ravel().reshape(1,-1)))
data_.shape
#得到的data_和data是一样的的

创建模型，训练和预测

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

拆分样本集

X_train,X_test,y_train,y_test = train_test_split(data,target,
                                            test_size=0.2,
                                            random_state=1)

logistic 分类模型

#创建模型对象
logistic = LogisticRegression()

#测试 训练模型花费的时间
%time logistic.fit(X_train,y_train)

#对训练后的模型进行评分
logistic.score(X_test,y_test)

knn分类模型

#创建模型
knn = KNeighborsClassifier(n_neighbors=9)

#测试 训练模型花费的时间
%time knn.fit(X_train,y_train)

#对训练后的模型进行评分
knn.score(X_test,y_test)

2) 使用make_blobs产生数据集进行分类

导包使用datasets.make_blobs创建一系列点

Logistics模型

导包

import numpy as np
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
%matplotlib inline

# make_blobs是一个函数，可以创建一个分类样本集
from sklearn.datasets import make_blobs

from sklearn.linear_model import LogisticRegression

创建分类样本集

设置三个中心点，随机创建150个点

#参数1：样本个数  
#参数2：样本特征数  
#参数3：表示中心点（分类的类别数量）。一类样本数据会围绕中心点分布 
#返回值：样本集（特征数据和目标数据）
X_train,y_train = make_blobs(n_samples=150,n_features=2,centers=3)
#centers=[[2,6],[4,2],[6,5]]，参数centers可以是具体的坐标点

绘制分类样本图

plt.scatter(X_train[:,0],X_train[:,1],c=y_train)

创建logistic分类模型

logistic = LogisticRegression()

训练模型

logistic.fit(X_train,y_train)

获取坐标系所有点作为测试数据

#将整个坐标系中的所有点获取，作为分类测试数据
xmin,xmax = X_train[:,0].min()-0.5,X_train[:,0].max()+0.5
ymin,ymax = X_train[:,1].min()-0.5,X_train[:,1].max()+0.5

x = np.linspace(xmin,xmax,300)
y = np.linspace(ymin,ymax,300)

xx,yy = np.meshgrid(x,y)

X_test = np.c_[xx.ravel(),yy.ravel()]

模型预测

#获得分类测试结果
y_ = logistic.predict(X_test)

绘制分类边界图

from matplotlib.colors import ListedColormap
cmap = ListedColormap(['r','g','b'])

logistic模型绘制的分类边界是一条直线。

Knn模型

#导入knn模型包
from sklearn.neighbors import KNeighborsClassifier

#创建模型并训练
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train,y_train)
#获取模型预测的数据
y1_ = knn.predict(X_test)

#绘制分类边界图
plt.scatter(X_test[:,0],X_test[:,1],c=y1_,cmap=cmap)
plt.scatter(X_train[:,0],X_train[:,1],c=y_train)

knn模型绘制的分类边界是一条曲线，预测结果更加精准。

结论

KNN和Logistic对比：
KNN：时间和空间复杂度高。准确率高。
Logistic：时间复杂度和空间复杂度低，准确率低于KNN 。

3）预测年收入是否大于50K美元

读取adult.txt文件，并使用逻辑斯底回归算法训练模型，根据种族、职业、工作时长来预测一个人的性别。

#导包
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
%matplotlib inline

#读取数据
data= pd.read_csv('./adults.txt')
data

#提取特征数据
features=data[['race','occupation','hours_per_week']]
features.head()

#提取目标数据
target=data['sex']
target.head()

#‘race’这一列里的数据是字符串，
#需要映射替换成数字才能参与模型训练的运算
#获取种族类型数量
r_unique=features['race'].unique()
r_unique_size=r_unique.size

#创建对角矩阵
dm=np.eye(r_unique_size)

#定义一个映射函数
def trans(r):
    index=np.argwhere(r==r_unique)[0][0]
    return dm[index]
#映射
features['race']=features['race'].map(trans)

#‘occupation’职业也一样，需要映射替换成数字

o_unique=features['occupation'].unique()
o_unique_size=o_unique.size

#创建对角矩阵
dm=np.eye(o_unique_size)

#定义一个映射函数
def trans(o):
    index=np.argwhere(o==o_unique)[0][0]
    return dm[index]
#映射
features['occupation']=features['occupation'].map(trans)

features.head()

#‘race’里面的每一个数组拆分成n列然后再合并
race=features['race'][0]
for item in features['race'][1:]:
    race=np.concatenate((race,item))

race=race.reshape(-1,r_unique_size)
race

#‘occupation’里面的每一个数组拆分成n列然后再合并
occupation=features['occupation'][0]
for item in features['occupation'][1:]:
    occupation=np.concatenate((occupation,item))

occupation=occupation.reshape(-1,o_unique_size)
occupation

hours=features['hours_per_week'].values.reshape(-1,1)
hours

#把三个特征数据合并成二维数组
train=np.hstack((race,occupation,hours))
train

#对最后一列进行归一化处理
train[:,-1:] = train[:,-1:]/train[:,-1:].sum()
train[:,-1:]

#导入模型包
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

#把样本集数据拆分成训练数据和测试数据
x_train,x_test,y_train,y_test=train_test_split(train,target,
                                            test_size=0.2,
                                            random_state=1)

logistic模型

#创建logistic模型对象
logistic=LogisticRegression()
#训练模型
logistic.fit(x_train,y_train)
#对模型进行评分
logistic.score(x_test,y_test)

#检测logistic模型训练花费的时间
%time logistic.fit(x_train,y_train)

knn模型

knn=KNeighborsClassifier(n_neighbors=99)
knn.fit(x_train,y_train)
#对模型进行评分
knn.score(x_test,y_test)

#检测knn模型训练花费的时间
%time knn.fit(x_train,y_train)

4)从疝气病症预测病马的死亡率

#导入归一化函数处理包
from sklearn.preprocessing import MinMaxScaler,StandardScaler,Normalizer

#读取数据
train = pd.read_csv('./data/horseColicTraining.txt',
                    sep='\t',header=None)
test = pd.read_csv('./data/horseColicTest.txt',
                    sep='\t',header=None)

#训练集的特征数据和目标数据
X_train = train.values[:,:21]
y_train = train[21]
#测试集的特征数据和目标数据
X_test = test.values[:,:21]
y_test = test[21]

#使用函数Normalizer()进行归一化处理
X_test1 = Normalizer().fit_transform(X_test)
X_train1 = Normalizer().fit_transform(X_train)
#创建knn模型
knn = KNeighborsClassifier()
#训练模型并评分
knn.fit(X_train1,y_train).score(X_test1,y_test)

使用MinMaxScaler()对特征数据进行归一化

X_train2 = MinMaxScaler().fit_transform(X_train)
X_test2 = MinMaxScaler().fit_transform(X_test)
#训练模型并评分
knn.fit(X_train2,y_train).score(X_test2,y_test)

使用StandardScaler()对特征数据进行归一化

X_train3 = StandardScaler().fit_transform(X_train)
X_test3 = StandardScaler().fit_transform(X_test)
#训练模型并评分
knn.fit(X_train3,y_train).score(X_test3,y_test)

使用logistic模型

#创建logistic模型对象
logistic = LogisticRegression(C=3)
#训练模型并评分
logistic.fit(X_train1,y_train).score(X_test1,y_test)

结论：

从评分可以看出在这个例子中logistic模型评分较高，使用这个模型较好。

你可能感兴趣的:(机器学习)

机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
【sklearn 01】人工智能概述 @金色海岸人工智能 sklearn python
一、人工智能，机器学习，深度学习人工智能指由人类制造出的具有智能的机器。这是一个非常大的范围，长远目标是让机器实现人工智能，但目前我们仍处在非常初始的阶段，甚至不能称为智能机器学习是指通过数据训练出能完成一定功能的模型，是实现人工智能的手段之一，也是目前最主流的人工智能实现方法深度学习则是机器学习的分支，超过8层的神经网络模型就叫深度学习，深度即层数。深度学习目前在语音、图像等领域取得很好的效果
【AI】使用Python实现机器学习小项目教程丶2136 AI 人工智能 python 机器学习
引言在本教程中，我们将带领您使用Python编程语言实现一个经典的机器学习项目——鸢尾花（Iris）分类。通过这个项目，您将掌握机器学习的基本流程，包括数据加载、预处理、模型训练、评估和优化等步骤。论文AIGC检测，降AIGC检测，AI降重，三连私信免费获取：ReduceAIGC9折券！DetectAIGC立减2元券！AI降重9折券！目录引言一、项目背景与目标二、开发环境准备2.1所需工具2.2环
AI人工智能中的概率论与统计学原理与Python实战：Python实现概率模型 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的不断发展，概率论与统计学在人工智能领域的应用越来越广泛。概率论与统计学是人工智能中的基础知识之一，它们在机器学习、深度学习、自然语言处理等领域都有着重要的作用。本文将介绍概率论与统计学的核心概念、算法原理、具体操作步骤以及Python实现方法，并通过具体代码实例进行详细解释。2.核心概念与联系2.1概率论与统计学的区别概率论是一门数学学科，它研究随机事件发生的可能性。
技术解析麦萌短剧《月光下的你》：从「时间序列的对抗扰动」到「加密身份的收敛证明」萌萌短剧重构
《月光下的你》以十六年的时间跨度展开一场关于「数据污染」与「身份验证」的深度博弈，本文将用机器学习视角拆解这场跨越时空的模型纠偏实验。1.数据污染事件：十六年前的对抗攻击许芳菲（Agent_Xu）的遭遇可视为时间序列上的对抗样本注入：标签篡改攻击：许清清（Adversary_XuQing）通过伪造标签（Label_Tampering）将Agent_Xu与傅临州（Node_Fu）强行关联，触发道德约
机器学习 [白板推导]（三）[线性分类] 神齐的小马机器学习分类人工智能
4.线性分类4.1.线性分类的典型模型硬分类：输出结果只有0或1这种离散结果；感知机线性判别分析Fisher软分类：会输出0-1之间的值作为各个类别的概率；概率生成模型：高斯判别分析GDA、朴素贝叶斯，主要建模的是p(x⃗,y)p(\vec{x},y)p(x,y)概率判别模型：逻辑回归，主要建模的是p(y∣x⃗)p(y|\vec{x})p(y∣x)4.2.感知机4.2.1.基本模型模型：f(x
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
人工智能直通车系列24【机器学习基础】（机器学习模型评估指标（回归））浪九天人工智能直通车开发语言 python 机器学习深度学习神经网络人工智能
目录机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）2.均方根误差（RootMeanSquaredError,RMSE）3.平均绝对误差（MeanAbsoluteError,MAE）4.决定系数（CoefficientofDetermination,R2）机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）详细解释均方误差是回归问
从零开始学机器学习——构建一个推荐web应用努力的小雨机器学习机器学习前端人工智能
首先给大家介绍一个很好用的学习地址：https://cloudstudio.net/columns今天，我们终于将分类器这一章节学习完活了，和回归一样，最后一章节用来构建web应用程序，我们会回顾之前所学的知识点，并新增一个web应用用来让模型和用户交互。所以今天的主题是美食推荐。美食推荐Web应用程序首先，请不要担心，本章节并不会涉及过多的前端知识点。我们此次的学习重点在于机器学习本身，因此我们
Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例云策量化 Python自动化炒股量化投资量化软件 python 量化交易 QMT PTrade 量化炒股量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例在当今快节奏的金融市场中，自动化交易和预测模型成为了投资者和交易者的重要工具。Python以其强大的数据处理能力和丰富的机器学习库，成为了实现这些模型的首选语言。本文将带你了解如何使用XGBoost和LightGBM这两个流行的机器学习算法来
【sklearn 04】DNN、CNN、RNN @金色海岸 sklearn dnn cnn
DNNDNN（DeepNeuralNetworks，深度神经网络）是一种相对浅层机器学习模型具有更多参数，需要更多数据进行训练的机器学习算法CNNCNN（convolutionalNeuralNetworks，卷积神经网络）是一种从局部特征开始学习并逐渐整合的神经网络。卷积神经网络通过卷积层来进行特征提取，通过池化层进行降维，相比较全连接的神经网络，卷积神经网络降低了模型复杂度，减少了模型的参数，
【sklearn 02】监督学习、非监督下学习、强化学习 @金色海岸 sklearn 学习人工智能
监督学习、非监督学习、强化学习**机器学习通常分为无监督学习、监督学习和强化学习三类。-第一类：无监督学习（unsupervisedlearning），指的是从信息出发自动寻找规律，分析数据的结构，常见的无监督学习任务有聚类、降维、密度估计、关联分析等。-第二类：监督学习（supervisedlearning），监督学习指的是使用带标签的数据去训练模型，并预测未知数据的标签。监督学习有两种，当预测
从LLM出发：由浅入深探索AI开发的全流程与简单实践（全文3w字）码事漫谈 AI 人工智能
文章目录第一部分：AI开发的背景与历史1.1人工智能的起源与发展1.2神经网络与深度学习的崛起1.3Transformer架构与LLM的兴起1.4当前AI开发的现状与趋势第二部分：AI开发的核心技术2.1机器学习：AI的基础2.1.1机器学习的类型2.1.2机器学习的流程2.2深度学习：机器学习的进阶2.2.1神经网络基础2.2.2深度学习的关键架构2.3Transformer架构：现代LLM的核
纳米尺度仿真软件：Quantum Espresso_（20）.机器学习在QuantumEspresso中的应用 kkchenjj 分子动力学2 机器学习人工智能模拟仿真仿真模拟分子动力学
机器学习在QuantumEspresso中的应用在现代材料科学和纳米技术的研究中，机器学习（ML）技术已经成为一种强大的工具，用于加速和优化量子力学计算。QuantumEspresso是一个广泛使用的开源软件包，用于进行第一性原理计算，特别是在纳米尺度材料的模拟中。本节将介绍如何将机器学习技术应用于QuantumEspresso，以提高计算效率、预测材料性质和优化结构。1.机器学习与第一性原理计算
新手村：数据预处理-异常值检测方法嘉羽很烦机器学习机器学习
机器学习中异常值检测方法一、前置条件知识领域要求编程基础Python基础（变量、循环、函数）、JupyterNotebook或PyCharm使用。统计学基础理解均值、中位数、标准差、四分位数、正态分布、Z-score等概念。机器学习基础熟悉监督/无监督学习、分类、聚类、回归等基本概念。数据预处理数据清洗、特征缩放（标准化/归一化）、数据可视化（Matplotlib/Seaborn）。二、渐进式学习
新手村：数据预处理-特征缩放嘉羽很烦机器学习线性回归算法机器学习
新手村：数据预处理-特征缩放特征缩放（FeatureScaling）是数据预处理中的一个重要步骤，特别是在应用某些机器学习算法时。特征缩放可以使不同尺度的特征具有相同的量级，从而提高模型训练的效率和性能。常见的特征缩放方法包括标准化（Standardization）和归一化（Normalization）。常见的特征缩放方法标准化（Standardization）将特征转换为均值为0，标准差为1的标
过拟合：机器学习中的“死记硬背”陷阱彩旗工作室人工智能机器学习人工智能
在机器学习中，过拟合（Overfitting）是一个几乎每个从业者都会遇到的经典问题。它像一把双刃剑：当模型过于“聪明”时，可能会陷入对训练数据的过度依赖，从而失去处理新问题的能力。本文将从原理到实践，深入探讨过拟合的本质及应对策略。1.什么是过拟合？过拟合是指模型在训练数据上表现极佳，但在新数据（测试数据或真实场景数据）上表现显著下降的现象。通俗来说，模型像一个“死记硬背的学生”，记住了训练集中
【Python】已解决：pip安装第三方模块（库）与PyCharm中不同步的问题（PyCharm添加本地python解释器）屿小夏 python pip pycharm
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
如何在github上参与开源项目这个懒人 github 开源软件
1.创建GitHub账号如果你还没有GitHub账号，首先需要注册一个：访问GitHub官网。点击右上角的“Signup”按钮，填写注册信息并完成注册。2.找到感兴趣的项目GitHub上有成千上万的开源项目，你可以通过以下方式找到感兴趣的项目：搜索项目：在GitHub首页的搜索框中输入关键词，例如“机器学习”、“Web开发”等。使用高级搜索功能，通过语言、标签等过滤条件找到合适的项目。浏览Tren
【AI大模型智能应用】Deepseek生成测试用例柳柳的博客 AI大模型测试用例
在软件开发过程中，测试用例的设计和编写是确保软件质量的关键。然而，软件系统的复杂性不断增加，手动编写测试用例的工作量变得异常庞大，且容易出错。DeepSeek基于人工智能和机器学习，它能够依据软件的需求和设计文档，自动生成高质量的测试用例，显著减轻人工编写测试用例的负担。体验一把用DeepSeek编写测试用例，还生成清晰直观的思维导图，整个流程十分顺畅。这篇文章讲解如何使用deepseek生成功能
Python依赖管理工具分析 xdpcxq1029 python 开发语言
Python的依赖管理工具一直没有标准化，原因主要包括：历史发展的随意性：Python发展早期对于依赖管理的重视程度不足，缺乏从一开始就进行统一规划和设计的意识社区的分散性：Python社区庞大且分散，众多开发者和团队各自为政，根据自己的需求和偏好开发工具，缺乏统一的协调和整合机制多样化的使用场景：Python应用场景广泛，从Web开发到数据科学、机器学习、系统管理脚本等。不同场景对依赖管理有着不
【人工智能基础2】机器学习、深度学习总结 roman_日积跬步-终至千里人工智能习题人工智能机器学习深度学习
文章目录一、人工智能关键技术二、机器学习基础1.监督、无监督、半监督学习2.损失函数：四种损失函数3.泛化与交叉验证4.过拟合与欠拟合5.正则化6.支持向量机三、深度学习基础1、概念与原理2、学习方式3、多层神经网络训练方法一、人工智能关键技术领域基础原理与逻辑机器学习机器学习基于数据，研究从观测数据出发寻找规律，利用这些规律对未来数据进行预测。基于学习模式，机器学习可以分为监督、无监督、强化学习
Python精进系列： K-Means 聚类算法调用库函数和手动实现对比分析进一步有进一步的欢喜 Python 精进系列算法 python kmeans
一、引言在机器学习领域，聚类分析是一种重要的无监督学习方法，用于将数据集中的样本划分为不同的组或簇，使得同一簇内的样本具有较高的相似性，而不同簇之间的样本具有较大的差异性。K-Means聚类算法是最常用的聚类算法之一，它以其简单性和高效性在数据挖掘、图像分割、模式识别等领域得到了广泛应用。本文将详细介绍K-Means聚类算法，并分别给出调用现成函数和不调用任何现成函数实现K-Means聚类的代码示
热门AI创作助手推荐【第一期】量子星澜文心一言 AI写作 chatgpt
星游AI创作助手人工智能在现代科技中的应用非常广泛，涵盖了诸多领域，包括但不限于以下几个方面：1.语音识别和自然语言处理：人工智能技术被广泛应用于语音识别和自然语言处理领域，例如智能助手、翻译系统、语音交互系统等。2.机器学习和数据分析：人工智能的机器学习算法被用于数据分析、预测建模、用户个性化推荐等领域，帮助企业做出更准确的商业决策。3.计算机视觉：人工智能在计算机视觉领域的应用包括图像识别、视
新手村：线性回归-实战-波士顿房价预测嘉羽很烦机器学习线性回归算法回归
新手村：线性回归-实战-波士顿房价预测前置条件阅读：新手村：线性回归了解相关概念实验目的1.熟悉机器学习的一般流程2.掌握基础的数据处理方法3.理解常用的回归算法教学例子：预测房价（以波士顿房价数据集为例）本次实验，你将使用真实的波士顿房价数据集建立起一个房价预测模型，并且了解到机器学习中的若干重要概念和评价方法，请通过机器学习建立回归模型，即:Y=θ0+θ1×X1+θ2×X2+θ3×X3+⋯+θ
【解锁机器学习：探寻数学基石】游戏乐趣机器学习人工智能
机器学习中的数学基础探秘在当今数字化时代，机器学习无疑是最具影响力和发展潜力的技术领域之一。从图像识别到自然语言处理，从智能推荐系统到自动驾驶，机器学习的应用无处不在，深刻地改变着我们的生活和工作方式。然而，在这看似神奇的机器学习背后，数学作为其坚实的理论基础，起着不可或缺的关键作用。毫不夸张地说，数学是打开机器学习大门的钥匙，是理解和掌握机器学习算法与模型的核心所在。想象一下，机器学习就像是一座
机器学习——正则化、欠拟合、过拟合、学习曲线代码的建筑师学习记录机器学习机器学习学习曲线过拟合欠拟合正则化
过拟合（overfitting）:模型只能拟合训练数据的状态。即过度训练。避免过拟合的几种方法：①增加全部训练数据的数量（最为有效的方式）②使用简单的模型（简单的模型学不够，复杂的模型学的太多），这里的简单指的是不要过于复杂③正则化（对目标函数后加上正则化项）：使得这个“目标函数+正则化项”的值最小，即为正则化，用防止参数变得过大（参数值变小，意味着对目标函数的影响变小），λ是正则化参数，代表正则
从过拟合到强化学习：机器学习核心知识全解析吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能过拟合强化学习 python LLM scikit-learn
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
利用matlab实现贝叶斯优化算法（BO）优化支持向量机回归(SVR)的超参数是内啡肽耶算法 matlab 支持向量机机器学习回归
【导读】在机器学习建模中，支持向量机（SVM）回归模型的效果高度依赖超参数选择。但手动调参就像"大海捞针"，而网格搜索又面临"计算爆炸"的难题。今天给大家介绍一个智能调参黑科技——贝叶斯优化算法。通过Matlab实现，只需几分钟就能让模型性能自动升级！一、为什么要用贝叶斯优化调参？传统调参三大痛点：C参数（正则化强度）：过小导致过拟合，过大削弱模型能力ε参数（不敏感区域）：决定对预测误差的容忍度核
机器学习的下一个前沿是因果推理吗？——探索机器学习的未来方向！真智AI 人工智能机器学习
机器学习的进化：从预测到因果推理机器学习凭借强大的预测能力，已经彻底改变了多个行业。然而，要实现真正的突破，机器学习还需要克服实践和计算上的挑战，特别是在因果推理方面的应用。未来，因果推理或许将成为推动机器学习发展的新前沿。什么是因果推理，它如何与机器学习相关？如果你和我一样没有数学背景，你可能会好奇“因果推理”到底意味着什么？它与机器学习又有什么关系？当我刚开始学习机器学习时，第一次听到“因果推
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他