Sponge Bob

统计学习方法（三）1-least_sqaure_method

import numpy as np  #数值计算库
import scipy as sp  #Scipy是一个高级的科学计算库，它和Numpy联系很密切
from scipy.optimize import leastsq  #leastsq()表示最小二乘拟合计算
import matplotlib.pyplot as plt  #画图
%matplotlib inline  
#%matplotlib inline 可以在Ipython编译器里直接使用，功能是可以内嵌绘图，并且可以省略掉plt.show()这一步。

ps: numpy.poly1d([1,2,3]) 生成 $1x^2+2x^1+3x^0$

# 目标函数
def real_func(x):
    return np.sin(2*np.pi*x)  #定义目标函数real_func

# 多项式
def fit_func(p, x):
    f = np.poly1d(p)  #定义多项式，p为参数向量，x为随机变量
    return f(x)

# 残差
def residuals_func(p, x, y):
    ret = fit_func(p, x) - y  #定义残差，即多项式拟合值与实际值的差值，y表示输入变量x对应的实际输出变量
    return ret

# 十个点
x = np.linspace(0, 1, 10)
x_points = np.linspace(0, 1, 1000)
# 加上正态分布噪音的目标函数的值
y_ = real_func(x)
y = [np.random.normal(0, 0.1)+y1 for y1 in y_]

def fitting1(M=0):
    """
    M 为 多项式的最高次数
    """    
    # 随机初始化多项式参数
    p_init = np.random.rand(M+1)
    # 最小二乘法
    p_lsq = leastsq(residuals_func, p_init, args=(x, y))
    
    # 可视化
    plt.plot(x_points, real_func(x_points), label='real')
    plt.plot(x_points, fit_func(p_lsq[0], x_points), label='fitted curve')
    plt.plot(x, y, 'bo', label='noise')
    plt.legend()
    return plt.show()

#M=0
plt.text(0,0.9,"M = 0")  #加入文本注释
fitting1(M=0)

#M=1
plt.text(0,0.9,"M = 1")
fitting1(M=1)

#M=3
plt.text(0,0.9,"M = 3")
fitting1(M=3)

#M=9
plt.text(0,0.9,"M = 9")
fitting1(M=9)

M=0

M=1

M=3

M=9

当M=0时，多项式是一条直线，数据的拟合效果很差，认为“欠拟合”，欠拟合通常是因为学习能力低下导致的；

当M=1时，多项式是一条直线，数据的拟合效果也很差，认为“欠拟合”；

当M=3时，多项式是一条曲线，数据的拟合效果比较好，模型也比较简单；

当M=9时，多项式曲线通过了每个数据点，但模型比较复杂，模型对数据预测过好，对未知数据预测很差，认为“过拟合”，过拟合通常是因为所选择模型的复杂度比真模型更高。

对于欠拟合，只需增加模型复杂度即可；

对于过拟合，常用的方法有：正则化与交叉验证。

2、正则化

结果显示过拟合，引入正则化项(regularizer)，降低过拟合

$Q(x)=\sum_{i=1}^n(h(x_i)-y_i)^2+\lambda||w||^2$ 。

回归问题中，损失函数是平方损失，正则化可以是参数向量的L2范数,也可以是L1范数。

L1: regularization*abs( $p$ )
L2: 0.5 * regularization * np.square( $p$ )

正则化的作用是选择经验风险与模型复杂度都较小的模型

正则化符合奥卡姆剃刀原理，在所有可能选择的模型中，能够很好的解释已知数据并且十分简单才是最好的模型。

regularization = 0.0001   #作为调整经验风险和正则化项关系的系数

#加入正则化项的结构风险最小化
def residuals_func_regularization(p, x, y):
    ret = fit_func(p, x) - y
    ret = np.append(ret, 0.5*regularization*np.sqrt(np.sum(np.square(p))))  # L2范数作为正则化项
    return ret

# 最小二乘法,加正则化项

def fitting2(M=0):
    """
    M 为 多项式的最高次数
    """    
    # 随机初始化多项式参数
    p_init = np.random.rand(M+1)
    # 最小二乘法
    p_lsq = leastsq(residuals_func, p_init, args=(x, y))
    # 最小二乘法，加入正则化项
    p_lsq_regularization = leastsq(residuals_func_regularization, p_init, args=(x, y))
    
    # 可视化
    plt.plot(x_points, real_func(x_points), label='real')
    plt.plot(x_points, fit_func(p_lsq[0], x_points), label='fitted curve')
    plt.plot(x_points, fit_func(p_lsq_regularization[0], x_points), label='regularization')
    plt.plot(x, y, 'bo', label='noise')
    plt.legend()
    return plt.show()

#M=0
plt.text(0,0.9,"M = 0")  #加入文本注释
fitting2(M=0)

#M=1
plt.text(0,0.9,"M = 1")
fitting2(M=1)

#M=3
plt.text(0,0.9,"M = 3")
fitting2(M=3)

#M=9
plt.text(0,0.9,"M = 9")
fitting2(M=9)

M = 0

M=1

M = 3

M = 9

加入正则化项后，M = 9多项式的拟合效果更好，过拟合降低

3、简单交叉验证

#简单交叉验证，选择有最小预测误差的模型
from sklearn.model_selection import train_test_split


x = np.linspace(0,1,2000)  #创建从0到1，20个等差间隔数列
x_points = np.linspace(0, 1, 1000)  #创建从0到1，个数为1000的等差间隔数列

# 加上正态分布随机噪音的目标函数的值
y_ = real_func(x)  #将创建的等差数列x作为输入，得到目标函数对应的输出值
y = [np.random.normal(0, 0.1)+y1 for y1 in y_]   #解析式，将创建的目标函数的输出值上，随机加入正态分布噪音（其中正态分布的均值为0，标准差为0.1）

test_size = 0.10
seed = 4
x_train,x_test,y_train,y_test = train_test_split(x, y, test_size = test_size, random_state = seed)  #random_stste表示随机种子，为了进行可重复的训练，需要固定random_stste

def fitting3(M=0):
    """
    M 为 多项式的最高次数
    """    
    # 随机初始化多项式参数
    p_init = np.random.rand(M+1)  #来自均匀分布的长度为M+1的随机数，参数表示指定的形状，均匀分布的属于[0, 1)
    # 定义最小二乘法，没有加正则化
    p_lsq = leastsq(residuals_func, p_init, args=(x_train, y_train))  #来自scipy库的leastsq(),表示最小二乘函数，其中residuals_func为指定的误差函数，p_init为参数初始值，args=(x, y)为误差函数中调用的参数
    #leastsq()返回拟合的参数值
    print('Fitting Parameters:', p_lsq[0])  #返回拟合的回归系数
    
    # 可视化
    plt.plot(x_points, real_func(x_points), label='real')
    plt.plot(x_points, fit_func(p_lsq[0], x_points), label='fitted curve')  #拟合的M次多项式
    plt.plot(x_train, y_train, 'bo', label='noise')
    plt.plot(x_test, y_test, 'ro', label='test')
    plt.legend()  #显示图例
    
    
    #训练误差和测试误差
    train_err = np.sum(residuals_func(p_lsq[0],x_train,y_train)**2)/len(x_train)
    test_err = np.sum(residuals_func(p_lsq[0],x_test,y_test)**2)/len(x_test)
    print("训练误差：",train_err)
    print("测试误差：",test_err)
    return p_lsq,train_err,test_err

# M=0，表示多项式次数为0
p_lsq_0 = fitting3(M=0)  #得到的结果为欠拟合

Fitting Parameters: [-0.00254771]
训练误差： 0.5080438309671172
测试误差： 0.5064028740331827

M=0

#M = 1
p_lsq_1 = fitting3(M=1)

Fitting Parameters: [-1.9105494 0.95545301]
训练误差： 0.20539699001835074
测试误差： 0.22087267850762224

M=1

# M=3
p_lsq_3 = fitting3(M=3)

Fitting Parameters: [ 23.18756541 -34.78037548 12.00875189 -0.20806997]
训练误差： 0.014295575398024054
测试误差： 0.015509264503001633

M=3

# M=9
p_lsq_9 = fitting3(M=9)

Fitting Parameters: [-3.30005845e+02 1.55625414e+03 -2.95990953e+03 2.89401400e+03 -1.57115336e+03 5.22004345e+02 -1.20865985e+02 3.11880254e+00 6.58323145e+00 -1.51227081e-02]
训练误差： 0.009914936961862256
测试误差： 0.01022899901075852

M=9

训练误差就是模型在训练集上的误差平均值，度量了模型对训练集拟合的情况。训练误差大说明对训练集特性学习得不够，训练误差太小说明过度学习了训练集特性，容易发生过拟合。

测试误差是模型在测试集上的误差平均值，度量了模型的泛化能力。在实践中，希望测试误差越小越好。

#训练误差，测试误差与模型复杂度，这里我们将多项式次数当作模型复杂度
a = []
b = []
c = []

def err(M=0):
    """
    M 为 多项式的最高次数
    """    
    # 随机初始化多项式参数
    p_init = np.random.rand(M+1)  #来自均匀分布的长度为M+1的随机数，参数表示指定的形状，均匀分布的属于[0, 1)
    # 定义最小二乘法
    p_lsq = leastsq(residuals_func, p_init, args=(x_train, y_train))  #来自scipy库的leastsq(),表示最小二乘函数，其中residuals_func为指定的误差函数，p_init为参数初始值，args=(x, y)为误差函数中调用的参数
    #leastsq()返回拟合的参数值
    
    #训练误差和测试误差
    train_err = np.sum(residuals_func(p_lsq[0],x_train,y_train)**2)/len(x_train)
    test_err = np.sum(residuals_func(p_lsq[0],x_test,y_test)**2)/len(x_test)
    return train_err,test_err

for i in range(0,20):
    train_err = err(M=i)[0]
    test_err = err(M=i)[1]
    a.append(i)
    b.append(train_err)
    c.append(test_err)

from scipy.interpolate import spline
a = np.array(a)
new = np.linspace(a.min(),a.max(),300) #300 represents number of points to make between T.min and T.max
b_smooth = spline(a,np.array(b),new)
c_smooth = spline(a,np.array(c),new)

plt.plot(new,b_smooth,label = "train_err")
plt.plot(new,c_smooth,label = "test_err")

plt.legend()  #显示图例

plt.plot(new,b_smooth,label = "train_err")

plt.plot(new,c_smooth,label = "test_err")

# M=12
p_lsq_12 = fitting3(M=12)

Fitting Parameters: [ 7.70925250e+02 -2.13948790e+03 1.47955079e+02 5.50179162e+03
-6.90542937e+03 1.62269614e+03 2.85253493e+03 -2.73110094e+03
1.10968608e+03 -2.52646390e+02 1.71394979e+01 5.98163113e+00
-9.12991970e-03]
训练误差： 0.009910459864207754
测试误差： 0.010255984175229287

# M=3
p_lsq_4 = fitting3(M=8)

Fitting Parameters: [ 7.03218670e+01 -1.61073181e+02 3.49309068e+01 1.45531318e+02
-9.15455065e+01 5.06544960e+00 -1.03725482e+01 7.19451627e+00
-2.17477408e-02]
训练误差： 0.009917380173524877
测试误差： 0.010226245482564962

经过简单交叉验证，认为M = 3时，模型效果最好

当模型复杂度增大时，训练误差会减少并趋向于0，测试误差会先减少，达到最小值后又增大。

4、样条插值

插值与拟合的区别：

插值曲线要过数据点，拟合曲线不一定要过数据点。

拟合，就是要得到最接近的结果，是要看总体效果。

import scipy.interpolate
import numpy as np, matplotlib.pyplot as plt
from scipy.interpolate import interp1d

#'nearest','zero'为0阶样条插值 ，'
    #slinear',‘linear’线性插值 相当于1阶样条插值 
    #'quadratic'为2阶样条插值
    #'cubic'3阶样条插值,更高阶的曲线可以直接使用整数值来指定 
    
    
x_ = np.linspace(x.min(), x.max(), 100)
fig, ax = plt.subplots(figsize=(8, 4))
ax.scatter(x, y)
for n in ['linear']:   # 'linear', 'nearest', 'zero', 'slinear', 'quadratic', 'cubic', 5, 9
    f = interp1d(x, y, kind = n)
    ax.plot(x_, f(x_), label= n)
ax.legend()
ax.set_ylabel(r"$y$", fontsize=15)
ax.set_xlabel(r"$x$", fontsize=15)
plt.plot(x_points, real_func(x_points), label='real')
plt.show()

1阶样条/线性插值

x_ = np.linspace(x.min(), x.max(), 100)
fig, ax = plt.subplots(figsize=(8, 4))
ax.scatter(x, y)
for n in [ 'nearest']:   # 'linear', 'nearest', 'zero', 'slinear', 'quadratic', 'cubic', 5, 9
    f = interp1d(x, y, kind = n)
    ax.plot(x_, f(x_), label= n)
ax.legend()
ax.set_ylabel(r"$y$", fontsize=15)
ax.set_xlabel(r"$x$", fontsize=15)
plt.plot(x_points, real_func(x_points), label='real')
plt.show()

0阶样条

x_ = np.linspace(x.min(), x.max(), 100)
fig, ax = plt.subplots(figsize=(8, 4))
ax.scatter(x, y)
for n in [ 'zero']:   # 'linear', 'nearest', 'zero', 'slinear', 'quadratic', 'cubic', 5, 9
    f = interp1d(x, y, kind = n)
    ax.plot(x_, f(x_), label= n)
ax.legend()
ax.set_ylabel(r"$y$", fontsize=15)
ax.set_xlabel(r"$x$", fontsize=15)
plt.plot(x_points, real_func(x_points), label='real')
plt.show()

0阶样条

x_ = np.linspace(x.min(), x.max(), 100)
fig, ax = plt.subplots(figsize=(8, 4))
ax.scatter(x, y)
for n in [ 'slinear']:   # 'linear', 'nearest', 'zero', 'slinear', 'quadratic', 'cubic', 5, 9
    f = interp1d(x, y, kind = n)
    ax.plot(x_, f(x_), label= n)
ax.legend()
ax.set_ylabel(r"$y$", fontsize=15)
ax.set_xlabel(r"$x$", fontsize=15)
plt.plot(x_points, real_func(x_points), label='real')
plt.show()

1阶样条/线性插值

x_ = np.linspace(x.min(), x.max(), 100)
fig, ax = plt.subplots(figsize=(8, 4))
ax.scatter(x, y)
for n in ['quadratic']:   # 'linear', 'nearest', 'zero', 'slinear', 'quadratic', 'cubic', 5, 9
    f = interp1d(x, y, kind = n)
    ax.plot(x_, f(x_), label= n)
ax.legend()
ax.set_ylabel(r"$y$", fontsize=15)
ax.set_xlabel(r"$x$", fontsize=15)
plt.plot(x_points, real_func(x_points), label='real')
plt.show()

2阶样条

x_ = np.linspace(x.min(), x.max(), 100)
fig, ax = plt.subplots(figsize=(8, 4))
ax.scatter(x, y)
for n in ['cubic']:   # 'linear', 'nearest', 'zero', 'slinear', 'quadratic', 'cubic', 5, 9
    f = interp1d(x, y, kind = n)
    ax.plot(x_, f(x_), label= n)
ax.legend()
ax.set_ylabel(r"$y$", fontsize=15)
ax.set_xlabel(r"$x$", fontsize=15)
plt.plot(x_points, real_func(x_points), label='real')
plt.show()

3阶样条

x_ = np.linspace(x.min(), x.max(), 100)
fig, ax = plt.subplots(figsize=(8, 4))
ax.scatter(x, y)
for n in [5]:   # 'linear', 'nearest', 'zero', 'slinear', 'quadratic', 'cubic', 5, 9
    f = interp1d(x, y, kind = n)
    ax.plot(x_, f(x_), label= n)
ax.legend()
ax.set_ylabel(r"$y$", fontsize=15)
ax.set_xlabel(r"$x$", fontsize=15)
plt.plot(x_points, real_func(x_points), label='real')
plt.show()

5阶样条

x_ = np.linspace(x.min(), x.max(), 100)
fig, ax = plt.subplots(figsize=(8, 4))
ax.scatter(x, y)
for n in [9]:   # 'linear', 'nearest', 'zero', 'slinear', 'quadratic', 'cubic', 5, 9
    f = interp1d(x, y, kind = n)
    ax.plot(x_, f(x_), label= n)
ax.legend()
ax.set_ylabel(r"$y$", fontsize=15)
ax.set_xlabel(r"$x$", fontsize=15)
plt.plot(x_points, real_func(x_points), label='real')
plt.show()

9阶样条

参考文献：

【1】李航.统计学习方法
【2】github https://github.com/wzyonggege/statistical-learning-method/blob/master/LeastSquaresMethod/least_sqaure_method.ipynb

情感分析常见算法与模型及实现步骤计算机软件程序设计知识科普算法情感分析机器学习
【1】常见算法与模型情感分析（SentimentAnalysis）是一种自然语言处理（NLP）技术，用于识别和提取文本中的主观信息，如情绪、态度和意见。常见的算法和模型包括以下几种：传统机器学习方法朴素贝叶斯（NaiveBayes）基于贝叶斯定理，假设特征之间相互独立。计算简单，适用于大规模数据集。常用于文本分类任务。支持向量机（SVM）通过寻找最优超平面来划分不同的类别。在高维空间中表现良好，适
25.1.6 python基础程序练习 MiyamiKK57 python
23.暂停后输出暂停一段时间后输出importtimetime.sleep(2)#停顿2秒后输出print('helloworld')24.成绩if语句利用条件运算符的嵌套来完成此题；学习成绩>=90分的同学用A表示，60-89分的用B表示，60以下用C表示a=int(input('请输入成绩：'))ifa>=90:print('A')elif60<=a<90:print('B')else:pri
2025-1-21-sklearn学习(43) 使用 scikit-learn 介绍机器学习楼上阑干横斗柄，寒露人远鸡相应。汤姆和佩琦 sklearn 机器学习 sklearn 学习 python 人工智能 scikit-learn
文章目录sklearn学习(43)使用scikit-learn介绍机器学习43.1机器学习：问题设置43.2加载示例数据集43.3学习和预测43.4模型持久化43.4规定43.4.1类型转换43.4.2再次训练和更新参数43.4.3多分类与多标签拟合sklearn学习(43)使用scikit-learn介绍机器学习文章参考网站：https://sklearn.apachecn.org/和https
通过Python编程语言实现“机器学习”小项目教程案例胡萝卜不甜机器学习 python 机器学习开发语言
1.Python与机器学习概述1.1Python语言特点Python是一种广泛使用的高级编程语言，具有简洁、易读、易学的特点，这使得它成为初学者和专业人士的首选语言之一。简洁性：Python的语法简洁明了，减少了代码量，提高了开发效率。例如，与其他语言相比，Python可以用更少的代码实现相同的功能，这使得代码更容易编写和维护。易读性：Python的代码风格类似于英语，易于理解和阅读。这种易读性使
浅谈人群扩展（lookalike）模型 eso1983 算法
Lookalike主要用于广告或者推荐系统中，找到与种子用户相似的人群。常用的算法应该包括协同过滤、基于标签的相似度计算，还有一些机器学习模型，比如逻辑回归、随机森林，以及深度学习的模型，比如DNN或者Embedding方法。这里简单介绍一下Lookalike人群扩展（相似人群扩展）中常用算法模型的解析，涵盖原理、数学公式、实现步骤、优缺点及适用场景。1.基于标签的相似度匹配原理通过用户标签（兴趣
Python 深度学习实战：生成对抗网络 AI天才研究院深度学习实战 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍生成对抗网络（GenerativeAdversarialNetwork，GAN）是近年来较火热的深度学习模型之一，其在图像合成、视频生成、文本数据生成等领域均取得了不俗的效果。与传统的机器学习模型不同，GAN可以生成真实有效的数据，无需人工标注数据。它由两部分组成：生成器（Generator）和判别器（Discriminator）。生成器通过学习，根据噪声或随机变量（latentvar
【Lora微调】提高模型效率的创新方法 @fishv 人工智能大模型微调 Lora
前言在自然语言处理（NLP）和机器学习的研究和应用中，随着模型规模的不断扩大，模型训练的计算成本和存储需求也不断攀升。大型预训练模型，如GPT、BERT等，虽然在许多任务上表现出色，但它们的训练和微调通常需要巨大的计算资源，这使得许多研究者和开发者无法充分利用这些模型进行个性化或领域特定的调整。为了在保持模型性能的同时减少计算开销，**Lora（Low-RankAdaptation）**应运而生。
[Centos/Jupyterhub] 多用户远程登录 Jupyter 详细配置風の唄を聴け Centos Jupyter jupyterhub 多用户登录 jupyterhub常用配置
目录1.安装环境配置1.1安装jupyter1.2安装npm/nodejs1.4安装configurable-http-proxy1.5安装认证插件1.3安装jupyterhub2.Jupyterhub配置2.1用户登录设置2.2URL设置2.3启动/关闭的初始设置2.4关闭空闲servers3.启动jupyterhub3.1添加环境变量3.2使用root权限启动4.常见问题4.1无法多用户同时登
docker-compose篇---创建jupyter并可用sudo的创建方式心惠天意 docker jupyter 容器
docker-compose篇—创建jupyter并可用sudo的创建方式version:'3'services:jupyter:image:jupyter/scipy-notebook:latestports:-"8888:8888"-"9000:8000"-"2223:22"volumes:-./notebooks:/home/jovyan/workenvironment:-NB_UID=0#
[Python从零到壹] 七十七.图像识别及经典案例篇之目标检测入门普及和ImageAI对象检测详解 Eastmount Python从零到壹 python 目标检测 ImageAI 图像是被基础系列
欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智
kaggle上面有哪些适合机器学习新手的比赛和项目 xiamu_CDA 机器学习人工智能
Kaggle上面有哪些适合机器学习新手的比赛和项目？在当今数据驱动的时代，机器学习已经成为一门炙手可热的技能。Kaggle作为全球最大的数据科学竞赛平台，不仅汇聚了众多顶尖的数据科学家和机器学习工程师，也为初学者提供了丰富的学习资源和实战机会。对于机器学习新手来说，选择合适的比赛和项目是至关重要的第一步。本文将为你推荐一些适合新手的Kaggle比赛和项目，并提供一些实用的建议，帮助你在机器学习的道
python鸢尾花数据集knn_【python+机器学习1】python 实现 KNN weixin_39629269 python鸢尾花数据集knn
欢迎关注哈希大数据微信公众号【哈希大数据】1KNN算法基本介绍K-NearestNeighbor(k最邻近分类算法)，简称KNN，是最简单的一种有监督的机器学习算法。也是一种懒惰学习算法，即开始训练仅仅是保存所有样本集的信息，直到测试样本到达才开始进行分类决策。KNN算法的核心思想：要想确定测试样本属于哪一类，就先寻找所有训练样本中与该测试样本“距离”最近的前K个样本，然后判断这K个样本中大部分所
【机器学习】使用scikit-learn中的KNN包实现对鸢尾花数据集或者自定义数据集的的预测加德霍克机器学习人工智能 python 学习作业
一、KNN算法概念K最近邻(K-NearestNeighbor,KNN)分类算法是数据挖掘分类技术中最简单的方法之一，是著名的模式识别统计学方法，在机器学习分类算法中占有相当大的地位。它是一个理论上比较成熟的方法。既是最简单的机器学习算法之一，也是基于实例的学习方法中最基本的，又是最好的文本分类算法之一。二、对鸢尾花数据集进行预测1、代码示例：fromsklearn.datasetsimportl
Julia语言的计算机基础 Code侠客行包罗万象 golang 开发语言后端
Julia语言的计算机基础引言随着数据科学、机器学习和高性能计算的快速发展，对编程语言的需求也日益增加。在众多编程语言中，Julia语言因其独特的设计理念和高性能而迅速崛起。本文将详细探讨Julia语言的基础知识，包括其历史背景、安装与环境配置、基本语法、数据结构、函数与模块、以及性能优化等方面，旨在为对Julia感兴趣的读者提供一份全面的入门指南。一、Julia语言简介1.1历史背景Julia是
想转行到人工智能领域，我该学什么，怎么学？张登杰踩人工智能 python
转行到人工智能（AI）领域需要系统的学习和实践，以下是详细的路径建议，涵盖基础知识、技能学习、项目实践和求职准备：一、明确目标和领域方向人工智能领域广泛，建议先了解细分方向（如机器学习、深度学习、计算机视觉、自然语言处理、强化学习等），结合兴趣和职业规划选择切入点。二、构建基础知识1.数学基础线性代数：矩阵运算、特征值、向量空间。微积分：导数、梯度、优化理论。概率与统计：贝叶斯定理、分布、假设检验
Jupyter notebook将指定文件夹中所有word文件导出为PDF文件不知何时归家 word jupyter pdf
importosimportcomtypes.client#遍历指定目录中的Word文件，并导出PDF文件folder_path=r"D:\test"fordirpath,dirs,filenamesinos.walk(folder_path):forfilenameinfilenames:file_path=os.path.join(dirpath,filename)suffix=os.path
fit_transform,fit,transform区别和作用浊酒南街 #机器学习深度学习人工智能
目录前言fit,transform,fit_transform函数介绍函数使用示例前言sklearn中封装的各种算法调用之前都要fit。fit相对于整个代码而言，为后续API服务，用于从一个训练集中学习模型参数，包括归一化时要用到的均值，标准偏差。fit之后，可以调用各种API方法，transform是其中之一。所以当你调用transform之外的方法，也必须要先fit。但是fit与transfo
机器学习问题：AttributeError: ‘NoneType‘ object has no attribute ‘split‘ 解决办法零零鲎机器学习人工智能
参考博客：本次博客参考http://t.csdnimg.cn/8E7eH。写下来主要是为了整理自己在学习过程中遇到的问题并把解决办法列出来。学习内容：如果运行出现：AttributeError:‘NoneType’objecthasnoattribute'split’这样的问题。网上有很多解决办法是降级numpy到1.21.4。然后上面博客给出的解决方案是升级threadpoolctl。可以使用命
AI Agent：一场智能革命的开始机器人openai区块链
在当今科技日新月异的时代，AI（人工智能）技术正以前所未有的速度改变着我们的生活和工作方式。其中，AIAgent作为AI领域的一个新兴分支，正逐渐展现出其巨大的潜力和价值。本文将深入探讨AIAgent的发展现状、核心优势以及未来的发展方向，带您领略这一前沿技术的无限魅力。一、AIAgent的发展现状：技术突破与广泛应用近年来，随着大数据、云计算和机器学习等技术的飞速发展，AIAgent的技术水平得
【杂谈】-为什么Python是AI的首选语言视觉与物联智能杂谈 python 人工智能开发语言深度学习机器学习
为什么Python是AI的首选语言文章目录为什么Python是AI的首选语言1、为何Python引领人工智能发展1.1可用性和生态系统1.2用户群和用例1.3效率辅助2、AI项目对Python开发人员的要求3、如何开启你的AI学习之旅人工智能的广泛应用正在软件工程领域引发范式转变。Python凭借其易用性、成熟的生态系统以及满足人工智能和机器学习(ML)工作流数据驱动需求的能力，迅速成为人工智能开
新质生产力与核心竞争力提升 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
新质生产力、人工智能、机器学习、深度学习、算法优化、数据驱动、核心竞争力、数字化转型1.背景介绍在当今数字化时代，科技创新正以惊人的速度推动着社会发展。人工智能（AI）作为科技发展的重要驱动力，正在深刻地改变着生产方式和生活方式。从自动驾驶汽车到智能语音助手，从个性化推荐系统到医疗诊断辅助，AI技术的应用场景日益广泛，为人类社会带来了前所未有的机遇。然而，AI技术的应用并非一帆风顺。如何有效地利用
智能工单分配在技术支持中的应用 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
智能工单分配,技术支持,机器学习,算法优化,效率提升,客户满意度1.背景介绍在当今数字化时代，技术支持部门扮演着至关重要的角色，为用户提供及时有效的技术帮助，确保业务的正常运行。然而，随着用户数量和技术需求的不断增长，传统的人工工单分配方式面临着诸多挑战：分配效率低下:人工分配工单需要耗费大量时间和人力，且难以做到精准匹配，导致工单处理效率低下。资源分配不均衡:经验丰富的技术人员可能承担过多的工作
Python数据类型与操作昊昊该干饭了 python 数据结构 python 开发语言
Python是一种动态类型的编程语言，拥有丰富的数据类型，这些类型在编程中无处不在，掌握它们是学习Python的第一步。本篇文章将以循序渐进的方式，从字符串、数字，到列表、元组，再到字典，全面讲解它们的定义、常见操作以及应用场景，帮助大家打好Python基础。目录一、字符串：文本处理的基础1.字符串的定义与基本操作常见操作统计字符串中单词个数2.字符串的方法二、数字：Python的数值操作1.数字
计算广告（一）爱学习的菜鸟罢了搜广推人工智能
计算广告学是一个十分庞大的学科，里面涵盖了自然语言处理、机器学习、推荐系统等众多研究方向。而且广告作为互联网行业的三大盈利模式（广告、电商、游戏）之一，也是这三大模式中最有技术含量的，计算广告学一直都吸引着无数学术界/工业界的精英投入其中（ps：计算广告学也是机器学习在商业界最成功的应用之一）。行业分类例子盈利搜索引擎Google百度广告社交网络腾讯facebook广告增值服务游戏电商网站亚马逊阿
【成人版python基础入门】第一章开篇——与 Python 的浪漫相遇精通代码大仙 python python 开发语言
开篇——与Python的浪漫相遇在这个数字化日益menjadi成主流的时代，掌握一门编程语言似乎已经成为了每个人不可推卸的责任。如果你正在寻找一种既强大又易学的语言，那么Python就是你心中的“白月光”。这不仅仅是因为它简洁明了的语法，良好的社区支持，更因为它那无可比拟的跨平台性——无论你的电脑是Windows、MacOS还是Linux，Python都将无差别地陪伴在你身边。现在，让我们一起进入
【成人版python基础入门】第一章循环与条件判断——让程序“活”起来精通代码大仙 python python 服务器
循环与条件判断——让程序“活”起来在与Python的第一次浪漫相遇之后，我们已经学会了如何使用变量、数据类型、输入输出和基本运算符。现在，是时候让我们的程序“活”起来，让它能够像人一样思考和做出决策。这一篇教程将带你深入学习Python的循环和条件判断，这些基本概念是编写复杂程序的基石。通过风趣的例子和实际代码示例，我们将一起探索Python的逻辑世界。条件判断：if、elif、else语句条件判
如何从Oracle Autonomous Database加载文档 fGVBSAbe 数据库 oracle python
OracleAutonomousDatabase是一种云数据库，利用机器学习来自动化数据库调优、安全性、备份、更新以及其他传统由数据库管理员(DBAs)执行的例行管理任务。在本文中，我们将演示如何从OracleAutonomousDatabase加载文档。我们将使用连接字符串或TNS配置来进行连接。技术背景介绍OracleAutonomousDatabase通过自动化的方式极大地简化了数据库管理的
基于数据可视化+SpringBoot+Vue的医院综合管理平台设计和实现(源码+论文+部署讲解等) java李杨勇 Java精品毕设实战案例 Java毕业设计实战案例信息可视化 spring boot vue.js 医院综合管理平台 Java毕业设计
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
自动检测和机器审核系统实现 ╰つ゛木槿 java easyui javascript python java 自然语言处理
目录一、自动检测和机器审核实现步骤1.文本预处理步骤细节：2.关键词检测步骤细节：3.情感分析与情境理解步骤细节：4.机器学习模型训练步骤细节：5.深度学习模型步骤细节：6.多模态审查步骤细节：7.用户行为分析与违规预测步骤细节：总结二、常用的分词工具1.jieba2.THULAC3.HanLP4.SnowNLP5.LAC（LexicalAnalysisofChinese）6.PyLDAvis（结
【CV】25.1.7 arxiv更新速递 hinmer arxiv CV每日更新 python 人工智能计算机视觉 chatgpt 目标检测 ai AIGC
—第1篇----关键词:手势识别,计算机视觉,低光照条件,机器学习,RaspberryPi,OpenCV论文链接-摘要:手势识别是一种基于计算机视觉技术的感知用户界面，允许计算机将人类动作解释为命令，使用户无需使用手与计算机交流，从而使鼠标和键盘变得多余。手势识别的主要弱点是光线条件，因为手势控制依赖于摄像头。摄像头用于在2D和3D中解释手势，因此提取的信息可能因光源而异。系统的限制是无法在黑暗环
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

统计学习方法（三）1-least_sqaure_method

目录

1、最小二乘法拟合曲线

2、正则化

3、简单交叉验证

4、样条插值

你可能感兴趣的:(sklearn,统计学习方法,机器学习,python基础,jupyter)