swineherd_MCQ

机器学习（3）——梯度下降法

什么是梯度下降法

不是一个机器学习算法
是一种基于搜索的最优化方法
作用：最小化一个损失函数
梯度上升法：最大化一个效用函数

并不是所有函数都有唯一的极值点，解决方案：

多次运行，随机化初始点
梯度下降发的初始点也是一个超参数

梯度下降法模拟

import numpy as np
import matplotlib.pyplot as plt

plot_x=np.linspace(-1,6,141)
plot_x

plot_y=(plot_x-2.5)**2-1

plt.plot(plot_x,plot_y)
plt.show()

def dJ(theta):#求导
    return 2*(theta-2.5)
    
def J(theta): #损失函数
    return (theta-2.5)**2-1
    
def gradient_descent(initial_theta,eta,n_iters=1e4,eps=1e-8):
    theta=initial_theta
    theta_history.append(initial_theta)
    i_iter=0
    
    while i_iter

 
  
 因为学习率eta过高时，可能会出现无穷大-无穷大的情况，这在python里答案是nan，所以我们要对J()异常处理： 
 def J(theta):
    try:
        return (theta-2.5)**2-1.
    except:
        return float('inf') 
 试一下eta=1.1： 
 eta=1.1
theta_history=[]
gradient_descent(0,eta)

theta_history[-1] 
 可以发现最后一个数是nan 
 迭代次数取少点，绘制一下图形： 
 eta=1.1
theta_history=[]
gradient_descent(0,eta,n_iters=10)
plot_theta_history() 
  
 线性回归中的梯度下降法 
  
  
  
 import numpy as np
import matplotlib.pyplot as plt

np.random.seed=666
x=2*np.random.random(size=100) #[0,2]的均匀分布
y=x*3.+4.+np.random.normal(size=100) #默认是列向量

X=x.reshape(-1,1)

plt.scatter(x,y)
plt.show()

def J(theta,X_b,y):
    try:
        return np.sum((y-X_b.dot(theta))**2)/len(X_b)
    except:
        return float('inf')
        
def dJ(theta,X_b,y):
    res=np.empty(len(theta))
    res[0]=np.sum(X_b.dot(theta)-y)
    for i in range(1,len(theta)):
        res[i]=(X_b.dot(theta)-y).dot(X_b[:,i])#可以看成先求前面的∑部分，最后再和X的第i列点积
    return res*2/len(X_b)  
    
def gradient_descent(X_b,y,initial_theta,eta,n_iters=1e4,eps=1e-8):
    theta=initial_theta
    i_iter=0
    
    while i_iter
 
 向量化 
 上面求到后的式子可以化成矩阵相乘： 
  
 图中右下角为最终答案，这是因为Xb是m（样本数）行n（特征值数）列的，所以Xbtheta是m行1列的，即列向量，python中默认是列向量，所以y也是列向量，那么Xb  theta - y要转置一下才能变成图中第一行的行向量，最后计算结果还要转置一下才能变成列向量。 
 添加了梯度下降训练的LinearRegression类： 
 import numpy as np
from sklearn.metrics import r2_score


class LinearRegression:

    def __init__(self):
        """初始化Linear Regression模型"""
        self.coef_ = None
        self.intercept_ = None
        self._theta = None

    def fit_normal(self, X_train, y_train):
        """根据训练数据集X_train, y_train训练Linear Regression模型"""
        assert X_train.shape[0] == y_train.shape[0], \
            "the size of X_train must be equal to the size of y_train"

        X_b = np.hstack([np.ones((len(X_train), 1)), X_train])
        self._theta = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y_train)

        self.intercept_ = self._theta[0]
        self.coef_ = self._theta[1:]

        return self

    def fit_gd(self, X_train, y_train, eta=0.01, n_iters=1e4):
        """根据训练数据集X_train, y_train, 使用梯度下降法训练Linear Regression模型"""
        assert X_train.shape[0] == y_train.shape[0], \
            "the size of X_train must be equal to the size of y_train"

        def J(theta, X_b, y):
            try:
                return np.sum((y - X_b.dot(theta)) ** 2) / len(y)
            except:
                return float('inf')

        def dJ(theta, X_b, y):
            return X_b.T.dot(X_b.dot(theta) - y) * 2. / len(y)

        def gradient_descent(X_b, y, initial_theta, eta, n_iters=1e4, epsilon=1e-8):

            theta = initial_theta
            cur_iter = 0

            while cur_iter < n_iters:
                gradient = dJ(theta, X_b, y)
                last_theta = theta
                theta = theta - eta * gradient
                if (abs(J(theta, X_b, y) - J(last_theta, X_b, y)) < epsilon):
                    break

                cur_iter += 1

            return theta

        X_b = np.hstack([np.ones((len(X_train), 1)), X_train])
        initial_theta = np.zeros(X_b.shape[1])
        self._theta = gradient_descent(X_b, y_train, initial_theta, eta, n_iters)

        self.intercept_ = self._theta[0]
        self.coef_ = self._theta[1:]

        return self

    def predict(self, X_predict):
        """给定待预测数据集X_predict，返回表示X_predict的结果向量"""
        assert self.intercept_ is not None and self.coef_ is not None, \
            "must fit before predict!"
        assert X_predict.shape[1] == len(self.coef_), \
            "the feature number of X_predict must be equal to X_train"

        X_b = np.hstack([np.ones((len(X_predict), 1)), X_predict])
        return X_b.dot(self._theta)

    def score(self, X_test, y_test):
        """根据测试数据集 X_test 和 y_test 确定当前模型的准确度"""

        y_predict = self.predict(X_test)
        return r2_score(y_test, y_predict)

    def __repr__(self):
        return "LinearRegression()"
 
 import numpy as np
from sklearn import datasets

boston=datasets.load_boston()
X=boston.data
y=boston.target
X=X[y<50.0]
y=y[y<50.0]

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=666,test_size=0.2)

%run f:\python3玩转机器学习\线性回归\LinearRegression.py

lin_reg1=LinearRegression()
%time lin_reg1.fit_normal(X_train,y_train)
lin_reg1.score(X_test,y_test)

# 梯度下降法
lin_reg2=LinearRegression()
lin_reg2.fit_gd(X_train,y_train)

lin_reg2.coef_ 
  
 X_train[:10,:] 
  
 发现系数都是无穷大，说明学习率太大、训练数据数量级差距太大，导致梯度下降不收敛。 
 lin_reg2.fit_gd(X_train,y_train,eta=0.000001)

lin_reg2.score(X_test,y_test)#循环次数不够
 
  
 发现正确率很低，说明可能循环次数不够 
 %time lin_reg2.fit_gd(X_train,y_train,eta=0.000001,n_iters=1e6) 
  
 发现准确率提高了，但太耗时了，得另辟蹊径。 
 归一化 
 线性回归类中fit_normal采用的是求解正规方程，不涉及搜索的过程，所以不需要数据归一化，时间复杂度O（n^3）。 
 使用梯度下降法前，最好进行数据归一化。 
 from sklearn.preprocessing import StandardScaler

standardScaler=StandardScaler()
standardScaler.fit(X_train)

X_train_standard=standardScaler.transform(X_train)

lin_reg3=LinearRegression()
%time lin_reg3.fit_gd(X_train_standard,y_train) 
  
 可以发现归一化后训练时间优化了很多。 
  
 正确率也和正规方程一致了。 
 当然，我们可能会发现梯度下降居然比正规方程还慢一点。但是矩阵越大，梯度下降的优势就越强。 
 m=1000
n=5000
big_X=np.random.normal(size=(m,n)) #正态分布
true_theta=np.random.uniform(0.0,100.0,size=n+1) #n+1个[0,100]的数
big_y=big_X.dot(true_theta[1:])+true_theta[0]+np.random.normal(0.,10.,size=m) #加个均值为0，标准差为10的噪音

big_reg1=LinearRegression()
%time big_reg1.fit_normal(big_X,big_y)

big_reg2=LinearRegression()
%time big_reg2.fit_gd(big_X,big_y) 
  
 随机梯度下降法 
 用精度换时间消耗。
  
 每次随机取一个样本i。 
 根据模拟退火的思想，学习率要随着迭代次数增加渐渐变小， 
 来个例子实战一下看看威力！ 
 import numpy as np
import matplotlib.pyplot as plt

m=500000
x=np.random.normal(size=m) #列向量
X=x.reshape(-1,1)
y=4.*x+3.+np.random.normal(0,3,size=m) #加上噪音

def J(theta,X_b,y):
    try:
        return np.sum((y-X_b.dot(theta))**2)/len(y)
    except:
        return float('inf') 
 批量梯度下降： 
 def dJ(theta,X_b,y):
    return X_b.T.dot(X_b.dot(theta)-y)*2/len(y)
    
def gradient_descent(X_b,y,initial_theta,eta,n_iters=1e4,eps=1e-8):
    theta=initial_theta
    cur_iter=0
    
    while cur_iter < n_iters:
        gradient=dJ(theta,X_b,y)
        last_theta=theta
        theta=theta-eta*gradient
        if(abs(J(theta,X_b,y)-J(last_theta,X_b,y))
 
  
 可以看出和我们刚开始设的斜率和截距是差不多的（4，3） 
 再看看随机梯度下降法： 
 def dJ_sgd(theta,X_b_i,y_i):
    return X_b_i.T.dot(X_b_i.dot(theta)-y_i)*2.
    
def sgd(X_b,y,initial_theta,n_iters):
    t0=1
    t1=50
    def learning_rate(t):
        return t0/(t+t1)
    theta=initial_theta
    for cur_iter in range(n_iters):
        rand_i=np.random.randint(len(X_b))
        gradient=dJ_sgd(theta,X_b[rand_i],y[rand_i])
        theta=theta-learning_rate(cur_iter)*gradient
    return theta
    
%%time
X_b=np.hstack([np.ones((len(X),1)),X])
initial_theta=np.zeros(X_b.shape[1])
theta=sgd(X_b,y,initial_theta,n_iters=len(X_b)//3) #这里把迭代次数设小一点以看随机梯度下降的威力 
 
 可以看出随机梯度下降法的速度快，准确率也不差！ 
 添加了随机梯度下降训练的LinearRegression类： 
 import numpy as np


from sklearn.metrics import r2_score

class LinearRegression:

    def __init__(self):
        """初始化Linear Regression模型"""
        self.coef_ = None
        self.intercept_ = None
        self._theta = None

    def fit_normal(self, X_train, y_train):
        """根据训练数据集X_train, y_train训练Linear Regression模型"""
        assert X_train.shape[0] == y_train.shape[0], \
            "the size of X_train must be equal to the size of y_train"

        X_b = np.hstack([np.ones((len(X_train), 1)), X_train])
        self._theta = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y_train)

        self.intercept_ = self._theta[0]
        self.coef_ = self._theta[1:]

        return self

    def fit_bgd(self, X_train, y_train, eta=0.01, n_iters=1e4):
        """根据训练数据集X_train, y_train, 使用梯度下降法训练Linear Regression模型"""
        assert X_train.shape[0] == y_train.shape[0], \
            "the size of X_train must be equal to the size of y_train"

        def J(theta, X_b, y):
            try:
                return np.sum((y - X_b.dot(theta)) ** 2) / len(y)
            except:
                return float('inf')

        def dJ(theta, X_b, y):
            return X_b.T.dot(X_b.dot(theta) - y) * 2. / len(y)

        def gradient_descent(X_b, y, initial_theta, eta, n_iters=1e4, epsilon=1e-8):

            theta = initial_theta
            cur_iter = 0

            while cur_iter < n_iters:
                gradient = dJ(theta, X_b, y)
                last_theta = theta
                theta = theta - eta * gradient
                if (abs(J(theta, X_b, y) - J(last_theta, X_b, y)) < epsilon):
                    break

                cur_iter += 1

            return theta

        X_b = np.hstack([np.ones((len(X_train), 1)), X_train])
        initial_theta = np.zeros(X_b.shape[1])
        self._theta = gradient_descent(X_b, y_train, initial_theta, eta, n_iters)

        self.intercept_ = self._theta[0]
        self.coef_ = self._theta[1:]

        return self

    def fit_sgd(self, X_train, y_train, n_iters=50, t0=5, t1=50):
        # 此处的n_iters表示整个样本看几次
        """根据训练数据集X_train, y_train, 使用梯度下降法训练Linear Regression模型"""
        assert X_train.shape[0] == y_train.shape[0], \
            "the size of X_train must be equal to the size of y_train"
        assert n_iters >= 1

        def dJ_sgd(theta, X_b_i, y_i):
            return X_b_i * (X_b_i.dot(theta) - y_i) * 2.

        def sgd(X_b, y, initial_theta, n_iters=5, t0=5, t1=50):

            def learning_rate(t):
                return t0 / (t + t1)

            theta = initial_theta
            m = len(X_b)
            #以下代码保证每个样本都被遍历n_iters次
            for i_iter in range(n_iters):
                indexes = np.random.permutation(m)
                X_b_new = X_b[indexes,:]
                y_new = y[indexes]
                for i in range(m):
                    gradient = dJ_sgd(theta, X_b_new[i], y_new[i])
                    theta = theta - learning_rate(i_iter * m + i) * gradient

            return theta

        X_b = np.hstack([np.ones((len(X_train), 1)), X_train])
        initial_theta = np.random.randn(X_b.shape[1])
        self._theta = sgd(X_b, y_train, initial_theta, n_iters, t0, t1)

        self.intercept_ = self._theta[0]
        self.coef_ = self._theta[1:]

        return self

    def predict(self, X_predict):
        """给定待预测数据集X_predict，返回表示X_predict的结果向量"""
        assert self.intercept_ is not None and self.coef_ is not None, \
            "must fit before predict!"
        assert X_predict.shape[1] == len(self.coef_), \
            "the feature number of X_predict must be equal to X_train"

        X_b = np.hstack([np.ones((len(X_predict), 1)), X_predict])
        return X_b.dot(self._theta)

    def score(self, X_test, y_test):
        """根据测试数据集 X_test 和 y_test 确定当前模型的准确度"""

        y_predict = self.predict(X_test)
        return r2_score(y_test, y_predict)

    def __repr__(self):
        return "LinearRegression()" 
 再用波士顿房价的例子测试一下： 
 import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
boston=datasets.load_boston()
X=boston.data
y=boston.target
X=X[y<50.0]
y=y[y<50.0]
X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=666,test_size=0.2)

from sklearn.preprocessing import StandardScaler

standardScaler=StandardScaler()
standardScaler.fit(X_train)
X_train_standard=standardScaler.transform(X_train)
X_test_standard=standardScaler.transform(X_test)

%run f:\python3玩转机器学习\线性回归\LinearRegression.py

lin_reg=LinearRegression()
%time lin_reg.fit_sgd(X_train_standard,y_train,n_iters=2)
lin_reg.score(X_test_standard,y_test) 
 发现准确率和0.81差不多了： 
  
 迭代次数调大： 
 %time lin_reg.fit_sgd(X_train_standard,y_train,n_iters=100)
lin_reg.score(X_test_standard,y_test) 
  
 scikit-learn中的随机梯度下降： 
 from sklearn.linear_model import SGDRegressor

sgd_reg=SGDRegressor()
%time sgd_reg.fit(X_train_standard,y_train)
sgd_reg.score(X_test_standard,y_test)

sgd_reg=SGDRegressor(max_iter=100)
%time sgd_reg.fit(X_train_standard,y_train)
sgd_reg.score(X_test_standard,y_test) 
  
 关于梯度的调试 
 有时候可能梯度求错了但不会报错，这就很坑。 
  
 取相邻两个点，这两点的斜率（纵坐标之差/横坐标之差）和切线斜率是差不多的。 
  
 对每一个tehta求一遍theta+和theta-，再根据右下角的式子就可以算出这一点切线的斜率，但这样做是非常耗时间的，因此这种方法只适合调试用。 
 import numpy as np
import matplotlib.pyplot as plt

 np.random.seed=666
 X=np.random.random(size=(1000,10))
 true_theta = np.arange(1,12,dtype=float)
X_b=np.hstack([np.ones((len(X),1)),X])
y=X_b.dot(true_theta)+np.random.normal(size=1000) #加上噪音

def J(theta,X_b,y):
    try:
        return np.sum((y-X_b.dot(theta))**2)/len(X_b)
    except:
        return float('inf')
        
def dJ_math(theta,X_b,y):#数学推导求导
    return X_b.T.dot(X_b.dot(theta)-y)*2./len(y)
    
def dJ_debug(theta,X_b,y,epsilon=0.01):#调试求导
    res=np.empty(len(theta))
    for i in range(len(theta)):
        theta_1=theta.copy()
        theta_1[i]+=epsilon
        theta_2=theta.copy()
        theta_2[i]-=epsilon
        res[i]=(J(theta_1,X_b,y)-J(theta_2,X_b,y))/(2*epsilon)
    return res
    
def gradient_descent(dJ,X_b,y,initial_theta,eta,n_iters=1e4,eps=1e-8):#传入求导方法
    theta=initial_theta
    cur_iter=0
    while cur_iter < n_iters:
        gradient=dJ(theta,X_b,y)
        last_theta=theta
        theta=theta-eta*gradient
        if(abs(J(theta,X_b,y)-J(last_theta,X_b,y))
 
  
 验证出我们数学推导的求导是正确的。 
 可以发现调试法求导只用到了J()，所以使用所有的损失函数的，而数学推导求导是根据J（）来推导出来的。 
 有关梯度下降的深入讨论 
 随机： 
  
  跳出局部最优解，更容易找到全局最优解 
  更快的运行速度 
  机器学习领域很多算法都要使用随机的特点：随机搜索、随机森林 
  
 求损失函数J的最大值，可以用梯度上升法：

Git：Git高级特性：钩子与自定义脚本_2024-07-17_20-40-39.Tex chenjj4003 游戏开发 git elasticsearch 大数据搜索引擎 java servlet 全文检索
Git：Git高级特性：钩子与自定义脚本Git钩子简介Git钩子的基本概念Git钩子（Hooks）是Git提供的一种自动化脚本执行机制，允许你在Git的特定事件（如提交、合并、推送等）发生时运行自定义脚本。钩子脚本可以用来执行各种任务，如数据验证、环境准备、自动构建等，从而增强Git的功能，提高开发效率和代码质量。钩子的目录结构Git钩子脚本位于仓库的.git/hooks目录下。这个目录包含了多个
Android实现动态切换环境配置3.0版本 windfallsheng Android android java apache
文章目录前言先上图启动初始化环境配置环境配置入口环境配置初始化静态URL配置手输URL配置开关配置快捷测试入口环境配置主页面其它总结且看《Android实现动态切换环境配置4.0版本》前言在上一篇幅《Android实现动态切换环境配置2.0版本》我们实现了可以动态切换环境配置的功能，但是一些不同类型的配置参数没有进行区别对待，造成实现逻辑比较耦合，当前3.0版本从页面结构和代码实现上进行了拆分，方
论当今的精神状态...(2025.3.14) VU-zFaith870 日常随笔模拟退火算法
好无聊好烦喏，字符串、线段树、深搜宽搜、DP还有数论...无语。最近OI那边又有西安多校集训的消息，13天的集训，多少是长点。不去是OI的溃败，去了就是whk的惨退。挺纠结，跟家长聊聊吧，大抵是不同意i，我也不打算去，现在OI是有点紧张，但文化成绩别退啊，很难受...我还是习惯在学校安然自得地静心学习，闲暇时放松身心，焦虑时做些心理工作(去找心理老师不错)，迷茫时还有身边的一切。因为我眷恋这里..
vuex中使用vuex-persistedstate无法进行持久缓存小小怪下士_---_ 缓存前端 javascript vue.js
在vuex的mutations中发送axios请求造成响应数据无法持久缓存最近在开发一个基于vue3的后台管理系统，因为要使用到了动态路由和权限管理，所以需要请求用户所属角色的一个权限信息，并将这些信息通过vuex-persistedstate持久保存到localStorage中。起初我在配置vuex的中mutations中使用axios向服务端请求用户的权限信息，并使用vuex-persiste
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
微信支付V3版商家转账到零钱（2025-01-15更新后版本）向着开发进攻 java 微信 html5
本文档为商家转账升级版本功能描述，升级版本已于2025年1月15日正式上线。请注意对比[升级前]，新版本无收款用户管理、商户出资确认功能。具体官方文档详见：商家转账-发起转账项目使用的SDK版本wechatpay-java-0.2.12.jar版本com.github.wechatpay-apiv3wechatpay-java0.2.12更新之后接口流程：商户服务端调用微信支付的商家转账API，发
Git 钩子自动化部署完全指南：掌握 post-receive 触发机制与生产实践窝窝和牛牛 git 自动化
文章目录Git钩子自动化部署完全指南：掌握post-receive触发机制与生产实践一、核心机制剖析1.1触发三要素1.2触发时序图二、配置全流程详解2.1目录结构规范2.2权限控制矩阵2.3标准脚本模板三、高阶调试技巧3.1手动触发测试3.2智能日志追踪四、生产级部署方案4.1多环境分流策略4.2安全回滚机制五、故障应急手册5.1常见问题速查5.2监控指标配置六、性能优化建议Git钩子自动化部署
云原生周刊：基于 KubeSphere LuBan 架构打造DeepSeek 插件云计算
开源项目推荐KubeAIKubeAI是一个K8s上的AI推理操作器，旨在简化在生产环境中部署和管理大型语言模型（LLM）、向量嵌入和语音处理等机器学习模型。它提供与OpenAI兼容的API，支持在CPU和GPU上运行，并具备按需自动扩缩容的能力。KubeAI无需依赖Istio、Knative等其他系统，能够在几乎任何K8s集群中开箱即用。此外，它内置了模型代理，优化了键值缓存利用率，从而显著提升系
python tkinter控件位置_python tkinter组件摆放方式详解 weixin_39895995 python tkinter控件位置
1.最小界面组成#导入tkinter模块importtkinter#创建主窗口对象root=tkinter.Tk()#设置窗口大小(最小值：像素)root.minsize(300,300)#创建一个按钮组件btn=tkinter.Button(root,text='屠龙宝刀，点击送')btn.pack()#加入消息循环root.mainloop()设置初始化界面大小#设置初始化界面大小root.g
python表格控件_Python使用tkinter的Treeview组件实现表格功能 weixin_39619481 python表格控件
fromtkinterimportTk,Scrollbar,Framefromtkinter.ttkimportTreeview#创建tkinter应用程序窗口root=Tk()#设置窗口大小和位置root.geometry('500x300400300')#不允许改变窗口大小root.resizable(False,False)#设置窗口标题root.title('通信录管理系统')#使用Tre
Microsoft Fabric 功能更新！更多智能优化，数据平台更强大
近期，微软MicrosoftFabric又更新了，大大增强了AI方面的功能。迅易科技作为微软13年来紧密的生态合作伙伴，为300+行业头部客户实施1000+项目。今天，我们带大家来看下，MicrosoftFabric有什么新玩法？一年前，微软正式推出了一款端到端数据平台，MicrosoftFabric（国际版）是一个集成一体化的平台，提供支持各种数据项目的人工智能驱动服务，帮助所有数据团队能够更快
【MySQL基础-3】SQL语言详解：定义、分类、注意事项与注释 AllenBright #MySQL mysql sql
SQL（StructuredQueryLanguage，结构化查询语言）是用于管理和操作关系型数据库的标准编程语言。无论是查询数据、插入新记录、更新数据还是删除数据，SQL都是与数据库交互的核心工具。本文将深入探讨SQL语言的定义、分类、注意事项以及注释的使用，帮助你全面掌握这一强大的数据库操作语言。1.什么是SQL语言？SQL是一种专门用于管理关系型数据库的编程语言。它允许用户执行以下操作：查询
从零到一：Transformer模型的原理与实战之旅樽酒ﻬق AI transformer 深度学习人工智能
目录从零到一：Transformer模型的原理与实战之旅1.Transformer原理简介1.1什么是Transformer？1.2自注意力机制的核心1.3Transformer的结构2.实战：构建Transformer模型2.1任务目标2.2环境准备2.3数据准备2.4模型构建2.5模型训练3.推理实战：完整示例与输出结果3.1完整推理代码3.2代码解析4.原理与代码的结合4.1自注意力机制的实
深入探究 Ryu REST API 漫谈网络网络技术进阶通途网络
Ryu4.34RESTAPI详细接口说明与示例Ryu4.34的RESTAPI提供了对SDN网络的核心管理功能，涵盖交换机、流表、端口、拓扑和QoS等操作。以下是详细的接口分类、功能说明及Python示例代码。1.交换机管理1.1获取所有交换机DPID端点:GET/stats/switches功能:返回当前连接到控制器的所有交换机的DPID（数据路径标识符）列表。示例:importrequestsR
Vue+OpenLayers 实现点击查询要素信息小zhi学习 vue+ol vue.js css css3
1、给地图绑定点击事件this.map.on('click',this.mapClick);2、导入axiosnpmiaxiosimportaxiosfrom'axios'3、编写方法mapClick(event){//获取url的getFeatureInfo请求地址varurl=this.layer.getSource().getFeatureInfoUrl(event.coordinate,t
文件的读写苜柠 QT qt 开发语言
点击按钮实现打开选择的文件，把路径和数据显示到对应的控件上connect(ui->pushButton_3,&QPushButton::clicked,[=](){//打开文件控件返回文件路径QStringpath=QFileDialog::getOpenFileName(this,"打开文件","D:");//显示文件路径ui->lineEdit->setText(path);//文件对象（文件
监听F11浏览器全屏状态小旋风01234 js javascript 前端 vue.js
说明全屏和非全屏经常因为，是F11或者控制台按钮按的判断不了，所以综合了下，下面的方法有效，下面是应对所有浏览器的兼容版本页面上代码是vue2的，vue3或者js需要自己改下，都是js核心是一个东西核心代码：data(){return{//全屏状态true全屏false非全屏isFullScreen:false,}},mounted(){//开局判断this.checkFullscreen()//
参数化曲线——参数三次样条曲线（实例） Alpha狼霸线性代数矩阵机器学习算法机器人数学建模数据分析
问题及相关理论给定空间中n+1个数据点pi(i=0,1,...,n)\bm{p}_i(i=0,1,...,n)pi(i=0,1,...,n)，如何构造一条通过这些数据点并满足二阶连续的三次样条曲线？参数化曲线——参数三次样条曲线（1）介绍了数据点的参数化方法。参数化曲线——参数三次样条曲线（2）介绍了埃尔米特基形式的三次多项式曲线及其域变换。参数化曲线——参数三次样条曲线（3）推导了满足二阶连续的
回溯算法入门（排列树问题 + 子集树问题）啊龙阿算法
#include#include//排列数问题/*如[1,2,3]的所有全排列结果为[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]总的排列数量为3!个*///法一：交换位置法voidswap(int*a,int*b){inttemp=*a;*a=*b;*b=temp;}voidprintArr(int*arr,intn){inti;for(i=0;i
tksheet：强大的Python Tkinter表格组件江连日Silver
tksheet：强大的PythonTkinter表格组件tksheetPython3.6+tkintertablewidgetfordisplayingtabulardata项目地址:https://gitcode.com/gh_mirrors/tk/tksheet项目基础介绍与编程语言tksheet是一个基于Python的Tkinter库开发的高性能表格控件，专为展示和编辑大量的tabular数
ubuntu22查看系统版本 getapi 数据库 sqlserver
在Ubuntu22.04（代号JammyJellyfish）中，可以通过以下方法查看系统版本：方法1:使用lsb_release命令这是最直接和通用的方法：lsb_release-a输出示例：NoLSBmodulesareavailable.DistributorID:UbuntuDescription:Ubuntu22.04.3LTSRelease:22.04Codename:jammy关键信息
⭐算法OJ⭐汉明距离【位操作】（C++ 实现）Total Hamming Distance Vitalia 算法OJ 算法 c++开发语言
HammingDistance（汉明距离）是用于衡量两个等长字符串在相同位置上不同字符的个数的度量。它通常用于比较两个二进制字符串或编码序列的差异。定义给定两个长度相同的字符串AAA和BBB，它们的汉明距离D(A,B)D(A,B)D(A,B)是在相同位置上字符不同的位置的数量。示例二进制字符串：A=1011101B=1001001汉明距离D(A,B)=2D(A,B)=2D(A,B)=2（第3位和第
CAP 公理解析：分布式系统中的一致性、可用性与分区容错性 Vitalia 系统设计分布式系统 CAP
文章目录1.CAP公理的核心概念1.1一致性（Consistency）1.2可用性（Availability）1.3分区容错性（PartitionTolerance）2.CAP公理的三种选择2.1CA（一致性+可用性）2.2CP（一致性+分区容错性）2.3AP（可用性+分区容错性）3.CAP公理的实际应用3.1CP系统（一致性+分区容错性）示例1：ZooKeeper示例2：etcd3.2AP系统（
鸿蒙开发：自定义一个Toast
前言代码案例基于Api13。系统的toast已经可以满足大部分的场景了，而且使用起来也是十分的简单，可以修改很多的可配置属性，简单的使用代码如下：promptAction.showToast({message:"toast提示"})但是偏偏有一点实现不了，那就是圆角度数的设置，还有就是和icon结合使用的场景也无法满足，为了更好的适配UI的设计图，那么自定义一个Toast是在所难免的。简单的实现效
unplugin-vue-router 的基本使用 javascript
1.前言在Vue3开发过程中，每次创建新的页面都需要注册路由，需要在src/router.ts中新增页面的路径，并将URL路径映射到组件中，如下所示：import{createMemoryHistory,createRouter}from'vue-router'importHomePageViewfrom'./HomePageView.vue'importDevListViewfrom'./Dev
【Python安装】2024年最新下载安装教程！详细步骤，有这一篇就够了！！！「已注销」 python 开发语言
（点击领取Python安装包+学习资料）Python安装说明1.访问Python官网首先，访问Python的官方网站：WelcometoPython.org。2.下载Python安装程序在官网首页，找到“Downloads”部分。根据你的操作系统（Windows,macOS,Linux等）选择合适的版本下载。对于大多数用户，推荐下载最新版本的Python3.x（例如Python3.9或更高版本）。
Vue2+OpenLayers动态绘制两个经纬度并计算距离（提供Gitee源码）黄团团 Vue OpenLayers gitee javascript excel java html 前端
目录一、案例截图二、安装OpenLayers库三、代码实现3.1、初始化变量3.2、开始/结束绘制3.3、计算两点距离3.4、添加文本标注3.5、添加点3.6、添加线3.7、初始化地图点击事件3.8、加载地图3.9、完整代码四、Gitee源码一、案例截图二、安装OpenLayers库npminstallol三、代码实现页面代码如下：&l
Vue2+OpenLayers实现点位拖拽功能（提供Gitee源码）黄团团 Vue OpenLayers gitee 前端 html javascript 开发语言
目录一、案例截图二、安装OpenLayers库三、代码实现3.1、初始化变量3.2、创建一个点3.3、将点添加到地图上3.4、实现点位拖拽3.5、完整代码四、Gitee源码一、案例截图可以随意拖拽点位到你想要的位置二、安装OpenLayers库npminstallol三、代码实现3.1、初始化变量关键代码：data(){return{map:null,vectorLayer:null,}},3.2
Vue2+OpenLayers点聚合功能实现（提供Gitee源码）黄团团 Vue OpenLayers vue.js 前端数据库 html
目录一、案例截图二、安装OpenLayers库三、代码实现3.1、初始化点位3.2、初始化VectorSource3.3、初始化Cluster3.4、初始化VectorLayer3.5、完整代码四、Gitee源码一、案例截图一定距离的点（可配置）系统会自动聚合：二、安装OpenLayers库npminstallol三、代码实现3.1、初始化点位这里返回一个Features集合，也就是点位集合。关键
解决python tkinter库：_tkinter.TclError: bad window path name “.!button“类似错误 Tan程序员 python 开发语言
本文目录报错信息问题分析问题解决本文将介绍怎么解决pythontkinter库_tkinter.TclError:badwindowpathname".!toplevel.!button3"错误（以及类似错误）报错信息我们在使用tkinter库时可能会遇到类似这样的问题：_tkinter.TclError:badpathname".!button"_tkinter.TclError:badwind
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

机器学习（3）——梯度下降法

什么是梯度下降法

梯度下降法模拟

线性回归中的梯度下降法

向量化

归一化

随机梯度下降法

关于梯度的调试

有关梯度下降的深入讨论

你可能感兴趣的:(机器学习（3）——梯度下降法)