Cyan青

《机器学习实战》学习记录-ch4

4.1 线性回归

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

X = 2 * np.random.rand(100,1) # 生成 [0,1) 之间的数据
y = 4 + 3 * X + np.random.randn(100,1) # 生成一组正态分布的数据， 高斯噪声

X_b = np.c_[np.ones((100,1)), X]
X_b[:5]

array([[1.        , 0.74847244],
       [1.        , 1.03567501],
       [1.        , 0.92533857],
       [1.        , 1.15770818],
       [1.        , 0.46673679]])

theta_best =  np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y) # 公式法求最小loss
theta_best

array([[4.07095749],
       [2.83726643]])

# 预测
X_new = np.array([[0], [2]])
X_new_b = np.c_[np.ones((2, 1)), X_new] # add x0 = 1 to each instance
y_predict = X_new_b.dot(theta_best)
y_predict

array([[4.07095749],
       [9.74549035]])

plt.plot(X_new, y_predict, "r-")
plt.plot(X, y, "b.")
plt.axis([-1, 3, 0, 15])
plt.show()

# 用 sklearn 的 LinearRegression
from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
lin_reg.fit(X, y)
lin_reg.intercept_, lin_reg.coef_ # 截距 系数

(array([4.07095749]), array([[2.83726643]]))

lin_reg.predict(X_new)

array([[4.07095749],
       [9.74549035]])

# LinearRegression 基于linalg.lstsq
theta_best_svd, residuals, rank, s = np.linalg.lstsq(X_b, y, rcond=1e-6)
theta_best_svd

array([[4.07095749],
       [2.83726643]])

4.2 梯度下降

通过测量参数向量θ相关的误差函数的局部梯度，并不断沿着降低梯度的方向调整，直到梯度降为0，到达最小值！(降低时间复杂度，不用求逆矩阵)

首先使用一个随机的θ值（这被称为随机初始化），然后逐步改进，每次踏出一步，每一步都尝试降低一点成本函数（如MSE），直到算法收敛出一个最小值
梯度下降中一个重要参数是每一步的步长，这取决于超参数学习率。如果学习率太低，算法需要经过大量迭代才能收敛。反过来说，如果学习率太高，那你可能会越过山谷直接到达另一边，甚至有可能比之前的起点还要高。
线性回归模型的MSE成本函数恰好是个凸函数，这意味着连接曲线上任意两点的线段永远不会跟曲线相交。也就是说，不存在局部最小值，只有一个全局最小值。它同时也是一个连续函数，所以斜率不会产生陡峭的变化[1]
成本函数虽然是碗状的，但如果不同特征的尺寸差别巨大，那它可能是一个非常细长的碗。如图4-7所示的梯度下降，左边的训练集上特征1和特征2具有相同的数值规模，而右边的训练集上，特征1的值则比特征2要小得多（注：因为特征1的值较小，所以θ1需要更大的变化来影响成本函数，这就是为什么碗形会沿着θ1轴拉长。）。

# （全）批量梯度下降
eta = 0.1  # learning rate
n_iterations = 1000
m = 100

theta = np.random.randn(2,1)  # random initialization

for iteration in range(n_iterations):
    gradients = 2/m * X_b.T.dot(X_b.dot(theta) - y)
    theta = theta - eta * gradients
theta

array([[4.07095749],
       [2.83726643]])

请注意，在计算梯度下降的每一步时，都是基于完整的训练集X的。这就是为什么该算法会被称为批量梯度下降：每一步都使用整批训练数据（实际上，全梯度下降可能是个更好的名字）。因此，面对非常庞大的训练集时，算法会变得极慢（不过我们即将看到快得多的梯度下降算法）。但是，梯度下降算法随特征数量扩展的表现比较好。如果要训练的线性模型拥有几十万个特征，

使用梯度下降比标准方程或者SVD要快得多。

4.2.2 随机梯度下降

批量梯度下降的主要问题是它要用整个训练集来计算每一步的梯度，所以训练集很大时，算法会特别慢。与之相反的极端是随机梯度下降，每一步在训练集中随机选择一个实例，并且仅基于该单个实例来计算梯度。显然，这让算法变得快多了，因为每次迭代都只需要操作少量的数据。它也可以被用来训练海量的数据集，因为每次迭代只需要在内存中运行一个实例即可（SGD可以作为核外算法实现，见第1章）。另一方面，由于算法的随机性质，它比批量梯度下降要不规则得多。成本函数将不再是缓缓降低直到抵达最小值，而是不断上上下下，但是从整体来看，还是在慢慢下降。随着时间的推移，最终会非常接近最小值，但是即使它到达了最小值，依旧还会持续反弹，永远不会停止（见图4-9）。所以算法停下来的参数值肯定是足够好的，但不是最优的。

好处：逃离局部最优；训练步骤块
坏处：得不到最优解。
解决方案：逐步降低学习率。

开始的步长比较大（这有助于快速进展和逃离局部最小值），然后越来越小，让算法尽量靠近全局最小值。这个过程叫作模拟退火，因为它类似于冶金时熔化的金属慢慢冷却的退火过程。

n_epochs = 50
t0, t1 = 5, 50  # learning schedule hyperparameters

def learning_schedule(t):
    return t0 / (t + t1)

theta = np.random.randn(2,1)  # random initialization

for epoch in range(n_epochs): # 退火温度
    for i in range(m): # 每个温度下取 m 次样本
        random_index = np.random.randint(m) # 随机选取一个样本
        xi = X_b[random_index:random_index+1]
        yi = y[random_index:random_index+1]
        gradients = 2 * xi.T.dot(xi.dot(theta) - yi)
        eta = learning_schedule(epoch * m + i)
        theta = theta - eta * gradients
theta

array([[4.06399722],
       [2.793174  ]])

要使用带有Scikit-Learn的随机梯度下降执行线性回归，可以使用SGDRegressor类，该类默认优化平方误差成本函数。以下代码最多可运行1000个轮次，或者直到一个轮次期间损失下降小于0.001为止（max_iter=1000，tol=1e-3）。它使用默认的学习调度（与前一个学习调度不同）以0.1（eta0=0.1）的学习率开始。最后，它不使用任何正则化（penalty=None，稍后将对此进行详细介绍）：

# 调用 sklearn的 SGD
from sklearn.linear_model import SGDRegressor
sgd_reg = SGDRegressor(max_iter=1000, tol=1e-3, penalty=None, eta0=0.1)
sgd_reg.fit(X, y.ravel()) # ravel方法将y拉成一维数组
sgd_reg.intercept_, sgd_reg.coef_  # 截距，系数

(array([4.04727747]), array([2.84108153]))

4.2.3 小批量梯度下降

我们要研究的最后一个梯度下降算法称为小批量梯度下降。只要你了解了批量和随机梯度下降，就很容易理解它：在每一步中，不是根据完整的训练集（如批量梯度下降）或仅基于一个实例（如随机梯度下降）来计算梯度，小批量梯度下降在称为小型批量的随机实例集上计算梯度。小批量梯度下降优于随机梯度下降的主要优点是，你可以通过矩阵操作的硬件优化来提高性能，特别是在使用GPU时。

4.3 多项式回归

一元多项式

如果你的数据比直线更复杂怎么办？令人惊讶的是，你可以使用线性模型来拟合非线性数据。一个简单的方法就是将每个特征的幂次方添加为一个新特征，然后在此扩展特征集上训练一个线性模型。这种技术称为多项式回归。

# 生成一些非线性数据
m = 100
X = 6 * np.random.rand(m,1) - 3
y = 0.5 * X **2 + X + 2 + np.random.randn(m,1)
plt.plot(X,y,'b.')

[]

from sklearn.preprocessing import PolynomialFeatures
poly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly_features.fit_transform(X)
X[0]

array([-2.81222103])

X_poly[0]

array([-2.81222103,  7.90858713])

lin_reg = LinearRegression()
lin_reg.fit(X_poly, y)
lin_reg.intercept_, lin_reg.coef_

(array([1.85755943]), array([[1.04877191, 0.52580038]]))

请注意，当存在多个特征时，多项式回归能够找到特征之间的关系（这是普通线性回归模型无法做到的）。PolynomialFeatures还可以将特征的所有组合添加到给定的多项式阶数。例如，如果有两个特征a和b，则degree=3的PolynomialFeatures不仅会添加特征a2、a3、b2和b3，还会添加组合ab、a2b和ab2。
https://blog.csdn.net/qq_45797116/article/details/112787290

4.4 学习曲线

高阶多项式回归可能会出现过拟合（交叉验证，泛化判定）
所以怎么确定多项式次数？-> 观察学习曲线

这个曲线绘制的是模型在训练集和验证集上关于训练集大小（或训练迭代）的性能函数。要生成这个曲线，只需要在不同大小的训练子集上多次训练模型即可。

from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

def plot_learning_curves(model, X, y):
    X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2)
    train_errors, val_errors = [], []
    for m in range(1, len(X_train)):
        model.fit(X_train[:m], y_train[:m])
        y_train_predict = model.predict(X_train[:m]) # 训练集预测
        y_val_predict = model.predict(X_val)         # 验证集预测
        train_errors.append(mean_squared_error(y_train[:m], y_train_predict))
        val_errors.append(mean_squared_error(y_val, y_val_predict))
    plt.plot(np.sqrt(train_errors), "r-+", linewidth=2, label="train")
    plt.plot(np.sqrt(val_errors), "b-", linewidth=3, label="val")

lin_reg = LinearRegression()
plot_learning_curves(lin_reg, X, y)
plt.legend()

首先，让我们看一下在训练数据上的性能：当训练集中只有一个或两个实例时，模型可以很好地拟合它们，这就是曲线从零开始的原因。但是，随着将新实例添加到训练集中，模型就不可能完美地拟合训练数据，这既因为数据有噪声，又因为它根本不是线性的。因此，训练数据上的误差会一直上升，直到达到平稳状态，此时在训练集中添加新实例并不会使平均误差变好或变差。现在让我们看一下模型在验证数据上的性能。当在很少的训练实例上训练模型时，它无法正确泛化，这就是验证误差最初很大的原因。然后，随着模型经历更多的训练示例，它开始学习，因此验证错误逐渐降低。但是，直线不能很好地对数据进行建模，因此误差最终达到一个平稳的状态，非常接近另外一条曲线。这些学习曲线是典型的欠拟合模型。两条曲线都达到了平稳状态。它们很接近而且很高。

如果你的模型欠拟合训练数据，添加更多训练示例将无济于事。你需要使用更复杂的模型或提供更好的特征。

from sklearn.pipeline import Pipeline

polynomial_regression = Pipeline([
        ("poly_features", PolynomialFeatures(degree=10, include_bias=False)),
        ("lin_reg", LinearRegression()),
    ])

plot_learning_curves(polynomial_regression, X, y)
plt.legend()

其实后面没有重合的，因为y变化太大被稀释了

改善过拟合模型的一种方法是向其提供更多的训练数据，直到验证误差达到训练误差为止。

模型的泛化误差

偏差：这部分泛化误差的原因在于错误的假设，比如假设数据是线性的，而实际上是二次的。高偏差模型最有可能欠拟合训练数据。
方差：这部分是由于模型对训练数据的细微变化过于敏感。具有许多自由度的模型（例如高阶多项式模型）可能具有较高的方差，因此可能过拟合训练数据。
不可避免的误差。（数据本身的噪声）

4.5 正则化线性模型

减少过拟合的一个好方法是对模型进行正则化（即约束模型）：它拥有的自由度越少，则过拟合数据的难度就越大。正则化多项式模型的一种简单方法是减少多项式的次数。对于线性模型，正则化通常是通过约束模型的权重来实现的。

4.5.1 岭回归

岭回归（也称为Tikhonov正则化）是线性回归的正则化版本

超参数α控制要对模型进行正则化的程度。如果α=0，则岭回归仅是线性回归。如果α非常大，则所有权重最终都非常接近于零，结果是一条经过数据均值的平线

在执行岭回归之前缩放数据（例如使用StandardScaler）很重要，因为它对输入特征的缩放敏感。大多数正则化模型都需要如此。

请注意，α的增加会导致更平坦（即不极端，更合理）的预测，从而减少了模型的方差，但增加了其偏差。(alpha越大，惩罚越大，斜率（权重）不会高)

from sklearn.linear_model import Ridge
ridge_reg = Ridge(alpha=1, solver="cholesky")
ridge_reg.fit(X, y)
ridge_reg.predict([[1.5]])

array([[5.250856]])

# 12 范数 梯度下降
sgd_reg = SGDRegressor(penalty="l2")
sgd_reg.fit(X, y.ravel())
sgd_reg.predict([[1.5]])

array([5.22860513])

4.5.2 Lasso回归

线性回归的另一种正则化叫作最小绝对收缩和选择算子回归，与岭回归一样，它也是向成本函数添加一个正则项，但是它增加的是权重向量的L1范数

。换句话说，Lasso回归会自动执行特征选择并输出一个稀疏模型（即只有很少的特征有非零权重）。

4.5.3 弹性网络

弹性网络是介于岭回归和Lasso回归之间的中间地带。正则项是岭和Lasso正则项的简单混合，你可以控制混合比r。当r=0时，弹性网络等效于岭回归，而当r=1时，弹性网络等效于Lasso回归。

4.5.4 提前停止

使用随机和小批量梯度下降时，曲线不是那么平滑，可能很难知道你是否达到了最小值。一种解决方案是仅在验证错误超过最小值一段时间后停止（当你确信模型不会做得更好时），然后回滚模型参数到验证误差最小的位置。

from sklearn.base import clone

# prepare the data
poly_scaler = Pipeline([
        ("poly_features", PolynomialFeatures(degree=90, include_bias=False)),
        ("std_scaler", StandardScaler())
    ])
X_train_poly_scaled = poly_scaler.fit_transform(X_train)
X_val_poly_scaled = poly_scaler.transform(X_val)

sgd_reg = SGDRegressor(max_iter=1, tol=-np.infty, warm_start=True,
                       penalty=None, learning_rate="constant", eta0=0.0005)

minimum_val_error = float("inf")
best_epoch = None
best_model = None
for epoch in range(1000):
    sgd_reg.fit(X_train_poly_scaled, y_train)  # continues where it left off
    y_val_predict = sgd_reg.predict(X_val_poly_scaled)
    val_error = mean_squared_error(y_val, y_val_predict)
    if val_error < minimum_val_error:
        minimum_val_error = val_error
        best_epoch = epoch
        best_model = clone(sgd_reg)

Python 解析 AI 在能源管理与智能电网中的应用头发在线失联 python 人工智能开发语言
```htmlPython解析AI在能源管理与智能电网中的应用Python解析AI在能源管理与智能电网中的应用随着全球对可持续发展的重视和能源需求的不断增长，能源管理与智能电网技术正在成为研究和实践的重要领域。在这个背景下，人工智能（AI）作为一项前沿技术，正被广泛应用于能源管理与智能电网中，以提高效率、优化资源分配并减少环境影响。本文将探讨Python如何在这一领域中发挥作用，并解析其具体应用场
如何实现聊天模型响应流式处理 yunwu12777 langchain
在现代人工智能应用中，流式处理聊天模型的响应成为一种常见需求，特别是在需要实时输出或大规模处理时。本文将详细介绍如何在Python中实现聊天模型的同步和异步流式处理，使用langchain库中提供的ChatAnthropic模型作为示例。技术背景介绍流式处理是指从模型逐步获取输出，而不是等待整个输出完成。这对于处理长文本生成或需要动态响应的应用场景特别有用。langchain库中的聊天模型实现了R
解锁UV工具新玩法：让Python脚本运行更高效的实用技巧 marao python uv 深度学习开发语言人工智能
作为Python开发者，你是否经常被依赖安装的漫长等待、虚拟环境的繁琐管理，或是脚本分享时“环境不一致”的问题困扰？近年来，一款名为UV的工具悄然兴起，它不仅以极速安装依赖著称，更通过一系列创新设计重构了Python脚本的运行逻辑。本文主要介绍UV的三大实用技巧，从“依赖即代码”到“动态环境隔离”，体验真正“即写即跑”的高效开发模式。1.极速启动：1秒搞定依赖安装，告别虚拟环境烦恼传统Python
Centos7.9 使用宝塔部署Python3.12 .0 cceyatao python 宝塔 python3.12 python项目管理器
使用宝塔安装Python3.12运行之后提示ImportError:Nomodulenamed_ssl，因为服务器有python2.7的项目正在运行，所以需要新建python3.12.0因为CentOS7默认的OpenSSL1.0.x较旧,不满足Python3.12的要求（需要1.1.1或更高）1、安装OpenSSL：CentOS7默认OpenSSL可能较旧（1.0.x）。安装OpenSSL1.1
python中解决Chrome中文字体显示为方框的问题张苹果博客 python chrome 开发语言
当您在CentOS或RHEL系统上处理中文内容时，可能会遇到字体显示为方框或乱码的情况。这是因为系统默认没有安装中文字体包。本指南将详细介绍如何正确安装和配置中文字体。原文地址：python中解决Chrome中文字体显示为方框的问题-张苹果博客字体显示问题示例如下：在CentOS/RHEL上安装中文字体的正确方法1.使用yum安装中文字体#安装文泉驿中文字体sudoyuminstall-ywqy-
Python包管理新纪元：极速工具 uv 完全指南（2025最新版） coder_风逝 Python数据挖掘分析 python uv 开发语言
作为Python开发者，你是否还在忍受pip缓慢的依赖解析速度？是否厌倦了在virtualenv、pip-tools和poetry之间来回切换？今天我要向大家介绍一款革命性的工具—uv，它将彻底改变你的Python开发体验！一、uv是什么？uv是由打造了Ruff（Python超速Linter）的Astral团队开发的全新Python包管理工具，基于Rust编写，旨在成为"Python界的Cargo
Python 包管理新选择：全面了解 uv（附 Conda 对比）茫茫人海一粒沙 python uv conda
在Python的世界里，我们常用pip安装依赖，用venv创建虚拟环境，还可能用pip-tools来生成锁文件。这些工具虽然灵活，但组合使用时也容易让人混乱。最近，一个名叫uv的新工具火了起来，目标是统一和简化整个Python包管理流程。uv是什么？uv是由Astral开发的一个超快的Python包管理器，用Rust编写。它旨在作为pip、pip-tools、virtualenv和python-b
AI驱动的智能电网:平衡供需提高效率 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
智能电网，AI，机器学习，预测模型，优化算法，供需平衡，能源效率1.背景介绍随着全球能源需求的不断增长和可再生能源的快速发展，传统电网面临着越来越多的挑战。传统的电网结构是集中式供电，难以适应分布式能源的接入和负荷需求的波动性。智能电网应运而生，它利用先进的通信技术、传感器网络和数据分析技术，实现电网的自动化、智能化和可视化，从而提高电网的可靠性、效率和安全性。人工智能（AI）作为一种新兴技术，在
同花顺python_【本地直连】同花顺 Python量化交易接口上线 weixin_39938724 同花顺python
来源：雪球App，作者：私募之家THS，（https://xueqiu.com/5808549553/129022113）导读：同花顺智能交易终端MindGo版已上线2年多，凭借着同花顺深厚的技术底蕴，不断地对终端进行优化。至今，已服务近1000位个人客户，超过200家私募机构，市场份额不断扩大。目前终端已实现：支持股票、指数、基金、期货、外汇、黄金T+D等6个品种日/分钟级策略回测投研策略无缝对
基于SpringBoot律师事务所案件管理系统的设计与实现一点教程 Java项目 spring boot 后端 java spring 律师事务所案件管理系统
博主主页：一点教程博主简介：专注Java技术领域和毕业设计项目实战、Java微信小程序、安卓等技术开发，远程调试部署、代码讲解、文档指导、ppt制作等技术指导。主要内容：毕业设计，SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Python、Nodejs、小程序、安卓app、大数据等设计与开发感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以和博主沟通，希
Python爬虫实战：使用Scrapy+Selenium+Playwright高效爬取Stack Overflow问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 微信开发语言科技 selenium
摘要本文将详细介绍如何使用Python生态中最先进的爬虫技术组合（Scrapy+Selenium+Playwright）来爬取StackOverflow的问答数据。我们将从基础爬虫原理讲起，逐步深入到分布式爬虫、反反爬策略、数据存储等高级话题，并提供完整的可运行代码示例。本文适合有一定Python基础，想要掌握专业级网络爬虫技术的开发者阅读。1.爬虫技术概述1.1为什么选择StackOverflo
Python爬虫实战：使用Scrapy+Selenium+Playwright高效爬取Coursera课程信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 微信开发语言科技 selenium
前言在当今信息爆炸的时代，在线教育平台如Coursera提供了海量的高质量课程资源。对于学习者、教育研究者和数据分析师来说，获取这些平台的课程信息具有重要价值。本文将详细介绍如何使用Python爬虫技术高效爬取Coursera课程信息，并分析其中的技术难点与解决方案。1.Coursera网站分析Coursera是一个典型的现代Web应用，具有以下特点：采用React/Vue等前端框架构建，大量内容
Python爬虫实战：借助工具高效采集微信公众号文章 Python爬虫项目 python 爬虫微信 facebook 音视频开发语言
导语微信公众号作为信息传播的重要平台，涵盖了新闻、技术、生活等各个领域的优质内容。对于数据分析师、内容整理者或研究人员而言，系统地采集公众号文章内容具有重要意义。然而，微信公众号对爬虫设置了较强的反爬机制，直接采集存在一定难度。本文将结合实际案例，介绍如何借助工具和Python技术高效采集微信公众号文章。1.项目目标与需求定义目标：采集指定微信公众号的历史文章，包括标题、链接、发布时间等信息；支持
高效主机发现与端口枚举：fscan工具实战指南 Bruce_xiaowei 笔记总结经验网络安全 fscan 信息搜集
高效主机发现与端口枚举：fscan工具实战指南在网络安全领域，主机发现与端口枚举是渗透测试和信息收集的基础环节。本文将深入探讨fscan这一高效工具的核心技术原理与实战应用，帮助你快速掌握网络扫描的核心技能。一、fscan与Nmap工具对比特性fscanNmap开发语言Python3C++主要功能主机探测、端口扫描、漏洞检测主机发现、服务识别、OS检测爆破能力内置弱口令检测需配合其他工具扫描速度极
2025年上半年软考系统架构设计师--案例分析试题与答案不对法计算机软考机考系统架构
必选题一:大模型训练系统某公司开发一个在线大模型训练平台，支持Python代码编写、模型训练和部署,用户通过python编写模型代码,将代码交给系统进行模型代码的解析,最终由系统匹配相应的计算机资源进行输出，用户不需要关心底层硬件平台。a.系统发生错误时，不影响正常运行时发送一个消息给系统管理员(可靠性。ps:可靠性中包括了健壮性:指的是保护应用程序不受错误使用和错误输入的影响，在发生意外错误事件
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
服务器、树莓派/香橙派部署HomeAssistant与小爱音箱联动不对法物联网物联网
HomeAssistant功能介绍与多平台部署实战：CentOS服务器、树莓派、香橙派部署及小爱音箱联动控制一、HomeAssistant简介HomeAssistant是一款基于Python开发的开源智能家居自动化平台，它最大的特点是高度集成和自定义。通过HomeAssistant，用户可以将不同品牌、不同协议的智能家居设备（如空调、电灯、传感器等）整合到一个统一的平台进行管理和控制，同时还支持通
数据分析案例-全球表面温度数据可视化与统计分析艾派森数据分析信息可视化 python 数据分析数据挖掘
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
机器学习算法——神经网络1（神经元模型）
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经
生信技能16 - 生信分析序列处理常用函数生信与基因组学生信分析项目实战技能合集 python numpy 数据分析
生信分析序列处理常用函数生信分析经常需要对序列进行处理，下面的实现代码可用于个人练习，可以让我们更好地理解序列处理的原理，当然python也有更高效率的包可以实现以下功能。read_seq_file读取序列txt文件函数count_nucletotides计算各核苷酸数量函数dna2rnaDNA序列转RNA序列函数seq_reverseDNA序列转换为互补序列函数count_GC_ratio计算序
Python 数据分析实践经验与学习心得 lzzy_sj_0999 python 数据分析开发语言
在当今数据驱动的时代，Python以其丰富的库和便捷的语法，成为数据分析领域的首选语言。本文将结合实际案例，分享Python数据分析的学习心得与实践经验，涵盖数据读取、清洗、分析及可视化等关键环节，希望能为大家的学习和工作提供帮助。一、数据分析必备库介绍在Python数据分析中，有几个核心库是必须掌握的，它们就像我们手中的“神兵利器”，能够高效完成各种数据分析任务。Pandas：用于数据处理和分析
【分治算法】【Python实现】Strassen矩阵乘法「已注销」 #分治算法分治算法 Python
文章目录@[toc]问题描述基础算法时间复杂性Strassen算法时间复杂性问题时间复杂性Python实现个人主页：丷从心·系列专栏：分治算法学习指南：算法学习指南问题描述设AAA和BBB是两个n×nn\timesnn×n矩阵，AAA和BBB的乘积矩阵CCC中元素cij=∑k=1naikbkjc_{ij}=\displaystyle\sum\limits_{k=1}^{n}{a_{ik}b_{kj
AI如何提升个性化广告精准度——让投放更智能、更懂用户 Echo_Wish 前沿技术人工智能人工智能
AI如何提升个性化广告精准度——让投放更智能、更懂用户随着人工智能（AI）技术的发展，个性化广告已经从粗暴推送演变为智能匹配，广告主再也不想把预算砸给不感兴趣的人，而是精准触达有购买意向的用户。AI在广告投放中的核心优势在于深度数据分析、智能推荐、实时优化，让广告投放更精准、更有效。今天，我们就来聊聊AI如何提升个性化广告的精准度，并用Python代码演示其中的关键技术。1.为什么传统广告投放越来
N-P准则下的多传感器融合(python) 不会打架的锤子机器学习自动化算法算法 python vscode
本文设计了一个主程序：main_sensor_fusion，和一个函数程序：cal_fuse。主程序里面包含主干部分和绘图部分，函数程序包含数据生成函数gen，检测概率计算函数cal，非0逻辑矩阵函数No_zero_value，单传感器判决函数fus_seq，多传感融合函数fusion。需要的点赞私聊if__name__=="__main__":begin_time=time()#Measurep
Python+Vue计算机毕业设计智慧养老院管理系统egn81（源码+程序+LW+部署）心心毕设程序源码 python vue.js 课程设计
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Python3.7.7+Django+Mysql5.7+piplist+HBuilderX（Vscode也行）+Vue+Pychram社区版。项目技术：Django+Vue+Python+Mysql等等组成，B/S模式等等。环境需要1.运行环境：最好是安装Python3.7.7，我们在这个平台上运行的。其他版本理论上也
Python在自动驾驶中的多传感器融合——让智能汽车“看得更清楚” Echo_Wish Python！实战！python 自动驾驶汽车
Python在自动驾驶中的多传感器融合——让智能汽车“看得更清楚”在自动驾驶技术的演进过程中，多传感器融合（Multi-SensorFusion）是不可或缺的一环。单一传感器往往存在局限性，例如摄像头怕光线变化，激光雷达价格昂贵，毫米波雷达分辨率有限，但如果将它们结合起来，就能形成一个更全面、更可靠的环境感知系统。今天，我们就来聊聊如何用Python实现自动驾驶中的多传感器融合，并结合最新技术趋势
列表反转：reverse() 方法的深度剖析测试者家园测试开发和测试 Python 零基础学Python 人工智能 Python 零基础学Python 零基础职场和发展软件开发和测试智能化测试
数据结构的基本操作始终是打牢编程基础的关键。而在对列表（list）这一核心数据结构的操作中，反转（reversing）是一项既常用又容易被低估的重要操作。Python提供了原地反转的reverse()方法，与返回新序列的切片[::-1]或内置函数reversed()形成了鲜明对比。本文将全面剖析list.reverse()方法，从其语义、实现机制、适用场景，到其在测试、开发与自动化中的实际运用，力
Python dlib（HOG+SVM）人脸识别总结程序媛一枚~ 人脸识别 python 支持向量机开发语言读书笔记人脸检测识别
Pythondlib（HOG+SVM）人脸识别总结面部标志检测dlib68点（HOG+SVM），194点人脸识别模型，包括口（外嘴唇，内嘴唇），鼻，眉毛（左右眉），眼睛（左右眼），下鄂5点面部标志检测器（左眼2点，右眼2点，鼻子1点）面部对齐更高效眨眼检测ear眨眼瞬间达到0疲劳驾驶检测—连续帧ear面部对齐眼睛连线反正切获取旋转角度，期望图像眼睛横长度计算比率左眼计算右眼相对坐标眼睛横中心点作为
Python开发从新手到专家：第十四章面向对象（ OOP）程序设计 caifox菜狐狸 Python开发从新手到专家 python OOP 面向对象类继承多态静态方法
在Python开发的旅程中，我们已经探索了诸多基础概念与实用技巧，从简单的变量赋值到复杂的函数嵌套，每一步都为构建更强大的程序奠定了坚实的基础。如今，我们即将踏入一个全新的领域——面向对象程序设计（OOP）。这一章将带你领略OOP的独特魅力，它不仅是一种编程范式，更是一种全新的思考问题和解决问题的方式。面向对象程序设计的核心在于“对象”和“类”。通过将数据和操作数据的方法封装在一起，我们可以构建出
用 Python 打造立体数据世界：3D 堆叠条形图绘制全解析 Code_Verse python 科研绘图
在数据可视化的工具箱里，3D图表总能带来眼前一亮的效果——它突破了二维平面的限制，用立体空间展示多维度数据关系，让复杂的数据层级一目了然。今天我们要解锁的「3D堆叠条形图」，就是一种能同时呈现类别、子类别、数值大小的强大可视化工具，特别适合展示具有分层结构的数据。无论是商业报表中的多维度业绩分析，还是科研数据中的多指标对比，它都能让你的数据呈现瞬间高级起来～为什么选择3D堆叠条形图？先聊聊这种图表
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源