风度78

【数学基础】算法工程师必备的机器学习--线性模型（上）

作者：华校专

作者信息：

华校专，曾任阿里巴巴资深算法工程师、智易科技首席算法研究员，现任腾讯高级研究员，《Python 大战机器学习》的作者。

编者按：

算法工程师必备系列更新啦！继上次推出了算法工程师必备的数学基础后，小编继续整理了必要的机器学习知识，全部以干货的内容呈现，哪里不会学哪里，老板再也不用担心你的基础问题！

第一部分：机器学习基础及线性模型

第一章：机器学习方法概论

1. 机器学习的对象是：具有一定的统计规律的数据。

2. 机器学习根据任务类型，可以划分为：

监督学习任务：从已标记的训练数据来训练模型。主要分为：分类任务、回归任务、序列标注任务。
无监督学习任务：从未标记的训练数据来训练模型。主要分为：聚类任务、降维任务。
半监督学习任务：用大量的未标记训练数据和少量的已标记数据来训练模型。
强化学习任务：从系统与环境的大量交互知识中训练模型。

3. 机器学习根据算法类型，可以划分为：

传统统计学习：基于数学模型的机器学习方法。包括SVM、逻辑回归、决策树等。

这一类算法基于严格的数学推理，具有可解释性强、运行速度快、可应用于小规模数据集的特点。

深度学习：基于神经网络的机器学习方法。包括前馈神经网络、卷积神经网络、递归神经网络等。

这一类算法基于神经网络，可解释性较差，强烈依赖于数据集规模。但是这类算法在语音、视觉、自然语言等领域非常成功。

4. 没有免费的午餐定理(No Free Lunch Theorem:NFL)：对于一个学习算法A，如果在某些问题上它比算法B好，那么必然存在另一些问题，在那些问题中B比A更好。

因此不存在这样的算法：它在所有的问题上都取得最佳的性能。因此要谈论算法的优劣必须基于具体的学习问题。

一、基本概念

1.1 特征空间

1. 输入空间：所有输入的可能取值；输出空间：所有输出的可能取值。

特征向量表示每个具体的输入，所有特征向量构成特征空间。

2. 特征空间的每一个维度对应一种特征。

3. 可以将输入空间等同于特征空间，但是也可以不同。绝大多数情况下，输入空间等于特征空间。

模型是定义在特征空间上的。

1.2 样本表示

1. 通常输入实例用表示，真实标记用表示，模型的预测值用 ,表示。具体的输入取值记作 , ；具体的标记取值记作；具体的模型预测取值记作。

2. 所有的向量均为列向量，其中输入实例的特征向量记作（假设特征空间为 n 维）：

这里为的第 i 个特征的取值。第 i 个输入记作，它的意义不同于。

3. 训练数据由输入、标记对组成。通常训练集表示为：。

输入、标记对又称作样本点。
假设每对输入、标记对是独立同分布产生的。

4. 输入和标记可以是连续的，也可以是离散的。

为连续的：这一类问题称为回归问题。
为离散的，且是有限的：这一类问题称之为分类问题。
和均为序列：这一类问题称为序列标注问题。

二、监督学习

2.1 监督学习

1. 监督学习中，训练数据的每个样本都含有标记，该标记由人工打标，所以称之为监督 。

2. 监督学习假设输入与标记遵循联合概率分布，训练数据和测试数据依联合概率分布独立同分布产生。

学习过程中，假定这个联合概率分布存在，但是具体定义未知。

3. 监督学习的目的在于学习一个由输入到输出的映射，该映射由模型表示。

模型属于由输入空间到输出空间的映射的集合，该集合就是解空间。解空间的确定意味着学习范围的确定。

4. 监督学习的模型可以为概率模型或者非概率模型：

概率模型由条件概率分布表示。
非概率模型由决策函数表示。

5. 监督学习分为学习和预测两个过程。

给定训练集，其中为输入值，是标记值。假设训练数据与测试数据是依据联合概率分布独立同分布的产生的。

学习过程：在给定的训练集上，通过学习训练得到一个模型。该模型表示为条件概率分布或者决策函数
预测过程：对给定的测试样本，给出其预测结果：
对于概率模型，其预测值为：
对于非概率模型，其预测值为：

6. 可以通过无监督学习来求解监督学习问题：

首先求解无监督学习问题来学习联合概率分布
然后计算：。

2.2 生成模型和判别模型

1. 监督学习又分为生成方法和判别方法，所用到的模型分别称为生成模型和判别模型。

2. 生成方法：通过数据学习联合概率分布，然后求出条件概率分布作为预测的模型。

即生成模型为：

生成方法的优点：能还原联合概率分布，收敛速度快，且当存在隐变量时只能用生成方法。
生成方法有：朴素贝叶斯法，隐马尔可夫链。

3. 判别方法：直接学习决策函数或者条件概率分布的模型。

判别方法的优点：直接预测，一般准确率更高，且一般比较简化问题。
判别方法有：逻辑回归，决策树。

三、机器学习三要素

1. 机器学习三要素：模型、策略、算法。

3.1 模型

1. 模型定义了解空间。监督学习中，模型就是要学习的条件概率分布或者决策函数。

模型的解空间包含了所有可能的条件概率分布或者决策函数，因此解空间中的模型有无穷多个。

模型为一个条件概率分布：

解空间为条件概率的集合：。其中： , 为随机变量，为输入空间，为输出空间。

通常是由一个参数向量决定的概率分布族：。其中：只与有关，称为参数空间。

模型为一个决策函数：

解空间为决策函数的集合：。其中：为变量，为输入空间，为输出空间。

通常是由一个参数向量决定的函数族：。其中：只与有关，称为参数空间。

2. 解的表示一旦确定，解空间以及解空间的规模大小就确定了。

如：一旦确定解的表示为：，则解空间就是特征的所有可能的线性组合，其规模大小就是所有可能的线性组合的数量。

3. 将学习过程看作一个在解空间中进行搜索的过程，搜索目标就是找到与训练集匹配的解。

3.2 策略

1. 策略考虑的是按照什么样的准则学习，从而定义优化目标。

3.2.1 损失函数

1. 对于给定的输入，由模型预测的输出值与真实的标记值可能不一致。此时，用损失函数度量错误的程度，记作，也称作代价函数。

2. 常用损失函数：

0-1 损失函数：

平方损失函数MSE：
绝对损失函数MAE：
对数损失函数：。
其物理意义是：二分类问题的真实分布与模型分布之间的交叉熵。
一个简单的解释：因为样本易经出现，所以理论上。

如果它不为 1，则说明预测存在误差。越远离1，说明误差越大。

3. 训练时采用的损失函数不一定是评估时的损失函数。但通常二者是一致的。

因为目标是需要预测未知数据的性能足够好，而不是对已知的训练数据拟合最好。

3.2.2 风险函数

1. 通常损失函数值越小，模型就越好。但是由于模型的输入、标记都是随机变量，遵从联合分布，因此定义风险函数为损失函数的期望：

其中分别为输入空间和输出空间。

2. 学习的目标是选择风险函数最小的模型。

3. 求的过程中要用到 ,但是是未知的。

实际上如果它已知，则可以轻而易举求得条件概率分布，也就不需要学习。

3.2.3 经验风险

1. 经验风险也叫经验损失。

给定训练集，模型关于的经验风险定义为：

经验风险最小化 (empirical risk minimization:ERM) 策略认为：经验风险最小的模型就是最优的模型。即：

2. 经验风险是模型在上的平均损失。根据大数定律，当时。

但是由于现实中训练集中样本数量有限，甚至很小，所以需要对经验风险进行矫正。

3. 结构风险是在经验风险上叠加表示模型复杂度的正则化项（或者称之为罚项）。它是为了防止过拟合而提出的。

给定训练集，模型关于 \mathbb D 的结构风险定义为：

其中：

为模型复杂度，是定义在解空间上的泛函。越复杂，则越大。
为系数，用于权衡经验风险和模型复杂度。

4. 结构风险最小化 (structurel risk minimization:SRM) 策略认为：结构风险最小的模型是最优的模型。即：

5. 结构风险最小化策略符合奥卡姆剃刀原理：能够很好的解释已知数据，且十分简单才是最好的模型。

3.2.4 极大似然估计

1. 极大似然估计就是经验风险最小化的例子。

2. 已知训练集，则出现这种训练集的概率为：。根据出现概率最大，有：

定义损失函数为：，则有：

即：极大似然估计 = 经验风险最小化。

3.2.5 最大后验估计

1. 最大后验估计就是结构风险最小化的例子。

2. 已知训练集，假设已知参数的先验分布为，则出现这种训练集的概率为:

根据出现概率最大：

定义损失函数为：；定义模型复杂度为；定义正则化系数为。则有：

即：最大后验估计 = 结构风险最小化。

3.3 算法

1. 算法指学习模型的具体计算方法。通常采用数值计算的方法求解，如：梯度下降法。

第二章：线性模型

给定样本，其中，为样本的第 i 个特征，特征有 n 种。线性模型(linear model) 的形式为：。其中为每个特征对应的权重生成的权重向量。
线性模型的优点是：

模型简单。
可解释性强，权重向量直观地表达了各个特征在预测中的重要性。

很多功能强大的非线性模型(nolinear model) 可以在线性模型的基础上通过引入层级结构或者非线性映射得到。
一、线性回归

1.1 问题
1. 给定数据集
  。
  线性回归问题试图学习模型：
  
  该问题也被称作多元线性回归(multivariate linear regression)
2. 对于每个，其预测值为。采用平方损失函数，则在训练集上，模型的损失函数为：
  优化目标是损失函数最小化，即：。
1.2 求解
1. 可以用梯度下降法来求解上述最优化问题的数值解，但是实际上该最优化问题可以通过最小二乘法获得解析解。
2. 令：
  则有：
  令：
  则：
3. 令。为求得它的极小值，可以通过对求导，并令导数为零，从而得到解析解：
  1）当为满秩矩阵时，可得：。
  其中为的逆矩阵。
  最终学得的多元线性回归模型为：。
  2）当不是满秩矩阵。此时存在多个解析解，他们都能使得均方误差最小化。究竟选择哪个解作为输出，由算法的偏好决定。
  
  比如（样本数量小于特征种类的数量），根据的秩小于等于 N,n 中的最小值，即小于等于 N（矩阵的秩一定小于等于矩阵的行数和列数）；而矩阵是大小的，它的秩一定小于等于 N，因此不是满秩矩阵。
  
  常见的做法是引入正则化项：
  1） L_1 正则化：此时称作Lasso Regression ：
  为正则化系数，调整正则化项与训练误差的比例。
  2） L_2 正则化：此时称作Ridge Regression：
  为正则化系数，调整正则化项与训练误差的比例。
  3）同时包含 L_1,L_2 正则化：此时称作Elastic Net：
  其中：
- 为正则化系数，调整正则化项与训练误差的比例。
- 为比例系数，调整 L_1 正则化与 L_2 正则化的比例。
1.3 算法
1. 多元线性回归算法：
  1）输入：
  a. 数据集
  b. L_2 正则化项系数
  2）输出模型：
  3）算法步骤：
  令：
  求解：
  最终学得模型：
二、广义线性模型

2.1 广义线性模型的函数定义
1. 考虑单调可微函数，令，这样得到的模型称作广义线性模型 (generalized linear model)。
  其中函数称作联系函数 (link function) 。
2. 对数线性回归是广义线性模型在时的特例。即：。
- 它实际上是试图让 ) 逼近 y 。
- 它在形式上仍是线性回归，但是实质上是非线性的。
2.2 广义线性模型的概率定义
1. 如果给定和之后，之后， y 的条件概率分布服从指数分布族，则该模型称作广义线性模型。
  指数分布族的形式为：。
- 是的线性函数：
- 为的函数
- 为的函数
2.3 常见分布的广义线性模型

2.3.1 高斯分布
1. 高斯分布：
  令：
  则满足广义线性模型。
2.3.2 伯努利分布
1. 伯努利分布（二项分布，y 为 0 或者 1，取 1的概率为 \phi ）：
  令：
  则满足广义线性模型。
2. 根据，有。则得到：
  
  因此 logistic 回归属于伯努利分布的广义形式。
2.3.3 多元伯努利分布
1. 假设有 K 个分类，样本标记。每种分类对应的概率为。则根据全概率公式，有
  
  a. 定义为一个维的列向量：
  
  b. 定义示性函数 : 表示属于分类；表示不属于分类。则有：
  c. 构建概率密度函数为：
  c. 令
  则有：
  令，则满足广义线性模型。
2. 根据：
  则根据：
  于是有：
三、对数几率回归
1. 线性回归不仅可以用于回归任务，还可以用于分类任务。
3.1 二分类模型
1. 考虑二分类问题。
  给定数据集
  。
  a. 考虑到取值是连续的，因此它不能拟合离散变量。
  可以考虑用它来拟合条件概率，因为概率的取值也是连续的。
  b. 但是对于（若等于零向量则没有什么求解的价值），取值是从，不符合概率取值为，因此考虑采用广义线性模型。
  最理想的是单位阶跃函数：
  c. 但是阶跃函数不满足单调可微的性质，不能直接用作。
  对数几率函数(logistic function)就是这样的一个替代函数：
  这样的模型称作对数几率回归(logistic regression或logit regression）模型。
2. 由于，则有：
  a. 比值

基于Python实现读取嵌套压缩包下的文件袁袁袁袁满 Python实用技巧大全 python 嵌套压缩包下文件读取 Python实现嵌套压缩包压缩包 zipfile BytesIO
文章目录前言思路完整代码代码优化前言工作中遇到的问题，需要用Python实现嵌套压缩包下文件读取，这里记录下方法，希望能帮助到更多的人。思路打开外层zip压缩包并遍历文件：使用withzipfile.ZipFile(outer_zip_path,'r')asouter_zip语句以读取模式'r'打开用户输入的外层zip压缩包对应的文件，这样在代码块结束后会自动关闭该文件，避免资源泄露。通过oute
【如何利用Python抢演唱会门票】python利用selenium实现大麦网抢票 Python小炮车 python selenium 数据库
一、selenium原理介绍Selenium是一个用于Web[应用程序](https://link.juejin.cn/?target=https%3A%2F%2Fbaike.baidu.com%2Fitem%2F%25E5%25BA%2594%25E7%2594%25A8%25E7%25A8%258B%25E5%25BA%258F%2F5985445%3FfromModule%3Dlemma_i
Java 数组排序赔罪 Java 系统学习 java 排序算法算法 java-ee 数组排序
目录1.Java冒泡排序（BubbleSort）1.冒泡排序2.冒泡排序的算法原理3.冒泡排序的复杂度和性能4.形成代码2.Java快速排序（QuickSort）3.Java归并排序（MergeSort）4.Java选择排序（SelectionSort）5.Java直接插入排序6.Java希尔排序（ShellSort）1.Java冒泡排序（BubbleSort）1.冒泡排序冒泡排序（BubbleS
基于SIFT特征提取和模板匹配的车标识别算法MATLAB仿真（含MATLAB代码）爱学习的通信人图像处理毕业设计信号处理算法 matlab 开发语言
摘要本文介绍了一种基于尺度不变特征变换（SIFT）特征提取和模板匹配的车标识别方法，并通过MATLAB进行仿真。该方法利用SIFT特征的尺度和旋转不变性，提高车标识别的准确性和鲁棒性，适用于各种尺寸和方向的车标图像。仿真结果展示了该方法在实际应用中的有效性。关键词：车标识别，SIFT特征提取，模板匹配，MATLAB仿真1.引言车标识别在车辆检测、智能交通系统和安全监控中具有重要应用。准确识别车辆品
Python 实现七大排序算法 weixin_30527323 python shell 数据结构与算法
技术博客：github.com/yongxinz/te…本文用Python实现了插入排序、希尔排序、冒泡排序、快速排序、直接选择排序、堆排序、归并排序。先整体看一下各个算法之间的对比，然后再进行详细介绍：排序算法平均时间复杂度最好情况最坏情况空间复杂度排序方式稳定性插入排序O(n²)O(n)O(n²)O(1)In-place稳定冒泡排序O(n²)O(n)O(n²)O(1)In-place稳定选择排
PCL 点云随机渲染颜色 MelaCandy PCL点云算法与实战案例 3d 算法计算机视觉人工智能 c++
目录一、概述1.1原理1.2实现步骤1.3应用场景二、代码实现2.1关键函数2.2完整代码三、实现效果PCL点云算法汇总及实战案例汇总的目录地址链接：PCL点云算法与项目实战案例汇总（长期更新）一、概述本文将介绍如何使用PCL库为点云中的每个点随机渲染颜色，并在PCL的可视化窗口中显示。这种方法适用于需要对点云中的不同点进行颜色区分的场景，可以帮助更直观地观察和分析点云数据。1.1原理在点云处理中
pcl系列-添加自定义点云类型不会算法的阿召 c++自动驾驶计算机视觉 3d
pcl库中附带了各种预定义的点类型，这些数据类型足以支持在pcl中所实现的所有算法和方法，但是在某些情况下，在使用pcl点类型时希望定义新的点类型，比如在LIO-SAM中定义的PointXYZIRPYT（包括点云基本的坐标(x,y,z)和强度I，以及三个旋转角RPY和时间T）。因此，pcl提供了创建自定义点云类型的方法。1.pcl常用点云类型pcl中定义了大量的常用点类型，在定义自己的点类型之前，
Python数据分析高频面试题及答案闲人编程程序员面试 python 数据分析面试题核心
目录1.基础知识2.数据处理3.数据可视化4.机器学习模型5.进阶问题6.数据清洗与预处理7.数据转换与操作8.时间序列分析9.高级数据分析技术10.数据降维与特征选择11.模型评估与优化12.数据操作与转换13.数据筛选与分析14.数据可视化与报告15.数据统计与分析16.高级数据处理以下是一些Python数据分析的高频核心面试题及其答案，涵盖了基础知识、数据1.基础知识问1：Python中列表
PCL 生成空间圆点云【2025最新版】点云侠 PCL学习算法 c++3d 计算机视觉开发语言
目录一、算法原理二、代码实现三、结果展示本文由CSDN点云侠原创，原文链接。博客长期更新，最近一次更新时间为：2025年1月17日。代码在PCL1.14.1中测试通过。一、算法原理三维空间圆形式如下：三维空间圆的参数方程：{
数据结构---C++版海狸_hlz 数据结构数据结构
第1章数据结构的基本概念1.1数据结构在程序设计中的作用1）程序设计的实质是什么?数据表示：将数据存储在计算机（内存）中数据处理：处理数据，设计方案（算法）1.2计算机求解问题:1）问题→抽象出问题的模型→求模型的解问题——数值问题、非数值问题2）数值问题→数学方程非数值问题→数据结构3）本书讨论非数值问题的数据组织和处理，主要内容如下：（1）数据的逻辑结构：线性表、树、图等数据结构，其核心是如何
Python数据分析常见面试题和答案01-10 飞翔还哈哈6 Python数据分析 python pandas 数据分析
以下是一些Python数据分析常见面试题和答案：1.Python中的list和tuple的区别是什么？答：List是可变的，而元组（tuple）是不可变的。因此，使用list来存储需要频繁修改的数据，而使用元组来存储不能更改的数据项。2.解释NumPy中的数组？为什么numpy在数据分析中很重要？答：NumPy是Python中提供高性能科学计算和数据分析的包。NumPy数组是一种类似于列表的数据结
【Python小技巧】使用prettytable格式化显示dataframe数据 IT里的交易员 Python经验池 python
文章目录前言一、安装prettytable二、函数打包三、应用示例总结前言经常我们使用print(df)输出dataframe数据，打印输出的数据没有格式，看起来屏幕一篇乱。有没有一种可以格式化输出的工具？还真有，那就是prettytable。一、安装prettytablePrettyTable是Python中的一个库，用于以美观的表格形式显示数据。要使用PrettyTable，首先需要安装它，可
PCL点云处理算法汇总（C++长期更新低价精品版）点云侠' 点云学习算法 c++开发语言计算机视觉
可笑，我当然知道是抄袭的啊，还用你提醒？要不是你们审核不作为，我能抄这么明目张胆？？？目录一、点云滤波1、常用滤波器2、采样滤波3、裁剪滤波二、KD树与八叉树1、KD树2、八叉树三、点云配准粗配准精配准对应关系配准精度坐标转换刚体运动变换四、点云拟合分割1、RANSAC2、其他几何分割五、三维重建六、特征点与特征描述1、点云的属性2、关键点提取3、特征描述子七、基础函数1、common模块2、其他
Python中用ollama库实现连续对话 longnershot python 开发语言 AI编程
找来找去没找到一个简单示例，用4o和问心来回调整简单生成了一个，抛砖引玉了。importollamadefchat_with_ollama():#初始化一个列表来存储对话历史，每个元素是一个包含用户输入和模型回复的元组history=[]whileTrue:#获取用户输入，并转换为小写，方便后续判断退出条件user_input=input("\nUser:")#判断用户是否想要退出对话ifuser
Python电子书教程汇总 iteye_3941 python
From:http://bathome.net/thread-15554-1-1.html[转载教程]Python电子书教程汇总（2012-02-16更新）简明Python教程(AByteofPython)_1.20_中文版pdfhttp://www.rayfile.com/zh-cn/files/6cdcc561-58b2-11e1-ad5e-0015c55db73d/Python语言从入门到精
深入理解观察者模式 —— Qt信号槽机制的实现拾工软件设计观察者模式 qt 开发语言
观察者模式是一种行为型设计模式，允许一个对象（被观察者）状态发生变化时通知一组依赖它的对象（观察者），从而实现对象之间的解耦。在这篇文章中，我们将探讨如何用C++和Python实现观察者模式，并在代码中清晰地体现这一设计模式的核心思想。其实Qt的信号槽机制，就是借住了这一设计模式，并对其进行了一些扩展。由于Qt广泛的被C++和Python用户使用，所以这里给出Python和C++两个版本的简单实现
Pytorch 三小时极限入门教程 power-辰南人工智能深度学习 pytorch 人工智能
一、引言在当今的人工智能领域，深度学习占据了举足轻重的地位。而Pytorch作为一款广受欢迎的深度学习框架，以其简洁、灵活的特性，吸引了大量开发者投身其中。无论是科研人员探索前沿的神经网络架构，还是工程师将深度学习技术落地到实际项目，Pytorch都提供了强大的支持。本教程将带你从零基础开始，一步步深入了解Pytorch的核心知识，助你顺利踏上深度学习的征程。二、Pytorch基础环境搭建安装An
Python网络编程之UDP套接字编程 Ssaty. udp 网络 python
第1关：UDP初体验任务描述本关任务：完成一个客户端程序，向服务器端发出请求，传输数据，并设置超时丢包，体验UDP的基本连接过程。相关知识为了完成本关任务，你需要掌握：创建socket对象；发送UDP数据；接收UDP数据；设置超时。创建socket对象创建socket对象是第一步，后续所有的操作都是通过socket对象完成的。创建对象使用socket()函数：s=socket(参数1,参数2)#s
使用Python访问和操作Llama的方法起风了~~~。 python llama 人工智能 Python
使用Python访问和操作Llama的方法Llama是一个流行的Python库，用于处理和操作数据集。它提供了丰富的功能和工具，使我们能够轻松地对数据进行处理、转换和分析。本文将介绍如何使用Python来访问和使用Llama库，并提供相应的示例代码。安装Llama库首先，我们需要安装Llama库。可以使用pip命令在Python环境中安装Llama。打开终端或命令提示符，并运行以下命令：pipin
Python机器学习之XGBoost从入门到实战(基本理论说明) 雪域枫蓝 Python Atificial Intelligence 机器学习 python 分布式
Xgboost从基础到实战XGBoost:eXtremeGradientBoosting*应用机器学习领域的一个强有力的工具*GradientBootingMachines(GBM)的优化表现，快速有效—深盟分布式机器学习开源平台(DistributedmachinelearningCommunity，DMLC)的分支—DMLC也开源流行的深度学习库mxnet*GBM：Machine：机器学习模型
手把手教你使用 Python 制作贪吃蛇游戏｜Python游戏程序员CC_ Python教程 python 学python pygame python 开发语言
贪吃蛇游戏是有史以来最受欢迎的街机游戏之一。在这个游戏中，玩家的主要目标是在不撞墙或不撞墙的情况下抓住最大数量的水果。在学习Python或Pygame时，可以将创建蛇游戏视为一项挑战。这是每个新手程序员都应该接受的最好的初学者友好项目之一。学习构建视频游戏是一种有趣而有趣的学习。我们将使用Pygame来创建这个蛇游戏。Pygame是一个开源库，专为制作视频游戏而设计。它具有内置的图形和声音库。它也
Python Sqlite数据库与配置文件的加载、编辑和保存 2201_75335496 数据库 sqlite python json pyqt
一、Sqlite数据库SQLite，是一款轻型的数据库，是遵守ACID的关系型数据库管理系统，它包含在一个相对小的C库中。它是D.RichardHipp建立的公有领域项目。它的设计目标是嵌入式的，而且已经在很多嵌入式产品中使用了它，它占用资源非常的低，在嵌入式设备中，可能只需要几百K的内存就够了。它能够支持Windows/Linux/Unix等等主流的操作系统，同时能够跟很多程序语言相结合，比如T
【数据分析岗】关于数据分析岗面试python的金典问题+解答，包含数据读取、数据清洗、数据分析、机器学习等内容摇光~ 数据分析面试 python
大家好，我是摇光~，用大白话讲解所有你难懂的知识点最近和几个大佬交流了，说了很多关于现在职场面试等问题，然后也找他们问了问他们基本面试的话都会提什么问题。所以我收集了很多关于python的面试题，希望对大家面试有用。类别1：数据读取与处理问题1：如何用Python从Excel文件中读取数据？答：在Python中，可以使用pandas库从Excel文件中读取数据。pandas提供了read_exce
【Python篇】深入机器学习核心：XGBoost 从入门到实战半截诗 Python python 机器学习深度学习分类回归数据分析 XGBoost
文章目录XGBoost完整学习指南：从零开始掌握梯度提升1.前言2.什么是XGBoost？2.1梯度提升简介3.安装XGBoost4.数据准备4.1加载数据4.2数据集划分5.XGBoost基础操作5.1转换为DMatrix格式5.2设置参数5.3模型训练5.4预测6.模型评估7.超参数调优7.1常用超参数7.2网格搜索8.XGBoost特征重要性分析9.高级功能扩展9.1模型解释与可解释性9.2
python调用ollama库详解 2201_75335496 python 经验分享神经网络人工智能自然语言处理语言模型
0准备1）准备Ollama软件（注意：两个不是同一个东西）详见上次的文章Ollama通过gguf文件加载AI模型（补充：关于Ollama加载AI模型的补充）2）准备ollama库如果您还未安装ollama库，请使用pip安装：pipinstallollama#1ollama库的基本使用importollama#普通输出（请先按照准备工作中的要求安装模型）back=ollama.chat(model
【YOLOv8杂草作物目标检测】 stsdddd YOLO目标检测目标检测 YOLO 目标检测人工智能
YOLOv8杂草目标检测算法介绍模型和数据集下载算法介绍YOLOv8在禾本科杂草目标检测方面有显著的应用和效果。以下是一些关键信息的总结：农作物幼苗与杂草检测系统：基于YOLOv8深度学习框架，通过2822张图片训练了一个目标检测模型，用于检测田间的农作物幼苗与杂草对象。该系统支持图片、视频以及摄像头进行目标检测，并能保存检测结果。系统界面可实时显示目标位置、目标总数、置信度、用时等信息。YOLO
pyinstaller 打包生成.exe 可执行文件报错 “IndexError: tuple index out of range” 静妍 Python Python pyqt gui Pyinstaller .exe
想把pyqt写的GUI程序打包成.exe文件，以便在Windows下运行，不想因为使用Python3.6，出现兼容问题：IndexError:tupleindexoutofrangePyinstaller官网目前的版本是3.2.1只支持到Python2.7，Python3.3~Python3.5需自己在官网源码里
Nginx 集群测试小馋喵知识杂货铺性能中间件
在Nginx集群的部署和维护过程中，为了确保系统的高可用性、性能和扩展性，必须进行全面的测试。以下是Nginx集群需要进行的几类主要测试：1.集群有效性测试集群有效性测试的主要目的是验证Nginx集群的基本功能是否正常工作，确保流量分发和负载均衡按预期运行。测试内容：负载均衡验证：确保Nginx按照配置的负载均衡算法（如轮询、加权轮询、IP哈希等）正确地分发请求。测试方法：使用压力测试工具模拟请求
如何利用Python下载酷狗音乐傻啦嘿哟关于python那些事儿 python 开发语言
目录一、酷狗音乐下载的挑战与解决方案二、Python下载酷狗音乐的步骤选择合适的第三方库安装you-get库下载酷狗音乐三、注意事项与常见问题版权问题链接失效下载速度四、案例与代码示例五、总结与展望随着互联网的迅猛发展，音乐已经成为人们日常生活中不可或缺的一部分。酷狗音乐作为中国领先的在线音乐平台，拥有庞大的音乐库和众多用户。然而，有时我们可能希望将酷狗音乐下载到本地，以便在没有网络或希望离线欣赏
python概述_理解Python数据类：Dataclass 的特征概述（上） weixin_39875842 python概述
原标题UnderstandingPythonDataclasses—Part1，作者为ShikharChauhan。这是一个包含两部分的博文：这一篇是Dataclass的特征概述下一篇是Dataclassfields的概述引言Dataclasses是一些适合于存储数据对象(dataobject)的Python类。你可能会问，什么是数据对象?下面是一个并不详尽的用于定义数据对象的特征列表：他们存储并
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

【数学基础】算法工程师必备的机器学习--线性模型（上）

第一章：机器学习方法概论

一、基本概念

1.1 特征空间

1.2 样本表示

二、监督学习

2.1 监督学习

2.2 生成模型和判别模型

三、机器学习三要素

3.1 模型

3.2 策略

3.2.1 损失函数

3.2.2 风险函数

3.2.3 经验风险

3.2.4 极大似然估计

3.2.5 最大后验估计

3.3 算法

第二章：线性模型

一、线性回归

1.1 问题

1.2 求解

1.3 算法

二、广义线性模型

2.1 广义线性模型的函数定义

2.2 广义线性模型的概率定义

2.3 常见分布的广义线性模型

2.3.1 高斯分布

2.3.2 伯努利分布

2.3.3 多元伯努利分布

三、对数几率回归

3.1 二分类模型

你可能感兴趣的:(算法,python,机器学习,人工智能,深度学习)