HitStuHan

《机器学习方法（第三版）—— 李航》学习笔记（一）附代码

前言

一、第一章机器学习及监督学习概论

1、机器学习

实现机器方法的步骤

机器学习的研究

2、机器学习的分类

基本分类

二、第二章感知机

1、感知机模型

2、感知机学习策略

感知机学习策略

感知机学习算法

前言

提示：本blog不用于商用，如有侵权请速与作者联系。`

毕竟是又开启了人生的又一阶段，花点时间重新系统的学一遍机器学习也未尝不是一件好事。有幸了解到李航博士新书《机器学习方法》（第三版），并第一时间买了下来，此书的前两版名叫《统计学习方法》，第一版主要讲解了监督学习，第二版加入了无监督学习，第三版在基础上加入了深度学习的内容，主要围绕着在各大领域大放异彩的前馈神经网络、卷积神经网络、循环神经网络、生成对抗网络及对应的经典模型。

接下来的几天甚至几周将过一遍此书中的内容，并以笔记的形式写成Blog。由于书中并没有案例代码，所以想要在此Blog中找寻机器学习代码可以直接绕行，不要过多浪费时间。

本人水平有限，能够吃透李航博士书中内容的零星半点便知足了，而笔记更是只能照猫画虎似地摘抄，提出些天马行空的理解，如有错误之处还望各位读者批评指正。

提示：笔记中的多级标题与书中的章节或小结并不一一对应，且笔记中的内容是个人认为的没见过的且比较重点的内容，而不是全部内容，还望各位读者不要将其奉为圭臬。

一、第一章机器学习及监督学习概论

1、机器学习

实现机器方法的步骤

（1）得到一个有限的训练数据集合；
（2）确定包含所有可能的模型的假设空间，即学习模型的集合；
（3）确定模型选择的准则，即学习的策略；
（4）实现求解最优模型的算法，即学习的算法；
（5）通过学习方法选择最优模型；
（6）利用学习的最优模型对新数据进行预测或分析。

机器学习的研究

（1）机器学习方法的研究：旨在开发新的学习方法；
（2）机器学习理论的研究在于探求及学习方法的有效性与效率，以及机器学习基本理论问题；
（3）机器学习应用的研究主要考虑将机器学习方法应用到实际问题中去，解决实际问题。

个人理解：就我所了解到的人智领域的现状（一位步入大厂的朋友反复和我强调的）：（1）与（3）方面上只有工业界才能做出突破，而学界只不过是拿着工业界所取得的成果，在（2）进行一系列证明，或拿着（1）的残羹剩饭进行二创。因为想要以一个实验室或者学校的力量提出一个新的学习范式并转化为生产力在现阶段来说是完全不可能的。

2、机器学习的分类

基本分类

监督学习：

监督学习是指从标注数据中学习预测模型的机器学习问题。标注数据表述输入输出的对应关系，预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的同级规律。

（1）输入空间、特征空间和输入空间

在监督学习中，将输入与输出的所有可能取值的集合分别称为输入空间与输出空间。输入空间和输出空间可以是有限元素集合，也可以是整个欧式空间。输入空间与输出空间可以是同一空间，也可以是不同的空间，但通常输出空间是远远小于输入空间的。每个具体的输入是一个实例，通常由特征向量表示。这时，所有特征向量存在的空间称为特征空间。模型实际上都是定义在特征空间上的。

在监督学习中，将输入与输出看作是定义在输入（特征）空间与输出空间上的随机变量的取值。输入输出变量用大写字母表示，习惯上输入变量写作X，输出变量写作Y。监督学习从训练数据集合中学习模型，对测试数据及逆行预测。训练数据由输入（或特征向量）与输出对组成，测试数据也由输入与输出对组成。输入与输出对又称为样本或样本点。

（2）联合概率分布

监督学习假设输入与输出的随机变量X与Y遵循联合概率分布P（X,Y）。P（X,Y）表示分布函数或分布密度函数。在学习过程中，假定这一联合概率分布存在，但对学习系统来说，联合概率分布的具体定义是未知的。训练数据与测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。机器学习假设数据存在一定的统计规律，X和Y具有联合概率分布就是监督学习关于数据的基本假设。

联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。假设X和Y都服从正态分布，那么P{X<4,Y<0}就是一个联合概率，表示X<4,Y<0两个条件同时成立的概率。表示两个事件共同发生的概率。A与B的联合概率表示为 P(AB) 或者P(A,B),或者P（A∩B）。

无监督学习：

无监督学习是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据，预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的同级规律或潜在结构。每个输入是一个实例，由特征向量表示。每个输出是对输入的分析结果，由输入的类别、转换或概率表示。模型可以实现对数据的聚类、降维或概率估计。

假设X是输入空间，Z是隐式结构空间。要学习的模型可以表示为函数z=g(x)、条件概率分布P(z|x)或者条件概率分布P(x|z)的形式。包含所有可能的模型的集合称为假设空间。无监督学习旨在从假设空间中选出在给定评价标准下的最优模型。

无监督学习通常使用大量的无标注数据学习或训练，每一个样本是一个实例。无监督学习可以用于对已有数据的分析，也可用于对未来数据的预测。

强化学习：

强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习的问题。假设智能系统与环境的互动基于马尔科夫决策过程，智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯策略。

强化学习不是三言两语就能讲明白的，有些基本概念反复学习四五遍还是不理解。所以，这部分内容不会在本笔记中详细讲述，后续可以会单独写一个强化学习和深度强化学习的系列笔记。

半监督学习与主动学习：

半监督学习是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常拥有少量标注数据、大量未标注数据，因为标注数据的构建往往需要人工、成本较高，未标注数据的收集不需要太多成本。半监督学习旨在利用未标注数据中的信息，辅助标注数据，进行监督学习，以较低的成本达到较好的学习效果。

主动学习指是机器不断主动给出实例让教师进行标注，然后利用标注数据学习预测模型的机器学习问题。通常的监督学习使用给定的标注数据，往往是随机得到的，可以看作是“被动学习”，主动学习的目标是找出对学习最有帮助的实例让教师标注，以较小的标注代价达到较好的学习效果。

半监督学习和主动学习更接近监督学习。

个人理解：
根据样本是否带有标签将机器学习分为监督学习和无监督学习。对于强化学习的分类，也会有监督强化学习和无监督强化学习，这里之所以会将强化学习的概念与监督、无监督学习并且，我个人认为是作者按照样本的差异性分类的。

2022.07.04 添加内容，对于上述自己的理解，继续做出解释：仔细学习了强化学习后发现，监督学习和强化学习确实是两个不一样的概念。（1）强化学习处理的大多数是序列数据，其很难像监督学习的样本一样满足独立同分布。（2）学习器并没有告诉我们每一步正确的动作是什么，学习器需要自己去发现那些动作可以带来最多的奖励，只能通过不断尝试来发现最有利的动作。（3）智能体获得自己能力的过程，其实是不断第尝试探索的过程。（4）在强化学习中，没有非常强的监督者，只有奖励信号，并且奖励是有延迟的。但是，强化学习和监督学习真的是那么独立的么？个人认为，并不是！其概念是可以相互转化的。奖励函数像是损失函数对于强化学习中完全可观测状态设计出的具体的奖励函数，可以看作是监督学习，对于强化学习中部分可观测状态人为设计的奖励函数，可以看作是无监督学习。再就是类似于图像分割领域，其目的是精确分割图像，既可以用强化学习也可以用监督学习，两者可进行同种任务的学习，并不是一定没有互相转化的可能的。

也就是说，对于监督学习，样本是（x，y）这样的一个特征与结果（预测值）的二元模型对；对于无监督学习，样本是x这样的一个特征，并没有结果，学习的是一个隐式空间；对于强化学习，输入是每个t下的状态，或者状态的可观测值，并且学习的不是一个结果，不是一个隐式结构空间，学习是一个价值函数、动作价值函数或者一个马尔可夫决策过程，用于产生最优的序贯决策。

接着，半监督学习，我认为只不过是学界为了各种原因从监督学习中择出来的概念，本质和监督学习没啥区别；主动学习则是更常出现在强化学习中，用于产生新的环境或状态。

二、第二章感知机

感知机是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。感知机对于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面，为此导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。感知机学习算法具有简单而易于实现的优点，分为原始形式和对偶形式。

1、感知机模型

假设输入空间（特征空间） $\chi \subseteq R^{n}$ ，输出空间是Y = {+1，-1}输入 $\in$ $\chi$ 表示实例的特征向量，对应于输入空间（特征空间）的点；输入y $\in$ Y 表示实例的类别。由输入空间到输出空间的函数 $f(x) = sign( \omega \cdot x + b)$ ，称为感知机。其中 $\omega$ 和 b为感知机模型参数， $\omega$ $\in R^{n}$ 叫做权值或者权值量，b $\in R$ 叫做偏置， $\omega \cdot x$ 表示 $\omega$ 和的内积。

2、感知机学习策略

数据集线性可分：

对于一个数据集，如果存在一个超平面能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧，则称数据集为线性可分，否则为线性不可分。

感知机学习策略

假设训练集是线性可分的，感知机得目的是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面。为了找出这样一个超平面，即确定感知机模型参数w，b，需要确定一个学习策略，即定义（经验）损失函数并将损失函数极小化。

损失函数的一个自然选择是误分类点的总数，但这样的损失函数不是w，b的连续可导函数，不易优化。损失函数的另一个选择是误分类点到超平面S的总距离，这是感知机所采用的。根据点到超平面S的距离公式： $\frac{1}{||w||}|w \cdot x0 +b |$ （2.1）。这里，是 w 的L2范数。

对于误分类数据有 $-yi (w \cdot xi +b ) > 0$ 成立，所以误分类点到超平面S的距离为上述表达式（2.1）的反。

假设超平面的S的误分类点集合为M，那么所有误分类点到超平面的S的总距离为 $-\frac{1}{||w||} \sum_{xi \in M}^{} yi(w \cdot xi +b )$ ，不考虑 $\frac{1}{||w||}$ ，就得到了感知机的损失函数。如果没有误分类点，损失函数值为0。而且，误分类点越少，误分类点离超平面越近，损失函数值就越小。一个特定的样本点的损失函数在误分类时是参数w，b的线性函数，在分类正确时是0。因此，给定训练集T，损失函数L(w,b)是w，b的连续可导函数。

感知机学习算法

原始形式：

算法2.1 感知机学习算法的原始形式

输入：训练数据集T = {(x1,y1),(x2,y2),……,(xN,yN)}，其中xi∈ $\chi$ = $R^{n}$ ，yi∈Y={+1，-1}，i=1，2，…，N；学习率 η (0<η≤1)

输出：w,b；感知机模型 $f(x) = sign( \omega \cdot x + b)$

（1）选取初始值w0，b0；

（2）在训练集中选择数据(xi,yi)；

（3）如果yi (w·xi + b) ≤ 0，则 w ← w + η yi xi ，b ← b + η yi ；

（4）转至步骤（2），直至训练集中没有误分类点。

# perceptron.py

import numpy as np

def update_net(x,y,w,b):
    dot = np.dot(x,w)
    if y * (dot + b) <= 0:
        w = w + (y * x).T
        b = b + y
        return w,b,False
    else:
        return w,b,True

def perceptron(x_list,y_list):
    w = np.zeros((2, 1))
    b = 0
    all_flag = False
    while all_flag != True:
        all_flag = True
        for i in range(len(x_list)):
            w,b,flag = update_net(x_list[i],y_list[i],w,b)
            if flag == False:
                all_flag = False
    return w,b

if __name__ == "__main__":
    x_list = [[[3,3]],
              [[4,3]],
              [[1,1]]]
    y_list = [[1],
              [1],
              [-1]]

    x_list = np.array(x_list)
    y_list = np.array(y_list)

    w,b = perceptron(x_list,y_list)
    print("Best w is :" + str(w))
    print("Best b is :" + str(b))

对偶形式：

算法2.2 感知机学习算法的对偶形式

输入：训练数据集T = {(x1,y1),(x2,y2),……,(xN,yN)}，其中xi∈ $\chi$ = $R^{n}$ ，yi∈Y={+1，-1}，i=1，2，…，N；学习率 η (0<η≤1)

输出：a，b；感知机模型 $f(x) = sign( \sum_{j=1}^{N} \alpha j \cdot yj \cdot xj + b) \leqslant 0$ ，其中 $\alpha = (\alpha 1 , \alpha 2 , ... , \alpha N , )^{T}$

(1) $\alpha \leftarrow 0 , b \leftarrow 0$

(2) 在训练过程中选择数据(xi,yi)

(3) 如果 $yi(\sum_{j=1}^{N} \alpha j \cdot yj \cdot xi + b) \leq 0$ ，则 $\alpha i \leftarrow \alpha i + \eta , b \leftarrow b + \eta \cdot yi$

(4) 转至步骤(2)直到没有误分类数据

对偶形式中训练实例仅以内积的形式出现。为了方便，可以预先将训练中集中实例间的内积计算出来并以矩阵的形式存储，这个矩阵就是Gram矩阵。

# perceptron_Antithesis.py
import numpy as np

def Gram(x_list):
    gram_matrix = np.zeros((len(x_list),len(x_list)))
    for i in range(len(x_list)):
        for j in range(len(x_list)):
            gram_matrix[i][j] = np.dot(x_list[i],x_list[j].T)[0][0]
    print(gram_matrix)
    return gram_matrix

def perceptron(x_list,y_list,alpha,eta):
    b = 0
    gram_matrix = Gram(x_list)
    all_flag = False
    while all_flag != True:
        all_flag = True
        for i in range(len(x_list)):
            tmp = 0
            for j in range(len(gram_matrix)):
                tmp = tmp + alpha[j] * y_list[j] * gram_matrix[i][j]
            if (tmp+b) * y_list[i] <= 0:
                alpha[i] = alpha[i] + eta
                b = b + y_list[i]
                all_flag = False
    return alpha,b

if __name__ == "__main__":
    x_list = [[[3,3]],
              [[4,3]],
              [[1,1]]]
    y_list = [[1],
              [1],
              [-1]]
    x_list = np.array(x_list)
    y_list = np.array(y_list)

    alpha = [0,0,0]
    eta = 1

    w,b = perceptron(x_list,y_list,alpha,eta)
    print("Best alpha is :" + str(w))
    print("Best b is :" + str(b))

scanpy保存图片的常用方法汇总 Bio Coder 空间转录组 &单细胞 scanpy 保存图片汇总
在使用Scanpy（一个用于单细胞RNA测序数据分析的Python库）时，保存图片（如可视化结果）是常见的操作。Scanpy的绘图功能主要基于Matplotlib和Seaborn，保存图片的方法也与这些库的保存机制一致。以下是Scanpy保存图片的详细方法及注意事项：1.基本保存图片的方法Scanpy的绘图函数（如sc.pl.umap、sc.pl.tsne、sc.pl.pca等）通常会返回Matp
Java基础学习笔记2 qichi333 学习笔记 java eclipse
今天是Java基础学习第二天，加油！！！下面是我今天记的一些笔记。（有点懒惰了，爬虫今天没学，因为赖床了(bushi)，但我会勤奋起来的^_^，一定一定！明天不能偷懒了天！！）一、运算符例子：inta=10;intb=20;intc=a+b;其中，“+”是运算符，且是算术运算符；“a+b”是表达式，且是算术表达式。1.算术运算符例1：publicclassdemo3{publicstaticvoi
Camera相机人脸识别系列专题分析之十六：人脸特征检测FFD算法之libcvface_api.so数据结构详细注释解析一起搞IT吧数码相机算法数据结构人工智能 android 图像处理计算机视觉
【关注我，后续持续新增专题博文，谢谢！！！】上一篇我们讲了：这一篇我们开始讲：Camera相机人脸识别系列专题分析之十六：人脸特征检测FFD算法之libcvface_api.so数据结构详细注释解析目录一、libcvface_api.so数据结构详细注释解析一、libcvface_api.so数据结构详细注释解析///@brief人脸信息结构体typedefstructcv_face_t{cv_r
MCP Streamable HTTP 样例（qbit） pythonagent
前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS
掌握变量命名与Python继承机制
掌握变量命名与Python继承机制背景简介在编程中，变量命名和继承是基础且重要的概念。良好的命名习惯可以提升代码的可读性，而继承则是一种代码复用的重要机制。本文将结合具体的书籍章节内容，深入解析变量命名规则和Python继承机制。变量命名规则变量命名是编程中最基础的部分，而正确的命名习惯能够帮助其他开发者（或未来的自己）更好地理解代码。根据书籍提供的内容，我们应当遵守以下规则：变量名只包含数字、下
从零开始：构建支持上下文窗口的AI原生应用实战指南 AI天才研究院 AI人工智能与大数据 AI-native ai
从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
颠覆人机交互！多模态 AI Agents 大模型如何用 5 大模式开启智能新时代？
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列七颠覆人机交互！多模态AIAgents大模型如何用5大模式开启智能新时代？一、从“单一感知”到“多模态融合”：A
python进程线程协程区别_Python：线程、进程与协程(1)——概念 weixin_39989159 python进程线程协程区别
最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多
四、Actor-Critic Methods 沈夢昂志 DRL深度强化学习 python 深度学习
由于在看DRL论文中，很多公式都很难理解。因此最近在学习DRL的基本内容。再此说明，非常推荐B站“王树森老师的DRL强化学习”本文的图表及内容，都是基于王老师课程的后自行理解整理出的内容。目录A.书接上回1、Reinforce算法B.State-ValueFunctionC.PolicyNetWork（Actor）D.ActionValueNetwork(Critic)E.TraintheNeur
实操 SpringBoot+MCP！清风孤客 spring boot 后端 java 人工智能
引言随着人工智能的飞速发展，大语言模型(LLM)正在革命性地重塑用户与软件的交互范式。想象一下这样的场景：用户无需钻研复杂的API文档或者在繁琐的表单间来回切换，只需通过自然语言直接与系统对话——“帮我查找所有2023年出版的图书”、“创建一个新用户叫张三，邮箱是[email protected]”。这种直观、流畅的交互方式不仅能显著降低新用户的学习曲线，更能大幅削减B端系统的培训成本和实施
如何学习智能体搭建
如何学习智能体搭建前言随着人工智能的发展，智能体（Agent）成为自动化、交互式应用和自主决策系统中的核心角色。本书将从零基础出发，系统讲解智能体的基本原理、常见框架、实战搭建与进阶技巧，帮助你快速上手并应用于实际项目。目录智能体基础认知智能体的核心组成主流智能体开发框架本地智能体与云端智能体选型智能体的任务自动化与插件集成智能体的知识检索与上下文管理智能体的多模态扩展智能体安全与可控性智能体实战
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
板凳-------Mysql cookbook学习（十一--------4)
唐宇迪机器学习实战课程笔记https://blog.csdn.net/weixin_54338498/article/details/128818007?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-1-12881
Char Studio 使用入门：高效构建企业级对话系统的实战指南 charles666666 人工智能产品经理语言模型自然语言处理架构
数字化浪潮推动下，企业与用户的交互模式正经历深刻变革，对话系统作为核心交互手段，其重要性日益凸显。然而，众多企业在构建对话系统时，却深陷诸多困境，难以自拔。一、开篇痛点场景：企业对话系统开发的典型困境企业在自行开发对话系统时，往往面临预算超支、周期漫长以及维护成本居高不下等问题。开发团队需要投入大量时间和精力进行底层技术架构的搭建，例如自然语言处理算法的研究、对话逻辑的设计等，这不仅消耗了大量的人
AAAI—24—Main—paper（关于Multi—Modal的全部文章摘要）
我们生活在一个由多种模态（Multimodal）信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等，当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态学习多模态机器学习旨在处理学习（视觉，听觉，语言等）不同模态融合交织的信息。下游任务（1）视觉问答1.视觉问答(visualquestionanswering,VQA).给予视觉输入(图像或视频),VQA代表了正确提供一个问题
Python Selenium 使用指南
Selenium是一个用于自动化Web浏览器交互的强大工具，常用于网页测试、数据抓取和自动化任务。以下是Python中Selenium的详细使用说明。安装Selenium首先需要安装Selenium库和浏览器驱动：pipinstallselenium然后下载对应浏览器的驱动：Chrome:ChromeDriverFirefox:GeckoDriverEdge:EdgeDriver将驱动放在系统PA
04_JavaWeb回顾笔记 skping-go java javaweb
JavaWeb回顾笔记[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Wh1nKopi-1605668744709)(F:\资料\Java\笔记\笔记\assets\javaweb阶段知识体系.png)]Day01HTML1.1HTML简介HTML：HyperTextMarkupLanguage，超文本标记/标签语言。超文本:超出了普通文本的能力标记:标签W3C(Wo
【Python进阶】Python网络协议与套接字编程：构建客户端和服务器
1、网络通信基础与网络协议1.1网络通信模型概述网络通信是信息时代基石，它如同现实世界中的邮递系统，将数据从一处传递到另一处。其中，OSI七层模型与TCP/IP四层或五层模型是理解和构建网络通信的基础。1.1.1OSI七层模型与TCP/IP四层/五层模型OSI（开放系统互连）参考模型提出了七层结构，从物理层到应用层，每一层都有其特定的功能和职责，例如物理层关注的是信号如何在介质上传输，而应用层则处
神经网络初步学习3——数据与损失 X Y O 神经网络学习人工智能
一、传统机器学习与神经网络前言：该部分需要一定的机器学习与数学基础（很浅的基础），如果有不理解的地方可以自行查阅。（1）区别这里不妨以图像识别为例子：（1）在传统的机器学习视角中：我们需要人工手动去设置并提取我们的特征量，例如常见的SIFT、SURF和HOG等，随后需要我们选择合适的分类器（例如：SVM、KNN等分类器）,接着把我们的参数训练出来。（2）而在神经网络的视角中：我们只需要把图片喂给它
AI驱动的个人工作革命：基于DeepSeek构建全场景智能工作助理（含源代码+多应用场景） AI_DL_CODE DeepSeek深度应用人工智能 DeepSeek 个人智能助理 LangChain 任务自动化知识管理大模型应用
摘要：本文详细阐述基于DeepSeek大模型构建个人工作助理的完整技术方案，通过LangChain实现任务分解、知识检索与工具调用的智能协同。方案融合向量数据库、多模态交互与个性化学习算法，构建涵盖邮件处理、会议管理、文档生成等15大核心工作场景的自动化系统。文中提供可运行代码、完整部署指南及效能测试数据，实现邮件处理效率提升13倍、会议纪要生成时间缩短100%、任务安排错误率降低83%的显著优化
【计算机网络】第三章：数据链路层（上） iFulling 计算机网络笔记计算机网络网络网络协议笔记
本篇笔记课程来源：王道计算机考研计算机网络接下节：【计算机网络】第三章：数据链路层（下）【计算机网络】第三章：数据链路层（上）一、数据链路层的功能1.基本概念2.功能总览二、组帧（封装成帧）1.主要实现2.字符计数法3.字节填充法4.零比特填充法5.违规编码法三、差错控制1.主要实现2.检错编码Ⅰ.奇偶校验码Ⅱ.循环冗余校验码3.纠错编码Ⅰ.海明校验码四、流量控制、可靠传输1.相关机制Ⅰ.滑动窗口
Python 网络爬虫的基本流程及 robots 协议详解女码农的重启 python 网络爬虫 JAVA 开发语言
数据驱动的时代，网络爬虫作为高效获取互联网信息的工具，其规范化开发离不开对基本流程的掌握和对robots协议的遵守。本文将系统梳理Python网络爬虫的核心流程，并深入解读robots协议的重要性及实践规范。一、Python网络爬虫的基本流程Python网络爬虫的工作过程可分为四个核心阶段，每个阶段环环相扣，共同构成数据采集的完整链路。1.1发起网络请求这是爬虫与目标服务器交互的第一步，通过发送H
python中的pydantic是什么？ John Song Python python 前端开发语言 pydantic
Pydantic是Python中一个用于数据验证和设置管理的库，主要通过Python类型注解（TypeHints）来定义数据结构，并自动验证输入数据的合法性。它广泛应用于API开发（如FastAPI）、配置管理、数据序列化等场景。核心功能数据验证自动检查输入数据是否符合类型和约束条件（如字符串长度、数字范围等）。类型转换将原始数据（如JSON、字典）转换为Python类型（如datetime、En
异物检测的计算机视觉算法技术路线思绪漂移计算机视觉算法人工智能
异物检测的计算机视觉算法技术路线在现代智能监测系统中，异物检测有着其必要性和运维重要性，通过计算机视觉算法，可以实时识别各种异常物体，为设备安全运行提供有力保障。本文将介绍异物检测的主要技术路线。一、分类识别适应场景分类识别技术主要适用于已知目标类别的异物检测场景。在运维环境中，这类场景包括：固定区域内的障碍物监测（如轨道区域的石块、工具、动物等）关键部件的异物附着检测（如固定装置上的杂物）安全通
C练题笔记之：Leetcode-393. UTF-8 编码验证月团子 c语言 leetcode 算法
题目：给定一个表示数据的整数数组data，返回它是否为有效的UTF-8编码。UTF-8中的一个字符可能的长度为1到4字节，遵循以下的规则：对于1字节的字符，字节的第一位设为0，后面7位为这个符号的unicode码。对于n字节的字符(n>1)，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。这是UTF-8编码的工
[特殊字符] AlphaGo：“神之一手”背后的智能革命与人机博弈新纪元大千AI助手人工智能 Python #OTHER 人工智能算法数据挖掘机器学习 alphago google 围棋
从围棋棋盘到科学前沿的通用人工智能范式突破本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与历史意义AlphaGo是由谷歌DeepMind团队开发的围棋人工智能程序，其里程碑意义在于：首破人类围棋壁垒：2016年以4:1击败世界冠军李世石九段，成为首个在完整对局中战胜人类顶尖棋手的AI。
PageRank：互联网的马尔可夫链平衡态大千AI助手人工智能 Python #OTHER 人工智能机器学习条件概率贝叶斯 PageRank 马尔科夫链 MC
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！PageRank算法本质上是一个在网页图上定义的离散时间马尔可夫链（DTMC），其核心思想是将网页间的链接关系转化为状态转移概率。以下是详细分析：一、马尔可夫链的核心要素在PageRank中的体现马尔可夫链要素PageRank对应数学描述状态空间网页集
MCMC：高维概率采样的“随机游走”艺术大千AI助手人工智能 Python #OTHER 人工智能数据挖掘机器学习算法 MCMC 马尔科夫概率论
MCMC（马尔可夫链蒙特卡洛）是一种从复杂概率分布中高效采样的核心算法，它解决了传统采样方法在高维空间中的“维度灾难”问题。以下是其技术本质、关键算法及实践的深度解析：本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、MCMC要解决的核心问题目标：从目标分布(π(x)\pi(\mathbf{x})
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
LeetCode 刷题：数据结构与算法的实战经验分享
LeetCode刷题：数据结构与算法的实战经验分享关键词：LeetCode、数据结构、算法、刷题经验、实战摘要：本文将围绕LeetCode刷题展开，深入探讨数据结构与算法在实际刷题过程中的应用。通过分享实战经验，帮助读者更好地理解和掌握数据结构与算法知识，提升解题能力。文章将从背景介绍入手，阐述刷题的目的和意义，接着详细解释核心概念，分析它们之间的关系，然后介绍核心算法原理和具体操作步骤，结合数学
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

《机器学习方法（第三版）—— 李航》学习笔记（一）附代码

前言

一、第一章 机器学习及监督学习概论

1、机器学习

实现机器方法的步骤

机器学习的研究

2、机器学习的分类

基本分类

二、第二章 感知机

1、感知机模型

2、感知机学习策略

感知机学习策略

感知机学习算法

你可能感兴趣的:(笔记,初学萌新,模式识别,机器学习,人工智能,python,算法)

一、第一章机器学习及监督学习概论

二、第二章感知机