AmosTian

【AI】机器学习——绪论

文章目录

- 1.1 机器学习概念
- - 1.1.1 定义
  - - 统计机器学习与数据挖掘区别
    - 机器学习前提
  - 1.1.2 术语
  - 1.1.3 特点
  - - 以数据为研究对象
    - 目标
    - 方法——基于数据构建模型
    - - SML三要素
      - SML步骤
- 1.2 分类
- - 1.2.1 参数化/非参数化方法
  - 1.2.2 按算法分类
  - 1.2.3 按模型分类
  - - 概率模型
    - 非概率模型
    - 逻辑斯蒂回归
  - 1.2.4 基本分类
  - - 监督学习
    - - 分类
      - 符号表示
      - 形式化
      - 特征
    - 无监督模型
    - - 特征
      - 符号表示
      - 形式化
    - 强化学习
    - 半监督学习
    - 主动学习
  - 1.2.5 按技巧分类
  - - 贝叶斯方法
    - - 特点
      - 步骤
    - 核方法
- 1.3 统计学习三要素
- - 1.3.1 模型
  - 1.3.2 策略
  - - 常用损失函数
    - 风险函数(期望损失)
    - 经验函数(平均损失)
    - - 经验风险最小化和结构风险最小化
  - 1.3.3 算法
- 1.4 模型评估与选择
- - 1.4.1 误差
  - - 模型复杂度与测试误差
    - 理想模型
  - 1.4.2 欠拟合
  - 1.4.3 过拟合
  - - 避免过拟合
    - - 正则化
      - 正则化为什么防止过拟合
  - 1.4.4 泛化能力
  - - 泛化误差上界
    - 交叉验证
  - 1.4.5 参数取值
  - 1.4.6 维数诅咒
- 1.5 监督学习
- - 1.5.1 学习方法
  - - 生成方法
    - 判别方法
  - 1.5.2 模型
  - - 生成模型
    - 判别模型
  - 1.5.3 监督学习应用
  - - 分类问题
    - - 二分类问题
    - 标注问题
    - 回归问题
- 1.6 频率派与贝叶斯派
- - 1.6.1 频率派
  - 1.6.2 贝叶斯派
  - 1.6.3 区别

机器学习是计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的学科

根据输入输出类型的不同，机器学习分为：分类问题，回归问题，标注问题三类

过拟合是机器学习中不可避免的，可通过选择合适的模型降低影响

监督学习是机器学习的主流任务，包括生成方法和判别方法两类

1.1 机器学习概念

1.1.1 定义

人类学习机制：从大量现象中提取反复出现的规律与模式

A computer sprogram is said to learn from E with respect to some class of tasks T and performance measure P ,if its performance at tasks T as measured by P improves with experience E.

形式化角度：如果算法利用某些经验，使自身在特定任务类上的性能得到改善，则认为该算法实现了人工智能

机器角度：计算机系统通过运用数据及统计方法提高系统性能

方法论角度：机器学习是 计算机基于数据构建概率统计模型，并 运用该模型对数据进行预测与分析 的学科

所有模型都是错的，但有一些是有用的

Learning algorithm运用数据计算想假设空间 $\mathcal{H}$ 中的 $g$ 用以近似 $f$

统计机器学习与数据挖掘区别

数据挖掘：运用机器学习的数据分析方法来分析海量数据，由数据库提供的技术管理海量数据

机器学习前提

可判别任务 $T$ 是否使用 $M L$

存在需学习的模型

没有明确可定义的规则

有某种形式的数据供学习

1.1.2 术语

数据（实例）：对对象某些性质的描述，不同的属性值有序排列得到的向量

属性：被描述的性质
属性值：属性的取值

不同的属性之间视为相互独立，每个属性都代表了不同的维度，这些属性共同张成了 特征空间

每个实例（数据）都可以看做特征空间中的一个向量—— 特征向量

1.1.3 特点

以计算机及网络为平台
以数据为研究对象
目的是对数据进行分析和预测
以方法为中心：基于数据构建模型
交叉学科

以数据为研究对象

提取数据特征，抽象为模型。利用模型对未知数据进行分析预测

前提：同类数据有一定统计规律，可以用概率统计的方法处理
$\begin{array}{c|c} \hline 随机变量&数据特征\\ 概率分布&数据的统计规律\\ 变量/变量组&一个数据点\\ \hline \end{array}$

目标

机器学习目标：根据已有的训练数据推导出所有数据的模型，并根据得出的模型实现对未知测试数据的最优预测

总目标：学习什么样的模型，如何构建模型

方法——基于数据构建模型

从给定的、有限的、用于学习的训练数据集(Training data)出发，且训练集中的数据具有一定的统计特性，可以视为满足 独立同分布 的样本。

假设待学习的模型属于某个函数集合——假设空间(Hypothesis space)

应用某个评价准则(Evaluation criterion)——风险最小

通过算法(Algorithm)选取一个最优化模型

使它在已知的训练集和测试集上在给定的评价标准下有最优预测

SML三要素

模型Model：from Hypothesis space

策略Strategy：evaluation criterion

算法Algorithm：调参过程

SML步骤

得到有限的训练数据集合
确定学习模型的集合——Model
确定模型选择的准则(评价准则)——Strategy 风险
实现最优模型求解算法——Algorithm 最优化理论
运行算法 $\Rightarrow$ 最优化模型
预测新数据，分析

需要学习的未知潜藏模式：批准信用卡是否对银行有利(good/bad)

1.2 分类

$基本分类\left\{ \begin{aligned} &监督学习supervised\quad learning\\ &无监督学习unsupervised\quad learning\\ &半监督学习semi-supervised\quad learning\\ &强化学习reinforced\quad learning\\ &主动学习\\ \end{aligned} \right.\\按模型分类\begin{cases} \begin{cases} 概率模型probabilistic\quad model\\ 非概率模型non-probabilistic\quad model\begin{cases} 线性模型 liner\quad model\\ 非线性模型non-liner\quad model \end{cases} \end{cases}\\ \begin{cases} 参数化方法parameteric\quad model\\ 非参数化方法non-parameteric\quad model \end{cases} \end{cases}\\ 按技巧分类\begin{cases} 贝叶斯:贝叶斯定理Bayesian \quad learning\\ 核方法:核函数kernel\quad method \end{cases}\qquad 按算法分类\begin{cases} 在线学习online\quad learning\\ 批量学习batch\quad learning \end{cases}$

1.2.1 参数化/非参数化方法

参数化：假设模型的参数维度固定

感知机
朴素贝叶斯
逻辑斯蒂回归
K均值
高斯混合模型

非参数化：参数维度不固定，随数据量的增加而增加

决策树
Adaboosting
K近邻
语义分析
潜在狄利克雷分配

1.2.2 按算法分类

在线学习：一次一个数据，动态调整模型

接收一个输入 $X_t$ ，用已知模型给出 $\hat{f}(X_t)$ 后，得到反馈 $y_t$
系统用损失函数计算 $\hat{f}(X_t)$ 与 $y_t$ 的差异，更新模型

批量学习：一次所有数据，学习模型

随机梯度下降感知机
$\begin{aligned} &\omega=\omega-\alpha\frac{\partial l}{\partial \omega}\\ &在线学习：\omega_{i+1}\leftarrow \omega_i-\alpha\frac{\partial l}{\partial \omega}——振荡\\ &批量学习：\omega_{i+1}\leftarrow \omega_i-\alpha\frac{\overline{\partial l}}{\partial \omega}——稳定下降 \end{aligned}$
10个数据， $\frac{1}{10}\sum\limits_{i=1}^{10}\frac{\partial l(X_i)}{\partial \omega_i}=\frac{\overline{\partial l}}{\partial \omega}$

1.2.3 按模型分类

概率模型——条件概率

非概率模型(确定性模型)——决策函数
$监督学习\begin{cases} 概率模型：P(y\vert X)——生成模型\\ 非概率模型：y=f(X)——判别模型 \end{cases}$

概率模型

决策树
朴素贝叶斯
隐马尔科夫模型
条件随机场
高斯混合模型
概率混合模型
潜在狄利克雷分配

概率模型的代表为 概率图模型

联合概率分布由有向图和无向图表示
遵循加法，乘法原则
$\begin{cases} P(x)=\sum\limits_{y}P(x,y)\\ P(x,y)=P(x)P(y) \end{cases}$

非概率模型

$\begin{cases} 线性模型\\ 非线性模型 \end{cases}$

线性模型

感知机
线性SVM
K近邻
K均值
潜在语义分析

非线性模型

核函数SVM

核函数： $线性不可分的低维空间\rightarrow 线性可分的高维空间$

核技巧
$R^2:X=(X^{(1)},X^{(2)})^T\\ \Phi(X)R^2\rightarrow \mathcal{H}:\Phi\left((X^{(1)})^2,\sqrt{2}X^{(1)}X^{(2)},(X^{(2)})^2\right)$
AdaBoost
神经网络

逻辑斯蒂回归

将线性回归模型 $\omega^T x+b=0$ 代入 $z$ ，归一化可得到概率分布，故逻辑斯蒂回归既是概率模型又是非概率模型

1.2.4 基本分类

$\begin{cases} 监督学习&基于已知类别的训练数据进行学习\\ 无监督学习&基于未知类别的训练数据进行学习\\ 半监督学习&同时使用已知类别和未知类别的数据进行学习 \end{cases}$

监督学习

从标注的数据中学习预测模型

标注：已知实例的分类，某些特征的取值

本质：学习输入与输出间映射的统计规律

符号表示

输入变量： $X$ ，取值空间 $x\in \chi(所有可能取值集合)$ ——输入空间

输出变量： $Y$ ——输出空间

每个具体输入：实例(instance) 用特征向量 (feature vcector) 表示

$实例:线性空间中的一个点\in 特征空间$

$的特征向量\begin{cases} X=\left( \begin{aligned} &X^{(1)}\\ &X^{(2)}\\ &\vdots\\ &X^{(i)}\\ &\vdots\\ &X^{(m)} \end{aligned} \right)表示第 i 个特征的取值\\ x_j=\left( \begin{aligned} &X_j^{(1)}\\ &X_j^{(2)}\\ &\vdots\\ &X_j^{(i)}\\ &\vdots\\ &X_j^{(m)} \end{aligned} \right)表示第j个变量的第i个特征的取值 \end{cases}$

注： $特征空间\neq 输入空间$

训练数据集：
$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\}$
联合概率分布：给出 $X$ 与 $Y$ 之间遵循的关系—— $P (X, Y)$

假设空间：输入到输出的映射由模型表示 $\in$ 假设空间 hypothesis space 所有可能的模型的集合

概率模型： $P(Y\vert X)$ 条件概率分布
决策函数： $Y = f (X)$

形式化

学习的模型分为概率模型和非概率模型

概率模型由条件概率表示，在预测时，通过 $arg\max\limits_{y}P(y\vert x)$ 得到输出
非概率模型由决策函数表示，在预测时，给出一个输出结果

特征

数据有标注
输入产生相应的输出
本质是学习输入与输出映射的统计规律

无监督模型

从无标注的数据中学习预测模型

特征

数据无标注——自然得到的数据
预测模型：每个输出都是对输入的分析结果，表示数据的类别（聚类）、转换（降维）、概率估计
本质是学习数据中的统计规律与潜在结构

符号表示

$\chi$ ：输入空间

$z$ ：隐式结构

降维
硬聚类：一对一，只属于一个类别
软聚类：一对多，可能属于多个类别

模型： $\begin{cases}z=g_{\theta}(x)\\P_{\theta}(z\vert X),P(X\vert z)\end{cases}$

$\mathcal{H}$ ：所有可能模型的集合——假设空间

训练数据： $U=\left\{X_1,X_2,\cdots,X_n\right\}$ ， $X_i$ 表示样本

形式化

强化学习

系统与环境连续互动中学习最优行为策略

半监督学习

少量标注，大量未标注数据

主动学习

机器找到对学习最有帮助的实例，给出实例让人标注

1.2.5 按技巧分类

贝叶斯学习
核方法

贝叶斯方法

利用贝叶斯原理，计算在给数据下，模型的后验概率 $P(\theta\vert D)$ ，并进行模型估计、数据预测 $P(x\vert D)=\int P(x\vert \theta,D)P(\theta\vert D)d\theta$

特点

模型参数、未知量用变量表示
使用模型的先验概率

步骤

$D:数据,\theta:参数$

后验概率 $P(\theta\vert D)=\frac{P(\theta)P(D\vert \theta)}{P(D)}$ 变先验 $P(\theta)$
预测，并计算期望

$P(x\vert D)=\int P(x\vert \theta,D)P(\theta\vert D)d\theta$

取贝叶斯估计最大，可得到极大似然最大
$D\xrightarrow{MLE}\hat{\theta}=arg\max\limits_{\theta}P(D\vert \theta)\\ D\xrightarrow{Bayesian}\hat{\theta}=arg\max\limits_{\theta}P(\theta\vert D)=arg\max\limits_{\theta}\frac{P(D\vert \theta)P(\theta)}{P(D)}$

$P(D\vert \theta)$ 似然概率，在已知参数 $\theta$ 取值时，取得数据 $D$ 的概率

对于极大似然估计，目标是调整参数 $\theta$ 使数据 $D$ 出现的概率最大化，即令 $L(\theta)=P(D\vert \theta)\xlongequal{样本iid}\prod\limits_{i=1}^nP(X_i\vert \theta)$ 最大化，此时的 $\hat{\theta}$ 作为参数的估计值
$P(\theta)$ ：为先验知识，通过统计数据可得，作为已知数据

$P (D)$ 是固定的，后验概率 $P(\theta\vert D)$ 可以通过计算似然概率与先验概率求得

贝叶斯估计：使后验概率最大的 $\hat{\theta}$ 为贝叶斯估计的参数

所以重点来到对似然概率的求解

核方法

使用核函数表示和学习非线性模型，可以将线性模型扩展到非线性模型

SVM
核PCA
K均值

显式定义： $输入空间\rightarrow特征空间，进行内积运算$
$\\ \downarrow\\ 特征空间 <\phi(X_1),\phi(X_2)>$
隐式定义：直接定义核函数，在输入空间中内积运算
$K(X_1,X_2)=<\phi(X_1),\phi(X_2)>$

1.3 统计学习三要素

方法=模型+策略+算法

模型：选定某一类模型——SVM/EM
策略：模型选择标准、准则—— $J(\theta)$ ，风险最小化
算法：怎样快速确定模型

1.3.1 模型

$监督学习\begin{cases} 条件概率\\ 决策函数 \end{cases}\Rightarrow 假设空间\mathcal{F}：模型的所有可能的集合$

$\begin{cases} \mathcal{F}=\{f\vert Y=f(x)\}，由参数决定的参数族\\ \quad决策函数\begin{cases} 线性模型:\omega,b\\ SVM：\omega,b,\alpha\\ EM:\pi,\theta \end{cases}\\\\ \mathcal{F}=\{f\vert Y=f_{\theta}(X),\theta\in R^n\}\\ \quad P_{\theta}(Y\vert X)条件概率分布\begin{cases} 用于分类，预测arg\max\limits_{Y}P(Y\vert X) \end{cases} \end{cases}$

1.3.2 策略

按什么样准则选择模型的最优参数组

损失：度量模型一次预测的好坏

风险：度量平均意义下预测的好坏

常用损失函数

预测模型得出的预测值 $f (X)$ 与 $y$ 有差距，用损失函数 $L (y, f (X))$ 表示
$\begin{cases} 0-1&L(y,f(X))=\begin{cases} 1,y\neq \hat{f}(X)\\ 0,y=\hat{f}(X) \end{cases}\\ &I(y\neq \hat{f}(X))表示不等则为1\\\\ 平方损失&L(y,f(X))=(y-f(X))^2——放大损失\\\\ 绝对损失&L(y,f(X))=\vert y-f(X)\vert\\\\ 对数损失&L(y,P(Y\vert X))=-logP(Y\vert X) \end{cases}$

风险函数(期望损失)

关于联合分布的期望损失(expectation risk)

$\begin{aligned} R_{exp}(f)&=E\left[L(y,f(X))\right]\quad 期望损失对P(Y\vert X) 进行评价\\ &=\int_{\mathcal{XY}}L(y,f(X))P(X,Y)dxdy\\ \end{aligned}$

表示 $f (X)$ 关于联合分布 $P (X, Y)$ 的平均意义下的损失

$R_{exp}(f)$ 不可计算： $P (X, Y)$ 未知。

若 $P (X, Y)$ 已知，则可通过 $P(Y\vert X)$ 计算
病态：期望损失用到 $P(Y\vert X)$

朴素贝叶斯后验概率最大化是期望风险最小化策略

经验函数(平均损失)

empirical risk

$D=\{(X_1,y_1),(X_2,y_2),\cdots,(X_N,y_n)\}$

$R_{emp}(f)=\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(X_i))\xrightarrow{N\rightarrow\infty}R_{exp}(f)$

极大似然估计是经验风险最小化策略
$X_1,X_2,\cdots,X_N\overset{iid}{\sim}P(X)，求X服从分布的参数$
可观测样本的联合概率分布一定是最大（小概率事件原理）可采样的， $P$ 越大，联合概率 $P$ 越大
$P(X_1)P(X_2),\cdots,P(X_N)=\prod\limits_{i=1}^NP(X_i)\\ \max\prod\limits_{i=1}^NP(X_i)=max\sum\limits_{i=1}^NlogP(X_i)=-min\sum\limits_{i=1}^NlogP(X_i)$
可得损失函数，也即对数损失函数。即经验风险最小化策略

由于现实中 $N$ 很小，需要对 $R_{emp}$ 矫正
$\begin{cases} 经验风险最小化\\ 结构风险最小化+正则化项，控制过拟合程度 \end{cases}$

经验风险最小化和结构风险最小化

样本量足够大，用经验风险最小化策略 —— empirical risk minimization,ERM
$\min\limits_{f\in \mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(X_i))$
样本容量小 ——过拟合 $\leftarrow$ 参数过多

过拟合解决思路 $\begin{cases}加样本容量\\加正则化项\end{cases}$

用结构风险最小化策略——structural risk minimization SRM

$R_{srm}(f)=\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(X_i))+\lambda J(f)\begin{cases} f越简单，参数量越少,J(f)越小\\ f越复杂，参数量越多，J(f)越大 \end{cases}$

$\lambda\ge 0$ 用于权衡 $sr m$ 与 $er m$

$\min\limits_{f\in \mathcal{F}}\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(X_i))+\lambda J(f)$

1.3.3 算法

用什么样方法，求最优模型

梯度下降求损失函数的极值，最优解
$解析解\rightarrow 数值解\rightarrow 转化为对偶问题$

1.4 模型评估与选择

噪声数据：训练样本本身还可能包含一些噪声，这些随机噪声会给模型精确性带来误差

1.4.1 误差

学习器的预测输出与样本真实输出之间的差异被定义为机器学习中的误差

分类问题中， $误差率=\frac{分类错的样本数}{全部样本数}\times 100\%$

训练误差 ：学习器在训练集上的平均误差，经验误差
$R_{emp}=\frac{1}{N}\sum\limits_{i=1}^N L(y_i,\hat{f}(X_i))$

描述输入属性和输出分类之间的相关性，能够判定给定的问题是不是一个容易学习的问题

测测误差 ：学习器在测试集上的误差，泛化误差
$e_{test}=\frac{1}{N'}\sum\limits_{i=1}^{N'} L(y_i,\hat{f}(X_i))$

反映了学习器对未知测试数据集的预测能力

实用的学习器都是测试误差较低，即在新样本上变现比较好的学习器

eg：

0-1损失 $L(y,\hat{f}(X))$

$e_{test}=\frac{1}{N'}\sum\limits_{i=1}^{N’} I(y_i\neq \hat{f}(X_i))$ 误差率 error

$r_{test}=\frac{1}{N'}\sum\limits_{i=1}^{N’} I(y_i= \hat{f}(X_i))$ 正确率 right

模型复杂度与测试误差

当模型复杂度较低时，测试误差较高

随着模型复杂度增加，测试误差将逐渐下降并达到最小值

之后当模型复杂度继续上升，测试误差会随之增加，对应过拟合的发生

理想模型

逼近 “真”模型 $\begin{cases}参数个数相同\\参数向量相近\end{cases}$

1.4.2 欠拟合

欠拟合：学习能力太弱，以致于训练数据的基本性质都没学到

在实际的机器学习中，欠拟合可以通过改进学习器的算法克服，但过拟合却无法避免

由于训练样本的数量有限，所以具备有限个参数的模型就足以将所有样本都纳入其中。

但模型的参数越多，与这个模型精确符合的数据也越少，将这样的模型运用到无穷的未知数据中，过拟合的出现便不可避免

1.4.3 过拟合

原因：将噪音数据并入模型

过拟合：对训练数据拟合程度越高，学习时模型会越复杂（包含的参数过多），从而导致训练误差较低但测试误差较高（失去泛化能力）

表现为错把训练数据的特征当做整体的特征

多项式复杂度代表模型复杂度与自由度，自由度过高会出现过拟合问题

避免过拟合

增大样本容量
集成学习：训练很多模型，对模型求均值
正则化：对模型复杂度加以惩罚
$W=\sum V(f(x_i,t_i))+\lambda\Omega(f)$
交叉验证

正则化

控制模型参数范围，使一些参数趋于0或等于0

结构风险最小化策略的实现
$\min\limits_{f\in \mathcal{F}}\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(X_i))+\lambda J(f)$
正则化项

$L_2$ 范数尽可能趋于0
$\begin{aligned} L(\omega)&=\frac{1}{N}\sum\limits_{i=1}^NL(y_i,\hat{f}(X_i))+J(f)\\ &=\frac{1}{N}\sum\limits_{i=1}^N\left(\hat{f}(X_i)-y_i\right)^2+\frac{\lambda}{2}\Vert \omega\Vert^2_2\\ &\Vert \omega\Vert_2=\sqrt{\omega_1^2+\omega_2^2+\cdots+\omega_m^2},限制条件 \sum\omega^2\le m \end{aligned}$
$L_1$ 范数——使参数稀疏化
$\begin{aligned} L(\omega)&=\frac{1}{N}\sum\limits_{i=1}^NL(y_i,\hat{f}(X_i))+J(f)\\ &=\frac{1}{N}\sum\limits_{i=1}^N\left(\hat{f}(X_i)-y_i\right)^2+\lambda\Vert \omega\Vert_1\\ &\Vert \omega\Vert_1=\vert\omega_1\vert\vert\omega_2\vert+\cdots+\vert \omega_m\vert \end{aligned}$

经验风险较小的模型，正则化项会比较大

用于选择经验风险与模型复杂度同时小的模型

奥卡姆剃刀

在所有可能解释数据的模型中，模型越简单越好

对于贝叶斯估计，先验概率为正则项。

复杂模型，先验概率小

简单模型，先验概率大

正则化为什么防止过拟合

$R_{srm}(\omega)=\frac{1}{N}\sum\limits_{i=1}^NL(y_i,\hat{f}(X_i))+\lambda J(\omega)\begin{cases} L_1:\Vert \omega\Vert_1=\sum\limits_{i=1}^m\vert \omega_i\vert\\ L_2:\Vert \omega\Vert_2=\sqrt{\sum\limits_{i=1}^m\omega_i^2} \end{cases}$

对于平方损失函数， $L(\omega)=\frac{1}{N}\sum\limits_{i=1}^N\left[y_i-\hat{f}(X_i)\right]^2+\lambda\Vert \omega\Vert_2^2$

正则化项可看做拉格朗日算子，该函数极值点为令 $\begin{cases}\frac{\partial L}{\partial \omega_i}=0\\\frac{\partial L}{\partial\lambda}=0\end{cases}$ 的点

也可以对参数和进行约束
$\begin{cases} \min R_{emp}=\frac{1}{N}\sum\limits_{i=1}^N\left[y_i-\hat{f}(X_i)\right]^2\\ s.t. \Vert \omega\Vert_2^2\le m \end{cases}$
KKT条件：
$\begin{cases} min f(x)\\ s.t. \begin{cases} g_j(x)\le 0,j=1,\cdots,m\\ h_k(x)=0,k=1,\cdots,l \end{cases} \end{cases}$
构造拉格朗日函数 $L(X;\mu;\lambda)=f(X)+\sum\limits_{j=1}^m\mu_jg_j(X)+\sum\limits_{k=1}^l \lambda_k h_k(X)$

令
$\begin{cases} \frac{\partial L}{\partial X_i}=0\\\\ h_k(X)=0,k=1,\cdots,l\\\\ \frac{\partial L}{\partial \lambda_k}=0\\\\ \sum\mu_jg_j\le 0,j=1,\cdots,m\\\\ \mu_j\ge 0 \end{cases}$
$L(\omega)=\frac{1}{N}\sum\limits_{i=1}^N\left[\hat{f}(X_i)-y_i\right]^2+\lambda(\Vert \omega\Vert_2^2-m)$
$代入KKT条件有\\ \begin{cases} \frac{\partial L(\omega)}{\partial \omega_i}=0\\ \frac{\partial L}{\partial\lambda}=0 \end{cases}$
由此可知，带正则化项与带约束项是一致的

1.4.4 泛化能力

模型对位置数据的预测能力

由于测试数据集是有限的，依赖测试误差的评价结果不可靠

泛化误差：风险函数(期望损失)最小化
$R_{exp}(\hat{f})=E_P[L(y,\hat{f}(X))]=\int_{\mathcal{XY}}L(y,\hat{f}(X))\cdot P(X,Y)dxdy$
由于 $\begin{cases}数据量少，无法用于对全部数据测试\\X,Y联合分布位置\end{cases}$ ，无法计算期望损失

比较 泛化误差上界 ，上界小的模型比较好

样本容量越多，泛化上界 $\rightarrow 0$
假设空间容量越多，泛化误差上界越大

泛化误差上界

$f$ 的期望风险， $R (f) = E [L (y, f (X))]$

经验风险， $\hat{R}(f)=\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(X_i))$

经验风险最小化策略， $f_N=arg \min\limits_{f\in \mathcal{F}} \hat{R}(f)=arg \min\limits_{f\in \mathcal{F}}\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(X_i))$

对于 $f_N$ 的泛化能力
$R(f)\le \hat{R}(f)+\varepsilon(d;N;\sigma)=\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(X_i))+\sqrt{\frac{1}{2N}(\log d+\log\frac{1}{\sigma})}$

对于任一 $f\in \mathcal{F}$ ，以 $1-\sigma$ 概率上式成立， $\sigma\in (0,1)$
$d$ 为 $\vert\mathcal{F}\vert,\mathcal{F}=\{f_1,f_2,\cdots,f_d\}$

由泛化上界可知，
$\begin{cases} N\uparrow，泛化误差越小\\ d\downarrow，模型假设空间越少，泛化误差越小\\ \sigma\uparrow，对模型的确信度(1-\sigma)越小，泛化误差越小 \end{cases}$
样本多，备选模型少，小范围使用，不信任普适性，则泛化误差小

交叉验证

$D=\begin{cases} 训练集：训练模型\\ 验证集：模型选择\\ 测试集：模型评估 \end{cases}$

验证集和测试集不用于训练模型

调参（是否过拟合）——评估泛化能力

对模型框架定义
学习率

交叉验证思想在于重复利用有限的训练样本，通过将数据切分成若干子集，让不同的子集分别组成训练集与测试集，并在此基础上反复进行训练、测试和模型选择，达到最优效果。

交叉验证 适用于 $\begin{cases}数据量少\\训练数据可重复使用\end{cases}$

简单交叉验证

训练+测试随机划分
k折交叉验证

将数据集分为 $k$ 个大小相等，互不相交的子集，用 $k - 1$ 个子集作为训练集，1个用作测试集，进行 $k$ 轮训练，保证每份数据集都被用作测试集，选出 $k$ 次评测中平均测试误差最小的模型

留一交叉验证 ：一份一个样本

折数=样本数

1.4.5 参数取值

参数的取值是影响模型性能的重要因素，同样的学习算法在不同的参数配置下，得到的模型性能会有显著差异

假设一个神经网络有1000个参数，每个参数有10种取值可能，对于每一组训练/测试集就有 $1000^{10}$ 个模型需要考察，因此在调参过程中，主要的问题就是性能与效率的折衷

1.4.6 维数诅咒

在高维空间中，同样规模的数据集会变得很稀疏

在高维空间，达到与低维空间相同的数据密度需要更大的数据量

1.5 监督学习

监督学习假定训练数据满足独立同分布，并根据训练数据学习出一个由输入到输出的映射模型

所有可能的映射模型共同构成了假设空间

监督学习的任务是在假设空间中根据特定的误差准则找到最优的模型，形式为 $\begin{cases}决策函数Y=f(X)\\条件概率分布P(Y\vert X)\end{cases}$

1.5.1 学习方法

生成方法

关注 X，Y的真实状态，强调数据本身（掌握所有语言再判断）

首先学习X，Y的联合概率分布 $P (X, Y)$ ，再求出条件概率分布 $P(Y\vert X)$

反映同类数据的相似度
学习的收敛速度快：当样本容量增加，学到的模型更快，收敛于真实模型
当存在隐变量时，用生成方法

判别方法

关注给定输入X，有什么样的输出Y，强调数据边界（语言关键词）

直接学习决策函数 $Y = f (X)$ 或条件概率 $P(Y\vert X)$

反映数据的差异
学习难度小，准确率高
对数据进行抽象，定义特征并使用特征简化学习问题
具有更高的准确率和更简单的使用方式

1.5.2 模型

生成模型

由生成方法学习到的模型为生成模型，遍历所有结果，取概率最大的为结果

朴素贝叶斯

判别模型

由判别方法生成的模型为判别模型，直接得到结果

感知机
K近邻
逻辑斯蒂回归
最大熵模型
SVM

1.5.3 监督学习应用

分类问题

输出为有限个离散值

二分类问题

T：预测正确，P：预测为正类

F：预测错误，N：预测为负类
$\begin{array}{c|c|l} 预测正误&预测结果&备注\\ \hline T&P&将正类归为正类\\ T&N&将负类归为负类\\ F&P&将负类归为正类\\ F&N&将正类归为负类 \end{array}$
当 $FP$ 减小， $FN$ 会增大

指标
$准确率=\frac{\vert 预测正确的\vert}{\vert 总\vert}=\frac{TP+TN}{\vert 总\vert}\\ 错误率=\frac{\vert 预测错误的\vert}{\vert 总\vert}=\frac{FP+FN}{\vert 总\vert}\\ 精确率P=\frac{预测对的正类}{\vert 预测为正类\vert}=\frac{TP}{TP+FP}——推荐，少而精准\\ 召回率R=\frac{\vert预测对的正类\vert}{\vert 真正的正类\vert}=\frac{TP}{TP+FN}——预测癌症，宁可错杀$

精确率（查准率）与召回率（查全率）是相互矛盾的，在不同模型中要是用不同评价指标

$P$ 越大，则 $R$ 越小

调和均值
$\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}=\frac{TP+FP}{TP}+\frac{TP+FN}{TP}=\frac{2TP+FN+FP}{TP}\\ F_1=\frac{TP}{2TP+FN+FP}$

标注问题

$分类问题\xrightarrow{推广}标注问题\xrightarrow{简单形式}结构预测$

输入：观测序列

$X_i=(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)})$ 表示一个样本在不同阶段的取值

输出：标记序列/状态序列

$y_i=(y_i^{(1)},y_i^{(2)},\cdots,y_i^{(n)})$ 表示输出在不同阶段的值

回归问题

用于预测输入变量和输出变量的关系，输入与输出之间的映射函数 $\iff$ 函数拟合

学习+预测

变量个数—— $n$ 大小

特征数量 $\begin{cases}一元回归——一个特征维度\\多元回归——多个特征维度\end{cases}$

平方损失函数MSE(mean square error) ： $\frac{1}{2}[\hat{f}(X_i)-y_i]^2$

最小二乘法求解LMS（least mean square）
MSE最小化 $\iff$ 极大似然估计

对于复杂的现实问题，很难用已有的函数进行拟合

神经网络逼近 $f (x)$ ——预测问题

概率拟合贝叶斯——分类问题

$P(0\vert X)>P(1\vert X)$ 则分类为0

1.6 频率派与贝叶斯派

1.6.1 频率派

频率本身会随机波动，但随着重复实验的次数不断增加，特定事件出现的频率值会呈现出稳定性，逐渐趋近于某个常数

从事件发生的频率认识概率的方法称为 “频率学派”。概率被认为是一个独立可重复实验中，单个结果出现频率极限。

稳定的频率是统计规律性的体现 ，用其表征事件发生的可能性是一种合理的思路

频率学派依赖的是古典概型。由于古典概型只描述单个随机事件，并不能刻画两个随机事件之间的关系。所以引入的 条件概率 ，进一步得出 全概率公式 。
$KaTeX parse error: Expected group after '_' at position 11: P(A)=\sum_̲\limits{i=1}^nP…$
全概率公式代表了频率派解决问题的思路：先做出一些假设 $P(B_i)$ ，再在这些假设下讨论随机事件的概率 $P(A\vert B_i)$

1.6.2 贝叶斯派

逆概率 ：由全概率公式调整得来，即在事件结果 $P (A)$ 确定的条件下，推断各种假设发生的可能性

通过贝叶斯公式，可以将后验概率 $P(D\vert H)$ 转变为先验概率 $P (H)$
$P(H\vert D)=\frac{P(D\vert H)P(H)}{P(D)}$

$P (H)$ ：先验概率，假设成立的概率
$P(D\vert H)$ ：似然概率
$P(H\vert D)$ ：后验概率，已知结果下情况下假设成立的概率

贝叶斯定理提供了解决问题的新思路：根据观测结果寻找最佳的理论解释

1.6.3 区别

频率学派 认为假设是客观存在且不会改变的，即存在固定的先验分布，需要通过 最大似然估计 确定概率分布的类型和参数，以此作为基础进行概率推演。

贝叶斯学派 认为固定的先验分布是不存在的，即参数本身是随机数。假设本身取决于结果，是不确定的、可以修正的。数据的作用就是对假设不断修正，通过 贝叶斯估计 使后验概率最大化。

从 参数估计 角度也能体现两种思想的差距

由于实际任务中可供使用的训练数据有限，因而需要对概率分布的参数进行估计。

最大似然估计（最大似然概率 $P(D\vert H)$ ）的思想是使训练数据出现的概率最大化，以此确定概率分布中的未知参数

贝叶斯方法（最大后验概率 $P(H\vert D)$ ）：根据训练数据和已知的其他条件，使未知参数出现的可能性最大化，并选取最大概率对应的未知参数

还需要额外的信息 ——先验概率 $P (H)$

你可能感兴趣的:(AI,#,机器学习,人工智能,机器学习,AI)

“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
使用GitHub API进行智能文档加载 fgayif github python
GitHub是一个强大的开发者平台，提供了代码存储、管理和分享的功能。它采用Git软件，增强了分布式版本控制，同时提供了访问控制、错误跟踪、软件功能请求、任务管理、持续集成和项目的wiki等功能。随着AI技术的发展，我们可以利用GitHub的API实现智能文档加载，以便更好地进行代码管理和分析。下面我将介绍如何使用GitHubAPI进行文档加载，并通过实用的代码示例来帮助大家理解。技术背景介绍Gi
node-imap-sync-client, imap 客户端库, 同步专用 eli960 MAIL 前端 javascript node.js
node-imap-sync-client说明网址:https://gitee.com/linuxmail/node-imap-sync-client同步操作imap客户端，见例子examples本imap客户端,特点:全部命令都是promise风格主要用于和IMAPD服务器同步邮箱数据和邮件数据支持文件夹的创建/删除/移动(改名)支持邮件的复制/移动/删除/标记/上传支持获取文件夹下邮件UID列
node-ddk, electron 组件,任务栏,托盘,通知 eli960 node-ddk electron javascript node.js
node-ddk任务栏,托盘,通知https://blog.csdn.net/eli960/article/details/146207062也可以下载demo直接演示http://linuxmail.cn/go#node-ddk在渲染进程(既web端)操作importrenderer,{NODEDDK}from"node-ddk/renderer"letw=renderer.window//让托
node-ddk,electron 开发组件 eli960 node-ddk electron javascript 前端 node.js js
node-ddk-demo说明node-ddk是ELECTRON开发框架,封装常见操作npminode-ddk演示:https://live.csdn.net/v/468440本项目是一个DEMO,项目地址:https://gitee.com/linuxmail/node-ddk-demogitclonehttps://gitee.com/linuxmail/node-ddk-democdnode
P3375 【模板】KMP 好好学习^按时吃饭算法
题目来自洛谷网站：思路：从题目名字知道这是KMP模板题目，对于KMP算法，就两步，1、构造next数组。2、在s1中找到s2出现的位置。KMP代码：#includeusingnamespacestd;constintN=1e6+10;chars1[N],s2[N];//全局变量名字不能定义为next//C++标准库中有一个函数名字是nextintnext1[N];//ne数组intmain(){/
node-ddk, electron组件, 自定义本地文件协议,打开本地文件 eli960 node-ddk electron javascript 前端 node.js
node-ddk文件协议https://blog.csdn.net/eli960/article/details/146207062也可以下载demo直接演示http://linuxmail.cn/go#node-ddk安全考虑到安全,本系统禁止使用file:///在主窗口,自定义文件协议,可以多个importmain,{NODEDDK}from"node-ddk/main"main.protoc
conda安装R语言环境并部署至pycharm 楚门留香 r语言开发语言
优先看这个：[win10系统使用Pycharm-professional配置R语言-知乎(zhihu.com)](https://zhuanlan.zhihu.com/p/546788455)要安装R4.0.0的时候看这个：[R语言的安装（详细教程）_r语言安装教程-CSDN博客](https://blog.csdn.net/xhmico/article/details/122443660)r语言
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
基于Streamlit实现的音频处理示例大霸王龙音视频 ffmpeg
基于Streamlit实现的音频处理示例，包含录音、语音转文本、文件下载和进度显示功能，整合了多个技术方案：一、环境准备#安装依赖库pipinstallstreamlitstreamlit-webrtcaudio-recorder-streamlitopenai-whisperpython-dotx二、完整示例代码importstreamlitasstfromaudio_recorder_stre
npm install 报错 gyp info it worked if it ends with ok npm ERR gyp verb cli [ m0_61083409 前端 html npm 前端 node.js
今天新启动一个项目，在npminstall安装依赖项时出现报错。ERR!code1npmERR!pathC:UsersAdministratorDesktope31mall-admin-webode_modulesode-sassnpmERR!commandfailednpmERR!commandC:Windowssystem32cmd.exe/d/s/cnodescripts/build.jsn
于STM32F103C8T6的智能灯泡控制系统C++源码实现程序员Thomas STM32 单片机智能灯泡 stm32 c++嵌入式硬件
以下是一个基于STM32F103C8T6的智能灯泡控制系统C++源码实现，整合了PWM调光、WiFi控制和环境感知功能。该代码已在STM32CubeIDE中验证，支持直接烧录运行：#include"main.h"#include#include"wifi.h"//LED设备抽象类（3设计）classLEDDevice{protected:TIM_HandleTypeDef*pwmTimer;uin
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
HarmonyOS鸿蒙开发 BuilderParam在父组件的Builder的点击事件报错：Error message:is not callable BruceGwo 鸿蒙Harmony harmonyos 华为
HarmonyOS鸿蒙开发BuilderParam在父组件的Builder的点击事件报错：Errormessage:isnotcallable最近在鸿蒙开发过程中，UI做好了，根据列表item进行点击跳转，报错了报错信息如下Errormessage:isnotcallableStacktrace:atanonymous(entry/src/main/ets/pages/demolab/Builde
Java架构师成长之路 hweiyu00 分享 spring 微服务 spring cloud java
概述本教程主要从6个方面，全面讲解Java技术栈的知识。1.性能调优深入理解MySQL底层原理、索引逻辑，数据结构与算法。使用Explain进行优化分析MVCC原理剖析日志机制解析2.框架源码掌握Spring底层原理带你手写一个Spring解析IOC、AOP源码、以及事务原理3.并发编程剖析Java底层锁机制CAS、JUC工具使用、AQS源码分析以及并发的集合类的讲解4.分布式开发剖析分布式中使用
LangChain组件Tools/Toolkits详解（5）——返回产出artifact 龙焰智能 langchain artifact ToolCall BaseTool 工具产物 ToolMessages
LangChain组件Tools/Toolkits详解（5）——返回产出artifact本篇摘要14.LangChain组件Tools/Toolkits详解14.5返回产出artifact14.5.1定义工具14.5.2使用ToolCall调用工具14.5.3与模型一起使用14.5.4从子例化BaseTool返回参考文献本章目录如下：《LangChain组件Tools/Toolkits详解（1）—
Java面试高频问题深度解析：JVM、锁机制、SQL优化与并发处理 Debug Your Career 面试 java 面试 jvm
问题列表Java中如何实现一个工作流引擎？Bean的作用域有哪些？JVM中的锁机制是如何工作的？三个方法分别被synchronized锁住，方法a调用方法b，b能获取到a的锁吗？会有什么问题？SQL优化时，EXPLAIN中需要关注哪些关键点？什么是覆盖索引？SELECT*一定不会命中索引吗？SELECT*和SELECT全字段在性能上有区别吗？什么是回表？它与索引有什么关系？100万数据分给10个线
weixin089校园综合服务小程序+ssm(文档+源码)_kaic 开心毕设小程序微信小程序旅游微信 php
摘要随着我国经济迅速发展，人们对手机的需求越来越大，各种手机软件也都在被广泛应用，但是对于手机进行数据信息管理，对于手机的各种软件也是备受用户的喜爱，校园综合服务被用户普遍使用，为方便用户能够可以随时进行校园综合服务小程序的数据信息管理，特开发了基于校园综合服务小程序的管理系统。校园综合服务小程序的设计主要是对系统所要实现的功能进行详细考虑，确定所要实现的功能后进行界面的设计，在这中间还要考虑如何
Android一个APP里面最少有几个线程积跬步DEV Android 开发实战大全 Android
Android应用启动时，默认会创建一个进程，该进程中最少包含5个系统自动创建的线程，具体如下：Main线程（主线程/UI线程）负责处理用户交互、UI更新等核心操作，所有与界面相关的逻辑必须在此线程执行。若在此线程执行耗时操作（如网络请求），会导致界面卡顿甚至触发ANR（应用无响应）。FinalizerDaemon线程（终结者守护线程）当对象重写了finalize()方法时，该线程负责将这些对象放
【读点论文】Chain Replication for Supporting High Throughput and Availability 寻雾&启示分布式系统论文阅读
在分布式系统中，强一致性往往和高可用、高吞吐是矛盾的。比如传统的关系型数据库，其保证了强一致性，但往往牺牲了可用性和吞吐量。而像NoSQL数据库，虽然其吞吐量、和扩展性很高，但往往只支持最终一致性，无法保证强一致性。由此ChainReplicationforSupportingHighThroughputandAvailability提出了链式复制协议，旨在保证高吞吐、高可用的同时，支持数据的强一
vLLM - 查看模型是否支持云客Coder 人工智能
支持的模型：https://docs.vllm.ai/en/latest/models/supported_models.html要确定是否支持给定模型，您可以检查HF存储库中的config.json文件。如果"architectures"字段包含下面列出的模型架构，那么理论上应该支持它。查看模型架构查看模型的config.json中的architecturescat~/.cache/huggin
spark explain如何使用 fzip Spark spark 执行计划
在Spark中，explain是分析SQL或DataFrame执行计划的核心工具，通过不同模式可展示查询优化和执行的详细信息，默认情况下，这个语句只提供关于物理计划的信息。以下是具体使用方法及不同模式的作用：1.explain的基本语法在Spark3.0及以上版本，explain支持多种模式参数，通过mode指定输出格式：#DataFrame调用方式df.explain(mode="simple"
Golang算法（二）数据结构小烧卖算法 GO语言
数据结构栈队列双向链表二叉搜索树红黑树栈typeStackstruct{head*Node}typeNodestruct{datainterface{}next*Node}funcNewStack()*Stack{s:=&Stack{head:&Node{data:nil,next:&Node{},},}returns}func(s*Stack)Push(datainterface{}){n:=&
Stability AI 发布 Stable Virtual Camera：从 2D 图像生成 3D 视频三花AI 三花AI 人工智能 3d 音视频
StabilityAI发布StableVirtualCamera：从2D图像生成3D视频StableVirtualCamera[4]是由StabilityAI最新发布的一款能够从一张或多张2D图像（最多支持32张）生成具有真实深度和透视感的3D视频的技术。用户可以自由定义相机轨迹，或者选择预设的动态相机路径，例如360°旋转、螺旋、变焦（DollyZoom）等，效果极其丝滑。不过，当输入图像包含人
Python爬虫笔记一（来自MOOC） Requests库入门小灰不停前进 #Python python pycharm 爬虫
Python爬虫笔记一通用代码框架：importrequestsdefgetHTMLText(url):try:r=requests.get(url,timeput=30)r.raise_for_status()#如果状态不是200，引发HTTPError异常r.encoding=r.apparemt_encodingreturnr.textexcept:return"产生异常"if__name_
SenseVoice 部署记录安静六角开源软件
最近试用了SenseVoice（阿里团队开源的语音转文字）效果可以，可以本地部署，有webui界面，测试了万字以上的转换效果可以。首先部署好conda环境和cuda，这个可以查看他人的文章。步骤1.创建虚拟环境：condacreate-nmainenvpython=3.102.然后安装依赖condaactivatemainenvpipinstall-rC:\Users\xx\Documents\P
聊聊langchain4j的HTTP Client langchain4j
序本文主要研究一下langchain4j的HTTPClientlangchain4j-http-clientlangchain4j提供了langchain4j-http-client模块，它实现了一个HttpClientSPI（服务提供者接口），其他模块通过该接口调用LLM提供商的RESTAPI。这意味着底层HTTP客户端可以被自定义，通过实现HttpClientSPI，还可以集成任何其他HTTP
langchain4j+Tika小试牛刀 llm
序本文主要研究一下langchain4j结合ApacheTika进行文档解析步骤pom.xmldev.langchain4jlangchain4j-document-parser-apache-tika1.0.0-beta1examplepublicclassTikaTest{publicstaticvoidmain(String[]args){Stringpath=System.getPrope
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默