chaucer_g

机器学习算法（3）——FM(Factorization Machine)算法（推导与实现）

1、前言

由于逻辑回归只能处理线性可分的模型或者数据集，又由于现实生活中的分类问题是多种多样的，存在大量的非线性可分的分类问题，为了能够满足要求，对逻辑回归（Logistic Regression）进行了如下的优化：

（1）、对特征进行处理：

如：核函数的方法，将非线性可分的问题转换成近似线性可分的问题；

（2）、对逻辑回归（Logistic Regression）进行扩展：

如：因子分解机 FM 算法就是对逻辑回归（Logistic Regression）的扩展。

2、因子分解机 FM(Factorization Machine) 模型

2.1、FM 算法模型的建立

对于因子分解机 FM 模型，引入度的概念。对于度为 2 的因子分解机模型为：

$\large \hat{y}=w_0+\sum_{i=1}^{n}w_{i}x_i+\sum_{i=1}^{n-1}\sum_{j=i+1}^{n}<V_{i},V_{j}>x_ix_j$

其中：w_0 为R，W为R^n，v属于R^(n,k);

表示的是 2 个大小为 k 的向量 Vi 和向量 Vj 的点积：

$\large <V_i,V_j>=\sum_{f=1}^{k}v_{i,f} \cdot v_{j,f}$

上式中：Vi 表示的是系数矩阵 V 的第 i 维的向量，且Vi为：

$\large V_i = (v_{i,1},v_{i,2},...,v_{i,k})$

k 为超参数，且 k 的大小称为 FM 算法模型的度，在因子分解机 FM 模型中，前两部分就是传统的线性模型，最后的那部分将两个互异的特征向量之间的相互关系考虑进去。

2.2、因子分解机 FM 算法可以处理的问题

（1）、回归问题（Regression）

（2）、二分类问题（Binary Classification）

（3）、排序（Ranking）

本文只讨论分类的问题，对于二分类问题，去阈值函数为 Sigmoid 函数：

$\large \sigma (x) = \frac{1}{1+e^{-x}}$

同时，损失函数定义为：

$\large loss^c(\hat{y}\cdot y)=\sum_{i=1}^{m}-ln\sigma(\hat{y}^{(i)}\cdot y^{(i)})$

2.3、FM算法中的交叉项系数

在基本线性回归模型的基础上引入交叉项：

$\large \hat{y}=w_0+\sum_{i=1}^{n}w_{i}x_i+\sum_{i=1}^{n-1}\sum_{j=i+1}^{n} w_{i,j}x_ix_j$

这种直接在交叉项 x_i,x_j 的前面加上交叉系数 w_ij 的方式，在稀疏数据的情况下存在很大的缺陷，即在对于观察样本中未出现交互的特征分量时，不能对相应的参数进行估计。

对每个特征分量 x_i 引入辅助向量 Vi=（v_i1,v_i2, ..., v_ik）利用 ViVj^T 对交叉项的系数 w_ij 进行估计，即：

$\large \hat{w_{ij}}= V_{i}V_{j}^T$

令：

$\large V=\begin{bmatrix} v_{11} &v_{12} & ...& v_{1k} \\ v_{21} & v_{22} & ... & v_{2k} \\ ...& ...& ...&... \\ v_{n1} & v_{n2} & ...& v_{nk} \end{bmatrix}_{n*k}=\begin{bmatrix} V_1\\ V_2\\ ...\\ V_n\end{bmatrix}$

于是有：

$\large \hat{W}=VV^T=\begin{bmatrix} V_1\\ V_2\\ ...\\ V_n\end{bmatrix}\begin{bmatrix} V_1^T &V_2^T &... &V_n^T \end{bmatrix}$

这样对应了一种矩阵的分解，对 k 值的限定、FM 的表达能力均有一定的影响。

2.4、FM 模型交叉项参数的求解详细推导

对于交叉项的求解可以效仿如下：

$\large A+B=\frac{1}{2}[(A+B)^2-(A^2+B^2)]$

2.5、用随机梯度法对 FM 模型参数求解

假设数据集 X 中有 m 个训练样本，即

$\large X=\left \{ X^{(1)},X^{(2)},...X^{(m)} \right \}$

同时每个样本对应一个特征X^(i)：

$\large X^{(i)}=\left \{ X_1^{(i)},X_2^{(i)},...X_m^{(i)} \right \}$

对于度 k=2 的因子分解机 FM 模型来说，其主要的参数就一次项和常数项的参数 w0,w1....,wn 以及交叉系数矩阵 V ，在利用随机梯度对模型的参数进行学习的过程中，主要是对损失函数 loss 的求导。

$\large \frac{\partial loss^c(\hat{y}\cdot y)}{\partial \theta}=\frac{1}{-\partial (\hat{y}\cdot y)}\partial(\hat{y}\cdot y)\cdot [1- (\hat{y}\cdot y)]\cdot y\cdot \frac{\partial \hat{y}}{\partial \theta}$

$\large =[1- (\hat{y}\cdot y)]\cdot y \cdot \frac{\partial \hat{y}}{\partial \theta}$

而：

$\large \frac{\partial \hat{y}}{\partial \theta}=\left\{\begin{matrix} 1 & ,& \theta=w_0 \\ x_i & ,& \theta=w_i \\ x_i \sum_{i=1}^{m}v_{i,f}\cdot x_j-v_{i,f}x_i^2& ,& \theta=v_{i,f} \end{matrix}\right.$

2.6、FM 算法的流程

（1）、初始化权重 w0，w1,...,wn 和 v系数矩阵；

（2）、对每个样本：

$\large w_0=:w_0-\alpha[1-\partial(\hat{y}\cdot y)]\cdot y$

对于特征 i：

$\large w_i=:w_i-\alpha[1-\partial(\hat{y}\cdot y)]\cdot y \cdot x_i$

对于“ 度 f—>k ”:

$\large v_{i,f}=:v_{i,f}-\alpha[1-\partial(\hat{y}\cdot y)]\cdot y \cdot[x_i\sum_{j=1}^{n}v_{j,f}x_j-v_{i,f}x_i^2]$

（3）、重复步骤（2），直到满足条件停止。

3、Python 实现 FM 算法

3.1、初始化参数

# 初始化权重 w 和交叉项权重 v
def initialize_w_v(n, k):
    w = np.ones((n, 1))
    v = np.mat(np.zeros((n, k)))
    for i in range(n):
        for j in range(k):
            v[i, j] = np.random.normal(0, 0.2)    # 把 v 中的值变为服从 N(0, 0.2) 正态分布的数值
    return w, v

3.2、损失函数的实现

# 定义误差损失函数 loss(y', y) = ∑-ln[sigmoid(y'* y)]
def get_cost(predict, classLabels):
    m = np.shape(predict)[0]
    # m = len(predict)
    cost = []
    error = 0.0
    for i in range(m):
        error -= np.log(sigmoid(predict[i] * classLabels[i]))
        cost.append(error)
    return error

3.3、梯度下降法训练模型 Python 代码实现

# 用梯度下降法求解模型参数，训练 FM 模型。
def stocGradient(dataMatrix, classLabels, k, max_iter, alpha):
    """
    :param dataMatrix: 输入的数据集特征
    :param classLabels: 特征对应的标签
    :param k: 交叉项矩阵的维度
    :param max_iter: 最大迭代次数
    :param alpha: 学习率
    :return: 
    """
    m, n = np.shape(dataMatrix)
    w0 = 0
    w, v = initialize_w_v(n, k)     # 初始化参数
    for it in range(max_iter):
        # print('第 %d 次迭代' % it)
        for x in range(m):
            v_1 = dataMatrix[x] * v    # dataMatrix[x]的 shape 为(1,n),v的 shape 为(n,k)--->v_1的 shape为(1, k)
            v_2 = np.multiply(dataMatrix[x], dataMatrix[x]) * np.multiply(v, v)
            interaction = 0.5 * np.sum(np.multiply(v_1, v_1) - v_2)
            p = w0 + dataMatrix[x] * w + interaction
            loss = sigmoid(classLabels[x] * p[0, 0]) - 1
            w0 = w0 - alpha * loss * classLabels[x]
            for i in range(n):
                if dataMatrix[x, i] != 0:
                    w[i, 0] = w[i, 0] - alpha * loss * classLabels[x] * dataMatrix[x, i]
                    for j in range(k):
                        v[i, j] = v[i, j] * alpha * loss * classLabels[x] * (dataMatrix[x, i] * v_1[0, j] - v[i, j] *
                                                                             dataMatrix[x, i]*dataMatrix[x, i])
        if it % 1000 == 0:
            print("\t迭代次数:" + str(it) + ",误差:" + str(get_cost(prediction(np.mat(dataMatrix), w0, w, v), classLabels)))
    return w0, w, v

3.4、FM 算法的完整 Python 代码

# -*- coding: utf-8 -*-
# @Time    : 2019-1-11 13:59
# @Author  : Chaucer_Gxm
# @Email   : [email protected]
# @File    : Train.py
# @GitHub  : https://github.com/Chaucergit/Code-and-Algorithm
# @blog    : https://blog.csdn.net/qq_24819773
# @Software: PyCharm
import numpy as np
import time


# 导入准备训练的数据集
def load_data(filename):
    data = open(filename)
    feature = []
    label = []
    for line in data.readlines():
        feature_tmp = []
        lines = line.strip().split('\t')
        for x in range(len(lines)-1):
            feature_tmp.append(float(lines[x]))
        label.append(int(lines[-1])*2-1)
        feature.append(feature_tmp)
    data.close()
    return feature, label


# 初始化权重 w 和交叉项权重 v
def initialize_w_v(n, k):
    w = np.ones((n, 1))
    v = np.mat(np.zeros((n, k)))
    for i in range(n):
        for j in range(k):
            v[i, j] = np.random.normal(0, 0.2)    # 把 v 中的值变为服从 N(0, 0.2) 正态分布的数值
    return w, v


# 定义 Sigmoid 函数
def sigmoid(x):
    return 1 / (1 + np.exp(-x))


# 定义误差损失函数 loss(y', y) = ∑-ln[sigmoid(y'* y)]
def get_cost(predict, classLabels):
    m = np.shape(predict)[0]
    # m = len(predict)
    cost = []
    error = 0.0
    for i in range(m):
        error -= np.log(sigmoid(predict[i] * classLabels[i]))
        cost.append(error)
    return error


# 用梯度下降法求解模型参数，训练 FM 模型。
def stocGradient(dataMatrix, classLabels, k, max_iter, alpha):
    """
    :param dataMatrix: 输入的数据集特征
    :param classLabels: 特征对应的标签
    :param k: 交叉项矩阵的维度
    :param max_iter: 最大迭代次数
    :param alpha: 学习率
    :return: 
    """
    m, n = np.shape(dataMatrix)
    w0 = 0
    w, v = initialize_w_v(n, k)     # 初始化参数
    for it in range(max_iter):
        # print('第 %d 次迭代' % it)
        for x in range(m):
            v_1 = dataMatrix[x] * v    # dataMatrix[x]的 shape 为(1,n),v的 shape 为(n,k)--->v_1的 shape为(1, k)
            v_2 = np.multiply(dataMatrix[x], dataMatrix[x]) * np.multiply(v, v)
            interaction = 0.5 * np.sum(np.multiply(v_1, v_1) - v_2)
            p = w0 + dataMatrix[x] * w + interaction
            loss = sigmoid(classLabels[x] * p[0, 0]) - 1
            w0 = w0 - alpha * loss * classLabels[x]
            for i in range(n):
                if dataMatrix[x, i] != 0:
                    w[i, 0] = w[i, 0] - alpha * loss * classLabels[x] * dataMatrix[x, i]
                    for j in range(k):
                        v[i, j] = v[i, j] * alpha * loss * classLabels[x] * (dataMatrix[x, i] * v_1[0, j] - v[i, j] *
                                                                             dataMatrix[x, i]*dataMatrix[x, i])
        if it % 1000 == 0:
            print("\t迭代次数:" + str(it) + ",误差:" + str(get_cost(prediction(np.mat(dataMatrix), w0, w, v), classLabels)))
    return w0, w, v


# 定义预测结果的函数
def prediction(dataMatrix, w0, w, v):
    m = np.shape(dataMatrix)[0]
    result = []
    for x in range(m):
        inter_1 = dataMatrix[x] * v
        inter_2 = np.multiply(dataMatrix[x], dataMatrix[x]) * np.multiply(v, v)
        interaction = 0.5 * np.sum(np.multiply(inter_1, inter_1) - inter_2)
        p = w0 + dataMatrix[x] * w + interaction
        pre = sigmoid(p[0, 0])
        result.append(pre)
    return result


# 计算准确度
def getaccuracy(predict, classLabels):
    m = np.shape(predict)[0]
    allItem = 0
    error = 0
    for i in range(m):
        allItem += 1
        if float(predict[i]) < 0.5 and classLabels[i] == 1.0:
            error += 1
        elif float(predict[i]) >= 0.5 and classLabels[i] == -1.0:
            error += 1
        else:
            continue
    return float(error)/allItem


# 保存模型的参数
def save_model(filename, w0, w, v):
    f = open(filename, 'w')
    f.write(str(w0)+'\n')
    w_array = []
    m = np.shape(w)[0]
    for i in range(m):
        w_array.append(str(w[i, 0]))
    f.write('\t'.join(w_array)+'\n')
    m1, n1 = np.shape(v)
    for i in range(m1):
        v_tmp = []
        for j in range(n1):
            v_tmp.append(str(v[i, j]))
        f.write('\t'.join(v_tmp)+'\n')
    f.close()


# 主函数
def main():
    # 第一步：导入数据
    feature, label = load_data('train_data.txt')
    # print(feature, label)
    # 第二步：利用梯度下降训练模型
    w0, w, v = stocGradient(np.mat(feature), label, 4, 20001, 0.02)
    predict_result = prediction(np.mat(feature), w0, w, v)
    print('训练精度为：%f' % (1-getaccuracy(predict_result, label)))
    # 第三步保存模型
    save_model('weights_FM', w0, w, v)

if __name__ == '__main__':
    start = time.time()
    main()
    end = time.time()
    print('训练模型用时为：%s' % str(end-start))

训练结果：

21.660687655417806
1.2649489467261146	75.27079468117786
-0.0	-0.0	-0.0	-0.0
0.0	0.0	0.0	0.0

测试结果：

0.9989796253213139
0.9999443493345659
0.623877247116008
0.9994974000340888
0.9999892853562842
0.9117533237892267
0.9993122746939441
0.9999998391255357
0.9518803708612011
0.9518180046166856
0.999999939840248

完整程序(训练程序+测试程序)与数据集地址：

https://github.com/Chaucergit/Code-and-Algorithm/tree/master/ML/3.Factorization%20Machine

参考书目：

[1].统计方法.李航

[2].Python机器学习算法.赵志勇

[3].利用Python进行数据分析.WesKinney著，唐学韬等译

你可能感兴趣的:(机器学习算法)

Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
机器学习与深度学习的区别 eqa11 机器学习
文章目录机器学习与深度学习的区别一、引言二、机器学习概述1、机器学习定义1.1、机器学习的应用2、机器学习算法三、深度学习概述1、深度学习定义1.1、深度学习的应用2、深度学习算法四、机器学习与深度学习的区别1、学习方法2、数据需求3、应用领域五、总结机器学习与深度学习的区别一、引言在人工智能的浪潮中，机器学习和深度学习无疑是最耀眼的两颗明星。它们在许多领域都取得了令人瞩目的成就，从自动驾驶汽车到
MATLAB车牌识别系统清风明月来几时图像算法处理 matlab 开发语言
MATLAB车牌识别系统是一个基于MATLAB开发的用于识别和提取车牌信息的系统。该系统使用图像处理和机器学习算法来实现车牌的定位和字符识别。以下是一个基本的MATLAB车牌识别系统的工作流程：图像预处理：首先，将输入的图像进行预处理，包括灰度化、高斯平滑、边缘检测等操作，以提高后续的车牌定位和字符识别的准确性。车牌定位：在预处理后的图像中，使用形态学运算和边缘检测算法来寻找车牌的位置。这可以通过
十大机器学习算法-梯度提升决策树（GBDT） zjwreal 机器学习 GBDT 机器学习梯度提升提升树梯度提升决策树
简介梯度提升决策树（GBDT）由于准确率高、训练快速等优点，被广泛应用到分类、回归合排序问题中。该算法是一种additive树模型，每棵树学习之前additive树模型的残差。许多研究者相继提出XGBoost、LightGBM等，又进一步提升了GBDT的性能。基本思想提升树-BoostingTree以决策树为基函数的提升方法称为提升树，其决策树可以是分类树或者回归树。决策树模型可以表示为决策树的加
通俗理解线性回归(Linear Regression) 小夏refresh 机器学习数据挖掘机器学习算法人工智能数据挖掘
线性回归,最简单的机器学习算法,当你看完这篇文章,你就会发现,线性回归是多么的简单.首先,什么是线性回归.简单的说,就是在坐标系中有很多点,线性回归的目的就是找到一条线使得这些点都在这条直线上或者直线的周围,这就是线性回归(LinearRegression).是不是有画面感了?那么我们上图片:![1.png][1]那么接下来,就让我们来看看具体的线性回归吧首先,我们以二维数据为例:我们有一组数据x
c++ +Opencv实现车牌自动识别听忆. 人工智能计算机视觉
c+++Opencv实现车牌自动识别1.图像预处理2.车牌定位3.字符分割4.字符识别完整流程概述：边走、边悟迟早会好要用C++和OpenCV实现车牌自动识别，主要流程分为几个步骤：图像预处理：提高车牌区域的可见度，方便后续的车牌定位与字符识别。车牌定位：通过图像处理和特征提取，定位车牌在图像中的位置。字符分割：将车牌区域中的字符逐个分割出来。字符识别：利用机器学习算法或者OCR（光学字符识别）技
NPU技术总结技术学习分享 webgl processon
NPUs简介定义:NPUs是一种专门为执行机器学习算法和神经网络操作而设计的处理器。起源:随着人工智能和深度学习的发展，NPUs应运而生，以满足对高效率和高能效的计算需求。NPUs的设计架构:NPUs通常采用不同于传统CPU或GPU的架构，优化了矩阵运算和并行处理。指令集:它们拥有专门的指令集，用于加速神经网络中的常见操作，如卷积和激活函数。NPUs的核心技术并行性:NPUs利用数据并行性和任务并
机器学习面试题目分享面试经验分享机器学习算法工程师深度学习经典问题好家伙VCC 面试机器学习面试经验分享 stm32 嵌入式硬件单片机 fpga开发
标题机器学习面经总结的常见面试题目等作业帮实习视觉算法一面凉凉经3.16号投递图像算法实习生，昨天hr打电话约了今早上牛客面试面试官还是很和蔼的，问了很多基础和细节，平时我都没有注意到的，肯定凉了，在这里记录一下，分享给大家由于我本科研究生都是计算机的，因此问了一些计算机基础的东西，但是由于年代久远，我都不记得了机器学习方面知识因为缺少一些动手实践，因此很多细节都不了解感谢面试官让我了解到这么多不
机器学习算法 —— LightGBM ZShiJ 机器学习算法机器学习算法分类
欢迎来到我的博客——探索技术的无限可能！博客的简介（文章目录）目录背景描述数据说明数据来源LightGBMLightGBM原理简介LightGBM的优点LightGBM的缺点LightGBM的应用基于英雄联盟数据集的LightGBM分类实战函数库导入数据读取/载入数据信息简单查看可视化描述利用LightGBM进行训练与预测利用LightGBM进行特征选择通过调整参数获得更好的效果基本参数调整针对训
机器人路径规划的机器学习算法科技大本营机器人机器学习算法
机器学习算法正在重塑机器人在复杂和动态环境中导航的方式，而机器人路径规划就是其中一个重要领域。传统方法通常在受控环境中表现良好，但在处理实时出现的障碍或变化时往往失效。通过机器学习，机器人可以从数据和经验中学习，做出智能决策并优化路线。本文回顾了一些在机器人路径规划领域中占主导地位的主要机器学习算法，它们的实际应用以及推动此技术进一步发展的趋势。了解机器人路径规划机器人路径规划是指确定机器人从起始
python机器学习算法--贝叶斯算法在下小天n 机器学习 python 机器学习算法
1.贝叶斯定理在20世纪60年代初就引入到文字信息检索中，仍然是文字分类的一种热门（基准）方法。文字分类是以词频为特征判断文件所属类型或其他（如垃圾邮件、合法性、新闻分类等）的问题。原理牵涉到概率论的问题，不在详细说明。sklearn.naive_bayes.GaussianNB(priors=None,var_smoothing=1e-09)#Bayes函数·priors：矩阵，shape=[n
人工智能&机器学习&深度学习 AA杂货铺111
机器学习：一切通过优化方法挖掘数据中规律的学科。深度学习：一切运用了神经网络作为参数结构进行优化的机器学习算法。强化学习：不仅能利用现有数据，还可以通过对环境的探索获得新数据，并利用新数据循环往复地更新迭代现有模型的机器学习算法。学习是为了更好地对环境进行探索，而探索是为了获取数据进行更好的学习。深度强化学习：一切运用了神经网络作为参数结构进行优化的强化学习算法。人工智能定义与分类人工智能（Art
生成式AI：创造性智能的新纪元 Lill_bin 杂谈人工智能分布式 zookeeper 机器学习算法
引言随着人工智能技术的飞速发展，生成式AI（GenerativeAI）已经成为一个引人注目的领域。它不仅仅是模仿人类行为，而是通过学习大量的数据，创造出全新的内容，如文本、图像、音乐等。本文将探讨生成式AI的基本原理、应用领域以及它对未来社会可能产生的影响。什么是生成式AI？生成式AI是一种利用机器学习算法，特别是深度学习技术，来生成新的数据样本的人工智能。这些数据样本在统计上与训练数据相似，但又
python logistic regression_机器学习算法与Python实践之逻辑回归（Logistic Regression） weixin_39702649 python logistic regression
机器学习算法与Python实践这个系列主要是参考下载地址：https://bbs.pinggu.org/thread-2256090-1-1.html一、逻辑回归(LogisticRegression)Logisticregression(逻辑回归)是当前业界比较常用的机器学习方法，用于估计某种事物的可能性。之前在经典之作《数学之美》中也看到了它用于广告预测，也就是根据某广告被用户点击的可能性，把
python logistic模型_Python实践之逻辑回归（Logistic Regression） weixin_39922394 python logistic模型
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。这节学习的是逻辑回归(LogisticRegression)，也算进入了比较正统的机器学习算法。啥叫正统呢？我概念里面机器学习算法一般是这样一个
周报 | 24.8.26-24.9.1文章汇总双木的木 python拓展学习深度学习拓展阅读目标检测人工智能 python 计算机视觉 gpt transformer stable diffusion
为了更好地整理文章和发表接下来的文章，以后每周都汇总一份周报。周报|24.8.19-24.8.25文章汇总-CSDN博客python|提升代码迭代速度的Python重载方法-CSDN博客机器学习算法与Python学习|黑匣子被打开了？能玩的Transformer可视化解释工具！_研究别人的黑盒算法机器学习python-CSDN博客极市平台|语言图像模型大一统！Meta将Transformer和Di
自然语言处理系列五十》文本分类算法》SVM支持向量机算法原理陈敬雷-充电了么-CEO兼CTO 算法大数据人工智能算法自然语言处理分类 nlp ai 人工智能 chatgpt
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十SVM支持向量机》算法原理SVM支持向量机》代码实战总结自然语言处理系列五十SVM支持向量机》算法原理SVM支持向量机在文本分类的应用场景中，相比其他机器学习算法有更好的效果。下面介绍其原理，并用SparkMLlib机器
【大数据】孤立森林算法大雨淅淅大数据算法 python 大数据人工智能
目录一、孤立森林算法概述二、孤立森林算法优缺点和改进2.1孤立森林算法优点2.2孤立森林算法缺点2.3孤立森林算法改进三、孤立森林算法代码实现3.1孤立森林算法python实现3.2孤立森林算法JAVA实现3.3孤立森林算法C++实现四、孤立森林算法应用一、孤立森林算法概述孤立森林算法是一种用于异常检测的机器学习算法。它基于这样的直觉：异常点是数据中的少数派，它们在特征空间中的分布与正常数据点不同
如何开发针对不平衡分类的成本敏感神经网络 python 背包客研究不平衡学习分类神经网络 python
如何开发针对不平衡分类的成本敏感神经网络深度学习神经网络是一类灵活的机器学习算法，可以在各种问题上表现良好。神经网络使用误差反向传播算法进行训练，该算法涉及计算模型在训练数据集上产生的误差，并根据这些误差的比例更新模型权重。这种训练方法的局限性在于，每个类别的示例都被视为相同，对于不平衡的数据集，这意味着模型对一个类别的适应性要强得多，而对另一个类别的适应性则弱得多。反向传播算法可以更新，以根据类
大肠杆菌数据集的不平衡多类分类 Python 背包客研究不平衡学习分类 python 人工智能
大肠杆菌数据集的不平衡多类分类关注博主学习更多内容关注vxGZH:多目标优化与学习Lab教程概述本教程分为五个部分；他们是：大肠杆菌数据集探索数据集模型测试和基线结果评估模型评估机器学习算法评估数据过采样对新数据进行预测大肠杆菌数据集在这个项目中，我们将使用一个标准的不平衡机器学习数据集，称为“大肠杆菌”数据集，也称为“蛋白质定位位点”数据集。该数据集描述了利用细胞定位位点的氨基酸序列对大肠杆菌蛋
人工智能在网络安全领域的应用探索亿林数据人工智能 web安全安全网络安全
随着网络技术的飞速发展，网络安全问题日益凸显，成为制约数字化进程的重要瓶颈。人工智能（AI）作为一种变革性技术，正逐步在网络安全领域展现出其巨大的潜力和价值。本文旨在探讨人工智能在网络安全领域的应用现状、优势、挑战及未来发展趋势。一、人工智能在网络安全中的应用现状威胁检测与响应人工智能通过机器学习算法，能够自动识别网络中的异常行为，如未经授权的访问、恶意软件传播等。传统的安全系统依赖于静态规则和签
从自动驾驶看无人驾驶叉车的技术落地和应用电气_空空自动驾驶自动驾驶机器人人工智能毕设
摘要｜介绍无人驾驶叉车在自动驾驶技术中的应用，分析其关键技术，如环境感知、定位、路径规划等，并讨论机器学习算法和强化学习算法的应用以提高无人叉车的运行效率和准确性。无人叉车在封闭结构化环境、机器学习、有效数据集等方法的助力下，可有效推动叉车无人驾驶关键技术的发展。关键词：无人叉车；自动驾驶；机器学习；数据集随着人工智能技术的持续进步，无人叉车领域的供给与需求均呈现迅猛增长态势。它们不仅正在逐步替代
深度学习100问13:什么是二分类问题不断持续学习ing 人工智能机器学习自然语言处理
嘿，你知道二分类问题不？这就像是一个“超级裁判”，要把东西分成两大类。一、定义及举例想象一下，生活中有很多时候我们得决定一个东西到底属于哪一边。就像判断一封邮件，是“垃圾邮件”呢，还是“正常邮件”；或者看看一个病人，是“得了某种病”呢，还是“没得病”。二、解决方法要解决二分类问题呀，我们可以找来一些“魔法工具”，也就是机器学习算法。像逻辑回归啦、支持向量机啦、决策树啦等等。这些算法就像聪明的小助手
Python学习和面试中的常见问题及答案写代码的M教授 Python学习计划 python 学习面试
整理了一些关于Python和机器学习算法的高级问题及其详细答案。这些问题涵盖了多个方面，包括数据处理、模型训练、评估、优化和实际应用。一、Python编程问题解释Python中的装饰器（Decorators）是什么？它们的作用是什么？答案：装饰器是一种高阶函数，能够在不修改函数定义的情况下扩展或修改函数的行为。它们通常用于日志记录、权限验证、缓存等场景。使用@decorator_name语法将装饰
机器学习算法深度总结(5)-逻辑回归婉妃
1.模型定义逻辑回归属于基于概率分类的学习法.基于概率的模式识别是指对模式x所对应的类别y的后验概率禁行学习.其所属类别为后验概率最大时的类别:预测类别的后验概率,可理解为模式x所属类别y的可信度.逻辑回归(logistic),使用线性对数函数对分类后验概率进行模型化:上式,分母是满足概率总和为1的约束条件的正则化项,参数向量维数为:考虑二分类问题:使用上述关系式,logistic模型的参数个数从
python 数据挖掘与机器学习科研的力量人工智能 ChatGPT python 数据挖掘机器学习神经网络随机森林决策树贝叶斯
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。模块一：课前准备Python编程基础与进阶Python编程入门1、Python环境搭建（
1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因。2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，有需要的朋友欢迎交流研究概述：本研究首先使用R语言在三个基因表达
深度学习速通系列:贝叶思&SVM Ven% 支持向量机人工智能深度学习算法机器学习
贝叶斯（Bayesian）方法和支持向量机（SVM，SupportVectorMachine）是两种不同的机器学习算法，它们在解决分类和回归问题时有着不同的原理和应用场景贝叶斯方法：贝叶斯方法基于贝叶斯定理，这是一种利用已知信息（先验概率）来预测未知事件（后验概率）的概率方法。它通常用于分类问题，特别是当数据集较小或存在类别不平衡时。贝叶斯方法可以处理不确定性，并且可以通过增加新的数据来更新先验概
机器学习（ML）算法分类活蹦乱跳酸菜鱼机器学习
机器学习（ML）算法是一个广泛而多样的领域，涵盖了多种用于数据分析和模式识别的技术。以下是一些常见的机器学习算法分类及其具体算法：一、监督学习算法监督学习算法使用标记（即已知结果）的训练数据来训练模型，以便对新数据进行预测。线性回归：用于建立连续变量之间的关系，通过拟合一条直线或超平面来预测新数据的输出值。逻辑回归：虽然名称中包含“回归”，但实际上是用于分类问题，特别是二分类问题。通过将线性回归模
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他