独家*记忆

机器学习编程作业ex8(matlab/octave实现)-吴恩达coursera 异常检测与推荐系统/协同过滤

程序打包网盘地址提取码1111

一、（Week 9）内容回顾

非监督学习问题的两种应用：异常检测与推荐系统

1.1 Anomaly Detection 异常检测

1.Density Estimation密度估计-用发生的概率来判定是否为异常数据
1)P(x)<ε,则为异常。可用于欺诈数据检测、制造数据检测-飞机引擎、计算机数据检测-运行不正常/停机

False positive代表：算法判定positives=1，判定错误false，实际为0。因此需要减少ε，提高判定为positives的要求，从而减少异常点（=1）。
2)高斯分布/正态分布Gaussian ：来自概率论中的概率分布函数，方差σ越小，越尖。
3)用高斯分布开发异常检测算法：p(x)的各个px_j为独立的元素，概率等于xi的乘积。如下图所示：

算法的三个过程：选特征、计算每个特征高斯分布的参数、计算概率。
2.建立异常检测算法系统：
1）评价异常算法：

对10000个好/20个坏数据的分类，好的按6:2:2，坏的按0、10、10，分成训练集、交叉验证集、测试集。
偏斜类问题用F score来评价-选用不同的ε，从中选用最低F的ε。

2)异常检测与监督学习的区别：

异常检测的y=1数据即异常数据占少量（如0~20个）；y=0则大量，监督学习则两个都很多。
实际问题选取模型的技巧：当异常样本少，异常的特征不能全部判定，需要用异常检测，即以概率ε来判定；监督学习用于正常、异常两个都有大量的样本数据，此时采用分类模型。
垃圾邮件，异常样本很多，所以可用监督学习模型。

3）选择合适的特征建议：

首先用直方图绘制特征x与样本分布图，如果不符合高斯分布，用一些处理如取对数log、log（x+c）、根号x，使得x的特征分布变成高斯分布。
异常检测的误差分析：找到判断失误的正常样本，如下图中的划圈点，虽然出现概率大（靠近均值），仍属于异常样本，需要添加新的特征x2。
特征要选择适当-既不很大也不很小的特征；同时可以进行不同特征的组合，如x4/x5。

3.多元高斯分布
1）单元高斯分布表明特征之间相互独立，当存在相关性特征时，如下左图绿色点，应该为异常点，但若按单元高斯分布来做，会得出正常点的情况，此时，如下右图所示，x2的高斯分布对称性使得该点变到x2=0.3。因此，有相关性特征时要建立多元高斯分布。
两个变量的正相关、负相关：上图为正，因此协方差矩阵∑的副对角线为正值。

2）多元高斯应用在异常检测-
核心依然为三个步骤（统计特征；求两个参数，均值μ和协方差矩阵∑；计算p并判定与e的关系）
多元高斯的协方差矩阵∑非对角线元素为0时，等同于是个单元高斯分布，即此时各个特征相互独立。

原始模型与多元高斯模型的比较：

x1与x2有相关性，如CPU/内存，需用x1/x2单个特征手动代替x1、x2的两个特征，多元可以自动计算相关性；
原始模型计算量小，多元高斯计算量大，不适合n很大时；
原始模型的数据集数可以比较少，多元模型则一定要数据集数m大于特征数n，满足矩阵为奇异/可逆的条件，一般在m>10n时使用。

多元出现非奇异/矩阵不可逆情况时，从数据集数、特征重复-冗余特征/特征线性相关两个方面进行考虑。

第三个选项，识别是否为名人的头像，由于是与不是的样本都很多，因此可用监督学习的模型进行分类。

x1与x2相近时为正常数据，有一部分x1大、x2小的数据为异常数据，因此x1/x2可以确定异常数据为比值大、正常数据比值小。

1.2 Recommendation System 推荐系统

1.预测电影排序：

学习推荐系统的目的，是无监督学习的重要应用、可以自动学习特征
符号含义：nu用户user数量，nm电影movie数量，r(i,j)=1用户j给电影i评过分，y^r(r,j)只有在=1才有值（有意义）。

2.构建推荐系统的第一种方法-基于内容的推荐:线性回归

与之前的回归模型类似，求取参数向量θ代表对应x的权重，去预测评分
优化算法：最小化误差，采用梯度下降，得到θ1到θnu的一系列收敛值

3.第二种方法-不基于内容，协同过滤collaborative filtering。可以自行学习特征
初始化θ参数，去求x的值。再去算θ值，再去算x值。循环下去求得最佳的θ、x值

4.协同过滤算法改进:两个误差合并。
此时没有x0，原因为x为Rn，θ为Rn，X1可以收敛到=1，类似于x0=1。

这里的初始化x与θ，需要进行Symmetry breaking打破对称性-与之前神经网络参数的初始化类似，避免某些参数完全一样，浪费了计算时间。
5.协同过滤的向量化实现及应用 -low rank matrix factorization低秩矩阵分解
找到与i相关的j，确保两个xi与xj相近，向量化计算范数，可以确定特征相近的元素，用于推荐系统。
6.实施细节-均值归一化

进行均值归一化的目的：没看过电影的新用户，即没有x已知项，最终θ将全为0-最小化误差函数，θ必然=0
操作：每一行的和为0/均值为0。最终求得新用户的评分为μi，得到新用户的评分为平均值分值。
解决没用户比没评分/列要重要
不需进行特征缩放的原因，在于分值已经为同样的范围，而不是C选项的特征缩放原理-缩放后不影响参数求解
协同过滤算法特点是一部分数据，包括用户评分y、电影类型权重x，可以自动求得所有电影类型权重X和所有用户爱好向量θ。因此D选项为侧重于单人的数据，更推荐用分类算法，输出y=0、y=1对应喜欢/不喜欢。B选项很容易得到用线性回归模型，预测销售量。A、C都是基于已有的数据，去求得其中article文章的特征，找到特征向量差距小的相似文章。

需要编辑以下的红色文件。（后续部分，需要填入的代码为深色框，已经提供的代码为浅色框。）

文件	内容
ex8.m	异常检测主程序
ex8_cofi.m	协同过滤主程序
ex8data1.mat	异常检测数据集1
ex8data2.mat	异常检测数据集2
ex8_movies.mat	电影评论数据集
ex8_movieParams.mat	调试所需的参数
multivariateGaussian.m	计算高斯分布函数函数
visualizeFit.m	数据集和高斯分布的二维可视化函数
checkCostFunction.m	协同过滤的梯度检查函数
computeNumericalGradient.m	梯度计算函数
fmincg.m	最小化迭代函数
loadMovieList.m	加载电影数据集
movie_ids.txt	电影id清单
normalizeRatings.m	协同过滤的均值归一化
estimateGaussian.m	用协方差矩阵估计高斯分布的参数
selectThreshold.m	寻找异常检测的阈值ε
cofiCostFunc.m	协同过滤算法的代价函数

二、作业1- Anomaly detection 异常检测

利用异常检测算法，检测服务器计算机中的异常行为（异常数据），特征包括服务器的吞吐量（mb/s）和响应延迟（s），应用模型为无监督学习-数据无标签。

2.1 Part 1: Load Example Dataset 加载样本数据集

load(‘ex8data1.mat’);
plot(X(:, 1), X(:, 2), ‘bx’);
axis([0 30 0 30]);
xlabel(‘Latency (ms)’);
ylabel(‘Throughput (mb/s)’);

得到数据如下所示，共有307个数据点：

2.2 Part 2: Estimate the dataset statistics 数据集统计估计

[mu sigma2] = estimateGaussian(X);
p = multivariateGaussian(X, mu, sigma2);
visualizeFit(X, mu, sigma2);
xlabel(‘Latency (ms)’);
ylabel(‘Throughput (mb/s)’);

主函数提供高斯分布参数estimateGaussian计算的函数入口，X为307*2的矩阵，函数计算得到两列的两个均值μ、两个方差σ。

function [mu sigma2] = estimateGaussian(X)
[m, n] = size(X);
mu = zeros(n, 1);
sigma2 = zeros(n, 1);
% YOUR CODE HERE
end

因此，需要在estimateGaussian.m文件中填入代码：

mu = 1/m*(sum(X));
sigma2 = 1/m*sum((X-mu).^2);

multivariateGaussian由均值和方差可以得到高斯分布函数p，最终得到307*1列向量的p。

function p = multivariateGaussian(X, mu, Sigma2)
k = length(mu);
if (size(Sigma2, 2) == 1) || (size(Sigma2, 1) = = 1)
Sigma2 = diag(Sigma2); %diag函数将σ的行向量元素扩展为矩阵的对角线元素，其他元素均为0
end
X = bsxfun(@minus, X, mu(: )’); %bsxfun函数为隐式扩展运算
%如这里X每个元素都减去均值行向量mu的值（mu由1*2变成307 *2）
p = (2 * pi) ^ (- k / 2) * det(Sigma2) ^ (-0.5) * …
exp(-0.5 * sum(bsxfun(@times, X * pinv(Sigma2), X), 2));
end

visualizeFit由数据集、均值、方差，绘制高斯分布概率值p的等高线图和数据分布图

function visualizeFit(X, mu, sigma2)
[X1,X2] = meshgrid(0:.5:35); %设定二维坐标点，meshgrid得到71*71个坐标点
Z = multivariateGaussian([X1(: ) X2(: )],mu,sigma2);
Z = reshape(Z,size(X1));
plot(X(:, 1), X(:, 2),‘bx’); %绘制数据点
hold on;
% Do not plot if there are infinities
if (sum(isinf(Z)) == 0) %isinf（Z）返回Z中为无限值Inf的元素
contour(X1, X2, Z, 10.^ (-20:3:0)’); %绘制高斯分布函数值为10 ^-20、10 ^-17……10 ^-2的二维等高线图
end
hold off;
end

2.3 Part 3: Find Outliers 确定概率阈值ε

主函数利用交叉验证集选择F score最小的概率阈值ε，首先计算验证集的分布函数pval

pval = multivariateGaussian(Xval, mu, sigma2);
[epsilon F1] = selectThreshold(yval, pval); %获得最佳的ε
fprintf(‘Best epsilon found using cross-validation: %e\n’, epsilon);
fprintf(‘Best F1 on Cross Validation Set: %f\n’, F1);
fprintf(’ (you should see a value epsilon of about 8.99e-05)\n’);
fprintf(’ (you should see a Best F1 value of 0.875000)\n\n’);
% Find the outliers in the training set and plot the
outliers = find(p < epsilon); %找到概率小于阈值ε的异常点，将序号存储在outliers中
% Draw a red circle around those outliers
hold on
plot(X(outliers, 1), X(outliers, 2), ‘ro’, ‘LineWidth’, 2, ‘MarkerSize’, 10); %获取异常点的x、y坐标并绘图
hold off

selectThreshold由yval和pval计算不同ε下的F score，得到最低情况下的ε。

function [bestEpsilon bestF1] = selectThreshold(yval, pval)
bestEpsilon = 0;
bestF1 = 0;
F1 = 0;
stepsize = (max(pval) - min(pval)) / 1000;
for epsilon = min(pval):stepsize:max(pval) %计算1000个ε的不同F1值
%YOUR CODE HERE
if F1 > bestF1
bestF1 = F1;
bestEpsilon = epsilon;
end
end
end

因此，需要在selectThreshold.m中填入代码：

 cvPredictions=(pval<epsilon);
    tp = sum((cvPredictions == 1) & (yval == 1));
    fp = sum((cvPredictions == 1) & (yval == 0));
    fn = sum((cvPredictions == 0) & (yval == 1));
    prec = tp / (tp + fp);
    rec = tp / (tp + fn);
    F1 = 2*prec*rec/(prec+rec);

F1值的计算公式如下所示，其中：（算法判定为y=1，代表为异常数据）

tp为true positives，算法判定positives=1，判定正确true，实际也为1。
fp为false positives，算法判定positives=1，判定错误false，实际为0。
fn为false negatives，算法判定negatives=0，判定错误false，实际为1。

2.4 Part 4: Multidimensional Outliers 多特征时的最佳阈值

load(‘ex8data2.mat’);
[mu sigma2] = estimateGaussian(X); %计算数据集的方差、均值
p = multivariateGaussian(X, mu, sigma2); %计算训练集的高斯分布函数
pval = multivariateGaussian(Xval, mu, sigma2); %计算交叉验证集的高斯分布函数
[epsilon F1] = selectThreshold(yval, pval); %得到最佳的epsilon参数
fprintf(‘Best epsilon found using cross-validation: %e\n’, epsilon);
fprintf(‘Best F1 on Cross Validation Set: %f\n’, F1);
fprintf(’ (you should see a value epsilon of about 1.38e-18)\n’);
fprintf(’ (you should see a Best F1 value of 0.615385)\n’);
fprintf(’# Outliers found: %d\n\n’, sum(p < epsilon));

三、作业2-Recommender Systems 推荐系统

利用协同过滤算法，估计用户的电影评分，由此来推荐类似的高分电影。用户数nu=943，电影数nm=1682。

3.1 Part 1: Loading movie ratings dataset 加载电影评分数据库

主函数加载了数据文件，Y为1682*943矩阵，代表943个用户给1682个电影打的分。

load (‘ex8_movies.mat’);
fprintf(‘Average rating for movie 1 (Toy Story): %f / 5\n\n’, …
mean(Y(1, R(1, )));
imagesc(Y); %imagesc将矩阵数据转换为二维图
ylabel(‘Movies’);
xlabel(‘Users’);

如下图所示：

3.2 Part 2代价函数、Part 3 梯度检验、Part 4/5 回归项

load (‘ex8_movieParams.mat’);
num_users = 4; num_movies = 5; num_features = 3;
X = X(1:num_movies, 1:num_features);
Theta = Theta(1:num_users, 1:num_features);
Y = Y(1:num_movies, 1:num_users);
R = R(1:num_movies, 1:num_users);
J = cofiCostFunc([X( ; Theta(], Y, R, num_users, num_movies, …
num_features, 0);
fprintf(['Cost at loaded parameters: %f '…
‘\n(this value should be about 22.22)\n’], J);

cofiCostFunc函数根据评分数据和参数，计算此时的代价。这里直接加入回归项：

因此，在cofiCostFunc.m文件中填入代码：

predY = (X*Theta') .* R;
J = 1/2*sum(sum((predY-Y) .^ 2)) +...
    lambda/2*sum(sum(Theta .^ 2))+...
    lambda/2*sum(sum(X .^ 2));;

for i=1:num_movies
    idx=find(R(i,:)==1);
    Theta_temp=Theta(idx,:);
    Y_temp=Y(i,idx);
    X_grad(i,:)=(X(i,:)*Theta_temp'-Y_temp)*Theta_temp+...
        lambda*X(i,:);
end

for i=1:num_users
    idx=find(R(:,i)==1);
    X_temp=X(idx,:);
    Y_temp=Y(idx,i);
    Theta_grad(i,:)=(X_temp*Theta(i,:)'-Y_temp)'*X_temp+...
        lambda*Theta(i,:); 
end

3.6 Part 6: Entering ratings for a new user 对用户进行电影推荐

主函数为输入某个用户已评分的电影，存储在my_ratings中。

movieList = loadMovieList();
% Initialize my ratings
my_ratings = zeros(1682, 1);
% Check the file movie_idx.txt for id of each movie in our dataset
% For example, Toy Story (1995) has ID 1, so to rate it “4”, you can set
my_ratings(1) = 4;
% Or suppose did not enjoy Silence of the Lambs (1991), you can set
my_ratings(98) = 2;
% We have selected a few movies we liked / did not like and the ratings we
% gave are as follows:
my_ratings(7) = 3;
my_ratings(12)= 5;
my_ratings(54) = 4;
my_ratings(64)= 5;
my_ratings(66)= 3;
my_ratings(69) = 5;
my_ratings(183) = 4;
my_ratings(226) = 5;
my_ratings(355)= 5;
fprintf(’\n\nNew user ratings:\n’);
for i = 1:length(my_ratings)
if my_ratings(i) > 0
fprintf(‘Rated %d for %s\n’, my_ratings(i), …
movieList{i});
end
end

3.7 Part 7: Learning Movie Ratings 计算电影排名

load(‘ex8_movies.mat’);
% 加入用户的已知评分数据
Y = [my_ratings Y];
R = [(my_ratings ~= 0) R];
% 均值归一化
[Ynorm, Ymean] = normalizeRatings(Y, R);
% Useful Values
num_users = size(Y, 2);
num_movies = size(Y, 1);
num_features = 10;
% 设初始值 (Theta, X)
X = randn(num_movies, num_features);
Theta = randn(num_users, num_features);
initial_parameters = [X(: ); Theta(: )];
% 迭代参数设置
options = optimset(‘GradObj’, ‘on’, ‘MaxIter’, 100);
% 迭代获得最佳的Theta和X参数
lambda = 10;
theta = fmincg (@(t)(cofiCostFunc(t, Ynorm, R, num_users, num_movies, …
num_features, lambda)), …
initial_parameters, options);
% 还原参数
X = reshape(theta(1:num_moviesnum_features), num_movies, num_features);
Theta = reshape(theta(num_moviesnum_features+1:end), …
num_users, num_features);
fprintf(‘Recommender system learning completed.\n’);

3.8 Part 8: Recommendation for you

p = X * Theta’;
my_predictions = p(:,1) + Ymean;
movieList = loadMovieList();
[r, ix] = sort(my_predictions, ‘descend’); %根据电影id，计算并排序相应的评分
fprintf(’\nTop recommendations for you:\n’);
for i=1:10 %推荐前10部评分最高的电影
j = ix(i);
fprintf(‘Predicting rating %.1f for movie %s\n’, my_predictions(j), …
movieList{j});
end
fprintf(’\n\nOriginal ratings provided:\n’);
for i = 1:length(my_ratings)
if my_ratings(i) > 0
fprintf(‘Rated %d for %s\n’, my_ratings(i), …
movieList{i});
end
end

参考资料

吴恩达机器学习Coursera-week9
吴恩达机器学习编程作业ex8-Matlab版

大语言模型丨ChatGPT-4o深度科研应用、论文与项目撰写、数据分析、机器学习、深度学习及AI绘图（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）赵钰老师 ChatGPT python 人工智能语言模型深度学习数据分析 chatgpt 机器学习随机森林
目录第一章、2024大语言模型最新进展与ChatGPT各模型第二章、ChatGPT-4o提示词使用方法与高级技巧（最新加入思维链及逆向工程及GPTs）第三章、ChatGPT4-4o助力日常生活、学习与工作第四章、基于ChatGPT-4o课题申报、论文选题及实验方案设计第五章、基于ChatGPT-4o信息检索、总结分析、论文写作与投稿、专利idea构思与交底书的撰写第六章、ChatGPT-4o编程入
【python】在【机器学习】与【数据挖掘】中的应用：从基础到【AI大模型】小李很执着杂乱无章机器学习数据挖掘 python 人工智能语言模型
目录一、Python在数据挖掘中的应用1.1数据预处理数据清洗数据变换数据归一化高级预处理技术1.2特征工程特征选择特征提取特征构造二、Python在机器学习中的应用2.1监督学习分类回归2.2非监督学习聚类降维三、Python在深度学习中的应用3.1深度学习框架TensorFlowPyTorch四、Python在AI大模型中的应用4.1大模型简介4.2GPT-4o实例五、实例验证5.1数据集介绍
Python软体中使用Scikit-learn库训练简单线性回归模型清水白石008 Python题库 python python scikit-learn 线性回归
Python软体中使用Scikit-learn库训练简单线性回归模型1.引言作为数据科学家和机器学习从业者,我们经常需要处理各种类型的数据,并从中提取有价值的信息。其中,线性回归是最基础也是最常用的机器学习算法之一。它可以帮助我们预测连续型目标变量,在很多实际应用场景中都有广泛应用,比如房价预测、销量预测等。在本文中,我将使用Python的Scikit-learn库,介绍如何训练一个简单的线性回归
超实用的Python机器学习教程 - 基于scikit - learn库 AI_DL_CODE 人工智能 python 机器学习人工智能
一、机器学习简介机器学习的定义与概念机器学习是一门多领域交叉学科，它涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。简单来说，机器学习是让计算机从数据中学习规律并进行预测或决策的技术。它旨在构建能够自动从数据中学习模式并进行改进的算法，而无需被明确编程来执行特定任务。例如，我们可以让机器学习算法通过分析大量的历史天气数据来预测未来的天气情况，或者通过分析用户的购物历史来推荐可能感兴趣
【python】利用 GridSearchCV 和 SVM 进行学生成绩预测码银支持向量机机器学习人工智能
在机器学习领域，寻找最优模型参数是一个重要的步骤，它直接影响模型的泛化能力和预测准确性。本文将通过一个具体案例介绍如何使用支持向量机（SVM）和网格搜索（GridSearchCV）来预测学生的成绩，并通过调整参数来优化模型性能。数据集：公众号“码银学编程”后台回复：学生成绩-SVM前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家：前言–人工智能教程引言学生的成绩预测
机器学习笔记——特征工程好评笔记补档机器学习人工智能论文阅读 AIGC transformer 深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。文章目录特征工程（FzeatureEngineering）1.特征提取（FeatureExtraction）手工特征提取（ManualFeatureExtraction）：自动特征提取（AutomatedFeatureExtraction）：2.特征选择
不同物体运动方向的检测-python 人工智能专属驿站 python 开发语言
方法优点适用场景缺点光流法实时性强、支持稠密方向分析视频流中物体整体运动对背景复杂场景鲁棒性差特征点跟踪精确捕捉局部运动特征点明显的物体特征点丢失影响结果帧间差分简单快速，适合实时检测背景稳定、低复杂度场景对噪声和阴影敏感深度摄像头三维方向检测，抗背景干扰能力强需要深度信息的场景需要特殊硬件，成本较高惯性传感器不依赖视觉，适用环境广泛设备本体的运动分析精度受传感器噪声影响机器学习能适应复杂非线性场
机器学习强基计划7-6：图文详解层次聚类AGNES算法(附Python实现)_agnes聚类算法python代码软件开发Java 2024年程序员学习机器学习算法聚类
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
Chrome浏览器删除网站cookies的解决方案爱编程的喵喵 Windows实用技巧 chrome cookie cookies
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Chrome浏览器删除网站cooki
机器学习-期末复习题泡椒鸡jo 期末复习机器学习 python
给人脸打上标签再让模型进行学习训练的方法，属于()强化学习B.半监督学习C.监督学习D.无监督学习在机器学习中，用计算机处理一副图像，维度是：上万维B.二维C.三维D.一维‎以下关于降维的说法不正确的是？A.降维是将训练样本从高维空间转换到低维空间B.降维不会对数据产生损伤C.通过降维可以更有效地发掘有意义的数据结构D.降维将有助于实现数据可视化‍将原始数据进行集成、变换、维度规约、数值规约是在以
【机器学习】自定义数据集使用paddlepaddle框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测加德霍克机器学习 paddlepaddle 逻辑回归 python 作业
一、使用paddlepaddle框架实现逻辑回归1.数据部分：首先自定义了一个简单的数据集，特征X是100个随机样本，每个样本一个特征，目标值y基于线性关系并添加了噪声。将numpy数转换为Paddlepaddle张量，方便后续在模型中使用。2.模型定义部分：方案1：使用nn.Sequential组网代码解释①数据生成与转换：生成自定义的特征矩阵X和目标值向量y，并添加高斯噪声模拟真实数据。使用p
01.双Android容器解决方案高桐@BILL 容器 Android
目录写在前面一，容器1.1容器的原理1.1.1Namespace1.1.2Cgroups（ControlGroups）1.1.3联合文件系统（UnionFileSystem）1.2容器的应用1.2.1微服务架构1.2.2持续集成和持续部署（CI/CD）1.2.3多租户环境1.2.4混合云和多云环境1.2.5大数据和机器学习1.2.6android应用场景1.3容器方案选型1.3.1Docker1.
深度学习之核函数 fpcc AI及算法 ai
深度学习之核函数在机器学习中，常看到多项式核函数、高斯核函数，那什么叫核函数（KernelFunction，或者KernelTrick）呢？它有什么用呢。支持向量机通过某非线性变换φ(x)，将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算，而在低维输入空间又存在某个函数K(x,x′)，它恰好等于在高维空间中这个内积，即K(x,x′)=。那么支持向量机就不用
TDengine 做为 FLINK 数据源技术参考手册 TDengine （老段） tdengine flink 大数据涛思数据时序数据库数据库
ApacheFlink是一款由Apache软件基金会支持的开源分布式流批一体化处理框架，可用于流处理、批处理、复杂事件处理、实时数据仓库构建及为机器学习提供实时数据支持等诸多大数据处理场景。与此同时，Flink拥有丰富的连接器与各类工具，可对接众多不同类型的数据源实现数据的读取与写入。在数据处理的过程中，Flink还提供了一系列可靠的容错机制，有力保障任务即便遭遇意外状况，依然能稳定、持续运行。借
我的创作纪念日蓝皮怪程序人生生活
机缘接触和鲸社区，并且通过和鲸社区写了许多简单的项目，然后考虑可以在更多的平台介绍自己，于是在CSDN进行创作。在这个数据分析领域接触了许多新朋友。被部分读者认可，为我提供了源源不断的动力。收获全网获得了2000+粉丝。在机器学习领域、统计方法上学到了许多东西。认识了来自五湖四海的朋友，有10年数分的大佬，还有许多在校学生。日常在准备考研、工作的情况下，争取保证周更。先把工作弄完，抽空学习考研的内
聊聊AI中的“蒸馏”技术自由鬼行业发展 IT应用探讨产品分析对比人工智能深度学习机器学习
一、什么是“蒸馏”技术“蒸馏”技术实际上是指知识蒸馏（KnowledgeDistillation），这是一种用于压缩和优化大模型的机器学习方法。其核心思想类似于传统蒸馏：大模型（教师模型）包含丰富的知识，而小模型（学生模型）通过学习大模型的输出，从而在保持高性能的同时降低计算成本。1.知识蒸馏的过程教师模型（TeacherModel）训练先训练一个大规模基础模型，这个模型能力很强，但计算开销大。生
WSL开发环境配置（linux + python + nodejs + docker） Lilixxs 环境搭建基础设施 linux 运维服务器
配置要求及目标总体目标：完整的Linux开发环境可开发基于node.js的前端程序可开发基于python的后端程序（仅日常程序，不包含机器学习程序）可运行docker容器，用于快速搭建测试环境Linux环境要求支持centos发行版类似的操作方式和指令（如使用rpm、dnf进行软件包管理）登录用户具有root权限（执行高权限命令，输入sudo即可执行）可从国内源更新软件基本优化：内核指令优化、禁用
在亚马逊云科技上通过LangChain ReAct Agent开发金融多模态数据AI分析中台佛州小李哥 AWS技术科技 langchain 人工智能云计算亚马逊云科技 aws 数据分析
项目简介：小李哥将继续每天介绍一个基于亚马逊云科技AWS云计算平台的全球前沿AI技术解决方案，帮助大家快速了解国际上最热门的云计算平台亚马逊云科技AWSAI最佳实践，并应用到自己的日常工作里。本次介绍的是如何在亚马逊云科技机器学习托管服务AmazonSageMaker上搭建一个多模态LangChainAgent，通过ReAct逻辑让Agent通过AmazonBedrockAI模型托管服务上的大模型
【Python TensorFlow】入门到精通极客代码玩转Python python tensorflow 开发语言人工智能深度学习
TensorFlow是一个开源的机器学习框架，由Google开发，广泛应用于机器学习和深度学习领域。本篇将详细介绍TensorFlow的基础知识，并通过一系列示例来帮助读者从入门到精通TensorFlow的使用。1.TensorFlow简介1.1什么是TensorFlow？TensorFlow是一个开源的软件库，主要用于数值计算，特别是在机器学习和深度学习领域。它提供了一个灵活的架构来定义复杂的数
Python 机器学习基础之【常用机器学习库】 NumPy 数值计算库仙魁XAN Python 机器学习基础+实战案例 python 机器学习 numpy 数值计算
Python机器学习基础之【常用机器学习库】NumPy数值计算库目录Python机器学习基础之【常用机器学习库】NumPy数值计算库一、简单介绍二、Numpy基础1、安装NumPy2、导入NumPy3、创建数组4、数组操作5、常用函数6、矩阵运算7、广播机制8、随机数三、在机器学习中使用到Numpy的简单示例1、数据预处理1.1数据归一化1.2数据标准化2、特征工程1.1多项式特征3、简单线性回归
通过命令行工作流提升工作效率的实战教程（持续更新） herosunly 大模型工作流实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了通过命令行工作流提升工作效率的实战教程，希望对使用大语言模型的同学们有所
深度学习（DL/ML）学习路径 jackl的科研日常深度学习学习人工智能
最近几年，尤其是自从2016年AlphaGo打败李世石事件后，人工智能技术受到了各行业极大关注。其中以机器学习技术中深度学习最受瞩目。主要原因是这些技术在科研领域和工业界的应用效果非常好，大幅提升了算法效率、降低了成本。因而市场对相关技术有了如此大的需求。我在思考传统行业与这些新兴技术结合并转型的过程中，亦系统的回顾了深度学习及其相关技术。本文正是我在学习过程中所作的总结。我将按照我所理解的学习路
细说机器学习算法之ROC曲线用于模型评估 Melancholy 啊机器学习算法人工智能数据挖掘 python
系列文章目录第一章：Pyhton机器学习算法之KNN第二章：Pyhton机器学习算法之K—Means第三章：Pyhton机器学习算法之随机森林第四章：Pyhton机器学习算法之线性回归第五章：Pyhton机器学习算法之有监督学习与无监督学习第六章：Pyhton机器学习算法之朴素贝叶斯第七章：Pyhton机器学习算法之XGBoost第八章：Pyhton机器学习算法之GBDT第九章：Pyhton机器学
深入剖析 Scikit-learn 中的 LogisticRegression：参数调优指南夜色呦 scikit-learn 机器学习人工智能
LogisticRegression是一种广泛应用于二分类问题的机器学习算法。在scikit-learn库中，LogisticRegression类提供了一个高效且易于使用的实现。本文将深入探讨LogisticRegression的各种参数，并展示如何通过调整这些参数来优化模型的性能。1.LogisticRegression简介LogisticRegression通过使用逻辑函数将线性回归的输出映
Python从0到100（八十六）：神经网络-ShuffleNet通道混合轻量级网络的深入介绍是Dream呀 Python python 神经网络网络
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
机器学习笔记 - 将音频转换为图像进行分类的机器学习模型坐望云起深度学习从入门到精通机器学习深度学习语音识别光谱图 Whisper
一、简述语音识别技术是将音频信号转化为文本的过程。其基本原理如下：1.音频录制：首先需要对口语发音进行录制，并将其转化为数字形式的音频文件。2.预处理：对音频信号进行预处理，包括去除杂音干扰、增加音频的信噪比以及消除不必要的语音、噪声等。3.特征提取：特征提取是语音信号处理的一个重要部分，通过对音频数据进行分析，提取其中特有的频率、音调、幅度等数学特征，并转化成数字特征。4.模型训练：在特征提取完
2025年美国大学生数学建模竞赛C题思路(对每题分析) FFMXjy 数学建模学习-传统算法机器学习深度学习系列课程数学建模美赛美国大学生数学建模
2025年美国大学生数学建模竞赛C题思路开发奖牌数预测模型1.目标：建立一个模型来预测每个国家的奖牌数，特别是金牌和总奖牌数。步骤：2.使用提供的summerOly_athletes.csv和summerOly_medal_counts.csv数据。3.清理数据，处理缺失值和异常值。4.提取有用的特征，如国家、年份、项目、奖牌类型等。5.选择适当的机器学习算法，如线性回归、随机森林或梯度提升树。6
【TVM教程】为 Mobile GPU 自动调优卷积网络 HyperAI超神经 TVM 人工智能机器学习 TVM 编程编译器 GPU CPU
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：LianminZheng,EddieYan针对特定设备的自动调优对于获得最佳性能至关重要。本文介绍如何调优整个卷积网络。TVM中MobileGPU的算子实现是以template形式编写的。该template有许多可调参数（tile因子
Python入门教程丨3.2 再见Excel！用Python这5个模块，我把3天工作压缩到3分钟凌小添 Python教程 python excel 开发语言
⭐还在用Excel手动算均值方差？还在为海量数据统计熬夜加班？用Python这5把「数据手术刀」写一次代码，就能直接复用，专业报告自动生成！本期内容：模块核心功能应用场景math数学计算几何、物理模拟random生成随机数据游戏、抽样测试statistics统计分析回归分析、市场调研numpy数组与矩阵运算图像处理、机器学习pandas表格数据处理与分析金融分析、数据清洗一、基础数学库1.1mat
强化学习在自动驾驶中的实现与挑战 Echo_Wish 人工智能前沿技术自动驾驶人工智能机器学习
强化学习在自动驾驶中的实现与挑战自动驾驶技术作为当今人工智能领域的前沿之一，正通过各种方式改变我们的出行方式。而强化学习（ReinforcementLearning,RL），作为机器学习的一大分支，在自动驾驶的实现中扮演了至关重要的角色。它通过模仿人类驾驶员的决策过程，为车辆提供动态、灵活的导航与控制能力。然而，强化学习在实际应用中并非一帆风顺，还面临着诸多技术和现实挑战。本文将从原理、实现与挑战
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。