house.zhang

AI 机器学习实践总结

机器学习基础

什么是机器学习

机器学习是一种从数据生成规则、发现模型，来帮助我们预测、判断、分组和解决问题的技术。(机器学习是一种从数据中生产函数，而不是程序员直接编写函数的技术)

说起函数就涉及到自变量和因变量，在机器学习中，把自变量叫做特征（feature）多个自变量分别可以定义为X1，X2..Xn，因变量叫做标签（label），可定义为Y，而一批特征和标签的集合，就是机器学习的数据集。

机器学习的学习过程就是在已知的数据集的基础上，通过反复的计算，选择最准确的函数去描述数据集中自变量X1，X2....Xn 和因变量Y之间的因果关系。这个过程就称之为机器学习的训练也叫拟合。

这里还需要明确几个概念，训练集、验证集、测试集

训练集，最开始用来训练的数据集被称为训练集。

验证集，验证模型是否能够被推广、泛化，评估模型是否过拟合

测试集，用来评估模最终模型的泛化能力，相当于举一反三的能力

机器学习分类

主要分类是根据机器学习在训练过程中是否有标签。

监督学习：训练的数据集全部都有标签，根据标签的特点监督学习可以分为两类问题：回归和分类，回归问题的标签是连续的数值，比如预测房价、股市等，分类问题的标签是离散的数值，比如人脸识别、判断是否正确等，判断两款运营策略哪种更有效。

分类算法：逻辑回归、决策树分类、SVM分类、贝叶斯分类、随机森林、XGBoost、KNN...

回归算法：线性回归、决策树回归、SVN回归、贝叶斯回归...

无监督学习：训练数据集没有标签，多应用在聚类、降维等有限的场景中，比如说为用户做分组画像，另外通常也会作为数据预处理的一个子步骤中。

降维算法、聚类算法...

半监督学习：有的数据有标签、有的数据没有标签。往往是因为获取数据标签的难度很高，半监督学习与监督学习是很相似的，主要在与多了伪标签生成环节，也就是给无标签的数据人工贴标签。

半监督分类、半监督回归、半监督聚类、半监督降维

强化学习：针对于一些既不能用监督学习也不能用半监督和无监督学习来解决，这时候强化学习就上场了，它针对是智能体（可以理解成一种机器学习模型）如何基于环境而做出行动反应，以获得最大化的累积奖励。其与监督学习的差异在于监督学习是从数据中进行学习，而强化学习是从环境给他的奖惩中学习。

Q-learning,SARSA,深度强化网络、蒙特卡洛学习...

如何理解深度学习

常说的深度学习是一种使用深层神经网络的模型，可以应用于上述四类机器学习中，深度学习擅长处理非结构化输入，在视觉处理和自然语言处理方面都很厉害。

深度学习，能对非结构的数据集进行自动的复杂特征提取，完全不需要人工干预。

机器学习落地思路

做机器学习项目，首先要先明确要解决的问题，其次，再针对问题选择一个算法，然后用对数据进行训练，找到一族函数中最合适的那一个形成最后的模型。

机器学习入门环境准备

背景：

大多数互联网企业都提供有类似Notebook类的产品，采用交互式的方式进行数据分析、数据建模及数据可视化。主要实现大多都是基于jupyter 、Zeppelin进行定制化开发，重点会打通大数据计算、存储及底层资源管理，支持常见的机器学习和深度学习计算框架，算法分析及建模中最常见的是采用jupyter notebook，能够在浏览器中，通过编写python脚本运行脚本，在脚本块下方展示运行结果。

jupyter notebook 可以交互式的开发，再加上拥有丰富的的文本格式、可以图文并茂的展示结果，迅速的展现数据分析师的想法。

安装Jupyter Notebook

Anaconda 安装管理Juypter Notebook

Anaconda是一个免费的开发环境，能帮你管理众多的Python库，支持Jupyter Notebook、Spyder等工具，还有许多科学包，通过可以从官网上直接下载安装Anaconda，启动Anaconda后安装Juypter就比较简单，直接Anaconda界面上启动就好了，默认Anaconda会安装好Juypter和相关科学库。

使用pip命令安装

在命令行中通过python3安装，安装之前建议升级下pip，，解决老版本的pip在安装Jupyter Notebook过程中或面临依赖项无法同步安装的问题，这种情况下如果需要其他科学包及其依赖项就需要手动去安装了。

pip3 install --upgrade pip ## 更新
pip3 install jupyter  ## 安装
jupyter notebook --port   ## 启动可以指定端口号，不指定默认8888 当
# 还可以指定其他参数具体可以 jupyter notebook -h

使用Docker安装

docker安装启动jupyter就比较简单了

比如：docker run -it -d --name=test. tensorflow/tensorflow:2.2.0-jupyter -p 8888:8082

实践Juypter notebook

在Juypter中使用Plotly 绘图

简介

Plotly 是一个非常强大的开源数据可视化框架，它通过构建基于 HTML 的交互式图表来显示信息，可创建各种形式的精美图表。本文所说的 Plotly 指的是 Plotly.js 的 Python 封装，plotly本身是个生态非常复杂的绘图工具，它对很多编程语言提供接口，交互式和美观易用应该是 Plotly 最大的优势

绘制漏斗图

在一个电商购物场景下，用户购买商品会涉及到多个流程，从下载APP、注册APP、搜索商品，购买商品，每个流程都会潜在的流失率，通过漏斗图可以用来呈现用户流失情况，我们收集到每个阶段数据后就可以利用Plotly进行漏斗图的绘制了。

绘制流程

安装Plotly包

pip install plotly

详细代码

这里绘制个稍微复杂的代码，分别绘制男女生适用产品的组合型漏斗


import plotly.express as px # 导入需要的模块，命名为px
import pandas as pd

stages = ["访问数", "下载数", "注册数", "搜索数", "付款数"]
#漏斗的数据
data = pd.DataFrame(dict( #准备漏斗数据
    number=[59, 32, 18, 9, 2],
    stage=stages))
data['性别']='男'
print(data)

data2 = pd.DataFrame(dict( #准备漏斗数据
    number=[40, 30, 22, 10, 5],
    stage=stages))

data2['性别']='女'

df = pd.concat([data,data2],axis=0) # 拼接漏斗数据，pandas函数拼接支持DataFrame类型
print(df)
fig = px.funnel(df,x='number',y='stage',color='性别') #把数据传入漏斗
fig.show()  # 显示漏斗数据

结果显示

结果分析

通过这个漏洞图发现通过整个APP购买流程，发现每个阶段都有用户流程，还有就是女性用户购买的比例明显大点，这些现象可以启发产品运营同学可以聚焦某个环节去减少某个流程中的流失率

机器学习工程实践的五个步骤

定义问题

需要我们剖析业务场景，设定清晰的目标，明确当前问题属于哪一种机器学习类型。

场景：比如一个场景，微信公众号推广文案的运营效率分析，收集了大量的软文数据，包括点赞数、转发数和浏览量等。因为公众号阅读超过十万之后，就不能显示它的具体阅读量了，所以针对这个问题，目标是建立一个机器学习模型，根据点赞数和转发数等指标，估计一篇文章能实现多大的浏览量。

要估计浏览量，数据集包含点赞数、转发数、热度指数、文章评级，这几个字段是特征，浏览量就是标签，跟进机器学习分类，这里数据带有标签，因此这是一个监督学习，再加上标签是连续的数值，因此它是一个回归问题。

收集数据和预处理

为机器学习模型提供好燃料，数据好，模型才能跑得更带劲。。

其中收集数据和预处理完整的步骤如下：

收集数据

收集数据方法有多种，现实中要在运营环节中做很多数据埋点、获取用户消费等行为信息和兴趣偏好信息，网上爬取数据等等。可参考极客时间-《数据分析实战45讲》中的方法。

数据可视化

作用是通过可视化观察下数据，看一看特征和标签之间可能存在的关系、看看数据里有没有脏数据和离群点等，为选择具体的机器学习模型找找感觉。

#加载数据
import pandas as pd # 导入pandas数据处理工具包
df_ads= pd.read_csv('test.csv') #读入数据
df_ads.head(10) #显示前几行数据

python数据可视化必备工具包：一个是python画图工具库Matplotlib，另外一个是统计学数据可视化工具Seaborn。

#散点图来观察数据之间分布关系
import matplotlib.pyplot as plt
import seaborn as sns
plt.plot(df_ads['点赞数'],df_ads['浏览量'],'r.',label='Training data')
plt.xlabel('goods')
plt.ylabel('views')
plt.legend()
plt.show()

如下图所示：

基本可以看出呈现线性相关性。

接下来看下箱线图：


data = pd.concat([df_ads['浏览量'], df_ads['热度指数']], axis=1) # 浏览量和热度指数
fig = sns.boxplot(x='热度指数', y="浏览量", data=data) # 用seaborn的箱线图画图
fig.axis(ymin=0, ymax=800000); #设定y轴坐标

数据清洗

洗菜洗得越干净，模型效果越好，主要数据清洗分为四种情况：

第一种是处理缺失的数据，如果备份系统里面有缺了的数据，尽量去补录。如果没有可以剔除残缺的数据，也可以用其他数据记录的平均值、随机值或者0来补值，这个补值的过程叫数据修复。
第二种是处理重复的数据，如果完全重复的数据删掉就行，如果同一个主键出现两行不同的数据，就需要看看有没有其他辅助的信息可以帮助我们判断（如时间戳），要是无法判断的话，只能随机删除或者全部保留。
第三种是处理错误数据：比如商品的销售量、销售金额出现负值，这时候需要删除或者转化为有意义的值，再比如表示百分比或者概率的字段，如果值大于1，也属于逻辑错误数据
第四种处理不可用的数据，这指的是整理数据的格式，比如有些商品是以人民币为单位，有些以美元为单位，就需要线统一，另外就是把是和否转换为1、0 值再输入机器学习模型。

如何查看数据集中的数据需要清洗了？

可以通过DataFrame的isna().sum()函数来统计所有的NaN的个数。NaN意思是Not A Number，在python中，它代表无法表示、也无法处理的值也就是典型的脏数据。

   df_ads.isna().sum() # Nan出现的个数。

可以使用dropna()这个API把出现了NaN的数据行删掉

df_ads = df_ads.dropna()#把出现了NaN的数据行删掉

还有其他数据清洗的方法，需要针对具体的项目和数据集进行处理。

特征工程

特征工程是一个专门的机器学习子领域，它是数据处理过程中最有创造力的环节，特征工程做的好不好，非常影响机器学习模型的效率。

什么是特征工程了？比如说评估身体健康状况的一个指标BMI，它等于体重除以身高的平方，这就是一个特征工程。经过了这个过程，BIM这一个指数就替代了原来的两个特征-体重和身高，而且完全能客观地描绘我们身材情况。

这样的好处是什么？通过BMI这个特征，降低了特征数据集的维度。数据集中每多一个特征，模型拟合的特征空间就更大、运算量也就更大。所以，摒弃掉冗余的特征、降低特征的维度，能使机器学习模型训练得更快。

构建特征集和标签集

特征就是所收集的各个数据点，是要输入机器学习模型的变量，而标签是要预测、判断或者分类的内容。对于所有监督学习，我们需要像模型中输入“特征集”和“标签集”这两组数据。

通常从一个包含了特征和标签的数据，构建特征数据集和一个标签数据集合，只需要从原数数据删除不需要的数据就行了。

比如：

X=df_ads.drop['浏览量'],axis=1)：
Y=df_ads.浏览量

无监督学习不需要这样的步骤

拆分训练集、验证集和测试集合

从原数据集从列的维度纵向拆分成了特征集和标签集后，还需要进一步从行的维度横向拆分。主要原因是机器学习并不是通过训练数据集找出一个模型就结束了，我们要用验证数据集看看这个模型好不好，然后用测试数据集看看模型在新数据上能不能用。

拆分依据数据量来看，比如20%或30% ，具体的拆分，通常会用机器学习工具包scikit-learn 里的数据拆分工具train_test_split来完成

from sklearn.model_selection import train_test_split 
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0)

收集数据和预处理总结：

选择算法和训练模型

选择依据

主要是根据特征和标签之间的关系，选出一个合适的算法，并找出与之对应的合适算法包，然后通过调用这个算法包来建立模型，通过上一个步骤，这个数据集里的某些特征和标签之间存在着近似线性的关系。而且这个数据集的标签是连续变量，因此适合用回归分析来寻找从特征到标签的预测函数。

所谓的回归分析（regression analysis）就是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析，说白了就是当自变量变化的时候，研究一下因变量是怎么跟着变化的，它可以用来预测客流量、降雨量、销售量等。

回归分析的算法有多种，如线性回归、多项式回归、贝叶斯回归等等。具体根据特征和标签之间的关系来决定。初始时特征和标签可能存在线性关系可以用最简单、最基础的机器学习算法线性回归来建模，线性回归是给每一个特征变量找参数的过程。

比如数学中一元线性回归公式：y = a*x +b 对于机器学习来说，我们把斜率a叫做权重（weight） ,用英文字母w代表，把截距b叫做偏置(bias) ，用英文字母b代表，机器学习中一元线性回归公式表示为：

Y = w*x +b

机器学习算法包

常用的算法工具包是scikit-learn ，简称sklearn 它是使用最广泛的开源python机器学习库，sklearn提供了大量用于数据挖掘的机器学习工具，覆盖数据预处理、可视化、交叉验证和多种机器学习算法。

建立模型

调用LinearRegression建立模型非常简单，如下

from sklearn.liner_model import LinerRegression # 导入线性回归算法模型
linereg_model = LinearRegression() #    使用线性回归创建模型

模型参数有两种，内部参数和外部参数。内部参数是属于算法本身的一部分，不用我们人工来确定，比如线性回归中的权重w和截距b，都是线性回归的内部参数；而外部参数也叫做超参数，他们的值是在创建模型时，由我们自己设定的。LinearRegression模型外部参数主要包含两个布尔值：

fit_intercept ，默认值为True，代表是否计算模型的截距

normalize，默认值为Flase代表是否对特征X在回归之前做规范化。

训练拟合模型

训练模型就是用训练集中的特征变量和已知标签，根据样本大小的损失大小来逐渐拟合函数，确定最优的内部参数，最后完成模型。

linereg_model.fit(x_train,y_train) # 用训练集数据，训练机器，拟合函数，确定内部参数

主要得益于机器学习库的存在，直接通过fit完成模型训练，fit内部核心就是优化其内部参数减少损失，使函数对特征到标签的模拟越来越贴切，针对所有样本，找到一组平均损失较小的模型参数。这其中的关键就是：通过梯度下降，逐步优化模型的参数，使训练集误差值达到最小。

梯度下降：通过求导的方法，找到每一步的方向，确保总是往更小的损失方向前进。

评估并优化模型性能

在验证集和测试集进行模型效果评估的过程中，我们则是通过最小化误差来实现超参数（模型外部参数）的优化。机器学习包中（如scikit-learn)都会提供常用的工具和指标，对验证集和测试集进行评估，进而计算当前的误差。比如R方或者MSE均方误差指标，就可以用于评估回归分析模型的优劣。

预测方法：

通常就直接使用模型中的predict方法进行：

y_pred = linereg_model.predict(x_test) #预测测试集的Y值

比较测试数据集的原始特征数据、原始标签值和模型对标签的预测值组合一起显示、比较

df_ads_pred= X_test.copy() #测试集特征数据
df_ads_pred['浏览量真值'] = y_test
df_ads_pred['浏览量预测值'] = y_pred
df_ads_pred

查看模型长得什么样？通过LinearRegression的coef_和intercept_属性打印出各个特征的权重和模型的偏置来，它们就是模型的内部参数。

linereg_model.coef_
linereg_model.intercept_

模型的评估分数：常用于评估回归分析模型的指标有两种：R方分数和MSE指标，并且大多数机器学习工具包中都会提供相关的工具，以下是用R方分数来评估模型

  linears_model.score(x_test,y_test)

机器学习项目是一个循环迭代的过程，优秀的模型都是一次次迭代的产物模型评估需要反复评测，找到最优的超参数，确定最终模型。

模型在线服务

主流模型服务方法：

模型服务有多种部署部署模式，比如预存结果、基于模型 PMML 模型转换及上线、Tensorflow Serving 服务。其中前两种并不是端到端的训练和模型部署，PMML 的话对于复杂的深度学习模型服务来说，表达能力比较有限，还不足以支持复杂的深度学习模型，所以深度学习模型就需要借助 Tesorflow Serving 来完成了。

预存推荐结果

离线预测生成结果，存储在如 redis 之类的线上数据库中，在线上环境中直接取出预存数据返回给应用

利用 PMML 转换和部署模型

PMML（预测模型标记语言）：JPMML 作为序列化 xml 和解析 PMML 文件的 Library 库

TensorFlow Serving

Tesorflow 模型上线流程主要是，先离线把模型序列化存储到文件系统，Tensorflow Serving 把模型文件载入到模型服务器，还原模型推断过程，对外以 HTTP 接口或 gRPC 接口的方式提供模型服务

总结

本文首先介绍了机器学习，了解了机器学习是一种从数据生成规则、发现模型，来帮助我们预测、判断、分组和解决问题的技术，并对机器学习的分类以及深度学习做了总结，

其次，介绍了怎么利用juypter进行机器学习的环境准备，安装相关机器学习包进行可视化数据的处理、分析及展示。

接着，介绍了在实际工作中机器学习的整个流程，从数据收集和数据预处理，再到选择算法和确定模型，接着就是选择算法训练模型、再到模型评估及模型性能优化，以及最终模型训练完成之后的离线批量预测以及模型的线上服务整个流程。

整个机器学习流程大概就是如此，具体应用到业务当中，就需要从具体业务出发确定需要解决的业务问题，针对问题收集相关的数据，接着实验不同的算法，评估模型对业务带来的效果，每一个步骤的话都会涉及到不同的工具和服务，从大数据离线批处理、实时流处理、机器学习、深度学习训练框架如spark、flink、tensorflow、Pytorch都会涉及到。

本文参考从零开始学习机器学习，加入自己的理解和相关内容，充其量就是一个入门的总结，整个机器学习涉及到许多内容，不仅仅是算法而且还有大量AI数据工程、后端技术栈，要想精通需要在后端技术、AI算法方面多下功夫，同时需要结合业务背景，进行实战。

参考资料

https://zhuanlan.zhihu.com/p/74874291

逻辑回归(logistics regression)_激进的蜗牛-CSDN博客_逻辑回归

https://zhuanlan.zhihu.com/p/33794257

极客时间：从零开始学习机器学习专栏

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {