Sun_Sherry

特征工程:特征降维

特征降维指的是采用某种映射方法，将高维向量空间的数据点映射到低维的空间中。在原始的高维空间中，数据可能包含冗余信息及噪声信息，其在实际应用中会对模型识别造成误差，降低模型准确率；而通过特征降维可以减少冗余信息造成的误差，从而提高模型准确率。
特征降维的方法主要分为两类：特征选择和特征提取。

1 特征选择

特征选择方法比较简单粗暴，直接将不重要的特征删除。特征选择方法主要包括三大类：过滤法(Filter)、包装法(Wrapper)和嵌入法(Embedded)。

过滤法：根据发散性或者相关性对各个特征进行评分，通过设定阈值或者待选择阈值的个数来选择特征。
包装法：根据目标函数(通常是预测效果评分)每次选择若干特征，或者排除若干特征。
嵌入法：使用机器学习的某些算法和模型进行训练，得到各个权重的权值系数，并根据系数从大到小选择特征。

1.1 过滤法

过滤法是依据特征向量和目标变量之间的关系来进行特征选择的。该类方法的主要特点有以下几方面：(1)不借助学习算法; (2)依赖于真实世界的数据集特征; (3)一般方式是为每一个特征进行“打分”评估(即给每一维权重赋予权重，权重即代表了该特征的重要性，然后按重要性进行排序)。其常用方法主要有：卡方检验、相关系数和互信息等。
使用卡方检验进行特征选择的内容在前序博文中已经介绍过，具体可以参考：https://blog.csdn.net/yeshang_lady/article/details/112796313，这里不再赘述。

1.1.1 相关系数法

使用相关系数法，先要计算各个特征对目标值的相关系数及p值，然后根据阈值筛选特征。

import numpy as np
from sklearn.datasets import load_iris
from array import array
from sklearn.feature_selection import SelectKBest
from scipy.stats import pearsonr

X,y=load_iris(return_X_y=True)
X_new=SelectKBest(lambda X,y:np.array(list(map(lambda x:pearsonr(x,y),X.T))).T[0],
                  k=2).fit_transform(X,y)

常用的相关系数类型及其适用范围如下表：

类型	适用范围
pearson	线性数据
spearman	线性数据或简单单调的非线性数据
kendall	线性数据或简单单调的非线性数据

1.1.2 互信息

互信息(与信息增益概念相同)可以衡量随机变量之间的依赖程度，该值越大，变量之间的依赖程度越高。Sklearn包中提供了依据互信息进行特征选择的两个方法：mutual_info_classif(针对分类任务)和mutual_info_regression(针对回归任务)。这两个函数的相同，以multi_info_classif为例，其中几个参数的说明如下表：

参数	说明
X	特征数据
y	目标变量
discrete_features	用来说明那些变量是离散的。当取值为True时，则将全部的变量当作离散型变量。当取值为array型变量时，可以在array中指定离散变量的索引。当取值为auto时，如果X的取值稀疏时当作离散变量，否则当作离散变量。
n_neighbors	连续型变量计算互信息时的邻居树。该值越大，则互信息估计的方差越小。

from sklearn.feature_selection import mutual_info_classif
from sklearn.feature_selection import mutual_info_regression
from sklearn.datasets import load_iris
from sklearn.datasets import load_boston
from sklearn.feature_selection import SelectKBest

#mutual_info_classif和mutual_info_regression的结果不能直接放到SelectKBest中，
#需要做一些变化
##mutual_info_classif:分类任务
X,y=load_iris().data,load_iris().target
mi_c=mutual_info_classif(X,y,discrete_features=False)
X_new=SelectKBest(lambda X,y:mutual_info_classif(X,y,discrete_features=False),
                  k=2).fit_transform(X,y)

##mutual_info_regression：回归任务
X,y=load_boston().data,load_boston().target
mi_r=mutual_info_regression(X,y,discrete_features=False)
X_new=SelectKBest(lambda X,y:mutual_info_regression(X,y,discrete_features=False),
                  k=8).fit_transform(X,y)

1.1.3 方差选择法

使用方差选择法，先要计算各个特征的方差，然后根据阈值选择方差大于阈值的特征(方差选择法认为特征取值越集中的特征，其包含的信息越少)。

from sklearn.feature_selection import VarianceThreshold
from sklearn.datasets import load_boston

X,y=load_boston().data,load_boston().target
X_new=VarianceThreshold(threshold=3).fit_transform(X,y)

1.1.4 F检验

对单变量进行方差分析(https://blog.csdn.net/yeshang_lady/article/details/118054025)中的F检验，然后根据F检验统计值的大小进行特征筛选。Sklearn包中提供了专门的函数:f_classif(分类问题)和f_regression(回归问题)。

from sklearn.datasets import load_iris,load_boston
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif,f_regression
import pandas as pd
import numpy as np
#1.分类问题
X,y=load_iris(return_X_y=True)
f_val=f_classif(X,y)

X_new=SelectKBest(f_classif,k=2).fit_transform(X,y)
"""
#自写代码实现f_classif中F值的计算
$把类别当作因素A的不同水平
f_val_test=[]
for i in range(X.shape[1]):
    tmp=pd.DataFrame(np.c_[X[:,i],y],columns=['X','y'])
    tmp_mean=tmp['X'].mean()
    SSA_tmp=tmp.groupby('y')['X'].agg(['mean','count'])
    SSA=sum(((SSA_tmp['mean']-tmp_mean)**2)*SSA_tmp['count'])
    SSA_degree=tmp['y'].nunique()-1
    tmp['x_mean']=tmp.groupby('y').transform('mean')
    SSE=((tmp['X']-tmp['x_mean'])**2).sum()
    SSE_degree=tmp.shape[0]-tmp['y'].nunique()
    f_stat=(SSA/SSA_degree)/(SSE/SSE_degree)
    f_val_test.append(f_stat)
"""    

#2.回归问题
# 通过计算特征与目标变量之间的相关性，将相关性转为F值
X,y=load_boston(return_X_y=True)
f_val=f_regression(X,y)

X_new=SelectKBest(f_regression,k=5).fit_transform(X,y)

1.1.5 最大信息系数

最大信息系数(Maximal Information Coefficient, MIC)用于衡量两个变量X和Y之间的关联程度(线性的或非线形的)。

from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from minepy import MINE

def mic(x,y):
    m=MINE()
    m.compute_score(x,y)
    return m.mic()

X,y=load_iris(return_X_y=True)
x_new=SelectKBest(lambda X,y:np.array(list(map(lambda x:mic(x,y),X.T))),
                  k=2).fit_transform(X,y)

阿里的书上最大信息系数部分讲的不清不楚，如果想要对最大信息系数有更多了解可以看参考资料4

1.1.6 其他

在前面的案例中都使用了SelectKBest类来返回指定个数的特征。除了这个函数之外，sklearn中还提供了其他作用class来实现类似功能。具体如下表：

类	作用
SelectKBest	选择前 $K$ 个分数最高的特征
SelectFpr	对单变量特征进行假阳性率检验,选择pvalue高于指定阈值的特征
SelectFdr	对单变量特征进行错误发现率检验，选择pvalue高于指定阈值的特征
SelectFwe	对单变量特征进行多重比较错误检验，选择pvalue高于指定阈值的特征
SelectPercentile	保留分数最高的前百分位的特征
GenericUnivariateSelect	通过参数mode来选择使用以上5个函数中的任意函数进行单变量特征选择

这个类的用法也都相似。这些函数在使用时参数score_fun需要注意以下两点：

score_fun只能接收可调用的函数变量
score_fun指定的函数变量返回值为一个单独的array(代表score)变量或者为一对array(分别代表score和pvalue)。SelectFpr、SelectFdr和SelectFwe中的score_fun返回的类型必须为一对array。

1.2 包装法

包装法的思路是将最终要用的学习器的性能作为特征子集的评价准则。此类特征选择方法中常用的为递归消除特征法。

1.2.1递归消除特征法(RFE)

递归消除特征法使用一个基模型来进行多轮训练，每轮训练后，消除若干权值系数(feature_importances_)低的特征，再基于新的特征集进行下一轮训练。Sklearn中除了提供了RFE之外，还提供了RFECV(比RFE多了交叉验证)。

类REF中的几个参数及其作用如下：

estimator: 学习器。要求学习器必须带有fit()方法，并且必须返回属性重要性等信息。
n_features_to_select: 最终保留的参数个数。
step:每一次迭代移除的特征数目或比例。
importance_getter:当取值为‘auto’时从学习器中获获取特征重要性信息，否则从自定义函数结果中获取参数重要性信息。

from sklearn.feature_selection import RFE
from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression

X,y=load_boston().data,load_boston().target
X_new=RFE(estimator=LinearRegression(),
          n_features_to_select=8,step=3).fit_transform(X, y) #x_new有8个特征

1.2.2 SequentialFeatureSelector方法

SequentialFeatureSelector是Sklearn.feature_selection中提供的一种特征选择方法。该方法使用贪心的策略不断地向特征子集中添加特征(前向策略)或从特征子集中移除特征(后向策略)，而移入或移出的特征是根据学习器的交叉验证得分筛选出来的。
在该类中，除了可以使用scoring参数自定义评价函数，还可以直接是使用sklearn中已经提供好的评价标准，具体可以参考网页:https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter

from sklearn.datasets import load_boston
from sklearn.feature_selection import SequentialFeatureSelector
from sklearn.linear_model import LinearRegression

X,y=load_boston(return_X_y=True)

sfs=SequentialFeatureSelector(LinearRegression(),n_features_to_select=6,
                                direction='backward',scoring='r2')
X_new=sfs.fit_transform(X,y)

1.3 嵌入法

嵌入式特征选择法使用机器学习模型进行特征选择。特征选择过程与学习器相关，特征选择过程与学习器训练过程融合，在学习器训练过程中自动完成特征选择。常见的有基于惩罚项的特征选择和基于树模型的特征选择。Sklearn中提供了专门的类SelectFromModel:

参数的作用如下：

estimator: 基学习器。
threshold: 阈值。只有当特征的重要性大于或等于该阈值时，特征才会保留下来。

from sklearn.feature_selection import SelectFromModel
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import GradientBoostingClassifier

X,y=load_iris(return_X_y=True)

#基于惩罚项的特征选择方法
X_new=SelectFromModel(LogisticRegression(penalty='l2',C=0.1,solver='lbfgs',
                      multi_class='auto'),max_features=2).fit_transform(X,y)

#基于树模型的特征选择方法
X_new_2=SelectFromModel(GradientBoostingClassifier(),
                      max_features=2).fit_transform(X,y)

2 特征提取

特征提取主要是通过映射变换方法，将高维特征向量空间映射到低维特征向量空间中去，通过这种方法产生的的特征都不在原始数据中。常用的特征提取方法有主成分分析法和线性判别分析法。

2.1 主成分分析法

主成分分析法(Principal Component Analysis，PCA)是最常用的线性降维方法，主要原理是通过某种线性投影，将高维的数据映射到低维的空间中表示，并期望在所投影的维度上的数据方差最大，以此达到使用较少的数据维度来保留较多的原始数据点特性的效果。通过PCA还可以将一组可能存在相关性的变量转换为一组线性不相关的变量(转换后的这组变量叫主成分)。

from sklearn.datasets import load_iris
from sklearn.decomposition import PCA

X,y=load_iris(return_X_y=True)
X_new=PCA(n_components=2).fit_transform(X)

2.2 线性判别分析法

线性判别分析(Linear Discriminant Analysis, LDA)的思想非常简单：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近，异样样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的直线上，再根据投影点的位置来确定新样本的类别。所以线性判别分析本质上是一种有监督的线性降维方法。LDA的主要优缺点在于：

优点：在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识。
优点：LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优。
缺点：LDA不适合对非高斯分布样本进行降维，PCA也有这个问题。
缺点：LDA降维最多降到类别数k-1的维数，如果我们降维的维度大于k-1，则不能使用LDA。
缺点：LDA可能过度拟合数据。
缺点：LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好。

from sklearn.datasets import load_iris
from sklearn.datasets import load_boston
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
from sklearn.utils.multiclass import unique_labels

#1.分类任务
X,y=load_iris(return_X_y=True)
X_new=LDA(n_components=2).fit_transform(X, y)

#2.回归任务
#理论上LDA无法处理回归任务，但是发现如果将目标变量的浮点数改成整数可以绕过这个限制。
X,y=load_boston(return_X_y=True)
y=list(map(lambda x:int(x),y))
X_new=LDA(n_components=2).fit_transform(X, y)

参考资料

《阿里云天池大赛赛题解析》
https://www.pianshen.com/article/68661439504/
https://www.cnblogs.com/wanglei5205/p/8977986.html
https://blog.csdn.net/qq_27586341/article/details/90603140
https://www.cnblogs.com/pinard/p/6244265.html

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><