Elegant daddy

期末考试复习笔记（标红表示重要）

数据的类型

分类数据：按照现象的某种属性对其进行分类或分组而得到的数据。如，用1表示“男性”，0表示“女性”，但是1和0等只是数据的代码。

顺序数据：只能归于某一有序类别的非数字型数据。如表示受教育程度可以分为小学、初中、高中、大学及以上。

数值数据：包含了可以测量的，可以计数出来的数据。如表示一组青少年的身高体重。

截面数据：指在某一时点收集的不同对象的数据。横截面数据的突出特点就是离散性高。

时间序列数据：指对同一对象在不同时间连续观察所取得的数据。它着眼于研究对象在时间顺序上的变化，寻找空间（对象）历时发展的规律。

回归模型的统计检验与统计意义

参数检验

参数检验是在总体分布形式已知的情况下，对总体分布的参数如均值、方差等进行推断的方法

平均值检验：判断两个样本的均值是否相等

单样本T检验：判断单个样本数据的平均值与某个值的差异性

两独立样本的T检验：指两个样本之间彼此独立没有关联，两个独立样本各自接受相同的测量，主要目的是分析两个独立样本的均值是否有显著差异。自定义分组，莱文方差显著性<0.05,看不假定等方差，反之看假定等方差。

前提：独立性；正态性(样本量相差不大且样本量较大时仍可用T检验)；方差齐性(待比较两样本方差相同，样本量大致相等时略微偏离方差齐性对检验结果精度影响不大）

过程：正态性检验-方差齐性检验-均值之差检验

H0: 总体均值之间不存在显著差异

利用F检验判断两总体的方差是否相同，SPSS采用Levene F方法检验两总体方差是否相同，当方差齐性不满足时，会提供方差齐性校正后的T检验结果
根据第一步的结果，决定T统计量和自由度，对T检验的结论做出判断两总体方差未知且相同

配对样本的T检验（非独立两样本的T检验）：检验来自两配对总体的均值是否在统计上有显著差异。两组人数相同(数据组数相同），若不同考虑独立样本T检验引入分组变量。

配对设计(paired design)是将受试对象按某些重要特征相近的原则配成对子，每对中的两个个体随机地给予两种处理。

*
常见的配对设计*

同一个对象处理前后的变化
同一对象两个部位的数据
同一样本用两种方法测量的数据
配对的两个对象分别接受两种处理后的数据
前提
两个样本是配对的。即对象的年龄、性别、体重等非处理因素都相同或近似。两个样本的观察数目相同，观察值顺序不能随意
两个样本的总体服从正态分布，大样本情况下，T检验较为稳健

原理：

配对T检验时，首先求出每对观察值的差值，得到差值序列
然后对差值求均值
最后检验差值序列得到的均值，即平均差是否与零有显著差异，可以采用单样本T检验
若平均值和零有显著差异，则认为两总体均值间存在显著差异，反之不存在显著差异。

非参数检验

卡方检验：根据样本数据推断总体的分布与某个已知分布是否有显著差异 —吻合性检验，适用于具有明显分类特征的场景

二项分布检验：根据收集到的样本数据，推断总体分布是否服从某个指定的二项分布。其零假设是H0：样本来自的总体与所指定的某个二项分布不存在显著的差异。SPSS二项分布检验的数据是实际收集到的样本数据，而非频数数据。

游程检验：用于判断观察值的顺序是否随机。单样本变量值的随机性检验通过游程（Run）数来实现。所谓游程是样本序列中连续出现的变量值的次数。游程检验是最简单的判断随机性的方法。

单样本K-S检验：它是一个拟合优度检验，研究样本观察值的分布和设定的理论分布是否吻合，通过对两个分布差异的分析确定是否有理由认为样本的观察结果来自所假定的理论分布总体。

原理：K-S检验的基本思路是：先将顺序分类资料数据的理论累积频率分布与观测的经验累积频率分布加以比较，求出它们最大的偏离值，然后在给定的显著性水平上检验这种偏离值是否是偶然出现的。

两独立样本的检验：检验两个样本的分布是否相同。

多个独立样本的检验：用于在总体分布未知的情况下判断多个独立的样本是否来自相同分布的总体

两相关样本检验：在总体分布未知的条件下对样本来自的两相关配对总体是否具有显著差异进行的检验，可以判断两个相关的样本是否来自相同分布的总体

K个相关样本检验：用于在总体分布未知的情况下检验多个相关样本是否来自于相同分布的总体

统计距离

1）统计距离等于数学距离除以标准差

2）两点的统计距离公式

一维统计距离：点X1到X2的统计距离

d=|x1-x2| /s=数学距离/标准差

3）两个均值间的统计距离公式

标准误差是平均数的标准差，用于度量均值间的数学距离。

4）统计距离用于衡量变量变化的统计意义，度量变化的显著性，一般经验值，统计距离大于2说明变化有显著的统计意义。

量表

定义：由一组问题构成的用于间接测量人们的态度、看法、意见和性格等主观性较强的内容的测量工具，实质上是一种特殊的调查问卷，它是一种具有结构强度顺序的复合测量，即全部陈述和项目都是按一定的结构顺序来安排，以反映出所测量的概念或态度具有的各种不同的程度。

李克特量表

李克特量表由美国心理学家李克特在原有的总加量表基础上改进而成的，也称累加量表，是最常用的定距量表，被广泛用于衡量观念、态度或意见，需要构造大量的陈述或说法，李克特量表的尺度形式有多种，常见是五级量表，即五个答项，如“非常同意”、“同意”、“说不准”、 “不同意”、“非常不同意”，另外还会有七级量表，九级量表或四级量表等。其范围从一个极端的态度到另一个极端，如“非常可能”到“根本不可能”。

适用：深入挖掘一个特定主体，详细地找出人们对这一主题的看法。所以，想获取更多信息的时候就可以适用李克特量表

了解群众对于防疫政策的看法

了解脱贫群众对扶贫干部的满意度情况

了解疫情之下民众的心理健康状况

大多数统计方法均只能针对量表使用，如信度分析，效度分析，探索性因子分析等，因此量表与只提供两个答案选项的二元问题相比，李克特式问题可以更精确地反馈出被调查者对该问题的态度，从而收集到更加准确的数据。

权重

因子分析求指标权重

一、导入数据

二、选择【分析】——【降维】——【因子分析】

三、导入变量

四、点击【描述】，勾选【KMO和巴特利特球形度检验】

KMO>0.8说明效度非常高；

KMO>0.7说明效度较好；

KMO>0.6说明效度可以接受；

KMO<0.6说明效度不太好；

KMO<0.5说明效度完全不佳，需要重新修正题项。

五、点击【抽取】，在选项里勾选【碎石图】

六、【旋转】中选择【最大方差法】

七、【得分】中选择【显示因子得分系数矩阵】

八、【选项】中选择【按大小排序】

完成探索性因子分析提取因子功能，并且对研究量表进行信效度分析后，就是进行量表权重计算。指标权重构建通常包括四个步骤：因子提取、因子权重计算、因子表达式和综合得分计算等。

聚类图分析

聚类分析简介

按照个体的特征将它们分类，使同一类别内的个体具有尽可能高的同质性，而类别之间则具有尽可能高的异质性。【类内同质，类外异质】

只有采用适当的指标来定量描述研究对象之间的联系的紧密程度，才能得到合理的分类。

假定研究对象均用所谓的“点”来表示。在聚类分析中，一般的规则是将“距离”较小的点归为同一类，将“距离”较大的点归为不同的类。
常见的是对个体分类，也可以对变量分类，但对于变量分类此时一般使用相似系数作为“距离”测量指标【以皮尔逊相关系数为例，低度相关和若相关为一类，中度相关为一类，高度相关为一类】

聚类分析更像是一种建立假设的方法，而对相关假设的检验还需要借助其他统计方法，如判别分析、T-检验、方差分析等，看聚类出来的几个类别是否存在差异。

聚类的用途

设计抽样方案（分层抽样）
预分析过程（先通过聚类分析达到简化数据的目的，将众多的个体先聚集成比较好处理的几个类别或子集，然后再进行后续的多元分析）
细分市场、个体消费行为划分(先聚类，然后再利用判别分析进一步研究各个群体之间的差异)

聚类方法

K均值聚类（K-means Cluster）

方法原理

1.选择或人为指定某些记录作为凝聚点

2.按就近原则将其余记录向凝聚点凝集（此时会得到初始分类，1、2...类等。）

3.计算出各个初始分类的中心位置（均值）【类似分段，由分段均值再聚类】

4.用计算出的中心位置重新进行聚类

方法特点

1.要求已知类别数

2.可人为指定初始位置

3.节省运算时间

4.样本量过大时可考虑

5.只能使用连续性变量

层次聚类（Hierarchical Cluster)

层次聚类属于系统聚类法的一种，其聚类过程可以用树形结构(treelike structure)来描绘的方法。

方法原理

先将所有n个变量／观测看成不同的n类
然后将性质最接近（距离最近）的两类合并为一类【以皮尔逊系数为例，即高度相关的两类合并为一类】
再从这n-1类中找到最接近的两类加以合并
依此类推，直到所有的变量／观测被合为一类
使用者再根据具体的问题和聚类结果来决定应当分为几类

特点

一旦记录/变量被划定类别，其分类结果就不会再进行更改
可以对变量或记录进行聚类
变量可以为连续或分类变量（变量虽然可以为连续型或者分类型，但是不能混用，要不就是全分类这样使用，要不就全连续变量聚类）
提供的距离测量方法非常丰富
运算速度较慢

聚类过程，系数代表距离，距离什么含义，要看我们使用了什么距离指标。变量聚类一般默认距离为相关，即变量聚类时区间改为皮尔逊相关性（默认是平方欧氏距离）。一般聚类方法组间联接是最好的；ward法聚类出来会比较平均

度量标准

案例：平方欧式距离最好

变量-皮尔逊相关性最好

在系统聚类中，当每个类别有多于一个的数据点构成时，就会涉及如何定义两个类间的距离问题。根据距离公式不同，可能会得到不同的结果，这也就进一步构成了不同的系统聚类方法。常用的方法有如下几种：

Between-groups linkage(组间平均距离法):又称为类平均法，是用两个类别间各个数据点两两之间的距离的平均来表示两个类别之间的距离，这是SPSS默认的方法。(大量实践表明，该方法是一种非常优秀和稳健的方法，在多数情况下表现最为优异。)

Nearestneighbor(最短距离法):用两个类别中各数据点之间最短的那个距离来表示两个类别之间的距离。

Furthestneighbor(最远距离法):用两个类别中各数据点之间最远的那个距离来表示两个类别之间的距离.

Centroid clustering(重心法):用两个类别的重心之间的距离来表示两个类别之间的距离。

Ward’s method(离差平方和法):是要使得各类别中的离差平方和较小，而不同类别之间的离差平方和较大。使用该方法，将倾向于使得各个类别间的样本尽可能相近。

两步聚类法(TwoStep Cluster)

特点：

处理对象：离散变量和连续变量
自动决定最佳分类数
快速处理大数据集

前提假设：

变量间彼此独立
分类变量服从多项分布，连续变量服从正态分布(弱相关或服从类似正态分布也可，其会自动剔除异常值）

若以两条红色线划分则可划分为三类，加上黄线则可划分为四类，再加上蓝线则可划分为五类。

箱线图分析

在箱图中，凡是与四分位数值（图中即为方框上下界）的距离超过1.5倍四分位间距的都会被定义为异常值，其中离方框上/下界的距离超过四分位数间距1.5倍的为离群值，在图中以“O”表示；超过3倍的则为极值，用“*”表示。散点旁边默认标出相应案例号备查。

箱型图最远处的边界为四分位数间距1.5倍

中心位置的作用

伪相关

伪相关现象（Spurious correlation），在实际应用中，当我们计算两个理论上完全没有任何关系的变量相关系数时，有时候得到的相关系数较大，而且经过统计经验是显著不为0的，统计上将这种现象称之为伪相关。伪相关又称为虚假关系（Artifact correlation),数学上高度相关，实际中没有统计意义的相关。

出现伪相关现象的原因一：伪相关现象是由于①变量之间都存在某种相同的变化趋势【变量完全不相关，但由于都是连续的增加导致了相关系数】，或者说存在着第三个变量将他们联系在一起，或有潜在变量的存在（潜在变量的影响）【即混淆因素，某变量同时影响了两个变量】，两个变量X，Y都受某个潜在变量Z的影响导致共同反应（common response)。两个经济变量之间的高度相关关系，有时并不是这两个经济变量本身的内在联系所决定的，它完全可能由另外一个变量的“媒介”作用而形成高度相关：忽略了“媒介”作用，理论上为负相关的变量可能得到正相关关系。

原因二：两个不平稳的时间序列之家的相关可能产生伪相关。伪相关导致伪回归。用协整的方法避免时间序列的伪相关。可用散点图识别极端值产生的伪相关。

原文链接：https://blog.csdn.net/weixin_45662626/article/details/107837860

标准化的性质

在数据分析之前，我们通常需要先将数据标准化（normalization），利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对测评方案的作用力同趋化，再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。

1.经标准化的各指标值都处于同一个数量级上，可以进行综合测评分析

2.若原始数据分布是正态分布，则标准化后一定是标准正态分布，反之，则不是标准正态分布，比如原始数据是均匀分布，标准化后仍是均匀分布，所以Z-score标准化不会改变原始数据的分布。

受（不受）极端值影响的统计指标

不受影响的

稳健统计量：
中位数：不受极端值影响
众数：不受极端值影响；当数据具有明显的集中趋势时，代表性好

四分位差：样本上、下四分位数之差称为四分位数（半极差），受极端值影响小

峰度：指的是频数分布曲线的高峰的形态，也就是反映曲线的尖削程度的测度。

偏度：反映频数分布偏态方向和程度的测度，正态分布偏度=0，均值大于中位数的称为右偏，也可以理解伪长尾在右侧。同理可知，负偏也叫左偏。如果数据是右偏分布，说明数据存在极大值，必然拉动平均数向极大值一方靠。如果数据是左偏分布，说明数据存在极小值，必然拉动平均数向极小值一方靠。

易受影响的

平均数：容易受极端值影响

度量数据离散趋势的统计指标：方差、标准差、极差、平均差
变异系数：标准差与平均数之比，也称离散系数，衡量相对相对离中程度。

数据分组是否会损失信息

是的，数据分组会导致信息损失。简言之，三个原因：分组方法是否合理？数据是否是原始数据？两个变量在数字上的虚假相关是否符合常识？样本是否具有代表性？（样本有偏，不能简单推广）

例子：人口密度与经济发展水平，低收入和高收入国家分组；高收入国家组内人口密度；

这一例子揭示了统计分析中的两个常见现象，第一是分组数据往往能够提供更加平滑更加漂亮的中间数据，第二是在组内差异非常大的情况下，计算组内均值不仅是毫无意义的问题，还会导致错误结果。

首先，分组的基本依据是组内数据同质性，这一性质一般来说只能近似成立，许多场合下甚至只是研究者的个人判断。其次，在实际生活中使用的数据常常是分组之后的数据，而不是原始数据，如研究企业数据时，能够拿到的公开数据已经根据企业规模进行了分组处理，这样就损失了大量信息，甚至可能被误导；再次，两个变量在数字上的虚假相关可能与常识相悖；最后，样本可能不具有代表性，样本特征不能推广到总体。

第一，分组的基本依据是组内数据同质性。这个性质一般来说只能近似成立，许多场合下甚至只是研究者的个人判断。关注分组之后对于各种指标的组内同质性有助于我们避免一些错误。

第二，尽量使用原始数据而不是分组之后的数据。

第三，对分析对象和环境做更加全面的考察。

第四，注意样本的代表性。样本的特征能否随意推广到总体，这是一个基本问题。

参考：论数据分组的误导作用 - 豆丁网

平均数与中位数谁的信息量大

中位数的信息量大。

平均数是总体均值很好的估计，中位数是对总体中心很好的估计，如果数据是来自某对称未知分布时，估计均值和估计中心是等价的，这时候中位数的效率要比均值低不少。

1.平均数是通过计算得到的，因此它会因每一个数据的变化而变化。

2.中位数是通过排序得到，它不受最大、最小两个极端数值的影响，中位数在一定程度上综合了平均数与中位数的优点，具有比较好的代表性。

举例正（负）相关的变量

正相关：

什么是多模态机器学习：跨感知融合的智能前沿非凡暖阳人工智能神经网络
在人工智能的广阔天地里，多模态机器学习（MultimodalMachineLearning）作为一项前沿技术，正逐步解锁人机交互和信息理解的新境界。它超越了单一感官输入的限制，通过整合视觉、听觉、文本等多种数据类型，构建了一个更加丰富、立体的认知模型，为机器赋予了接近人类的综合感知与理解能力。本文将深入探讨多模态机器学习的定义、核心原理、关键技术、面临的挑战以及未来的应用前景，旨在为读者勾勒出这一
谷歌吹响反击号角：2025年Gemini用户目标5亿，AI大战一触即发！ that's boy 人工智能 chatgpt openai AI工具 AI编程 google gemini
人工智能领域的竞争日趋白热化，谷歌CEO桑达·皮采亲自下场，为GeminiAI定下了雄心勃勃的目标：到2025年底，用户突破5亿！面对ChatGPT的强势崛起，谷歌能否成功逆袭？本文将深入剖析谷歌的战略布局、Gemini的技术优势以及未来AI竞争的格局。谷歌的反击：5亿用户的雄心壮志在过去几年，OpenAI凭借ChatGPT的强大实力，几乎垄断了AI领域的聚光灯。谷歌虽然在AI技术研究方面一直处于
AI大模型如何赋能电商行业，引领变革虞书欣的C 人工智能开发语言
•个性化推荐：利用机器学习算法分析用户的历史购买记录、浏览行为和喜好，生成个性化的产品推荐列表，提升用户的购买意愿和满意度。•优化用户体验：•智能搜索引擎：运用自然语言处理技术，优化搜索引擎，让用户能够通过自然语言进行搜索。•虚拟客服：通过聊天机器人和语音助手，提供24/7的客户支持，快速解答用户咨询。•图像识别：利用计算机视觉技术，用户可以通过拍照识别商品，快速找到相似商品或进行排版搭配推荐。•
AI大模型引领医疗变革：十大创新应用场景塑造智慧医疗新时代和老莫一起学AI 人工智能自动化数据库学习语言模型大模型
前言在人工智能技术的迅猛发展中，AI大模型以其无与伦比的数据处理能力和深度学习能力，正逐步成为医疗健康领域变革的引领者。本文旨在深入探讨AI大模型在医疗领域的十大创新应用场景，展示其如何显著提升医疗服务效率、赋能临床决策，并推动整个行业向智能化转型。一、智能化诊疗：精准辅助，提升诊断效率AI大模型凭借对海量医疗数据的深度分析，能够协助医生进行更为精准的诊断。例如，百度灵医大模型凭借强大的数据处理能
Delphi代码编写标准指南好大的牛角
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！·日月光华精华区文章阅读发信人:Delphii(Delphi),信区:VCL标题:Delphi编码规则发信站:日月光华站(FriSep712:03:072001),站内信件Delphi代码编写标准指南■■■■■■
数学：机器学习的理论基石每天五分钟玩转人工智能机器学习人工智能
一、数学：机器学习的理论基石机器学习是一种通过数据学习模式和规律的科学。其核心目标是从数据中提取有用的信息，以便对未知数据进行预测和分类。为了实现这一目标，机器学习需要一种数学框架来描述和解决问题。数学在机器学习中起着至关重要的作用，它提供了一种数学模型来描述数据和模式，以及一种数学方法来优化模型。数学在机器学习中的应用非常广泛，涵盖了线性代数、概率论、统计学、微积分、优化等多个领域。这些数学方法
【机器学习：二十六、决策树】 KeyPan 机器学习机器学习决策树人工智能算法深度学习数据挖掘
1.决策树概述决策树是一种基于树状结构的监督学习算法，既可以用于分类任务，也可以用于回归任务。其主要通过递归地将数据划分为子集，从而生成一个具有条件结构的树模型。核心概念节点（Node）：每个节点表示一个特定的决策条件。根节点（RootNode）：树的起点，包含所有样本。分支（Branch）：每个分支代表一个条件划分的结果。叶节点（LeafNode）：终止节点，表示最终的决策结果。优点直观可解释：
“AI 自动化效能评估系统：开启企业高效发展新征程上海拔俗网络 java 团队开发
在当今数字化飞速发展的时代，企业面临着日益激烈的市场竞争，如何提升效率、降低成本成为了企业生存与发展的关键。AI自动化效能评估系统应运而生，它如同一把智能钥匙，为企业开启了高效发展的新征程。AI自动化效能评估系统，简单来说，就是利用人工智能技术对企业的各项业务流程、生产环节以及员工工作表现等进行全方位、自动化的评估。它能够快速收集海量的数据，并通过先进的算法模型对这些数据进行深度分析，从而精准地判
机器学习数学基础-极值和最值华东算法王（原聪明的小孩子小孩哥解析宋浩微积分机器学习算法人工智能
极值和最值极值和最值是数学中关于函数变化的重要概念，它们描述了函数在某些点附近或在整个定义域内的“最大”或“最小”行为。理解极值和最值对优化问题、函数分析、物理建模等领域有重要的应用。1.极值（LocalExtrema）极值是指函数在某个区间内的某一点取得的局部最大值或最小值。(1)局部最大值（LocalMaximum）一个函数在某点(x=c)取得局部最大值，意味着存在一个包含(c)的小区间，使得
智能体（AI Agent）：概念、原理与应用，全面解析AI技术前沿! 和老莫一起学AI 人工智能学习数据库产品经理机器学习 ai 大模型
一、智能体概念的深度剖析1.1智能体（Agent）的本质智能体，作为人工智能领域的一颗璀璨明珠，是那些能够主动感知周遭环境、自主决策并付诸实践的系统实体。它们不仅拥有自主性、交互性、反应灵敏及高度适应性等鲜明特征，更在复杂多变的情境中展现出卓越的自我管理与任务执行能力。智能体的诞生，标志着人工智能技术从机械式的规则遵循迈向了更为灵活、智能的自主决策新时代。智能体的核心精髓在于其内置的学习与决策引擎
基于人工智能的Python面试题请一直在路上 python 开发语言
基于人工智能的Python面试题1.Python中的元组与列表区别是什么？列表是可变类型，元组不是。列表是引用类型，元组不是。列表使用场景更宽泛，元组更多用于一些数据不可变的场景，例如参数、或者返回值。2.Python中的字典是否有序？python3.6之前字典是无序的，之后是有序的。原因可以参考下这个帖子https://blog.csdn.net/weixin_48629601/article/
17-7 向量数据库之野望7 - PostgreSQL 和pgvector 拉达曼迪斯II AIGC学习数据库管理工具 AI创业数据库 postgresql 人工智能机器学习 AIGC 搜索引擎
PostgreSQL是一款功能强大的开源对象关系数据库系统，它已将其功能扩展到传统数据管理之外，通过pgvector扩展支持矢量数据。这一新增功能满足了对高效处理高维矢量数据日益增长的需求，这些数据通常用于机器学习、自然语言处理(NLP)和推荐系统等应用。https://github.com/mazzasaverio/find-your-opensource-project什么是pgvector？
如何使用Java爬虫获取阿里巴巴热卖商品推荐：代码示例与实践指南小爬虫程序猿 Java java 爬虫 python
在电商领域，获取热卖商品推荐对于商家和开发者来说至关重要。阿里巴巴提供了热卖商品推荐API接口，能够根据消费者的购买历史、浏览行为、搜索习惯等数据，自动推荐符合其需求的商品。以下将详细介绍如何使用Java爬虫获取阿里巴巴热卖商品推荐，并提供相关的代码示例。一、阿里巴巴热卖商品推荐API接口简介阿里巴巴热卖商品推荐API接口是一种基于人工智能算法的推荐系统，能够根据消费者的购买历史、浏览行为、搜索习
AI与API的融合：构建智能互联技术世界的基石 IT数据V+I7809804594 人工智能数据分析 python 爬虫大数据
在当今科技飞速发展的时代，人工智能（AI）与应用程序接口（API）的融合正在开启智能应用的新纪元。AI以其强大的数据处理和分析能力，正在改变各行各业的工作方式，而API则作为连接技术与应用的桥梁，为AI技术的普及和应用提供了无限可能。本文将深入探讨AI与API的融合如何推动智能应用的创新和发展，以及其在各个领域的应用和前景。一、AI与API融合的背景随着大数据、云计算、物联网等技术的快速发展，人工
基于Spring Boot和Vue的人脸识别项目（源码） AI人H哥会Java JAVA大作业项目实战 spring boot vue.js java 人工智能计算机视觉后端 sql
背景随着人工智能技术的迅猛发展，生物识别技术的迅猛发展，人脸识别已经成为最具潜力的人工智能应用之一。它不仅在安全监控、金融支付、智能家居等多个领域得到了广泛应用，也逐渐进入日常生活场景。人脸识别作为一种生物特征识别技术，能够通过分析人脸图像中的特征点，实现对个体的身份识别。利用计算机视觉技术，系统能够快速从大量图片中定位并识别特定人脸，实现身份验证和信息检索。这一技术的应用，不仅提高了安全性，还提
人工智能伦理：技术发展背后的思考 m0_72547478 人工智能
近年来，人工智能技术呈爆发式发展，在医疗、交通、金融等诸多领域取得惊人成果，但与此同时，人工智能伦理问题日益凸显，引发广泛关注。数据隐私与安全首当其冲。AI系统依赖海量数据训练，这些数据包含个人信息、医疗记录等敏感内容。若数据保护不当，极易引发数据泄露风险，侵犯个人隐私。例如，某些智能健康APP，若未能加密传输用户健康数据，一旦遭受黑客攻击，用户的隐私将暴露无遗。算法偏见也是一大痛点。AI算法基于
Imagen架构详解：理解其背后的技术与创新范范0825 Imagen 架构
Imagen架构详解：理解其背后的技术与创新引言近年来，生成式人工智能技术取得了飞速发展，特别是在图像生成领域。作为这一领域的重要创新之一，Imagen是由谷歌开发的一种基于文本生成图像的模型。它在生成高质量、逼真的图像方面表现出色，并通过其先进的架构和技术手段推动了图像生成的技术进步。Imagen不仅在图像生成质量上具有显著优势，还能够通过自然语言描述生成细致复杂的图像。本文将详细剖析Image
【MySQL】Mysql数据库导入导出sql文件、备份数据库、迁移数据库程序员洲洲数据库数据库 mysql 导入导出sql sql文件备份迁移
本文摘要：本文提出了xxx的实用开发小技巧。作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。同时洲洲已经建立了程序员技术交流群，如果您感兴趣，可以私信我加入我的社群，也可以直接vx联系（文末有名片）v：bdizztt随时
计算机视觉与深度学习：使用深度学习训练基于视觉的车辆检测器（MATLAB源码-Faster R-CNN） ZhShy23 javascript 深度学习
在人工智能领域，计算机视觉是一个重要且充满活力的研究方向。它使计算机能够理解和分析图像和视频数据，从而做出有意义的决策。其中，目标检测是计算机视觉中的一项关键技术，它旨在识别并定位图像中的多个目标对象。车辆检测作为目标检测的一个重要应用，在自动驾驶、智能交通系统等领域有着广泛的应用前景。本文将介绍如何使用MATLAB和深度学习技术，特别是FasterR-CNN模型，来训练一个车辆检测器。文章目录一
【Python机器学习】无监督学习——K-均值聚类算法 zhangbin_237 Python机器学习机器学习算法 python kmeans k-means 均值算法
聚类是一种无监督的学习，它将相似的对象归到同一簇中，它有点像全自动分类。聚类方法几乎可以应用于所有的对象，簇内的对象越相似，聚类的效果越好。K-均值聚类算法就是一种典型的聚类算法，之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。簇识别给出聚类结果的含义，假定有一些数据，现在将相似数据归到一起，簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在
利用双分支CycleGAN进行图像数据的高效增强 jizhi-dataset 人工智能
随着人工智能技术的快速发展，图像数据处理变得越来越重要。为了提高图像数据的质量和可用性，我们需要采用高效的数据增强方法。双分支CycleGAN网络作为一种先进的图像处理技术，为我们提供了一种全新的解决方案。本文将详细介绍双分支CycleGAN的工作原理，并展示其在图像数据增强方面的实际效果。同时，我们也将讨论在实际应用过程中可能遇到的挑战以及如何解决这些问题。，，CycleGAN是一种用于图像到图
揭秘AIP智能体平台：构建未来AI基础设施的新引擎大东（AIP内容运营专员）人工智能
在人工智能的浪潮中，科技正在改变我们生活的方方面面。从智能推荐到自动驾驶，从个性化广告到实时风险控制，AI的触角无处不在。但这些令人瞩目的成果背后，究竟是什么在支撑着AI的飞速发展？答案是——人工智能平台。人工智能平台是连接计算资源、开发工具和行业应用的重要桥梁，支撑着从模型开发到行业场景落地的每一个环节。它不仅为开发者提供高效便捷的工具，还为企业创造了无限的创新可能。本文将带你深入了解人工智能平
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
《鸿蒙Next应用商店：人工智能开启智能推荐与运营新时代》人工智能深度学习
在科技飞速发展的当下，鸿蒙Next系统的出现为操作系统领域带来了新的变革与机遇，而人工智能技术的融入更是让其应用商店的智能化推荐和运营迈向了一个全新的高度。用户画像精准构建在鸿蒙Next系统中，应用商店可以借助系统强大的权限管理和数据收集能力，全方位收集用户的多维度数据。通过对用户在应用商店内的浏览历史、下载记录、搜索关键词，以及在其他鸿蒙应用中的使用行为等多源数据进行汇总和分析，利用人工智能算法
机器学习特征重要性之feature_importances_属性与permutation_importance方法一叶_障目机器学习 python 数据挖掘
一、feature_importances_属性在机器学习中，分类和回归算法的feature_importances_属性用于衡量每个特征对模型预测的重要性。这个属性通常在基于树的算法中使用，通过feature_importances_属性，您可以了解哪些特征对模型的预测最为重要，从而可以进行特征选择或特征工程，以提高模型的性能和解释性。1、决策树1.1.sklearn.tree.Decision
机器学习-期末测试难以触及的高度机器学习 python 人工智能
机器学习-期末测试线性回归1.代码展示#coding=UTF-8#拆分训练集和测试集importmatplotlib.pyplotaspltfromsklearn.model_selectionimporttrain_test_split#是线性回归类是sklearn写好的根据梯度下降法fromsklearn.linear_modelimportLinearRegressionimportpand
机器学习的介绍 2201_75874206 机器学习人工智能
目录1.机器学习的定义2.机器学习的原理3.机器学习的方法4.机器学习的分类5.机器学习的评估6.机器学习的应用场景7.机器学习与人工智能的关系结论机器学习在自然语言处理中的最新应用和技术是什么？如何评估机器学习模型的性能，除了交叉验证、MSE和RMSE外，还有哪些其他重要的指标？在金融风险管理中，机器学习如何帮助预测市场趋势和信用风险？市场趋势预测信用风险评估机器学习与人工智能之间的关系在未来发
Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题 Loving_enjoy 论文深度学习计算机视觉人工智能
###Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题####引言在金融领域中，欺诈检测是一项至关重要的任务。然而，欺诈交易数据往往呈现出正负样本极度不平衡的特点，这给机器学习模型的训练带来了挑战。传统的分类算法在面对这种不平衡数据时，往往会导致模型对多数类（正常交易）过拟合，而对少数类（欺诈交易）的识别能力较差。为了解决这个问题，生成对抗网络（GAN）提供了一种有效的手
一文读懂：无监督学习与有监督学习的区别与应用码上飞扬学习
在机器学习的世界里，无监督学习和有监督学习是两个最为常见且重要的概念。理解这两者的区别和应用场景，不仅有助于我们选择合适的算法和模型，还能帮助我们更好地解决实际问题。那么，什么是无监督学习和有监督学习呢？本文将带你详细了解这两种学习方式的定义、区别以及典型应用。目录无监督学习是什么？有监督学习是什么？无监督学习与有监督学习的主要区别无监督学习的典型应用有监督学习的典型应用如何选择合适的学习方法？1
Spark Livy 指南及livy部署访问实践 house.zhang 大数据-Spark 大数据
背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark作业提交到集群上去执行；二是批处理，通过spark-submit提交打包好的spark应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息，并打通集群网
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p