文文学霸

机器学习数学基础：数理统计与描述性统计

Datawhale干货

作者：吴忠强，Datawhale优秀学习者

所谓机器学习和深度学习，背后的逻辑都是数学，所以数学基础在这个领域非常关键，而统计学又是重中之重，机器学习从某种意义上来说就是一种统计学习。

今天是概率统计基础的第二篇文章，基于第一篇随机变量与随机事件进行整理，首先理一理这里面的逻辑，第一篇的内容蕴涵了大部分概率论的知识(除了大数定律和中心极限定理这种理论性的支持, 后期有机会会补上)。而今天的这篇内容是在概率论的基础上往前一步，属于数理统计的内容。

概率论中，我们研究随机现象，随机变量，但是我们是假设它们的分布已知，比如已知某一随机变量服从什么分布，在这个基础上研究性质，特点和规律（数字特征啊，随机变量分布啊等），而数理统计中，我们研究随机变量的分布未知或者一部分未知，要去做的就是通过从未知分布中抽取多个样本，对这些数据进行统计分析，从而研究随机变量的分布等。

大纲如下：

数理统计的基础（基础概念，统计量与抽样分布，常用统计量）
描述性统计（数据集中趋势和离散趋势，分布特征，偏度与峰度）

数理统计基础

前面已经分析了数理统计是基于是通过从未知分布中抽取多个样本，对这些数据进行统计分析进而去分析随机变量的规律和特点，所以在这里面依然会涉及到一些基本的概念。

基础概念

这里的基础概念包括总体，个体，总体容量，样本，简单随机样本，如果这些概念都知道，就可以跳过了哈哈。

在数理统计中，总体就是研究对象的全体，通常用一个随机变量表示，组成总体的每个基本单元叫个体，而总体中包含的个体总数就是总体容量。

我们研究的就是这个未知分布的总体的统计规律，所以我们需要从这里面随机抽取一部分个体进行统计，利用概率论的知识去分析推断。所以从总体中随机抽取一部分个体，称为取自的容量为的样本。来个栗子吧：

简单随机样本：满足以下两个条件的随机样本称为容量是的简单随机样本：

代表性：每个与同分布
独立性：是相互独立的随机变量。

样本是具有两重性，即当在一次具体地抽样后它是一组确定的数值。但在一般叙述中样本也是一组随机变量，因为抽样是随机的。

一般地，用， , 表示随机样本，它们取到的值记为，称为样本观测值。一般情形下，两次观测，样本值是不同的。

样本作为随机变量，有一定的概率分布，这个概率分布称为样本分布。显然，样本分布取决于总体的性质和样本的性质。

统计量与抽样分布

数理统计的任务是采集和处理带有随机影响的数据，或者说收集样本并对之进行加工，以此对所研究的问题作出一定的结论，这一过程称为统计推断。从样本中提取有用的信息来研究总体的分布及各种特征数就是构造统计量的过程，因此，统计量是样本的某种函数。

比如10个灯泡的平均寿命是统计量。

常用的统计量

1. 样本均值

设是总体 XXX 的一个简单随机样本，称

为样本均值。通常用样本均值来估计总体分布的均值和对有关总体分布均值的假设作检验。均值这个numpy实现就是np.mean()

2. 样本方差

设是总体的一个简单随机样本，为样本均值，称

为样本方差。通常用样本方差来估计总体分布的方差和对有关总体分布均值或方差的假设作检验。numpy的话就是np.var()

3. k阶样本原点矩

设是总体的一个简单随机样本，称

为样本的阶原点矩（可以看到时，相当于样本均值），通常用样本的无阶原点矩来估计总体分布的阶原点矩。

4. k阶样本中心矩

设是总体的一个简单随机样本，为样本均值，称

为样本的阶中心矩，通常用样本的阶中心矩来估计总体分布的阶中心矩。

5. 顺序统计量

这个numpy的话就是np.max(), np.min()

三种重要的抽样分布

在使用统计量进行统计推断的时候常常需要知道它的分布，统计量的分布称为抽样分布，有三个非常重要的统计量的分布我们需要知道，因为在参数估计和检验假设等其实都有这三个分布的影子或者依赖于这三个分布，这三个分布就是分布、分布和分布。

1. 分布

设是来自总体的样本，则称统计量

服从自由度为的分布，记为。自由度指的独立变量的个数。概率密度函数长这样：

其中

2. 分布

设 ,且相互独立，则称随机变量

服从自由度为的分布。它的概率密度函数：

概率密度函数图像如下：

3. 分布

设且独立，则称随机变量

的分布，记

上面这些分布在参数估计的时候，会用到。当然分布本身可能比较复杂，尤其是概率密度函数，到时候会有表可查。

描述性统计

数据集中趋势的度量

1. 平均数

是表示一组数据集中趋势的量数，是指在一组数据中所有数据之和再除以这组数据的个数。

2. 中位数

是指在一组数据，按顺序排列后，居于中间位置的数。中位数描述数据中心位置的数字特征，对于对称分布的数据，均值与中位数比较接近；对于偏态分布的数据，均值与中位数不同。中位数不受异常值的影响，具有稳健性。

3. 频数

指同一观测值在一组数据中出现的次数（掷骰子中，一共掷了20次，出现数字5的次数）

4. 众数(mode)

就是一组数据中，出现次数最多的那个数（几个数）。下图为均值 VS 中位数 VS 众数

5. 百分位数

百分位数是中位数的推广，将数据按从小到大排列后，对于

它的分位点定义为

其中，表示的整数部分。所以，0.5分位数（第50百分位数）就是中位数。0.25分位数称为第一四分位数，记为， 0.75分位数称为第三四分位数，记为，这三个分位数在统计中很有用的。

这个百分位数最常见的就是我们说的箱线图了：

这个箱线图可以看到数据的下面几个性质：

中心位置：中位数所在的位置是数据集的中心
散布程度：全部数据落在之内，在区间 , , , 的数据个数各占1/4。区间较短时表示落在该区间的点较为集中，反之较为分散。
对称性：若中位数位于箱子的中间位置，则数据分布较为对称。若离的距离较离的距离大，则表示数据分布向左倾斜，反之数据右倾斜，且能看出分布尾部的长短。

箱线图特别适用于比价两个或者两个以上数据集的性质。当然箱线图也可以帮助我们检测是否存在异常值（不寻常的过大或者过小），第一四分位数和第三四分位数之间的距离记为IQR，也就是四分位数间距，若数据小于 IQR或者数据大于 IQR,就疑似异常

好了，关于上面的这些内容，下面看一波python实现了。

首先是列表的元素求均值，中位数，众数，频数：由于众数numpy中没有直接实现的函数，所以可以调用scipy包的stats或者自己实现：

# 实现众数  但这个不能返回多个众数， 如果有多个众数的话， 需要得到一个众数的次数， 然后根据频数返回多个。
def mode(lst):
    if not lst:
        return 
    return max(lst, key=lambda v: lst.count(v))


a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_mean = np.mean(a)  #均值
a_med = np.median(a)  #中位数
a_mode = stats.mode(a)[0][0]   # 众数  也是只能返回一个
a_mode1 = mode(a)
print("a的平均数:",a_mean)
print("a的中位数:",a_med)
print('a的众数', a_mode, a_mode1)


# 频数
b = {k: a.count(k) for k in set(a)}
b  # {1: 1, 2: 1, 3: 1, 4: 1, 5: 1, 43: 1, 12: 2, 11: 1, 52: 1, 22: 3, 23: 1}




# 基于频数这个， 再写一个求众数的， 这个可以返回多个
def mode_duo(d):
    if len(d) == 0:
        return 
    max_values = max(d.values())   # 找到了众数对应的次数
    return [key for key in d if d[key]==max_values]
 
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22, 1, 1]
b = {k: a.count(k) for k in set(a)}
mode_duo(b)   # 1 22


## 当然还可以转成Series然后求众数， 有多个的话也可以都返回来， 这个是最简单的方式
pd.Series(a).mode()

下面看看分位点的情况，把a转成Series，用describe()函数就可以看到分位点：

pd.Series(a).describe()


## 结果：
count    16.000000
mean     14.750000
std      15.316658
min       1.000000
25%       2.750000
50%      11.500000
75%      22.000000
max      52.000000
dtype: float64


## 还可以借助plt画出箱型图
import matplotlib.pyplot as plt
plt.boxplot(pd.Series(a))

下面我们再看看如何根据IQR去掉异常值：异常值可以截尾，也可以直接去掉：

"""这里包装了一个异常值处理的代码，可以随便调用"""
def outliers_proc(data, col_name, scale=1.5):
    """
        用于截尾异常值， 默认用box_plot(scale=1.5)进行清洗
        param:
            data：接收pandas数据格式
            col_name: pandas列名
            scale: 尺度
    """
    data_col = data[col_name]
    Q1 = data_col.quantile(0.25) # 0.25分位数
    Q3 = data_col.quantile(0.75)  # 0,75分位数
    IQR = Q3 - Q1
    
    data_col[data_col < Q1 - (scale * IQR)] = Q1 - (scale * IQR)
    data_col[data_col > Q3 + (scale * IQR)] = Q3 + (scale * IQR)


    return data[col_name]
 
num_data['power'] = outliers_proc(num_data, 'power')

上面是截尾异常值，接收的是pandas的一列，因为有时候异常值多了的话暴力删除可能不太好。当然下面的代码直接删除掉异常值，接收的是一个DataFrame，然后判断有几列都出现异常的时候才删除这个样本。

# 检测异常值并将其舍弃，返回删除的列
def detect_and_remove_outliers(df):
    """这个方法按列检查异常值，并保存所在的行，如果某个行有两个以上的异常值，就删除该行"""
    outliers = []
    col = list(df)
    #checking interquartile range IQR for all columns
    for c in col:
        Q1 = df[c].quantile(0.25) # 0.25分位数
        Q3 = df[c].quantile(0.75)
        IQR = Q3 - Q1
        outliers.extend(df[(df[c] < Q1 - (1.5 * IQR)) | (df[c] > Q3 + (1.5 * IQR) )].index)
    #returning keys for count of occurrences in the list outlier key value pairs
    return  list(k for k,v in Counter(outliers).items() if v >2)
 
remove_list = detect_and_remove_outliers(data)
data_remove = data.drop(remove_list, axis=0)

数据离散趋势的度量

表示数据分散（离散，差异）程度的特征量有方差，标准差，极差以及变异系数等。

1. 方差

用来计算每一个变量（观察值）与总体均数之间的差异。实际工作中，总体均数难以得到时，应用样本统计量代替总体参数，经校正后，样本方差计算公式：

样本方差的开平方成为样本标准差。

2. 极差

数据越分散，极差越大。

3. 变异系数

是刻画数据相对分散性的一种度量。变异系数只在平均值不为零时有定义，而且一般适用于平均值大于零的情况。变异系数也被称为标准离差率或单位风险。当需要比较两组数据离散程度大小的时候，如果两组数据的测量尺度相差太大，或者数据量纲的不同，变异系数可以消除测量尺度和量纲的影响。

4. 四分位数差

这个上面整理过了，样本上、下四分位数之差称为四分位差(或半极差)。

它也是度量样本分散性的重要数字特征，特别对于具有异常值的数据，它作为分散性具有稳健性。

下面是方差，标准差，变异系数的numpy实现。

a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_var = np.var(a)  #方差
a_std1 = np.sqrt(a_var) #标准差
a_std2 = np.std(a) #标准差
a_mean = np.mean(a)  #均值
a_cv =  a_std2 /a_mean #变异系数
print("a的方差:",a_var)
print("a的方差:",a_std1)
print("a的方差:",a_std2)
print("a的变异系数:",a_cv)

5. 偏度与峰度

偏度（skewness）：也称为偏态，是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。直观看来就是密度函数曲线尾部的相对长度。偏度刻画的是分布函数（数据）的对称性。关于均值对称的数据其偏度系数为0，右侧更分散的数据偏度系数为正，左侧更分散的数据偏度系数为负。样本偏度系数如下：

正态分布的偏度为0，两侧尾部长度对称。
左偏
右偏

峰度（peakedness;kurtosis): 说明的是分布曲线在平均值处峰值高低的特征数。直观看来，峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言，如果峰度大于三，峰的形状比较尖，比正态分布峰要陡峭。反之亦然。峰度刻画的是分布函数的集中和分散程度。

峰度系数如下：

下面是一波python实现：

data = list(np.random.randn(10000)) #⽣生成标准正态分布的随机数（10000个）


plt.hist(data, 1000, facecolor='g', alpha=0.5)   # alpha表示透明度
plt.show()


s = pd.Series(data) #将数组转化为序列列 
print('偏度系数',s.skew())   # 0.0024936359680932723
print('峰度系数',s.kurt())   # -0.05970174780792892

结果如下：

写到最后

数理统计是从抽样统计的角度去估计样本的总体分布或未知的规律，首先介绍了数理统计里面的基本概念，例如总体，个体，样本等，然后是统计量与抽样分布，介绍了常用的统计量像均值，方差，标准差，中心距，原点矩等。然后介绍了三个非常重要的抽样分布卡方， T和F。最后是描述性统计这块，介绍了数据集中趋势度量，这里面包括平均数，中位数，众数，频数，百分位数等并给出了numpy实现，然后是离散趋势度量，方差，标准差，极差，四分位点的内容，然后是峰度和偏度的介绍。

“为数学之美点赞↓

protubuf序列化和反序列化原理要好好养胃 c++11 c++开发语言算法 linux 服务器
文章目录protubuf序列化和反序列化原理序列化：将数据结构或者对象转换成二进制字节流判断每个字段是否有设置值，有值才进行编码根据字段表示号与实际类型将字段值通过不容的编码方式进行编码将编码后的数据块按照字段类型采用不同的存储方式封装成二进制数据流反序列化：将二进制字节流转换回数据结构或者对象解析读取的二进制字节数据流将解析出来的数据存储到c++、java等对应的数据结构中varint编码：整形
C++中map和set的详解黑猫Teng c++算法开发语言
C++中map和set的介绍与使用在C++编程中，map和set是标准模板库（STL）中两种非常重要的关联容器。它们基于平衡二叉搜索树（通常是红黑树）的数据结构来实现，提供了高效的数据存储和检索功能。本文将详细介绍map和set的特点、用法以及一些常见的操作示例。一、map的介绍与使用1.map的基本概念map是一个键值对容器，其中每个键都是唯一的，且按照升序排序。map的内部结构是红黑树，这使得
玩转 Vue 3：自定义指令让页面魔法随心而动代码剑客588 vue.js javascript 前端
玩转Vue3：自定义指令让页面魔法随心而动玩转Vue3：自定义指令让页面魔法随心而动什么是自定义指令？全局注册示例：高亮效果指令注册自定义指令在组件中使用局部注册与高级用法局部注册示例小结玩转Vue3：自定义指令让页面魔法随心而动在Vue3中，自定义指令为我们提供了在模板中直接操作DOM的能力，不仅可以让我们的页面效果更炫酷，还能将一些通用逻辑抽离出来，做到代码复用。本文将带你了解Vue3自定义指
Java常用集合与映射的线程安全问题深度解析 misschen888 java 安全开发语言
Java常用集合与映射的线程安全问题深度解析一、线程安全基础认知在并发编程环境下，当多个线程同时操作同一集合对象时，若未采取同步措施，可能导致以下典型问题：数据竞争：多个线程同时修改数据导致结果不可预测状态不一致：部分线程看到集合的中间状态内存可见性：线程本地缓存与主内存数据不同步死循环风险：特定操作引发无限循环（如JDK7的HashMap扩容）二、典型非线程安全集合问题分析1.ArrayList
Java常用集合与映射的线程安全问题深度解析 longdong7889 java 安全开发语言
Java常用集合与映射的线程安全问题深度解析一、线程安全基础认知在并发编程环境下，当多个线程同时操作同一集合对象时，若未采取同步措施，可能导致以下典型问题：数据竞争：多个线程同时修改数据导致结果不可预测状态不一致：部分线程看到集合的中间状态内存可见性：线程本地缓存与主内存数据不同步死循环风险：特定操作引发无限循环（如JDK7的HashMap扩容）二、典型非线程安全集合问题分析1.ArrayList
Spring Boot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南好龙7575 spring boot 后端 java
SpringBoot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南一、核心概念对比1.本质区别维度过滤器（Filter）拦截器（Interceptor）规范层级Servlet规范（J2EE标准）SpringMVC框架机制作用范围所有请求（包括静态资源）只处理Controller请求依赖关系不依赖Spring容器完全集成SpringIOC容器执行顺序最先执行（
CSS3：深度解析与实战应用扣得A艾 css3 css 前端
CSS3：深度解析与实战应用详解1.选择器增强2.盒模型扩展3.渐变和背景4.转换和动画总结CSS3是CSS（层叠样式表）的最新版本，它引入了许多新的特性和功能，使得网页的样式设计更加灵活、丰富和具有动态效果。在本文中，我们将深入解析CSS3的一些关键特性和实战应用，并通过代码样例展示其强大之处。1.选择器增强CSS3增加了许多新的选择器，如属性选择器、伪类选择器等，使得我们能够更精确地选择页面元
遨游科普：三防平板是哪三防？有哪些应用场景？ AORO_BEIDOU 电脑智能手机安全 5G 信息与通信
在工业智能化与数字化转型的浪潮中，电子设备的耐用性和环境适应性成为关键需求。普通消费级平板电脑虽然功能强大，但在极端环境下往往“水土不服”。而三防平板凭借其独特的防护性能，正逐步成为“危、急、特”场景的核心工具。AOROP300Ultra三防平板那么，“三防”究竟是哪“三防”？“三防”是电子设备领域对防尘、防水、防摔三大防护能力的统称，但这并非简单的功能叠加，而是通过材料、结构、工艺三重创新实现的
无人自助空间智能管理系统解决方案（深度优化版） ALLSectorSorft 大数据人工智能网络自动化小程序 uni-app android
无人自助空间智能管理系统解决方案（深度优化版）一、行业痛点与系统价值传统管理依赖人工：人工管理模式下，易出现人为失误，如计费错误、资源分配不当等。同时，人工操作效率低下，在高峰时段难以快速响应客户需求。且夜间运营需额外安排人力，增加运营成本，导致夜间运营困难。资源利用率不透明：由于缺乏有效的数据监测与分析手段，空间资源的空置率难以实时掌握，造成资源浪费。这也使得收益难以准确预测，不利于商家制定合理
Python 常用函数全解析，轻松提升编码效率 yang789022 python 开发语言 windows
Python常用函数全解析，轻松提升编码效率Python常用函数全解析，轻松提升编码效率1.基础内置函数1.1`print()`与`input()`1.2`len()`、`type()`与`isinstance()`2.数学与数值处理函数2.1`abs()`、`round()`与`pow()`2.2`divmod()`与`max()/min()`3.序列与迭代相关函数3.1`range()`与`e
C++内存管理秘籍：深入解析与实战代码示例萱萱199504 c++java 开发语言
C++内存管理秘籍：深入解析与实战代码示例一、内存管理的基本概念二、内存泄漏与野指针三、智能指针：现代C++的内存管理利器四、实战代码示例示例1：传统动态内存管理示例2：使用`std::unique_ptr`示例3：使用`std::shared_ptr`五、总结在C++编程的世界里，内存管理是一项既基础又核心的技能。它直接关系到程序的性能、稳定性和可维护性。不同于一些高级语言自动管理内存的特性，C
Ubuntu 显卡NVIDIA-smi提示错误 DoubleImage 深度学习 ubuntu
Ubuntu长时间正常工作，但是重启后显卡工作异常执行NVIDIA-SMI提示如下问题：NVIDIA-SMIhasfailedbecauseitcouldn'tcommunicatewiththeNVIDIAdriver.MakesurethatthelatestNVIDIAdriverisinstalledandrunning.一、问题原因主要是由于系统自动更新了内核，新内核的版本与显卡驱动不匹
Ubuntu系统中NVIDIA-SMI 报错：NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver. QuietNightThought Linux linux python
文章目录一、介绍二、解决办法一：安装必要的内核头文件三、解决办法二：使用DKMS重新安装内核的NVIDIA驱动程序(我用这个方法解决了问题)四：解决办法三：安装NVIDIA驱动程序一、介绍当服务器未安装NVIDIA驱动程序，或驱动程序版本与显卡不匹配时，或者安装了某些系统软件或系统更新了内核时，服务器重启后可能无法连接到NVIDIA驱动程序。错误消息如下：$nvidia-smiNVIDIA-SMI
CSS3：深度解析与实战应用 my1121716951 css3 css 前端
CSS3：深度解析与实战应用详解1.选择器增强2.盒模型扩展3.渐变和背景4.转换和动画总结CSS3是CSS（层叠样式表）的最新版本，它引入了许多新的特性和功能，使得网页的样式设计更加灵活、丰富和具有动态效果。在本文中，我们将深入解析CSS3的一些关键特性和实战应用，并通过代码样例展示其强大之处。1.选择器增强CSS3增加了许多新的选择器，如属性选择器、伪类选择器等，使得我们能够更精确地选择页面元
Java常用集合与映射的线程安全问题深度解析 jiajia651304 java 安全开发语言
Java常用集合与映射的线程安全问题深度解析一、线程安全基础认知在并发编程环境下，当多个线程同时操作同一集合对象时，若未采取同步措施，可能导致以下典型问题：数据竞争：多个线程同时修改数据导致结果不可预测状态不一致：部分线程看到集合的中间状态内存可见性：线程本地缓存与主内存数据不同步死循环风险：特定操作引发无限循环（如JDK7的HashMap扩容）二、典型非线程安全集合问题分析1.ArrayList
Spring Boot中@Valid 与 @Validated 注解的详解 jiajia651304 spring boot 后端 java
SpringBoot中@Valid与@Validated注解的详解引言@Valid注解功能介绍使用场景代码样例@Validated注解功能介绍使用场景代码样例@Valid与@Validated的区别结论引言在SpringBoot应用中，参数校验是确保数据完整性和一致性的重要手段。@Valid和@Validated注解是SpringBoot中用于参数校验的两个核心注解。本文将详细介绍这两个注解的用法
全面解析手机租赁平台开发的关键要素与实施策略红点聊租赁其他
内容概要在手机租赁平台开发的过程中，市场调研是至关重要的一步。只有深入了解用户需求和行业趋势，才能确保平台的成功。首先要考虑潜在用户，他们究竟对手机租赁有什么期望？是希望租金更便宜，还是更看重手机的款式和新旧程度？通过问卷、访谈等方式收集相关数据，可以帮助确定目标市场的特征。接下来，我们需要关注行业趋势。近年来，随着环保意识的增强和消费习惯的改变，越来越多的人开始倾向于租赁而非购买。这一趋势不仅改
金融租赁系统的创新发展与市场竞争力提升探讨红点租赁系统开发其他
内容概要随着经济的快速发展，金融租赁系统逐渐成为金融市场中不可或缺的一环。它不仅提供了灵活的资金解决方案，还促进了企业的资本结构优化与资源配置效率。因此，了解该系统的市场背景与发展现状至关重要。在现今环境下，新兴技术如人工智能、大数据和区块链等正加速推动金融租赁的创新。通过这些技术，不仅可以优化业务流程，提升运营效率，还可以增强风险管理能力。例如，利用数据分析可以实时监测租赁资产的风险，从而采取相
手机租赁系统开发全面解析与实现指南红点租赁系统开发其他
内容概要手机租赁系统的设计理念是为了满足用户对便捷、灵活的手机使用需求。想象一下，谁还愿意花大价钱买一部手机呢？尤其是当新款手机频繁推出时，租赁似乎成了更受欢迎的选择。这个系统旨在让用户可以随时随地选择租用不同型号的手机，极大提升了用户体验。接下来，我们将深入探讨这个系统的技术架构。它通常包含前端界面、后端处理和数据库管理三个核心部分。前端负责与用户交互，后端则处理数据逻辑，而数据库则是存储所有租
Spring Boot实战：MySQL与Redis数据一致性深度解析与代码实战算法探险家 spring boot mysql redis
SpringBoot实战：MySQL与Redis数据一致性深度解析与代码实战一、数据一致性问题概述二、常见解决方案三、选择合适的解决方案四、总结在SpringBoot开发中，MySQL作为关系型数据库，提供了强大的数据存储和查询能力；而Redis作为内存数据库，以其高速读写性能成为缓存层的首选。然而，当这两者共同服务于一个系统时，如何确保它们之间的数据一致性，成为了一个不可忽视的问题。本文将深入探
【AI大模型-提示词中的###和“““】 NeVeRMoRE_2024 AI大语言模型-ChatGPT 人工智能
提示词中活用###和"""（或其他特殊字符或格式）的原因主要基于以下几点：1.结构化与清晰性在编写提示词时，使用特殊字符如###和"""可以帮助将复杂的指令或上下文信息结构化，使其更加清晰易懂。这对于大型语言模型（LLMs）尤为重要，因为它们需要处理大量的输入信息，并据此生成输出。结构化的提示词有助于模型更好地理解用户的意图，减少误解的可能性。例如，使用###作为分隔符，可以将提示词中的不同部分（
Vue Markdown 编辑器全攻略：轻松集成 MD 编辑器到前端项目软件工匠师前端 vue.js 编辑器
VueMarkdown编辑器全攻略：轻松集成MD编辑器到前端项目1.为什么选择Markdown编辑器？2.安装v-md-editor3.全局配置与集成4.在组件中使用Markdown编辑器5.高级配置与自定义功能6.总结在现代前端开发中，Markdown编辑器被广泛应用于博客、内容管理系统、在线文档等场景。本文将以Vue3为例，详细介绍如何使用v-md-editor库在项目中集成Markdown编
OmniParser V2 安装与使用教程 Leaton Lee OmniParser V2 人工智能 deepseek
1.环境准备操作系统：支持Windows/macOS/Linux。Python版本：确保已安装Python3.7或更高版本。包管理工具：使用pip（Python自带）。安装环境：condacreate-n"omni"python==3.12condaactivateomnipipinstall-rrequirements.txt确保您已将V2权重下载到weights文件夹中（确保标题权重文件夹名为
设计模式六大原则（3）：依赖倒置原则岸似达春绿设计模式设计模式设计模式 string class 编程 setter interface
定义：高层模块不应该依赖低层模块，二者都应该依赖其抽象；抽象不应该依赖细节；细节应该依赖抽象。问题由来：类A直接依赖类B，假如要将类A改为依赖类C，则必须通过修改类A的代码来达成。这种场景下，类A一般是高层模块，负责复杂的业务逻辑；类B和类C是低层模块，负责基本的原子操作；假如修改类A，会给程序带来不必要的风险。解决方案：将类A修改为依赖接口I，类B和类C各自实现接口I，类A通过接口I间接与类B或
【异常】 The engine “node“ is incompatible with this module. Expected version “^14.18.0 || ＞=16.0.0“. 本本本添哥 007 -大前端技术前端 yarn npm
一、报错内容二、报错说明这个错误提示表示你的Node.js版本与该模块不兼容。三、报错解决3.1使用cnpm来安装cnpminstall3.2将Node.js版本升级到14.18.0或更高版本需要将Node.js版本升级到14.18.0或更高版本，或者降级到16.0.0或更高版本。你可以通过以下命令查看当前Node.js版本：node-v如果你需要升级或降级Node.js版本，可以访问Node.j
如何申请Manus邀请码？手把手教你获取开发者权限/产品试用资格小小鸭程序员云计算云原生 AI编程 spring cloud 人工智能
引言Manus作为全球领先的VR/AR手势追踪与力反馈技术提供商，其产品如ManusPrime系列VR手套和CoreSDK深受开发者与科研团队青睐。但许多用户反馈，部分高级功能或产品试用需通过**邀请码（InvitationCode）**申请。本文将从零开始，详解Manus邀请码的申请流程、填写技巧与避坑指南。一、什么是Manus邀请码？作用：用于解锁开发者权限、申请硬件试用（如VR手套）、访问私
视觉工程师：工业相机50问钢铁男儿机器视觉机器视觉工业相机
1：工业相机的丢帧的问题是由什么原因引起的?经常会有一些机器视觉工程师认为USB接口的工业相机会造成丢帧现象。一般而言，工业相机丢帧与工业相机所采用的传输接口是没有关系的，无论是USB，还是1394、GigE、或者是CameraLink。设计不良的驱动程序或工业相机硬件才是造成丢帧的真正原因：设计不良的工业相机之所以会发生丢帧的现象，其实就是资料通道的堵塞，无法及时处理,所以新的图像进来时，前一张
Notepad++绿色版：便携高效的代码编辑器 FasterThanMind
本文还有配套的精品资源，点击获取简介：Notepad++是一款免费且无需安装的绿色版源代码编辑器，专为编程和文本处理设计。它支持多种编程语言的语法高亮、宏功能、增强的查找和替换、多文档界面、插件支持、编码转换、智能提示、个性化设置以及轻量级运行。Notepad++体积小、启动快，且对Windows平台具有良好的兼容性，适合在任何Windows系统计算机上使用，包括最新的Windows11。这款编辑
标签转换脚本 - VOC格式转COCO格式，即voc2coco，xml2json 附VOC及COCO标签格式详解 Limiiiing YOLO训练/写作脚本 YOLO 计算机视觉目标检测深度学习
前言本文的脚本功能为将VOC数据集的标签文件xml转成COCO的标签文件，指定自己的VOC数据集的标签文件路径后，可一键运行转成COCO的标签文件。专栏目录：YOLO训练/写作脚本目录一览|涉及标签转换、数据扩充、热力图、感受野、精度曲线、数量统计等近百个脚本文件专栏地址：YOLO训练/写作脚本——丰富文章内容，增强实验信服力，助力发文！！！文章目录前言一、VOC数据集介绍1.1总体结构1.2各标
标签转换脚本 - VOC格式转YOLO格式，即voc2yolo，xml2txt 附VOC及YOLO标签格式详解 Limiiiing YOLO训练/写作脚本 YOLO 深度学习计算机视觉目标检测
前言本文的脚本功能为将VOC数据集的标签文件xml转成YOLO的标签文件，指定自己的VOC数据集的标签文件路径后，可一键运行转成YOLO的标签文件。专栏目录：YOLO训练/写作脚本目录一览|涉及标签转换、数据扩充、热力图、感受野、精度曲线、数量统计等近百个脚本文件专栏地址：YOLO训练/写作脚本——丰富文章内容，增强实验信服力，助力发文！！！文章目录前言一、VOC数据集介绍1.1总体结构1.2各标
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

机器学习数学基础：数理统计与描述性统计

数理统计基础

描述性统计

写到最后

你可能感兴趣的:(机器学习数学基础：数理统计与描述性统计)