R语言中文社区

用R语言实现信息度量

作者：张丹，R语言中文社区专栏特邀作者，《R的极客理想》系列图书作者，民生银行大数据中心数据分析师，前况客创始人兼CTO。
个人博客 http://fens.me， Alexa全球排名70k。

前言

香农的《通信的数学理论》是20世纪非常伟大的著作，被认为是现代信息论研究的开端。信息论定义了信息熵，用于把信息进行度量，以比特(bit)作为量纲单位，为如今发达的信息产业和互联网产业奠定了基础。本文接上一篇文章R语言实现46种距离算法，继续philentropy包的介绍，包括信息度量函数的使用。

信息熵介绍
关键概念
信息度量函数
应用举例

1.信息熵介绍

信息论（Information Theory）是概率论与数理统计的一个分枝，用于研究信息处理、信息熵、通信系统、数据传输、率失真理论、密码学、信噪比、数据压缩等问题的应用数学学科。信息论将信息的传递作为一种统计现象来考虑，给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。

香农被称为是“信息论之父”，香农于1948年10月发表的A Mathematical Theory of Communication，通信的数学理论(中文版)，通常被认为是现代信息论研究的开端。

信息熵，是对信息随机性的量度，又指信息能被压缩的极限，用bit作为衡量信息的最小单位。一切信息所包含的信息量，都是1bit的正整数倍。计算机系统中常采用二进制编码，一个0或1就是1bit。

举例来说明一下信息熵的计算原理，假设小明最喜欢5种水果，苹果、香蕉、西瓜、草莓、樱桃中的一种，如果小明没有偏爱，选择每种水果的概率都是20%，那么这一信息的信息熵为

H(A) = -1*(0.2*log2(0.2)*5)
= 2.321928 bits

如果小明偏爱香蕉，选择这5种水果的概率分别是10%，20%，45%，15%，10%，那么这一信息信息熵为

H(B)=-1*(0.1*log2(0.1)+0.2*log2(0.2)+0.45*log2(0.45)+0.15*log2(0.15)+0.1*log2(0.1))
= 2.057717 bits

从结果得到H(A)大于H(B)，信息熵越大表示越不确定。对于B的情况，对某一种水果的偏好，比A增加了确定性的因素，所以H(B)小于H(A)是符合对于信息熵的定义的。

2.关键概念

我们从一幅图来认识信息熵，图中显示了随机变量X和Y的2个集合，在信息熵的概念里的所有可能逻辑关系。两个圆所包含的面积为联合熵H(X,Y)，左边的整个圆表示X的熵H(X)，左边半圆是条件熵H(X|Y)。右边的整个圆表示Y的熵H(Y)，右边半圆条件熵H(Y|X)，中间交集的部分是互信息I(X; Y)。

信息熵(Entropy)：是对信息随机性的量度，用于计算信息能被压缩的极限。对随机变量X，不确定性越大，X的信息熵H(X)也就越大。

公式定义：

H(x)的取值范围，0<=H(x)<=log(n), 其中n是随机变量x取值的种类数。需要注意的是，熵只依赖于随机变量的分布，与随机变量取值无关。

条件熵(Conditional Entropy)：表示两个随机变量X和Y，在已知Y的情况下对随机变量X的不确定性，称之为条件熵H(X|Y)，

公式定义：

联合熵(Joint Entropy)：表示为两个随机事件X和Y的熵的并集，联合熵解决将一维随机变量分布推广到多维随机变量分布。

公式定义：

互信息(Mutual Information, 信息增益)：两个随机变量X和Y，Y对X的互信息，为后验概率与先验概率比值的对数，即原始的熵H(X)和已知Y的情况下的条件熵H(X|Y)的比值的对数，信息增益越大表示条件Y对于确定性的贡献越大。互信息，也可以用来衡量相似性。

公式定义：

当MI(X,Y)=0时，表示两个事件X和Y完全不相关。决策树ID3算法就是使用信息增益来划分特征，信息增益大时,说明对数据划分帮助很大,优先选择该特征进行决策树的划分。

信息增益比率：是信息增益与该特征的信息熵之比，用于解决信息增益对多维度特征的选择，决策树C4.5算法使用信息增益比率进行特征划分。

KL散度（Kullback–Leibler Divergence, 相对熵）：随机变量x取值的两个概率分布p和q，用来衡量这2个分布的差异，通常用p表示真实分布，用q表示预测分布。

公式定义：

n为事件的所有可能性，如果两个分布完全相同,那么它们的相关熵为0。如果相对熵KL越大，说明它们之间的差异越大，反之相对熵KL越小，说明它们之间的差异越小。

交叉熵(Cross Entropy)：是对KL散度的一种变型，把KL散度log(p(x)/q(x))进行拆分，前面部分就是p的熵H(p)，后面就是交叉熵H(p,q)。

公式定义：

交叉熵可以用来计算学习模型分布与训练分布之间的差异，一般在机器学习中直接用交叉熵做损失函数，用于评估模型。

信息论是通信理论的基础，也是xx的基础，关于信息论的理论，等后面有时时间再做分享，本文重要研究信息熵的函数计算问题。

3.信息度量函数

philentropy包的函数，主要分为3种类别的函数，第一类是距离测量的函数，第二类是相关性分析，第三类是信息度量函数，本文重点介绍这些信息度量的函数。有关于距离测量函数和相关性分析函数，请参考文章R语言实现46种距离算法

我们来看一下，philentropy包里信息度量的函数：

H(): 香农熵, Shannon’s Entropy H(X)
JE() : 联合熵, Joint-Entropy H(X,Y)
CE() : 条件熵, Conditional-Entropy H(X|Y)
MI() : 互信息, Shannon’s Mutual Information I(X,Y)
KL() : KL散度, Kullback–Leibler Divergence
JSD() : JS散度，Jensen-Shannon Divergence
gJSD() : 通用JS散度，Generalized Jensen-Shannon Divergence

本文的系统环境为：

Win10 64bit
R: 3.4.2 x86_64-w64-mingw32

3.1

H()香农熵

H()函数，可用于快速计算任何给定概率向量的香农熵。

H()函数定义：

H (x, unit = "log2")

参数列表：

x, 概率向量
unit，对数化的单位，默认为log2

函数使用：

 1# 创建数据x
 2> x<-1:10;x
 3 [1]  1  2  3  4  5  6  7  8  9 10
 4> x1<-x/sum(x);x1
 5 [1] 0.01818182 0.03636364 0.05454545 0.07272727
 6 [5] 0.09090909 0.10909091 0.12727273 0.14545455
 7 [9] 0.16363636 0.18181818
 8
 9# 计算香农熵
10> H(px)
11[1] 3.103643

同样地，我们也可以用程序实现公式自己算一下。

1# 创建数据x
2> x<-1:10
3#计算x的概率密度px
4> px<-x/sum(x)  
5
6# 根据公式计算香农熵
7> -1*sum(px*log2(px))
8[1] 3.103643

我们动手的计算结果，用于H()函数的计算结果是一致的。

3.2

CE()条件熵

CE()函数，基于给定的联合概率向量P(X,Y)和概率向量P(Y)，根据公式 H(X|Y)= H(X,Y)-H(Y)计算香农的条件熵。

函数定义：

CE(xy, y, unit = "log2")

参数列表：

xy, 联合概率向量
y, 概率向量，必须是随机变量y的概率分布
unit，对数化的单位，默认为log2

函数使用：

1> x3<- 1:10/sum(1:10)
2> y3<- 30:40/sum(30:40)
3
4# 计算条件熵
5> CE(x3, y3)
6[1] -0.3498852

3.3

JE()联合熵

JE()函数，基于给定的联合概率向量P(X,Y)计算香农的联合熵H(X,Y)。

JE()函数定义：

JE (x, unit = "log2")

参数列表：

x, 联合概率向量
unit，对数化的单位，默认为log2

函数使用：

1# 创建数据x
2> x2 <- 1:100/sum(1:100)
3
4# 联合熵
5> JE(x2)
6[1] 6.372236

3.4

MI()互信息

MI()函数，根据给定联合概率向量P(X,Y)、概率向量P(X)和概率向量P(X)，按公式I(X,Y)= H(X)+ H(Y)-H(X,Y)计算。

函数定义：

MI(x, y, xy, unit = "log2")

参数列表：

x, 概率向量
x, 概率向量
xy, 联合概率向量
unit，对数化的单位，默认为log2

函数使用：

1# 创建数据集
2> x3 <- 1:10/sum(1:10)
3> y3<- 20:29/sum(20:29)
4> xy3 <- 1:10/sum(1:10)
5
6# 计算互信息
7> MI(x3, y3, xy3)
8[1] 3.311973

3.5

KL()散度

KL()函数，计算两个概率分布P和Q的Kullback-Leibler散度。
函数定义：

KL(x, test.na = TRUE, unit = "log2", est.prob = NULL)

参数列表：

x, 概率向量或数据框
test.na, 是否检查NA值
unit，对数化的单位，默认为log2
est.prob, 用计数向量估计概率的方法，默认值NULL。

函数使用：

 1# 创建数据集
 2> df4 <- rbind(x3,y3);df4
 3         [,1]       [,2]       [,3]       [,4]       [,5]      [,6]      [,7]      [,8]      [,9]
 4x3 0.01818182 0.03636364 0.05454545 0.07272727 0.09090909 0.1090909 0.1272727 0.1454545 0.1636364
 5y3 0.08163265 0.08571429 0.08979592 0.09387755 0.09795918 0.1020408 0.1061224 0.1102041 0.1142857
 6       [,10]
 7x3 0.1818182
 8y3 0.1183673
 9
10# 计算KL散度 
11> KL(df4, unit = "log2") # Default
12kullback-leibler 
13       0.1392629 
14> KL(df4, unit = "log10")
15kullback-leibler 
16       0.0419223 
17> KL(df4, unit = "log")
18kullback-leibler 
19      0.09652967

3.6

JSD()散度

JSD()函数，基于具有相等权重的Jensen-Shannon散度，计算距离矩阵或距离值。

公式定义：

函数定义：

JSD(x, test.na = TRUE, unit = "log2", est.prob = NULL)

参数列表：

x, 概率向量或数据框
test.na, 是否检查NA值
unit, 对数化的单位，默认为log2
est.prob, 用计数向量估计概率的方法，默认值NULL。

函数使用：

 1# 创建数据
 2> x5 <- 1:10
 3> y5 <- 20:29
 4> df5 <- rbind(x5,y5)
 5
 6# 计算JSD
 7> JSD(df5,unit='log2')
 8jensen-shannon 
 9      50.11323 
10> JSD(df5,unit='log')
11jensen-shannon 
12      34.73585 
13> JSD(df5,unit='log10')
14jensen-shannon 
15      15.08559 
16
17# 计算JSD，满足est.prob
18> JSD(df5, est.prob = "empirical")
19jensen-shannon 
20    0.03792749

3.7

gJSD()散度

gJSD()函数，计算概率矩阵的广义Jensen-Shannon散度。

公式定义：

函数定义：

gJSD(x, unit = "log2", weights = NULL)

参数列表：

x, 概率矩阵
unit, 对数化的单位，默认为log2
weights, 指定x中每个值的权重，默认值NULL。

函数使用：

1# 创建数据
2> Prob <- rbind(1:10/sum(1:10), 20:29/sum(20:29), 30:39/sum(30:39))
3
4# 计算gJSD
5> gJSD(Prob)
6[1] 0.023325

4.应用举例

在我们了解了熵的公式原理和使用方法后，我们就可以做一个案例来试一下。我们定义一个场景的目标：通过用户的看书行为，预测用户是否爱玩游戏。通过我们一步一步地推倒，我们计算出熵，条件熵，联合熵，互信息等指标。

第一步，创建数据集为2列，X列用户看书的类型，包括旅游(Tourism)、美食(Food)、IT技术(IT)，Y列用户是否喜欢打游戏，喜欢(Y)，不喜欢(N)。

X,Y
Tourism,Y
Food,N
IT,Y
Tourism,N
Tourism,N
IT,Y
Food,N
Tourism,Y

第二步，建立联合概率矩阵，分别计算H(X)，Y(X)。

计算过程

# 分别计算每种情况的概率
p(X=Tourism) = 2/8 + 2/8 = 0.5
p(X=Food) = 2/8 + 0/8 = 0.25
p(X=IT) = 0/8 + 2/8 = 0.25
p(Y=Y) = 4/8 = 0.5
p(Y=N) = 4/8 = 0.5

# 计算H(X)
H(X) = -∑p(xi)*log2(p(xi)) 
 = -p(X=Tourism)*log2(p(X=Tourism) ) -p(X=Food)*log2(p(X=Food) ) -p(X=IT)*log2(p(X=IT) ) 
 = -0.5*log(0.5) -0.25*log(0.25) - 0.25*log(0.25)
 = 1.5

# 计算H(Y)
H(Y) = -∑p(yi)*log2(p(yi)) 
 = -p(Y=Y)*log2(p(Y=Y)) -p(Y=N)*log2(p(Y=N))
 = -0.5*log(0.5) -0.5*log(0.5)
 = 1

第三步，计算每一项的条件熵，H(Y|X=Tourism),H(Y|X=Food),H(Y|X=IT)。

H(Y|X=Tourism) = -p(Y|X=Tourism)*log(p(Y|X=Tourism)) - p(N|X=Tourism)*log(p(N|X=Tourism))
 = -0.5*log(0.5) -0.5*log(0.5)
 = 1

H(Y|X=Food) = -p(Y|X=Food)*log(p(Y|X=Food)) -p(N|X=Food)*log(p(N|X=Food))
 = -0*log(0) -1*log(1)
 = 0

H(Y|X=IT) = -p(Y|X=IT)*log(p(Y|X=IT)) -p(N|X=IT)*log(p(N|X=IT))
 = -1*log(1) -0*log(0) 
 = 0

第四步，计算条件熵H(Y|X)

H(Y|X) = ∑p(xi)*H(Y|xi)
 = p(X=Tourism)*H(Y|X=Tourism) + p(X=Food)*H(Y|X=Food) + p(X=IT)*H(Y|X=IT)
 = 0.5*1 + 0.25*0 + 0.25*0
 = 0.5

第五步，计算联合熵H(X,Y)

H(X,Y) = −∑p(x,y)log(p(x,y))
 = H(X) + H(Y|X)
 = 1.5 + 0.5
 = 2

第六步，计算互信息I(X;Y)

I(X;Y) = H(Y) - H(Y|X)  = 1 - 0.5 = 0.5
= H(X) + H(Y) - H(X,Y) = 1.5 + 1 - 2 = 0.5

我们把上面的推到过程，用程序来实现一下。

 1# 创建数据集
 2> X<-c('Tourism','Food','IT','Tourism','Tourism','IT','Food','Tourism')
 3> Y<-c('Y','N','Y','N','N','Y','N','Y') 
 4> df<-cbind(X,Y);df
 5     X         Y  
 6[1,] "Tourism" "Y"
 7[2,] "Food"    "N"
 8[3,] "IT"      "Y"
 9[4,] "Tourism" "N"
10[5,] "Tourism" "N"
11[6,] "IT"      "Y"
12[7,] "Food"    "N"
13[8,] "Tourism" "Y
14

变型为频率矩阵

1> tf<-table(df[,1],df[,2]);tf
2
3          N Y
4  Food    2 0
5  IT      0 2
6  Tourism 2 2

计算概率矩阵

 1> pX<-margin.table(tf,1)/margin.table(tf);pX
 2Tourism    Food      IT 
 3   0.50    0.25    0.25 
 4> pY<-margin.table(tf,2)/margin.table(tf);pY
 5  Y   N 
 60.5 0.5 
 7> pXY<-prop.table(tf);pXY
 8           Y    N
 9Tourism 0.25 0.25
10Food    0.00 0.25
11IT      0.25 0.00

计算熵

 1> H(pX)
 2[1] 1.5
 3> H(pY)
 4[1] 1
 5
 6# 条件熵 
 7> CE(pX,pY)
 8[1] 0.5
 9
10# 联合熵 
11> JE(pXY)
12[1] 2
13
14# 互信息
15> MI(pX,pY,pXY)
16[1] 0.5

计算原理是复杂的，用R语言的程序实现却是很简单的，几行代码就搞定了。

总

结

本文只是对的信息论的初探，重点还是在信息度量方法的R语言实现。信息熵作为信息度量的基本方法，对各种主流的机器学习的算法都有支撑，是我们必须要掌握的知识。了解本质才能发挥数据科学的潜力，学习的路上不断积累和前进。

往期精彩：

用R语言实现密度聚类dbscan
R语言轻巧的时间包hms
R语言中文社区2018年终文章整理（作者篇）
R语言中文社区2018年终文章整理（类型篇）

公众号后台回复关键字即可学习

回复爬虫            爬虫三大案例实战
回复 Python       1小时破冰入门
回复数据挖掘     R语言入门及数据挖掘
回复人工智能     三个月入门人工智能
回复数据分析师  数据分析师成长之路
回复机器学习     机器学习的商业应用
回复数据科学     数据科学实战
回复常用算法常用数据挖掘算法

友情提醒：

今天上称前请确保周围环境的安全！！！

上班第一天，祝你有个好心情↓

你可能感兴趣的:(用R语言实现信息度量)

OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
直抒《紫罗兰永恒花园外传》雷姆的黑色童话
没看过《紫罗兰永恒花园》的我莫名的看完了《紫罗兰永恒花园外传》，又莫名的被故事中的姐妹之情狠狠地感动了的一把。感动何在：困苦中相依为命的姐妹二人被迫分离，用一个人的自由换取另一个人的幸福。之后，虽相隔不知几许依旧心心念念彼此牵挂。这种深深的姐妹情谊就是令我为之动容的所在。贝拉和泰勒分别影片开始，海天之间一个孩童凭栏眺望，手中拿着折旧的信纸。镜头一转，挑灯伏案的薇尔莉特正在打字机前奋笔疾书。这些片段
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
特殊的拜年飘雪的天堂
文/雪儿大年初一，家家户户没有了轰响的鞭炮声，大街上没有了人流涌动的喧闹，几乎看不到人影，变得冷冷清清。天刚亮不大会儿，村里的大喇叭响了起来：由于当前正值疾病高发期，流感流行的高峰期。同时，新型冠状病毒感染的肺炎进入第二波流行的上升期。为了自己和他人的健康安全着想，请大家尽量不要串门拜年，不要在街里走动。可以通过手机微信，视频，电话，信息拜年……今年的春节真是特别。禁止燃放鞭炮，烟花爆竹，禁止出村
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
有舍才有得 _清净_
为什么经常讲放下？放下就是让你要舍得、舍去。喜舍心就是把自己喜欢的，用慈悲心喜舍出去。这就锻炼了你们在人间，学会放下原本不舍得的东西或一些事物，学会舍出去，学会帮助别人，学会多付出。你今天付出了慈悲心、喜舍心，以后会得到更多的缘助力。缘助力是什么？——贵人缘啊。今天没有付出，不懂得付出，什么都只会想到自己，那你也得不到缘助力。慈悲喜舍就是用慈悲心去帮助别人，用喜舍心去付出，最后也会得到别人回报。别
log4j配置 yy爱yy
#log4j.rootLogger配置的是大于等于当前级别的日志信息的输出#log4j.rootLogger用法:（注意appenderName可以是一个或多个）#log4j.rootLogger=日志级别,appenderName1,appenderName2,....#log4j.appender.appenderName2定义的是日志的输出方式，有两种：一种是命令行输出或者叫控制台输出，另一
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found