silent狼

读书笔记：“集体智慧编程”之第八章：对数值进行预测（构建价格模型）

数值预测的含义

在上一章节，我们接触到的决策树，比较适合对数据的分类进行预测，以及我们之前学过的分类器也是如此。但是当我们对数值型结果进行预测的时候应该怎么办呢？

具体什么叫做对数值型结果进行预测首先需要明确一下。比如：我们要在拍卖行竞价购买一个笔记本电脑，这台笔记本电脑有一些参数：处理器的速度，RAM的容量，硬盘的大小，屏幕的分辨率以及其他因素。显然，我们最终对其的定价必然要考虑这些参数，而这些参数的重要性各不相同，比如硬盘大小与屏幕大小相比，可能大家都觉得屏幕大小更为重要。那么各个因素都影响着我们最终对该款笔记本的最终的定价，这个定价就是我们所说的对数值型结果进行预测。我们可以使用第五章研究过的优化技术，求出最佳的权重。书中提出：

贝叶斯分类器
决策树
支持向量机

都不是应对这种情况的最佳算法。本章将会研究如何应对这样的情况。

构建数据集

理解我们的要做什么之后，首先要做的就是数据集的问题，这次很数据集的来源很不一样，是我们自己构建的。
在我们构建数据集的时候，不得不注意这个数据集必须具有某些特征（也即是处理器速度、硬盘大小），而且这些特征最好比较复杂，使得价格比较难以预测。比如如果对电视机进行价格的预测，很显然屏幕越大，价格越高，那么这个预测实在是太简单了。
本书提出，构建的是一个葡萄酒价格的数据集。首先需要明确，酒的价格由两点决定，

等级
储藏的年代

此外，葡萄酒还有“峰值年”这样一种说法，简单说来不同等级的酒，都会到了一个年份，到了该年份酒的价格是最高的，而接近这个年份的时候价格会增加，过了这个年份价格会逐渐降低。
请看代码：

from random import random,randint
import math
#rating代表酒的等级，age代表酒的年代。
def wineprice(rating,age):
    #如果rating是代表酒的等级，同一等级的酒的峰值年是一样的。
    #所以每一个峰值年是针对同一类等级的酒而言
    peak_age=rating-50


    #根据等级来计算价格
    price=rating/2
    if age>peak_age:
        #经过“峰值年”之后，之后的5年，酒的品质会变差，价格降低
        price=price*(5-(age-peak_age))
    else:
        #价格在接近“峰值年”时，会增加到原值的五倍
        price=price*(5*(age+1)/peak_age)
    if price<0:price=0
    return price

执行代码，同一年等级的酒，不同的age:

print '(55,8):',wineprice(55,8)
print '(55,9):',wineprice(55,9)

结果：

>>> 
(55,8): 54
(55,9): 27
>>>

我们可以看到，对于等级55的酒来说，峰值年为5，所以对于两个过了峰值年的酒来说，第9年显然比第8年更便宜。

接着，我们来用代码产生葡萄酒价格的数据集，代码会随机产生200个普通酒的价格和年份，并且计算出其价格，然后随机加减20%，可以理解为是税收和价格的变动。
代码如下：

def winesetl():
    rows=[]
    for i in range(300):
        #随机产生年代和等级
        rating=random()*50+50
        age=random()*50


        #得到一个参考价格
        price=wineprice(rating,age)


        #增加“噪声”，也就是让酒的价格随机波动一下
        price*=(random()*0.4+0.8)#这个写法很高端


        #加入到数据集中
        rows.append({'input':(rating,age),'result':price})
    return rows

有了数据集之后，我们就研究如何对一瓶新的普通酒进行价格预测。虽然，我们在构建数据集的时候使用了一个函数来计算出价格，我们心里也知道这个价格也许是虚构的，但是，现在请将数据集里产生的价格认为是真实的，这样，我们才能对一瓶新的普通酒进行价格预测，而不是直接用之前的函数wineprice（）算出价格。

k-最近邻算法

这个算法思想来自于一个简单的事实：我们会找到和新普通酒相似的酒，然后看看这个相似酒的价格，再推算我们新酒的价格。所以，该算法会寻找一组与新普通酒相似的酒，求出这些价格的均值，做出价格预测。这样方法就是k-nearest nerghbors，kNNE：k-最近邻算法。
上面一组，就代表了几个与新酒相似度的酒，这也是k的含义。那么到底选几个呢？这是值得探究的问题，显然选少了或者选多了都不是不行的。我们在实际运用时可以多试试不同的k值，也许会得到更为准确的结果。
如何确定两瓶酒相似呢？这里我们使用了应该是比较简单的算法：欧几里得算法

代码如下：

#用欧几里得来计算两瓶酒的相似度
def euclidean(v1,v2):
    d=0.0
    for i in range(len(v1)):
        d+=(v1[i]-v2[i])**2
    return math.sqrt(d)

执行代码：

rows=winesetl()
print rows[0]
print rows[1]
print euclidean(rows[0]['input'],rows[1]['input'])

结果：

>>> 
{'input': (74.43448365296825, 14.861090558583973), 'result': 128.835924597139}
{'input': (75.15124316082637, 20.12510819860881), 'result': 152.09186781602241}
5.31259126101
>>>

有了相似度计算公式之后，我们很容易就能够计算出两瓶酒的相似度了，下面的代码是用于计算需要预测的新酒和数据集中的每一个的酒的距离（也就是相似度），算出来之后，我们才能排序，抽取出其中k个最相似度。注意，该函数的计算量比较大。

代码如下：

#得到需要预测的新酒与数据集中所有酒的相似度
def getdistances(data,vec1):
    distancelist=[]
    for i in range(len(data)):
        vec2=data[i]['input']
        distancelist.append((euclidean(vec1,vec2),i))
        distancelist.sort()
    return distancelist

拿到了新酒与所有酒的相似度，我们取出最相似的k个，算出这个k个酒的平均值，我们就得到了对新酒预测的价格：

def knnestimate(data,vec1,k=5):
    #得到排序过后的相似度排序
    dlist=getdistances(data,vec1)
    avg=0.0


    #对前k项结果求平均值
    for i in range(k):
        idx=dlist[i][1]#这里地方之所以是1的原因是取出在data列表里的序号
        avg+=data[idx]['result']
    avg=avg/k
    return avg

执行代码：

rows=winesetl()
print knnestimate(rows,(95.0,3.0))

结果：

>>> 
25.3277961848
>>>

上面的结果是使用了默认的k为5，那么不同的k，产生的结果肯定也是不一样的。

最相近的酒应该占有最大的比重

我们发现一个问题，就是当我们的k为5的时候，相似的五瓶酒在求出最后新酒的平均值的时候占的比重是一样的，我们需要，越相近的酒占的比重应该更大，这样结果才准确。

所以，我们要将得到相似度转化为权重。书中介绍了集中方式来完成这个功能：

inverse function

书中对这个词的翻译应该有错，书上想将的是y=1/x的这样的函数，却翻译为了反函数。

使用inverse function就可以完成将距离转换为权重这个过程。因为用欧几里得算出来的是两个点之间的距离，如果距离越大，那么其倒数就越小，如果距离越近，那么其倒数越大。这个方法有一个特点，就是如果非常近的话，那么占的权重非常之大，以至于会忽略掉相距稍稍有一点远的邻居，而且相距有点点远，但是它所在占的比重会下降的非常快。这到底是好事还是坏事，要看具体的项目有什么要求。
代码如下：

#使用倒数来将距离转为权重
#const的存在是为了防止两点非常近，而导致了其距离非常近，倒数特别大，大到其他数都不起作用
def inverseweight(dist,num=1.0,const=0.1):
    return num/(dist+const)

减法函数

我们也可以使用减法函数来完成将距离转化为权重。思路也非常简单，用一个固定的数去减去距离，如果距离越大，那么返回数就越小，如果距离大过某个程度，那么就返回0了。这个办法的坏处就是，当大多数邻居的距离都比较大的时候，如果都返回了0，就会导致数据不足，就没办法预测了。
代码如下：

#用减法函数将距离转化为权重
def subtractweight(dist,const=1.0):
    if dist>const:
        return 0
    else:
        return const-dist

高斯函数

高斯函数也是将距离转化为权重的方法。思路涉及原理，这就不讲解了，说白了也是带入公式而已。但是高斯函数克服了上述缺点，比如权重是始终不会跌至0的。看下图，高斯函数的图形就会明白了，x轴为距离，y轴为比重：
代码如下：

#使用高斯函数将距离转化为权重
def gaussian(dist,sigma=10.0):
    return math.e**(-dist**2/(2*sigma**2))

测试三个函数的执行代码:

print inverseweight(0.1)
print subtractweight(0.1)
print gaussian(0.1)

结果：

>>> 
5.0
0.9
0.99995000125
>>>

加权kNN

实际上没什么复杂了，和之前推荐的内容类似。刚刚我们的kNN求的是平均，这次我们就是要求加权平均。也就是通过每一项的值乘以权重，然后将结果累加而得到的。总和再除以权重之和即可。
代码：

def weightedknn(data,vec1,k=5,weightf=gaussian):
    #得到距离值
    dlist=getdistances(data,vec1)
    avg=0.0
    totalweight=0.0


    #得到加权平均值
    for i in range(k):
        dist=dlist[i][0]
        idx=dlist[i][1]
        weight=weightf(dist)
        avg+=weight*data[idx]['result']
        totalweight+=weight
    avg=avg/totalweight
    return avg

执行代码:

rows=winesetl()
print weightedknn(rows,(99.0,5.0))

结果:

>>> 
32.3515253922
>>>

交叉验证

英文为：Cross-validation。这项技术将数据集拆分为训练集和测试集（都带有正确的答案），然后我们用训练集去训练模型，该训练集应该是带有正确答案的，然后我们再将测试集的输入传入算法，得到输出。将输出与正确的答案进行比对，看输出与正确的答案差距有多少。这里是我个人的理解，书中的描述我认为是有点错误哈。拆分一般都9比1的方式来拆分，显然训练集需要多一些。
这样有什么好处？就是验证我们的算法是否能够准确预测，而且我们可以对比使用不同的参数产生的结果，比如k的数量，比如到底是使用减法函数还是高斯函数来做距离转化为权重。
但是，我们这里并不是拿训练集去算法模型，而且用训练集去产生测试集中的一个预测的结果，比如knnestimate(data,vec1,k=5) 函数，其中的data传入的就是我们的训练集，vec1就是测试集中的一个。这是这一次算法的需要，但是我认为本质上还是没变的。
首先是把一个数据集划分为2个数据集，一个训练集和一个测试集，需要95%的训练集，5%的测试集。
代码如下：

#将数据拆分为训练集和测试集
def dividedata(data,test=0.05):
    trainset=[]
    testset=[]
    for row in data:
        if random()

我们去测试算法，会得到产生对算法预测的误差。注意，本函数中，我们统计了是差值的平方，而不是单纯的差值。两者各有好处。 
  
 如果我们想突显偶尔出现一次很大的差距，使用差值的平方 
  
 如果我们关心每次与正确值的差距，而偶尔有一次很大的差距也无所谓，那么使用差值绝对值相加 
  
 测试算法的代码： 
  
 
  #测试算法的误差
#而是直接将训练集传入knnestimate函数，作为产生一个预测结果的基础，然后算出预测结果和真实结果之间的差距
def testalgorithm(algf,trainset,testset):
    error=0.0
    for row in testset:#这里只是拿testset来做个循环
        guess=algf(trainset,row['input'])
        error+=(row['result']-guess)**2#对数字求平方这样会突显其差距。
    return error/len(testset) 
  
 交叉测试的控制代码，从代码中，我们看出来了，并不是只做了一次拆分数据集和测试数据集代码的工作，我们是重复了100次，然后再取平均值。 
  
 代码如下： 
  
 
  def crossvalidate(algf,data,trials=100,test=0.05):
    error=0.0
    for i in range(trials):
        trainset,testset=dividedata(data,test)
        error+=testalgorithm(algf,trainset,testset)
    return error/trials 
  
 多执行几次代码，就可以得到如下结果： 
  
 
  >>> ================================ RESTART ================================
>>> 
k=3时算法的误差： 534.299703506
k=3时算法的误差： 422.359768538
k=3时算法的误差： 460.892823922
k=3时算法的误差： 561.394791352
k=3时算法的误差： 438.566549999
>>> ================================ RESTART ================================
>>> 
k=5时算法的误差： 356.420358448
k=5时算法的误差： 371.83561953
k=5时算法的误差： 299.178929108
k=5时算法的误差： 391.072240086
k=5时算法的误差： 352.400721703
>>> 我们发现k=5时，误差要低很多，所以觉得k=5不错。 
  
 
  
 
  变量的取值范围 
   
   
 
   下面我们讨论另一个问题，那就是不同变量的取值范围，我们知道，随机产生的年代和等级的代码为： 
  
 rating=random()*50+50 
  
 age=random()*50 
  
 年代和等级都是一个是50到100，另一个是0到50，当我们利用这些数据算出两瓶酒的差距，也就是用欧几里得来算酒的相似度的时候，觉得不会有什么不妥。但是，下面当我们再加入一个新的变量，就是这个酒的毫升数。一般来说，葡萄酒的毫升数大约是330到1500。那么当我们再次计算酒的相似度的时候，就会由于毫升数的数值差距非常大，对最后的结果产生了更大的影响，使得其他变量发挥作用的能力小的多。如下图所示： 
  
  
  
 
  
 实际上，左边的连线，两点的距离更远，右边的连线两边的距离更近，从数值上来看，左边的才30,右边的都已经180了。显然，这会造成错误。 
  
 再来一种情况，比如说，我们在数据集中引入了完全与价格无关的变量，比如安放葡萄酒的通道号。当这个变量一起加入时，虽然实际上它不会对算法预测价格产生影响，但是算法还是认为这个变量会对价格带来影响，这样的话，算法预测的准确性就会大大降低。 
  
 那么我们如何应对这样在数值上差距很大和变量与价格预测无关的情况呢？ 
  
 首先，让我们来生成本次要研究的特殊数据集。也就是多加个两个变量，酒的毫升数和酒的通道号。 
  
 代码: 
  
 
  def wineset2():
    rows=[]
    for i in range(300):
        #随机产生年代和等级
        rating=random()*50+50
        age=random()*50
        aisle=float(randint(1,20))#通道号
        bottlesize=[375.0,750.0,1500.0,3000.0][randint(0,3)]#这个bottlesize的值会从第一个列表元素中选一个出来作为其值。
        #得到一个参考价格
        price=wineprice(rating,age)
        price*=(bottlesize/750)


        #增加“噪声”，也就是让酒的价格随机波动一下
        price*=(random()*0.9+0.2)#这个写法很高端


        #加入到数据集中
        rows.append({'input':(rating,age,aisle,bottlesize),'result':price})
    return rows 
  
 
  
 执行代码： 
  
 
  rows=wineset2()
print '加入酒瓶大小和通道号后的误差：',crossvalidate(knnestimate,rows) 
  结果： 
  
  
  >>> 
加入酒瓶大小和通道号后的误差： 10510.9359299
>>> 可以看出，误差非常大，这就是因为此时算法还不知道如何应对酒的毫升数的数值非常大的时候，该怎么办？和通道号这种不会对价格产生影响的变量，又该怎么办？ 
  
 
  
 
  
 
  应对策略：按比例缩放 也可以理解为归一化处理，我们不再使用变量实际的值去计算相似度，而是按比例缩放之后的数值。比如，我们把酒瓶的大小缩小10倍。如下图所示： 
  
  
  
 从上图我们看出，可以成功解决酒的毫升数天生数值比较大的问题。 
  
 那么对于通道号，我们能不能直接缩小为0倍呢？我们缩小了0倍试了一下： 
  
  
  
 可以看出，有效果，因为现在点之间的距离全靠y坐标来决定了。 
  
 下面写一个函数来完成按比例缩放 
  
 代码： 
  
 
  def rescale(data,scale):
    scaleddata=[]
    for row in data:
        scaled=[scale[i]*row['input'][i] for i in range(len(scale))]#把里面每一次取出乘以相应的比例
        scaleddata.append({'input':scaled,'result':row['result']})
    return scaleddata 
  
 执行代码： 
  
 
  rows=wineset2()
rdata=rescale(rows,[10,10,0,0.1])
print '缩放比例后的误差：',crossvalidate(knnestimate,rdata) 
  
 结果： 
  
 
  >>> 
缩放比例后的误差： 4737.15168622
>>> 我们明显可以看出经过缩放之后，误差值明显降低了不少。所以对于这个问题，我们已经有了解决方案。 
  
 
  
 
  
 
  缩放多少合适呢？ 本次是我们自己设计的数据，我我们当然知道缩放多少比较合适，但是当我们缩放的数据不是我们设计时候，我们就不会知道缩放多少合适。我们还不知道这个变量是否能够缩放为0,也就是这个变量对价格有没有影响，我们完全不知道啊。 
  
 对此，我们使用第五章学习过的优化算法来解决这个问题。优化过程需要我们提供的主要是3个参数： 
  
 
   
   变量的个数 
   变量划分的范围 
   成本函数 
   对于我们的例子，变量的个数是4个：等级、年代、通道号、毫升数的缩放比例大小 
  
 变量划分的范围是好多，我们可以定，树上定为0到20.也就是说每一个变量的缩放比例的范围都是0到20。 
  
 成本函数，很明显就是我们的交叉验证函数。 
  
 我们先来封装一个函数： 
  
 
  #封装一个成本函数。这是使用优化算法需要使用到的成本函数。
def createcostfuntion(algf,data):
    def costf(scale):
        sdata=rescale(data,scale)
        return crossvalidate(algf,sdata)
    return costf使用以下代码： 
  
 
  import MyOptimization
data=wineset2()
costf=createcostfuntion(knnestimate,data)
weightdomain=[(0,20)]*4
print MyOptimization.annealingoptimize(weightdomain,costf,step=2)执行结果，该函数执行的时间比较长： 
  
 
  
 
  
 我们可以看出，经过优化函数可以得到每一个变量缩放比例，更为关键的是，我们看出哪些变量是完全没有用的，也就是缩放比例为0的那种。我们也能够看出那么变量是重要的，显然是那种缩放比例更大的变量。如果知道哪些变量缩放更大，我们就明白了，相对应的变量更为重要。 
  
 
  
 
  
 
  不对称分布问题 
   
   
 
   请假设，如果我们最初生成的数组集来自真实的数据，并且，一部分人购买的酒是按正常价格购买，另一个人购买的酒是从折扣店按50%的价格购买，这样的话，就意味着同一款酒，价格相差50%。但是在处理数据的时候并不知道这个信息，但是数据集里的数值却反映出了类似的规律。这样，我们估算的价格肯定就不准确了。所以，我认为在此处所谓的不对称分布：是指数据集的不对称，也就是给我们作参考的酒的价格不是对称的。当我们以这个数据集里的价格来用kNN算法或者是加权kNN算法来预测酒的价格的时候，我们就相当于取计算这个平均值是涉及了刚刚的那两个群组，最后估算出来的价格也应该有25%的折扣。 
  
 估计概率密度 
  
 如何应对这样的情况呢？在此之前，我们只是去取酒的邻居再算出其平均值，也就只是预测了其价格。现在，我们要知道这个酒的价格的区间是多少。也就是说，对于同一瓶酒：99%和20年，我们需要一个函数告诉我们，其价格位于40到80之间的概念是50%，价格介于80到100美元之间的概念也是50%。 
  
 为此，我们需要一个函数完成在这个功能，如下所示： 
  
 
  #给定一个价格区间，判断相应的酒在这个价格区间的概率
#为了更标准，也就是使用权重的方式
#在给定范围内的权重值，除以邻域内的所有权重值。
def probguess(data,vec1,low,high,k=5,weightf=gaussian):
    dlist=getdistances(data,vec1)
    nweight=0.0
    tweight=0.0


    for i in range(k):
        dist=dlist[i][0]
        idx=dlist[i][1]
        weight=weightf(dist)
        v=data[idx]['result']


        #当前数据点位于指定范围内吗？如果是比例加1
        if v>=low and v<=high:
            nweight+=weight
        tweight+=weight
    if tweight==0:return 0
    
    return nweight/tweight#告诉了我们比例是多少 
  
 执行代码： 
  
 
  data=wineset3()
print '在40和80之间的概率：',probguess(data,[99,20],40,80)
print '在80和120之间的概率：',probguess(data,[99,20],80,120)
print '在120和1000之间的概率：',probguess(data,[99,20],120,1000)
print '在30和120之间的概率：',probguess(data,[99,20],30,120)
print '在0和100000之间的概率：',probguess(data,[99,20],0,100000) 
  
 结果： 
  
 
  >>>
在40和80之间的概率： 0.195233597431
在80和120之间的概率： 0.385248220468
在120和1000之间的概率： 0.419518182101
在30和120之间的概率： 0.580481817899
在0和100000之间的概率： 1.0
>>>  
  
 上面的函数产生的结果确实非常具有参考价值，但是，如果总是让我们去猜，一个一个去试在哪个区间，再算出概率，必然呢也是一件非常 
  
 麻烦的事，所以我们需要一种能够获得整体概率分布的一种办法。 
  
 
  
 
  构建概率分布的图像 
   
   
 
   
  为了避免乱猜，我们使用一个图形化表达方式来绘制概率密度，这里有一个用于数学图形绘制的优秀软件：matplotlib。找到一个不错的下载python的windows函数库的网站。 
  注意，除了下载matplotlib,以外还要下载几个函数库才行。 
  
  
  累积概率 我们先构建之间概率图像，叫做：积累概率：显示结果小于给定值的概率分布的情况。我们从0开始，一个一个试，一直给定到概率为1.比如给定1000的时候概率为1了，表示价格0到1000的概率为1，那么也就知道这个酒的价格就是0到1000. 
  
 具体的书写也非常简单，只需要与刚刚的probguess函数配合使用即可，代码如下所示： 
  
 
  from pylab import *
def cumulativegraph(data,vec1,high,k=5,weightf=gaussian):
    t1=arange(0.0,high,0.1)#这里的arange()是定义一个数组，三个参数分别对应start, end, step
    cprob=array([probguess(data,vec1,0,v,k,weightf)for v in t1])
    plot(t1,cprob)#这个应该是t1是x坐标，cprob是y坐标
    show()
 
  
 执行代码： 
  
 
  data=wineset3()
cumulativegraph(data,(1,1),200) 
  
 结果如图所示： 
  
  
  
 
  
 
  
 
  
 我们可以看到，在横坐标为0处的价格概率为0.24，说明有24%的价格为0。其次，可以看出在48处概率明显上升了，在98处概率达到1。这说明预测的价格的区间为0到98。我们也可以看出，比如区间在48到100的概率为0.74。仔细分析根据这幅图，我们可以得到更多的，价格区间的概率。 
  
 
  
 
  价格概率分布 
   
   
 
   虽然这种方法比较有效，但是还是有点麻烦是吧，下面我们再说一种直观一点的办法：绘制每一个价格的概率。一种非常有技巧性的做法是：假设每一个价位点的概率都等于其周边概率的一个加权平均。实际做法就是：构造一个从0到high的值域，然后又计算了值域范围内的每一个数据点的概率值，为了防止出现锯齿，因此函数又对数组做了循环遍历，计算相邻概率值的方法来对数组进行平滑处理。因此每一个数据点的概率值都是邻近概率的高斯加权和。 
  
 代码如下： 
  
 
  #ss表示平滑程度
def probabilitygraph(data,vec1,high,k=5,weightf=gaussian,ss=5.0):
    #首先建立价格范围，作为x轴
    t1=arange(0.0,high,0.1)


    #得到整个值域范围内的所有概率,注意范围只是0.1
    probs=[probguess(data,vec1,v,v+0.1,k,weightf) for v in t1]


    #通过加上近邻概率的高斯计算结果，做平滑处理
    smoothed=[]
    for i in range(len(probs)):
        sv=0.0
        for j in range(0,len(probs)):
            dist=abs(i-j)*0.1
            weight=gaussian(dist,sigma=ss)#距离越近，占的权重越大
            sv+=weight*probs[j]
        smoothed.append(sv)
    smoothed=array(smoothed)
    plot(t1,smoothed)
    show() 
  
 
  
 执行代码： 
  
 
  data=wineset3()
probabilitygraph(data,(95,8),150) 
  
 结果： 
  
  
  
 如上图所示，虽然有一点点，不那么准确，也就是不符合对于同一物品，价格相差一半。但是大概我们还是看的出，价格的概率坐落于两个区间，并且两个区间的价格大致上相差一半。符合我们设定的数据集，但是可能数据集的数量太少。不是特别标准。 
  
 有了上图，我们就可以更清楚的价格的坐落是有两个区间的，这对我们分析数据带来了一些启示。 
  
 
  
 
  总结 
   
   
 
   主要是使用了k-最近邻算法，对该算法请注意： 
  
 
   
   计算量大，因为要算每两点的距离 
   优化可以解决权重值问题，但是非常费时间 
   可以将新数据加入到数据集，并无需开销，因为我们知道权重 
   数据集中还有无法度量的元素的时候，我们可以建立概率函数。 
   
  
 
  对项目的启示 
   
   
 
   暂时没有，因为我现在的项目和数值的关系不是特别大。 
  
 
  
  
  代码 
   
   # -*- coding: cp936 -*-
from random import random,randint
import math
#rating代表酒的等级，age代表酒的年代。
def wineprice(rating,age):
    #如果rating是代表酒的等级，同一等级的酒的峰值年是一样的。
    #所以每一个峰值年是针对同一类等级的酒而言
    peak_age=rating-50

    #根据等级来计算价格
    price=rating/2
    if age>peak_age:
        #经过“峰值年”之后，之后的5年，酒的品质会变差，价格降低
        price=price*(5-(age-peak_age))
    else:
        #价格在接近“峰值年”时，会增加到原值的五倍
        price=price*(5*(age+1)/peak_age)
    if price<0:price=0
    return price
#模拟假设有一些酒是从折扣店，按照50%的价格购买的
#所以，我们需要将某些酒的价格降低一半
def wineset3():
    rows=wineset1()
    for row in rows:
        if random<0.5:
            #酒是从折扣店购买来的
            row['result']*=0.5
    return rows
            
def wineset2():
    rows=[]
    for i in range(300):
        #随机产生年代和等级
        rating=random()*50+50
        age=random()*50
        aisle=float(randint(1,20))#通道号
        bottlesize=[375.0,750.0,1500.0,3000.0][randint(0,3)]#这个bottlesize的值会从第一个列表元素中选一个出来作为其值。
        #得到一个参考价格
        price=wineprice(rating,age)
        price*=(bottlesize/750)

        #增加“噪声”，也就是让酒的价格随机波动一下
        price*=(random()*0.9+0.2)#这个写法很高端

        #加入到数据集中
        rows.append({'input':(rating,age,aisle,bottlesize),'result':price})
    return rows

def wineset1():
    rows=[]
    for i in range(300):
        #随机产生年代和等级
        rating=random()*50+50
        age=random()*50

        #得到一个参考价格
        price=wineprice(rating,age)

        #增加“噪声”，也就是让酒的价格随机波动一下
        price*=(random()*0.4+0.8)#这个写法很高端

        #加入到数据集中
        rows.append({'input':(rating,age),'result':price})
    return rows

#用欧几里得来计算两瓶酒的相似度
def euclidean(v1,v2):
    d=0.0
    for i in range(len(v1)):
        d+=(v1[i]-v2[i])**2
    return math.sqrt(d)
#得到需要预测的新酒与数据集中所有酒的相似度
def getdistances(data,vec1):
    distancelist=[]
    for i in range(len(data)):
        vec2=data[i]['input']
        distancelist.append((euclidean(vec1,vec2),i))
        distancelist.sort()
    return distancelist

def knnestimate(data,vec1,k=5):
    #得到排序过后的相似度排序
    dlist=getdistances(data,vec1)
    avg=0.0

    #对前k项结果求平均值
    for i in range(k):
        idx=dlist[i][1]#这里地方之所以是1的原因是取出在data列表里的序号
        avg+=data[idx]['result']
    avg=avg/k
    return avg

#使用倒数来将距离转为权重
#const的存在是为了防止两点非常近，而导致了其距离非常近，倒数特别大，大到其他数都不起作用
def inverseweight(dist,num=1.0,const=0.1):
    return num/(dist+const)

#用减法函数将距离转化为权重
def subtractweight(dist,const=1.0):
    if dist>const:
        return 0
    else:
        return const-dist
    

#使用高斯函数将距离转化为权重
def gaussian(dist,sigma=10.0):
    return math.e**(-dist**2/(2*sigma**2))


def weightedknn(data,vec1,k=3,weightf=gaussian):
    #得到距离值
    dlist=getdistances(data,vec1)
    avg=0.0
    totalweight=0.0

    #得到加权平均值
    for i in range(k):
        dist=dlist[i][0]
        idx=dlist[i][1]
        weight=weightf(dist)
        avg+=weight*data[idx]['result']
        totalweight+=weight
    avg=avg/totalweight
    return avg

#将数据拆分为训练集和测试集
def dividedata(data,test=0.05):
    trainset=[]
    testset=[]
    for row in data:
        if random()=low and v<=high:
            nweight+=weight
        tweight+=weight
    if tweight==0:return 0
    
    return nweight/tweight#告诉了我们比例是多少
from pylab import *
def cumulativegraph(data,vec1,high,k=5,weightf=gaussian):
    t1=arange(0.0,high,0.1)#这里的arange()是定义一个数组，三个参数分别对应start, end, step
    cprob=array([probguess(data,vec1,0,v,k,weightf)for v in t1])
    plot(t1,cprob)#这个应该是t1是x坐标，cprob是y坐标
    show()
    
#ss表示平滑程度
def probabilitygraph(data,vec1,high,k=5,weightf=gaussian,ss=5.0):
    #首先建立价格范围，作为x轴
    t1=arange(0.0,high,0.1)

    #得到整个值域范围内的所有概率,注意范围只是0.1
    probs=[probguess(data,vec1,v,v+0.1,k,weightf) for v in t1]

    #通过加上近邻概率的高斯计算结果，做平滑处理
    smoothed=[]
    for i in range(len(probs)):
        sv=0.0
        for j in range(0,len(probs)):
            dist=abs(i-j)*0.1
            weight=gaussian(dist,sigma=ss)#距离越近，占的权重越大
            sv+=weight*probs[j]
        smoothed.append(sv)
    smoothed=array(smoothed)
    plot(t1,smoothed)
    show()

data=wineset3()
probabilitygraph(data,(95,8),150)
 
   
 代码已经上传至网盘： 
   
  
    MyNumPredict.py 
   
 
   
  
    还使用了之前的代码：MyOptimization.py和数据集：schedule.txt

Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）青云交大数据新视界 Java 大视界 java 大数据机器学习多模态融合智能安防智能客服数据处理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
1-5 Python 入门之运算符的使用 Sa_sa_ki_Haise python
第1关：算术、比较、赋值运算符100任务要求参考答案评论201任务描述相关知识算术运算符比较(关系)运算符赋值运算符编程要求测试说明任务描述在编程时，我们常常需要对数值或对象进行算术、比较运算和赋值运算，以此来实现我们的功能需求。本关介绍Python中的一些基本运算符，并要求对给定的苹果和梨的数量进行算术运算、比较、赋值运算，然后输出相应的结果。相关知识要实现上述功能，需要用到Python中的各种
最小生成树C He11o__Wor1d424 c语言算法图论
最小生成树是所有节点的最小连通子图，即：以最小的成本（边的权值）将图中所有节点链接到一起。图中有n个节点，那么一定可以用n-1条边将所有节点连接到一起。Primprim算法是从节点的角度采用贪心的策略每次寻找距离最小生成树最近的节点并加入到最小生成树中。prim算法核心就是三步：第一步，选距离生成树最近节点第二步，最近节点加入生成树第三步，更新非生成树节点到生成树的距离（即更新minDist数组）
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
rabbitmq + minio +python 上传文件伶星37 rabbitmq python ruby
功能实现RabbitMq接收hello里面传来的消息根据消息在MobileFile里面新建文件新建文件上传到miniopython新建文件importospath='./MobileFile'file_path=os.path.join(path,"new_file.txt")withopen(file_path,"w")asfile:pass转换成函数格式importosdefcreatefil
vscode python 入门教程(二) vscode使用gti 管理代码 hamish-wu vscode ide 编辑器
vscode代码管理需要用管道git的命令，这点和idea的代码管理区别比较大。作为java开发需要自己熟悉适应一下。一、GitHub新建一个仓库过程略二、本地git项目初始化gitinitvscode中可以看到文件状态gitstatus使用gitremote命令吧本地git仓库和远程git仓库链接起来[email protected]提交代码gitcommit-m"评论
代码随想录算法训练营Day19| LeetCode 77 组合、216 组合总和 III、17 电话号码的字母组合今天也要早睡早起代码随想录算法训练营跟练算法 leetcode c++数据结构递归回溯
理论基础回溯的本质是穷举，也就是暴力求解，它是递归的一部分。所有回溯法解决的问题都可以抽象为树形结构，因为回溯法解决的都是在集合中递归查找子集，集合的大小构成了树的宽度，递归的深度就构成了树的深度（cr.代码随想录）。应用回溯一般被用于以下几种问题（cr.代码随想录）的求解中：组合问题：N个数里面按一定规则找出k个数的集合切割问题：一个字符串按一定规则有几种切割方式子集问题：一个N个数的集合里有多
Python进阶之-加密库cryptography使用详解夏天Aileft Python python 网络加密
✨前言cryptography库是一个强大的Python加密库，提供了对加密算法和协议的高层和低层访问。它是用来实现数据加密、签名、密钥管理等功能的。以下是一些常见用法的详解，帮助你理解如何使用这个库。✨安装首先，你需要确保安装了cryptography库：pipinstallcryptography✨1.对称加密对称加密是指加密和解密使用相同的密钥。Fernet是cryptography库中提供
python列表添加元素的三种方法定义集合数据对象_python 学习第三天可迭代对象（列表，字典，元组和集合）... weixin_39852491
列表，字典，元组和集合列表list列表是由一系列特定元素组成的，元素和元素之间没有任何关联关系，但他们之间有先后顺序关系列表是一种容器列表是序列的一种列表是可以被改变的序列Python中的序列类型简介（sequence）字符串（str）列表（list）元组（tuple）字节串（bytes）字节数组（bytearray）创建空列表的字面值L=[]#L绑定空列表创建非空列表：L=[1,’two’,3,
python~集合详解鱼跃龙 python python集合详解 set集合
集合的基本操作首先需要明确的是：集合(set)是一个无序的不重复元素序列，多用来进行排重；不支持切片和索引取值！1.创建集合>>>a={1,2,4,4}>>>a{1,2,4}>>>type(a)**创建空集合时需要注意：不能直接用大括号，只能用set()；否则创建的是一个字典>>>b=set()>>>type(b)>>>c={}>>>type(c)2.添加元素add()方法是将要添加的元素作为一个
Python密码学：cryptography库零度° python python 密码学
在数字时代，确保数据的安全性和隐私至关重要。Python中的cryptography库是一个全面的包，为Python开发者提供了密码学原语和配方。它支持高级配方和常见密码学算法的低级接口。cryptography库概述cryptography库旨在易于使用且默认安全。它包括各种密码学操作的高级和低级API，如：对称加密非对称加密哈希函数消息认证码（MAC）数字签名密钥管理cryptography库
Python---frozenset集合爱听雨声的北方汉快快乐乐学Python Python
frozenset是set的不可变版本，因此set集合中所有能改变集合本身的方法（如add、remove、discard、xxx_update等），frozenset都不支持；set集合中不改变集合本身的方法，fronzenset都支持。frozenset的作用主要有以下两点：1、当集合元素不需要改变时，使用frozenset代替set更安全。2、当某些API需要不可变对象时，必须用frozens
(python)保障信息安全的加密库-cryptography Marst·Zhang 基础知识实用工具 python
前言cryptography是一个广泛使用的Python加密库，提供了各种加密、哈希和签名算法的实现。它支持多种加密算法，如AES、RSA、ECC等，以及哈希函数（如SHA-256、SHA-384等）和数字签名算法(如DSA、ECDSA等).目录常见用途密码学函数主要功能优点缺点总结常见用途数据加密使用对称加密算法（如AES）对数据进行加密，确保数据在传输或存储过程中的机密性。数字签名生成和验证数
Python if-else对缩进的要求宇寒风暖 python编程 python 开发语言学习笔记
在Python中，缩进是语法的一部分，用于表示代码块的层次结构。if-else语句的代码块必须通过缩进来定义，缩进不正确会导致语法错误或逻辑错误。1.缩进的基本规则1.1缩进的作用缩进用于表示代码块的层次结构。同一代码块中的语句必须具有相同的缩进级别。缩进通常使用4个空格，这是Python官方推荐的风格。1.2示例x=10ifx>5:print("x大于5")#缩进4个空格print("这是if代
一文弄懂 Python assert 断言宇寒风暖 python编程 python 开发语言学习笔记
在Python中，assert是一种用于调试的语句，用于检查某个条件是否为True。如果条件为False，assert会抛出AssertionError异常，并可选地输出错误信息。assert通常用于在开发阶段验证程序的假设条件，确保代码的正确性。1.assert的基本语法1.1语法assertcondition,messagecondition：需要检查的条件表达式。message：可选参数，当
开源项目常见问题解决方案——cryptography 周屹隽
开源项目常见问题解决方案——cryptographycryptographycryptographyisapackagedesignedtoexposecryptographicprimitivesandrecipestoPythondevelopers.项目地址:https://gitcode.com/gh_mirrors/cr/cryptography项目基础介绍cryptography是一个
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
python 利用pandas实现从CSV导出并格式化后写入.jsonl文件风_流沙 python工具备忘录 python pandas 开发语言
你可以使用pandas库来读取CSV文件，然后通过一些格式化操作将数据转换为JSONL格式并写入文件。JSONL（JSONLines）格式是一种每行一个JSON对象的文件格式。下面是一个示例，演示了如何使用pandas读取CSV文件，处理数据并将其导出到JSONL文件中：示例代码：importpandasaspdimportjson#读取CSV文件df=pd.read_csv('data.csv'
R.E.D.算法：革新文本分类的半监督学习新范式真智AI 算法 r语言分类人工智能学习
随着大型语言模型（LLMs）在解决问题方面的应用进入新时代，只有少数问题仍然存在不尽如人意的解决方案。大多数分类问题（在概念验证层面）可以通过良好的提示工程技术和自适应的上下文学习（ICL）示例，利用LLMs以70-90%的精确度/F1分数来解决。当您希望持续实现高于此水平的性能时——当提示工程不再足够时，会发生什么？分类难题文本分类是监督学习中最古老且最易理解的示例之一。鉴于这一前提，构建能够处
Python文件加密库之cryptography使用详解 Rocky006 python 开发语言
概要在现代信息社会中，数据的安全性变得越来越重要。为了保护敏感信息，文件加密技术被广泛应用。Python的cryptography库提供了强大的加密功能，可以轻松实现文件加密和解密。本文将详细介绍如何使用cryptography库进行文件加密，包含具体的示例代码。cryptography库简介cryptography是Python中一个功能强大且易用的加密库，提供了对称加密、非对称加密、哈希算法、
【Python系列】高效Parquet数据处理策略：合并与分析实践小团团0 python 开发语言
在大数据时代，数据的存储、处理和分析变得尤为重要。Parquet作为一种高效的列存储格式，被广泛应用于大数据处理框架中，如ApacheSpark、ApacheHive等。Parquet是一个开源的列存储格式，它被设计用于支持复杂的嵌套数据结构，同时提供高效的压缩和编码方案，以优化存储空间和查询性能。以下将详细介绍如何使用Python对Parquet文件进行数据处理与合并，并提供相应的源码示例。一、
数据结构：交换排序的实现 z_鑫数据结构数据结构排序算法算法 c语言
概要交换排序是一类通过比较和交换元素位置来实现排序的算法。其核心思想是在序列中进行两两比较，若元素顺序不符合排序要求，则交换它们的位置。常见的交换排序算法包括冒泡排序和快速排序，它们在不同场景下各有优劣。整体架构流程冒泡排序从数组的第一个元素开始，依次比较相邻的两个元素；如果前一个元素大于后一个元素（假设为升序排序），则交换这两个元素的位置；对数组中的每一对相邻元素都执行上述操作，经过一轮比较后，
cryptography，一个神奇的 Python 库！ Sitin涛哥 Python python 开发语言
更多资料获取个人网站：ipengtao.com大家好，今天为大家分享一个神奇的Python库-cryptography。Github地址：https://github.com/pyca/cryptography在当今数字化时代，信息安全越来越受到重视。数据加密是保护数据安全的重要手段之一，而Python的cryptography库提供了丰富的功能来支持各种加密算法和协议。本文将深入探讨crypto
目前常用的机器视觉工具库总结，选一个适合自己的机器视觉库才是最好的。 yuanpan 计算机视觉图像处理 ai AI编程
以下是常用机器视觉工具的总结，包括它们的特点、优点、缺点和是否付费：1.Halcon特点：由MVTec公司开发，专注于工业机器视觉。提供强大的图像处理、模式匹配、OCR和3D视觉功能。优点：高性能，适合复杂的工业应用。提供图形化编程界面（HDevelop），用户友好。支持多种硬件设备（如相机、采集卡）。缺点：付费：价格较高，适合企业级用户。开放性较低，定制化能力有限。学习曲线较高，文档复杂。是否付
深度讨论Python for循环观智能 python 开发语言
作者的其他文章推荐：强化学习再受关注！for循环使用于遍历可迭代对象的Python语句，工作原理如下：#for循环foriteminiterable:print(item)#等价于iterator=iter(iterable)#获取迭代器whileTrue:try:item=next(iterator)#获取下一个元素print(item)exceptStopIteration:break#迭代结
Python第六章08：元组操作练习题苹果.Python.八宝粥 python 开发语言
#元组定义操作练习题"""定义一个元组，内容是：('周杰伦',11,['football','music'])，记录一个学生的信息（姓名、年龄、爱好）请通元组（tuple）的功能，对其进行如下操作：1.查询其年龄所在的下标位置2.查询学生的姓名3.删除学生爱好中的football4.增加爱好：coding"""my_tuple=('周杰伦',11,['football','music'])#1.查
Python第六章07：元组的定义和操作苹果.Python.八宝粥 python 前端开发语言
#tuple元组的定义和操作#tuple元组定义用小括号：(1,2,3,4,5),可以是不同类型元素#给变量定义元组时，写括号不写tuple：a=(1,2,3,4,5)#变量=（）变量=tuple（）空元组变量#tuple元组定义完成后，不可以修改，但是，如果元组中嵌套了一个列表时，元组中列表的内容可以修改#封装数据后，不希望被篡改数据，就使用元组tuple#1.定义一个元组t1=("halibo
Leetcode-100 贪心算法 LuckyAnJo leetcode leetcode 贪心算法算法
贪心算法简介贪心算法（GreedyAlgorithm）是一种常见的优化算法，用于解决最优化问题。该算法的核心思想是每次选择当前情况下的最优解，并期望通过这些局部最优解得到全局最优解。贪心算法通常用于那些可以分解为若干个子问题，且每个子问题的最优解可以合成全局最优解的问题。贪心算法之所以有用，是因为它可以快速地做出决策，并能在某些问题上实现较高的效率，避免了回溯与暴力解法的复杂度。贪心算法思想贪心算
利用Python爬虫获取Shopee（虾皮）商品详情：实战指南小爬虫程序猿 python 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Python爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Python爬虫获取Shopee商品详情，并提供完整的代码示例。一、为
大模型提示词工程师的自我修养-应用二（RAG数据合成与数据多样性问题的解决） -（专题4） AI专题精讲大模型专题系列人工智能
1.生成数据大型语言模型（LLMs）具有生成连贯文本的强大能力。通过有效的提示策略，可以引导模型生成更好、一致且更有事实依据的响应。LLMs也特别适用于生成数据，这对于进行各种实验和评估非常有用。例如，我们可以用它来为情感分类器生成快速样本，如下所示：提示词生成10个情感分析的示例。示例分为正面或负面类别。生成2个负面示例和8个正面示例。示例如下格式：Q:A:输出Q:我刚刚得到了最棒的消息！A:正
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

读书笔记：“集体智慧编程”之第八章：对数值进行预测（构建价格模型）

数值预测的含义

构建数据集

k-最近邻算法

最相近的酒应该占有最大的比重

inverse function

减法函数

高斯函数

加权kNN

交叉验证

变量的取值范围

应对策略：按比例缩放

缩放多少合适呢？

不对称分布问题

构建概率分布的图像

累积概率

价格概率分布

总结

对项目的启示

代码

你可能感兴趣的:(机器学习,价格预测,kNN,k-最近邻算法,python,概率)