wenyusuran

chapter2 机器学习之KNN(k-nearest neighbor algorithm)--K近邻算法从原理到实现

一.引入

K近邻算法作为数据挖掘十大经典算法之一，其算法思想可谓是intuitive，就是从训练集里找离预测点最近的K个样本来预测分类

因为算法思想简单，你可以用很多方法实现它，这时效率就是我们需要慎重考虑的事情，最简单的自然是求出测试样本和训练集所有点的距离然后排序选择前K个，这个是O(nlogn)的，而其实从N个数据找前K个数据是一个很常见的算法题，可以用最大堆(最小堆)实现，其效率是O（nlogk）的，而最广泛的算法是使用kd树来减少扫描的点，这也就是这篇文章的主要内容，本文偏实现，详细理论教程见july的文章，不得不服，july这篇文章巨细无遗！

二.前提：堆的实现

堆是一种二叉树，用一个数组存储，对于k号元素，k*2号是其左儿子，k*2+1号是其右儿子

而大根堆就是跟比左儿子和右儿子都大，小根堆反之。

要满足这个条件我们需要通过up( index )操作和down( index )维护它的结构

当然讲这个的文章实在有些多了，随便搜一篇大家看看：点击打开链接

大小根堆的作用是

a) 优先队列：因为第一个元素是最大或者最小的元素，所以可以实现优先队列

b) 前K个最大(最小)值：这里限制堆的大小为k，来获得O( n log k)的效率，但注意此时小根堆是获得前K个最大值，大根堆是获得前K个最小值，插入的时候先把元素和堆顶比较再决定是否插入。

因为事先KD-tree+BBF 要同时用到这两个东西，所以把它们实现在了同一个类里，感觉代码略漂亮，贴出来观赏一下：

此代码是dml / tool / heap.py

[python] view plain copy print ?

from __future__ import division
import numpy as np
import scipy as sp
def heap_judge(a,b):
return a>b
class Heap:
def __init__(self,K=None,compare=heap_judge):
'''''
'K' is the parameter to restrict the length of Heap
!!! when K is confirmed,the Min heap contain Max K elements
while Max heap contain Min K elements
'compare' is the compare function which return a BOOL when pass two variable
default is Max heap
'''
self.K=K
self.compare=compare
self.heap=['#']
self.counter=0
def insert(self,a):
#print self.heap
if self.K!=None:
print a.x,'==='
if self.K==None:
self.heap.append(a)
self.counter+=1
self.up(self.counter)
else:
if self.counter<self.K:
self.heap.append(a)
self.counter+=1
self.up(self.counter)
else:
if (not self.compare(a,self.heap[1])):
self.heap[1]=a
self.down(1)
return
def up(self,index):
if (index==1):
return
'''''
print index
for t in range(index+1):
if t==0:
continue
print self.heap[t].x
print
'''
if self.compare(self.heap[index],self.heap[int(index/2)]):
#fit the condition
self.heap[index],self.heap[int(index/2)]=self.heap[int(index/2)],self.heap[index]
self.up(int(index/2))
return
def down(self,index):
if 2*index>self.counter:
return
tar_index=0
if 2*index<self.counter:
if self.compare(self.heap[index*2],self.heap[index*2+1]):
tar_index=index*2
else:
tar_index=index*2+1
else:
tar_index=index*2
if not self.compare(self.heap[index],self.heap[tar_index]):
self.heap[index],self.heap[tar_index]=self.heap[tar_index],self.heap[index]
self.down(tar_index)
return
def delete(self,index):
self.heap[index],self.heap[self.counter]=self.heap[self.counter],self.heap[index]
self.heap.pop()
self.counter-=1
self.down(index)
pass
def delete_ele(self,a):
try:
t=self.heap.index(a)
except ValueError:
t=None
if t!=None:
self.delete(t)
return t

from __future__ import division
import numpy as np
import scipy as sp
def heap_judge(a,b):
        return a>b

class Heap:
        def __init__(self,K=None,compare=heap_judge):
                '''
                        'K'                 is the parameter to restrict the length of Heap
                                                !!! when K is confirmed,the Min heap contain Max K elements
                                                                  while Max heap contain Min K elements
                        'compare'         is the compare function which return a BOOL when pass two variable
                                                default is Max heap
                '''
                self.K=K
                self.compare=compare
                self.heap=['#']
                self.counter=0
        def insert(self,a):
                #print self.heap
                if self.K!=None:
                        print a.x,'==='
                if self.K==None:
                        self.heap.append(a)
                        self.counter+=1
                        self.up(self.counter)
                else:
                        if self.counter<self.K:
                                self.heap.append(a)
                                self.counter+=1
                                self.up(self.counter)
                        else:
                                if (not self.compare(a,self.heap[1])):
                                        self.heap[1]=a
                                        self.down(1)
                return
        def up(self,index):
                if (index==1):
                        return
                '''
                print index
                for t in range(index+1):
                        if t==0:
                                continue
                        print self.heap[t].x
                print 
                '''
                if self.compare(self.heap[index],self.heap[int(index/2)]):
                        #fit the condition
                        self.heap[index],self.heap[int(index/2)]=self.heap[int(index/2)],self.heap[index]
                        self.up(int(index/2))
                return
        def down(self,index):
                if 2*index>self.counter:
                        return
                tar_index=0
                if 2*index<self.counter:
                        if self.compare(self.heap[index*2],self.heap[index*2+1]):
                                tar_index=index*2
                        else:
                                tar_index=index*2+1
                else:
                        tar_index=index*2
                if not self.compare(self.heap[index],self.heap[tar_index]):
                        self.heap[index],self.heap[tar_index]=self.heap[tar_index],self.heap[index]
                        self.down(tar_index)
                return

        def delete(self,index):
                self.heap[index],self.heap[self.counter]=self.heap[self.counter],self.heap[index]
                self.heap.pop()
                self.counter-=1
                self.down(index)
                pass

        def delete_ele(self,a):
                try:
                        t=self.heap.index(a)
                except ValueError:
                        t=None
                if t!=None:
                        self.delete(t)
                return t

传入的时候不设置K就是正常的优先队列，设置了K就是限制堆的大小了

compare参数是比较大小的，默认是“数”的大根堆，你可以往堆里传任何类，只要有相适应的compare参数，比如我们KD-tree传的就是KD-Node

三.KD-BFF的原理：

首先从KD-Tree的创建说起：（直接贴《统计学习方法》的内容了）

事实上从选择哪一个feature开始切割，还可以选择方差最大的那个参数，但是考虑到简便，以及我们可以选择更多的相似性度量方法，还是用《统计学习方法》里面的选择方式了。

然后是KD-tree搜索的方法：（来自《统计学习方法》，但注意这里是最近邻，也就是k=1的时候）

那么我们要K近邻要怎么做呢？就是用堆的第二个应用，用大根堆保持K个最小的距离，然后用根的距离(也就是其中最大的一个)来作为判断的依据是否有更近的点不在结果中，这一点很重要！

同时摘录july博客的一段读者留言讲得非常好的：

在某一层，分割面是第ki维，分割值是kv，那么 abs(q[ki]-kv) 就是没有选择的那个分支的优先级，也就是计算的是那一维上的距离；同时，从优先队列里面取节点只在某次搜索到叶节点后才发生，计算过距离的节点不会出现在队列的，比如1~10这10个节点，你第一次搜索到叶节点的路径是1-5-7，那么1，5，7是不会出现在优先队列的。换句话说，优先队列里面存的都是查询路径上节点对应的相反子节点，比如：搜索左子树，就把对应这一层的右节点存进队列。

大致这就是我们实现的基本思路了

四.KD-BFF的实现：

知道原理了，并且有了堆这个工具之后我们就可以着手实现这个算法了：（终于要贴代码了）

代码~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~此代码是 dml / KNN / kd.py

[python] view plain copy print ?

from __future__ import division
import numpy as np
import scipy as sp
from operator import itemgetter
from scipy.spatial.distance import euclidean
from dml.tool import Heap
class KDNode:
def __init__(self,x,y,l):
self.x=x
self.y=y
self.l=l
self.F=None
self.Lc=None
self.Rc=None
self.distsToNode=None
class KDTree:
def __init__(self,X,y=None,dist=euclidean):
self.X=X
self.k=X.shape[0] #N
self.y=y
self.dist=dist
self.P=self.maketree(X,y,0)
self.P.F=None
def maketree(self,data,y,deep):
if data.size==0:
return None
lenght = data.shape[0]
case = data.shape[1]
p=int((case)/2)
l = (deep%self.k)
#print data
data=np.vstack((data,y))
data=np.array(sorted(data.transpose(),key=itemgetter(l))).transpose()
#print data
y=data[lenght,:]
data=data[:lenght,:]
v=data[l,p]
rP=KDNode(data[:,p],y[p],l)
#print data[:,p],y[p],l
if case>1:
ldata=data[:,data[l,:]<v]
ly=y[data[l,:]<v]
data[l,p]=v-1
rdata=data[:,data[l,:]>=v]
ry=y[data[l,:]>=v]
data[l,p]=v
rP.Lc=self.maketree(ldata,ly,deep+1)
if rP.Lc!=None:
rP.Lc.F=rP
rP.Rc=self.maketree(rdata,ry,deep+1)
if rP.Rc!=None:
rP.Rc.F=rP
return rP
def search_knn(self,P,x,k,maxiter=200):
def pf_compare(a,b):
return self.dist(x,a.x)<self.dist(x,b.x)
def ans_compare(a,b):
return self.dist(x,a.x)>self.dist(x,b.x)
pf_seq=Heap(compare=pf_compare)
pf_seq.insert(P) #prior sequence
ans=Heap(k,compare=ans_compare) #ans sequence
while pf_seq.counter>0:
t=pf_seq.heap[1]
pf_seq.delete(1)
flag=True
if ans.counter==k:
now=t.F
#print ans.heap[1].x,'========'
if now != None:
q=x.copy()
q[now.l]=now.x[now.l]
length=self.dist(q,x)
if length>self.dist(ans.heap[1].x,x):
flag=False
else:
flag=True
else:
flag=True
if flag:
tp,pf_seq,ans=self.to_leaf(t,x,pf_seq,ans)
#print "============="
#ans.insert(tp)
return ans
def to_leaf(self,P,x,pf_seq,ans):
tp=P
if tp!=None:
ans.insert(tp)
if tp.x[tp.l]>x[tp.l]:
if tp.Rc!=None:
pf_seq.insert(tp.Rc)
if tp.Lc==None:
return tp,pf_seq,ans
else:
return self.to_leaf(tp.Lc,x,pf_seq,ans)
if tp.Lc!=None:
pf_seq.insert(tp.Lc)
if tp.Rc==None:
return tp,pf_seq,ans
else:
return self.to_leaf(tp.Rc,x,pf_seq,ans)

from __future__ import division
import numpy as np
import scipy as sp
from operator import itemgetter
from scipy.spatial.distance import euclidean
from dml.tool import Heap
class KDNode:
	def __init__(self,x,y,l):
		self.x=x
		self.y=y
		self.l=l
		self.F=None
		self.Lc=None
		self.Rc=None
		self.distsToNode=None

class KDTree:
	def __init__(self,X,y=None,dist=euclidean):
		self.X=X
		self.k=X.shape[0] #N
		self.y=y
		self.dist=dist
		self.P=self.maketree(X,y,0)
		self.P.F=None
	def maketree(self,data,y,deep):
		if data.size==0:
			return None
		lenght = data.shape[0]
		case = data.shape[1]
		p=int((case)/2)
		l = (deep%self.k)
		#print data
		data=np.vstack((data,y))
		data=np.array(sorted(data.transpose(),key=itemgetter(l))).transpose()
		#print data
		y=data[lenght,:]
		data=data[:lenght,:]
		
		v=data[l,p]
		rP=KDNode(data[:,p],y[p],l)
		#print data[:,p],y[p],l
		if case>1:
			ldata=data[:,data[l,:]<v]
			ly=y[data[l,:]<v]
			data[l,p]=v-1
			rdata=data[:,data[l,:]>=v]
			ry=y[data[l,:]>=v]
			data[l,p]=v
			rP.Lc=self.maketree(ldata,ly,deep+1)
			if rP.Lc!=None:
				rP.Lc.F=rP
			rP.Rc=self.maketree(rdata,ry,deep+1)
			if rP.Rc!=None:
				rP.Rc.F=rP
		return rP

	def search_knn(self,P,x,k,maxiter=200):
		def pf_compare(a,b):
			return self.dist(x,a.x)<self.dist(x,b.x)
		def ans_compare(a,b):
			return self.dist(x,a.x)>self.dist(x,b.x)
		pf_seq=Heap(compare=pf_compare)
		pf_seq.insert(P)    #prior sequence
		ans=Heap(k,compare=ans_compare)  #ans sequence
		while pf_seq.counter>0:
			t=pf_seq.heap[1]
			pf_seq.delete(1)
			flag=True
			if ans.counter==k:
				now=t.F
				#print ans.heap[1].x,'========'
				if now != None:
					q=x.copy()
					q[now.l]=now.x[now.l]
					length=self.dist(q,x)
					if length>self.dist(ans.heap[1].x,x):
						flag=False
					else:
						flag=True
				else:
					flag=True
			if flag:
				tp,pf_seq,ans=self.to_leaf(t,x,pf_seq,ans)
			#print "============="
			#ans.insert(tp)
		return ans


	def to_leaf(self,P,x,pf_seq,ans):
		tp=P
		if tp!=None:
			ans.insert(tp)
			if tp.x[tp.l]>x[tp.l]:
				if tp.Rc!=None:
					pf_seq.insert(tp.Rc)
				if tp.Lc==None:
					return tp,pf_seq,ans
				else:
					return self.to_leaf(tp.Lc,x,pf_seq,ans)
			if tp.Lc!=None:
				pf_seq.insert(tp.Lc)
			if tp.Rc==None:
					return tp,pf_seq,ans
			else:
					return self.to_leaf(tp.Rc,x,pf_seq,ans)

然后KNN就是对上面这个类的一个包装：

代码~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~此代码是 dml / KNN / knn.py

[python] view plain copy print ?

#coding:utf-8
import numpy as np
import scipy as sp
from scipy.spatial.distance import cdist
from scipy.spatial.distance import euclidean
from dml.KNN.kd import KDTree
#import pylab as py
class KNNC:
"""docstring for KNNC"""
def __init__(self,X,K,labels=None,dist=euclidean):
'''''
X is a N*M matrix where M is the case
labels is prepare for the predict.
dist is the similarity measurement way,
The distance function can be ‘braycurtis’, ‘canberra’,
‘chebyshev’, ‘cityblock’, ‘correlation’, ‘cosine’,
‘dice’, ‘euclidean’, ‘hamming’, ‘jaccard’, ‘kulsinski’,
‘mahalanobis’,
'''
self.X = np.array(X)
if labels==None:
np.zeros((1,self.X.shape[1]))
self.labels = np.array(labels)
self.K = K
self.dist = dist
self.KDTrees=KDTree(X,labels,self.dist)
def predict(self,x,k):
ans=self.KDTrees.search_knn(self.KDTrees.P,x,k)
dc={}
maxx=0
y=0
for i in range(ans.counter+1):
if i==0:
continue
dc.setdefault(ans.heap[i].y,0)
dc[ans.heap[i].y]+=1
if dc[ans.heap[i].y]>maxx:
maxx=dc[ans.heap[i].y]
y=ans.heap[i].y
return y
def pred(self,test_x,k=None):
'''''
test_x is a N*TM matrix,and indicate TM test case
you can redecide the k
'''
if k==None:
k=self.K
test_case=np.array(test_x)
y=[]
for i in range(test_case.shape[1]):
y.append(self.predict(test_case[:,i].transpose(),k))
return y

#coding:utf-8 
import numpy as np
import scipy as sp
from scipy.spatial.distance import cdist
from scipy.spatial.distance import euclidean
from dml.KNN.kd import KDTree

#import pylab as py
class KNNC:
	"""docstring for KNNC"""
	def __init__(self,X,K,labels=None,dist=euclidean):
		'''
			X is a N*M matrix where M is the case 
			labels is prepare for the predict.
			dist is the similarity measurement way,

			The distance function can be ‘braycurtis’, ‘canberra’, 
			‘chebyshev’, ‘cityblock’, ‘correlation’, ‘cosine’, 
			‘dice’, ‘euclidean’, ‘hamming’, ‘jaccard’, ‘kulsinski’, 
			‘mahalanobis’, 

		'''
		self.X = np.array(X)
		if labels==None:
			np.zeros((1,self.X.shape[1]))
		self.labels = np.array(labels)
		self.K = K
		self.dist = dist
		self.KDTrees=KDTree(X,labels,self.dist)

	def predict(self,x,k):
		ans=self.KDTrees.search_knn(self.KDTrees.P,x,k)
		dc={}
		maxx=0
		y=0
		for i in range(ans.counter+1):
			if i==0:
				continue
			dc.setdefault(ans.heap[i].y,0)
			dc[ans.heap[i].y]+=1
			if dc[ans.heap[i].y]>maxx:
				maxx=dc[ans.heap[i].y]
				y=ans.heap[i].y
		return y
	def pred(self,test_x,k=None):
		'''
			test_x is a N*TM matrix,and indicate TM test case
			you can redecide the k
		'''
		if k==None:
			k=self.K
		test_case=np.array(test_x)
		y=[]
		for i in range(test_case.shape[1]):
			y.append(self.predict(test_case[:,i].transpose(),k))
		return y

因为KNN毕竟是一个分类算法，所以我在predict是加上了分类的代码，如果只想检验Kd-tree的话，你可以直接用for_point()找最近k个点

五.测试+后记

测试：

我们选取《统计学习方法》上面的例子：

使用代码：

[python] view plain copy print ?

X=np.array([[2,5,9,4,8,7],[3,4,6,7,1,2]])
y=np.array([2,5,9,4,8,7])
knn=KNNC(X,1,y)
print knn.for_point([[6.5],[7]],1)

X=np.array([[2,5,9,4,8,7],[3,4,6,7,1,2]])
y=np.array([2,5,9,4,8,7])
knn=KNNC(X,1,y)
print knn.for_point([[6.5],[7]],1)

这里y是label，是用来预测的，这个例子里没有实际作用，这是用来分类的

输出中后面带了“===”的是扫描过的点，最后的是搜索的结果：

我们可以看到的确避免扫描了(2,3)，Bingo！！

我们再knn.for_point([[2],[2]])：可以看到避免扫了很多点！！！

后记：

从实现写此文前后耗时两天，昨天写代码写到熄灯且刚好测试通过，怎一个爽字了得！！最后，再在github上求个Star

reference：

【1】从K近邻算法、距离度量谈到KD树、SIFT+BBF算法 http://blog.csdn.net/v_july_v/article/details/8203674

【2】《统计学习方法》李航

【3】最大堆的插入/删除/调整/排序操作(图解+程序) http://www.java3z.com/cwbwebhome/article/article1/1362.html?id=4745

我自己的一点总结

#coding=utf-8

'''
Created on Sep 16, 2010
kNN: k Nearest Neighbors

Input:      inX: vector to compare to existing dataset (1xN)
            dataSet: size m data set of known vectors (NxM)
            labels: data set labels (1xM vector)
            k: number of neighbors to use for comparison (should be an odd number)
            
Output:     the most popular class label

@author: pbharrin

k-近邻算法
k-近邻算法采用测量不同特征值之间的距离方法进行分类

k-近邻算法的优缺点
优点 精度高 对异常值不敏感 无数据输入假定
缺点 计算复杂度高 空间复杂度高
适用数据范围： 数值型和标称型

标称型目标变量的结果只在有限目标集中取值，如真与假、动物分类集合{ 爬行类、鱼类、哺乳类、两栖类} ；数值型目标变量则可以从无限的数值集合中取值，如0.100、42.001、1000.743 等。

kNN算法的工作原理：
存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签。即我们知道样本集中每一数据与所属分类的对应关系
输入没有标签的新数据后，将新数据的每个特征和样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似的数据(最近邻)
和标签分类。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法的出处，通常k是不大于20的整数。最后，选择k
个最相似数据中出现次数最多的分类，作为新数据的分类




                  k-近邻算法的一般流程
(1)收集数据:可以使用任何方法。
(2)准备数据:距离计算所需要的数值，最好是结构化的数据格式。
(3)分析数据:可以使用任何方法。
(4)训练算法:此步骤不适用于k-近部算法。
(5)测试算法:计算错误率。
(6)使用算法:首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输
  入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理。



从文本文件中解析数据
伪代码如下：
1、计算已知类别数据集中的点与当前点之间的距离
2、按照距离递增次序排列
3、选取与当前点距离最小的k个点
4、确定前k个点所在类别的出现频率
5、返回前k个点出现频率最高的类别作为当前点的预测分类


k-近邻算法是分类数据最简单有效的算法 k-近邻算法基于实例的学习，使用算法时，必须有接近实际数据的训练样本数据
k-近邻算法必须保存全部数据集，这样训练数据集很大的话，必须使用大量的存储空间。由于必须对数据集中每个数据计算距离值，实际使用时可能非常耗时
k-近邻算法的另一个缺陷是无法给出任何数据的基础结构信息，因此无法知晓平均实例样本和典型实例样本具有什么特征

numpy科学计算包
运算符模块
'''
from numpy import *
import operator
from os import listdir
'''距离的计算
classify0函数有4个输入参数：
用于分类的输入向量inX，输入的训练样本集为dataSet，标签向量labels，最后的参数k表示用于选择最近邻居的数目
其中标签向量的元素数目和矩阵dataSet的行数相同，使用欧氏距离公式，计算两个想亮点xA和xB之间的距离

计算两个向量点xA xB之间的距离
欧氏距离公式：
d=sqrt((xA0-xB0)^2+(xA1-xB1)^2)

计算完所有点之间的距离后，可以对数据按照从小到大的次序排列。然后，确定前K个距离最小元素所在的主要分类，输入K总是正整数；最后
将classCount()字典分解为元祖列表，然后使用程序第二行导数运算符模块的itermgetter方法，按照第二个元素
的次序对元祖进行排序。此处的排序为逆序，即按照从最大到最小次序排序，最后返回发生频率最好的元素标签
'''
def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0] #数组的大小
    diffMat = tile(inX, (dataSetSize,1)) - dataSet #函数的形式是tile(A,reps)，参看博客
    sqDiffMat = diffMat**2  #**平方的意思
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5 #开平方
    #按照距离递增次序排列  计算完所有点之间的距离后，可以对数据按照从小到大的次序进行排序，然后确定前k个距离最小元素所在的主要分类，输入k总是正整数；最后，将classCount字典分解为元祖列表，然后使用程序第二行导入运算符模块的itemgetter方法，按照第二个元素的次序对元祖进行排序  
    sortedDistIndicies = distances.argsort()
    
    classCount={}          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

'''
有四组数，魅族数据有两个已知的属性或特征值，group矩阵每行包含一个不同的数据，可以把它想象成某个日志文件中
不同的测量点或者入口。因为人脑的限制，通常只能可视化处理三维以下的事务。因此为了实现数据可视化，对于每个
数据点通常只使用两个特征。
向量label包含每个数据点的标签信息，label包含的元素个数等于group矩阵行数
这里（1.0,1.1）定义为A (0,0.1)定义为B
'''
def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group, labels

'''
在约会网站上使用k-近邻算法
1、收集数据：提供样本文件
2、准备数据：使用Python解析文本文件
3、分析数据：使用matplotlib画二维扩散图
4、训练算法：此步骤不适合k-近邻算法
5、测试算法：测试样本和非测试样本区别在于：测试样本已经完成分类的数据，如果预测分类与实际类别不同，则标为error
6、使用算法：产生简单的命令行程序，然后可以输入一些特征数据以判断对方是否为自己喜欢的类型
'''
#确保样本文件和py文件在同一目录下，样本数据存放在datingTestSet.txt文件中
'''
样本主要包含了一下内容
1、每年获得的飞行常客里程数
2、玩视频游戏所耗时间百分比
3、每周消费的冰激凌公升数

>>> import matplotlib
>>> import matplotlib.pyplot as plt
>>> fig = plt.figure()
>>> ax = fig.add_subplot(111)
>>> ax.scatter(datingDataMat[:,1],datingDataMat[:,2])
<matplotlib.collections.PathCollection object at 0x03EF6690>
>>> plt.show()
由于没有使用样本分类的特征值，很难看到任何有用的数据模式信息，一般来说
采用色彩或者其他记号来标记不同样本分类，以便更好地理解数据信息
>>> ax.scatter(datingDataMat[:,1],datingDataMat[:,2,15*array(datingLabels),15*datingLabels])  暂时有误，需要解决
利用颜色以及尺寸标识了数据点的属性类别，带有养病呢分类标签的约会数据散点图，虽然能够比较容易的区分数据点从属类别，但依然很难根据这张图给出结论性的信息

'''



def file2matrix(filename):
    fr = open(filename)
    f_lines = fr.readlines()
    numberOfLines = len(f_lines)         #get the number of lines in the file 得到文件的行数
    
    returnMat = zeros((numberOfLines,3))        #prepare matrix to return  创建以0填充的矩阵numpy，为了简化处理，将该矩阵的另一维度设置为固定值3，可以根据自己的需求增加相应的代码以适应变化的输入值
    classLabelVector = []                       #prepare labels return   
    #fr = open(filename)
    
    index = 0
    for line in f_lines:   #循环处理文件中的每行数据，首先使用line.strip截取掉所有的回车字符，然后使用tab字符\t将上一步得到的整行数据分割成一个元素列表
        line = line.strip()
        
        listFromLine = line.split('\t')
        
        returnMat[index,:] = listFromLine[0:3]  #选取前3个元素，将其存储到特征矩阵中
        classLabelVector.append(listFromLine[-1]) #Python语言可以使用索引值-1表示列表中的最后一列元素，利用这种负索引，可以将列表的最后一列存储到向量classLabelVector中。注意：必须明确的通知解释器，告诉它列表中存储的元素值为整形，否则Python语言会将这些元素当做字符串来处理  listFromLine前不能加int否则报错
        index += 1
    return returnMat,classLabelVector

    
'''
归一化数值
多种特征同等重要时(等权重)，处理不同取值范围的特征值时，通常采用数值归一化，将取值范围处理为0~1或者-1~1之间
newValue = {oldValue-min}/(max-min)
min和max分别是数据及数据集中的最小特征值和最大特征值。虽然改变数值取值范围增加了分类器的复杂度，但为了得到精确结果，必须这样做
autoNorm将数字特征值转换为0~1
>>> reload(kNN)
<module 'kNN' from 'C:\Users\kernel\Documents\python\kNN.py'>
>>> normMat,ranges,minVals = kNN.autoNorm(datingDataMat)

函数autoNorm()中，将每列的最小值放在变量minValue中，将最大值放在变量maxValue中。其中
dataSet.min(0)中的参数0使得函数可以从列中选取最小值，而不是选取当前行的最小值。然后，
函数计算可能的取值范围，并创建新的矩阵。

为了归一化特征值，必须使用当前值减去最小值，除以取值范围。需要注意的是：特征值矩阵有1000*3
个值，而minVals和range的值都为1*3.使用Numpy库中tile()函数将变量内容复制成输入矩阵大
小的矩阵，具体特征值相除，而对于某些数值处理软件包，/可能意味着矩阵除法在Numpy同样库中，
矩阵除法需要使用函数linalg.solve(matA,matB)

'''
    
def autoNorm(dataSet):
    minVals = dataSet.min(0)  #每列的最小值  参数0可以从列中选取最小值而不是选取当前行的最小值
    maxVals = dataSet.max(0)  
    ranges = maxVals - minVals  #函数计算可能的取值范围，并创建新的返回矩阵，为了归一化特征值，必须使用当前值减去最小值，然后除以取值范围
    normDataSet = zeros(shape(dataSet))  #注意事项：特征值矩阵有1000*3个值。而minVals和range的值都为1*3.为了解决这个问题使用numpy中tile函数将变量内容复制成输入矩阵同样大小的矩阵
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m,1))
    normDataSet = normDataSet/tile(ranges, (m,1))   #element wise divide
    return normDataSet, ranges, minVals
'''
对于分类器而言错误率就是分类器给出错误结果的次数除以测试数据的总数，完美分类器错误率为0，错误率为1的分类器不会给出任何正确的分类结果
在代码中设定一个计数器变量，每次分类器错误的分类数据，计数器就+1，程序执行完成后计算器的结果除以数据点总数即为错误率
>>> kNN.datingClassTest()
NameError: global name 'datingDataMat' is not defined  悬而未决
'''

   
def datingClassTest():
    hoRatio = 0;10

    datingDataMat,datingLables = file2matrix('datingTestSet.txt')
    normMat, ranges, minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m*hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])
        if (classifierResult != datingLabels[i]): errorCount += 1.0
    print "the total error rate is: %f" % (errorCount/float(numTestVecs))
    print errorCount

'''
该方法有问题需要改正 (已作更正)

约会网站预测函数
'''
def classifyPerson():
    resultList = ['not at all','in small doses','in large doses']
    percentTats = float(raw_input(\
                  "percentage of time spent playing video games?"))
    ffMiles = float(raw_input("frequent flier miles earned per year?"))
    iceCream = float(raw_input("liters of ice cream consumed per year?"))
    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')
    normMat,ranges,minVals = autoNorm(datingDataMat)
    inArr = array([ffMiles,percentTats,iceCream])
    classifierResult = int(classify0((inArr-\
                                  minVals)/ranges,normMat,datingLabels,3))
    print "You will probably like this person:",\
          resultList[classifierResult - 1]


'''
手写识别系统
构造的系统只能识别数字0~9，需要是别的数字已经使用图像处理软件，处理成具有相同的色彩和大小：
宽高是32*32的黑白图像
1、收集数据 提供文本文件
2、准备数据 编写函数classify0(),将图像格式转换成分类器使用的list格式
3、分析数据 在Python命令提示符中检查数据，确保它符合要求
4、训练算法 此步骤不适合k-近邻算法
5、测试算法 测试样本和非测试样本区别在于：测试样本已经完成分类的数据，如果预测分类与实际类别不同，则标为error
6、使用算法 未实现
'''    
def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

'''

手写数字识别系统的测试代码

testDigits目录中的文件内容存储在列表中，然后可以得到目录中有多少文件，便将其存储到变量m中
创建一个m*1024的训练矩阵，该矩阵的每行数据存储一个图像，可以从文件名中解析出分类数字
该目录下的文件按照规则命名，如文件9_45.txt的分类是9，它是数字9的第45个实例
将类代码存储在hwLabels向量中，使用img2vector载入图像
对testDigits目录中的文件执行相似的操作，不同之处在于我们并不将这个目录下的文件载入矩阵中
而是利用classify0()函数测试该目录下每个文件，由于文件中的值已在0~1之间，所以不需要autoNorm()函数
该算法执行效率不高，因为算法需要为每个测试向量做2000词距离计算，每个距离计算包括了1024个维度浮点计算，总计执行900次
此外还需要为向量准备2M的存储空间  k决策树是k-近邻算法的改进版


'''
def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir('trainingDigits')           #load the training set
    m = len(trainingFileList)
    trainingMat = zeros((m,1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]     #take off .txt
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)
    testFileList = listdir('testDigits')        #iterate through the test set
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]     #take off .txt
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr)
        if (classifierResult != classNumStr): errorCount += 1.0
    print "\nthe total number of errors is: %d" % errorCount
    print "\nthe total error rate is: %f" % (errorCount/float(mTest))

你可能感兴趣的:(chapter2 机器学习之KNN(k-nearest neighbor algorithm)--K近邻算法从原理到实现)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
从鸡肉高汤到记忆的魔法再到有效提示的艺术步子哥人工智能
还记得小时候那些天马行空的白日梦吗？也许只要按下键盘上的某个神奇组合，电脑就会发出滴滴的声响，一个隐藏的世界突然在你眼前展开，让你获得超凡的能力，摆脱平凡的生活。这听起来像是玩过太多电子游戏的幻想，但实际上，间隔重复系统给人的感觉惊人地相似。在最佳状态下，这些系统就像魔法一样神奇。本文将以一个看似平凡的鸡肉高汤食谱为例，深入浅出地探讨如何编写有效的间隔重复提示，让你像掌握烹饪技巧一样轻松地掌握记忆
谁家酒器最绝唱，藏在酒厂人未知？景阳冈酒厂先秦藏品大揭秘李虓酒评论
文/王赛时中国的酒器酒具历史久远，举世闻名。从北京的故宫博物院、中国国家博物馆，到世界各国的大型博物馆，都以能够收藏中国古代酒具而夸耀。但很少有人知道，在山东阳谷景阳冈酒厂，默默地收藏了两千件中国酒器。这些酒器，就封藏在景阳冈的酒道馆里。其中有一些青铜酒器，一睡就是三、四千年，堪称无声国宝，堪作无字史书！今天，我将引领诸位首先窥视一下景阳冈酒道馆的9件先秦藏品，你自己来说震撼不震撼。提示：这只是景
下载github patch到本地小米人er 我的博客 git patch
以下是几种从GitHub上下载以.patch结尾的补丁文件的方法：通过浏览器直接下载打开包含该.patch文件的GitHub仓库。在仓库的文件列表中找到对应的.patch文件。点击该文件，浏览器会显示文件的内容，在页面的右上角通常会有一个“Raw”按钮，点击它可以获取原始文件内容。然后在浏览器中使用快捷键（如Ctrl+S或者Command+S）将原始文件保存到本地，选择保存的文件名并确保后缀为.p
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option