绍少阿

机器学习实战笔记6——贝叶斯方法

任务安排

1、机器学习导论       8、核方法
2、KNN及其实现       9、稀疏表示
3、K-means聚类      10、高斯混合模型
4、主成分分析          11、嵌入学习
5、线性判别分析      12、强化学习
6、贝叶斯方法          13、PageRank
7、逻辑回归              14、深度学习

贝叶斯方法（Bayes Methods）

Ⅰ 先验概率与后验概率

在贝叶斯统计推断论中，一个未确定数目的先验概率分布（一般简称为先验）是一种表达了某人对于该数目的信仰的一种概率分布，这种信仰是没有考虑到一些（当前的）证据的；

先验概率即边缘概率，通俗点理解为“第六感”，它往往作为"由因求果"问题中的“因”出现的概率

在贝叶斯推断中，一个随机事件的后验概率是指：当与事件相关的一些证据或背景也被考虑进来时的条件概率。“后验”在这个语境下指在考虑了与要被检验的特定事件相关的证据；

      后验概率即条件概率，即你收集证据以后，佐证了你的直觉，或是开始质疑直觉，是“由果溯因”问题中的"果"
      比如你开了一局王者荣耀，刚好在一楼，因为你每个位置的胜率都只有53%（先验概率），但是你心血来潮想玩打野，就在选下去的一刹那，二、三、四、五楼的队友都发出了胜率，打野73%、射手66%、中单65%、边路57%，为了团队，你忍辱负重，改选了一手辅助，你感觉，这把稳了，胜率>>53%（后验概率）
      这就是先验概率和后验概率的区别：先验概率基于已有知识对随机事件进行概率预估，但不考虑任何相关因素—— $P (c)$ 。后验概率基于已有知识对随机事件进行概率预估，并考虑相关因素—— $P (c ∣ x)$

Ⅱ 贝叶斯公式

贝叶斯方法是一种非常神奇，由后验概率求先验概率的方法，即科学地预知未来。其核心就是利用我们所熟知的——贝叶斯公式： $P(c|x)=\frac{P(x,c)}{P(x)}=\frac{P(x|c)P(c)}{P(x)}$ 虽然贝叶斯公式很好用，但通常都是建立在，我们的题目是设计好了的情况下，但是实际生活中的问题，往往不会按我们期望的那样出现，贝叶斯公式也会有乏力的时候
例①：以下是某门诊截至目前的问诊情况（某样本集，症状、职业都是该样本集的特征，疾病是决策结果（标签））

ID	症状	职业	疾病
1	打喷嚏	护士	感冒
2	打喷嚏	农夫	过敏
3	头疼	建筑工人	脑震荡
4	头疼	建筑工人	感冒
5	打喷嚏	教师	感冒
6	头疼	教师	脑震荡

      现在又来了第七个病人，是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大？
由贝叶斯公式，我们可以很容易得到 $P(感冒|打喷嚏，建筑工人)=\frac{P(打喷嚏，建筑工人|感冒)P(感冒)}{P(打喷嚏，建筑工人)}$ $P (感冒) = 1 / 2$ $P(打喷嚏，建筑工人)=P(打喷嚏)P(建筑工人)=\frac{1}{2}×\frac{1}{3}=\frac{1}{6}$       但是根据表格 $P (打喷嚏，建筑工人 ∣ 感冒)$ ，我们求出来竟然是——0？，显然这不可能，那么单单靠贝叶斯公式是无法解决此问题了。
      那么，就出现了朴素贝叶斯

★Ⅲ 朴素贝叶斯（Naive Bayes）

      “朴素”是指：属性条件独立性假设
朴素贝叶斯分类器假设：
      所有特征条件独立于决策（特征独立性），（用到了数理统计里的极大似然估计）即
$P(f_1,..., f_d|class)=\prod^d_{i=1} P(f_i|class)$
      每个特征条件同等重要（特征均衡性）

      有了新的假设，那么我们可以接着解决上面的问题了
$P(打喷嚏，建筑工人|感冒)=P(打喷嚏|感冒)P(建筑工人|感冒)=\frac{2}{3}×\frac{1}{3}=\frac{2}{9}$ 故最终答案 $P(感冒|打喷嚏，建筑工人)=\frac{\frac{2}{9}×\frac{1}{2}}{\frac{1}{6}}=\frac{2}{3}$ 这里特别注意一下，
$P(A,B|C)=P(A|C)P(B|C)\nRightarrow{P(A,B)=P(A)P(B)}$       能够成功求解该题分母的值仅仅是因为，根据实际生活情况我们可以知道，症状与职业是相互独立，与朴素贝叶斯分类器做的假设毫无关系，即假如症状与职业不相互独立，这题根据目前知识无法求解
      但是这仍然不妨碍我们引出朴素贝叶斯分类器的使用，顾名思义，“分类”，属于监督学习，所以我们实际应用中，只是为了与其他决策（标签）作比较，得出最有可能的标签，即我们的预测标签，故实际的概率值不是我们的目标，我们只需要得到分子的值，而分母的值大家都一样，对预测结果没有影响
      仍然拿上面那题举例，这次问，第七个病人是一个打喷嚏的建筑工人，他最有可能得什么病？
即比较 $P (感冒 ∣ 打喷嚏，建筑工人)$ 、 $P (过敏 ∣ 打喷嚏，建筑工人)$ 、 $P (脑震荡 ∣ 打喷嚏，建筑工人)$ 的值，由贝叶斯公式变形后，分母均为 $P (打喷嚏，建筑工人)$ ，故只需比较分子 $P (打喷嚏，建筑工人 ∣ 感冒) P (感冒)$ 、 $P (打喷嚏，建筑工人 ∣ 过敏) P (过敏)$ 、 $P (打喷嚏，建筑工人 ∣ 脑震荡) P (脑震荡)$ 的值就可以得出结论

例②（数值型朴素贝叶斯）：

性别	身高（英尺）	体重（磅）	脚掌（英寸）
男	6	180	12
男	5.92	190	11
男	5.58	170	12
男	5.92	165	10
女	5	100	6
女	5.5	150	8
女	5.42	130	7
女	5.75	150	9

      已知某人身高 $6$ 英尺，体重 $130$ 磅，脚掌 $8$ 英寸，求该人的性别
由贝叶斯公式得到： $P(性别|身高，体重，脚掌)=\frac{P(身高|性别)P(体重|性别)P(脚掌|性别)P(性别)}{P(身高)P(体重)P(脚掌)}$       这里出现的难点就是，对于数值型，每一个新的数值，都是该特征新的一类，如果参照上一题的做法，求解起来就会显得非常复杂。
      这里采用朴素贝叶斯里的其中一种解决方法——高斯朴素贝叶斯（还有多元朴素贝叶斯，伯努利模型，暂时没用到，就先不提了）

高斯朴素贝叶斯
如果要处理的是连续数据，一种通常的假设是这些连续数值为高斯分布（正态分布）。例如假设训练集中有一个连续属性 $x$ 。我们首先对数据根据类别分类，然后计算每个类别中的 $x$ 的均值和方差。令 $μ_c$ 表示为 $x$ 在 $c$ 类上的均值，令 $σ^2_c$ 为 $x$ 在 $c$ 类上的方差。在给定类中某个值的概率 $P (x = v ∣ c)$ ，可以通过将 $v$ 表示成均值为 $μ_c$ 方差为 $σ^2_c$ 的正态分布，得到 $P(x=v|c)=\frac{1}{\sqrt{2πσ^2_c}}e^{-\frac{(v-μ_c)^2}{2σ^2_c}}$ 。

处理连续数值问题的另一种常用的技术是通过离散化连续数值的方法（不会QUQ）。通常，当训练样本数量较少或精确的分布已知时，通过概率分布的方法是一种更好的选择。在大量样本的情形下离散化的方法表现更优，因为大量的样本可以学习到数据的分布。由于朴素贝叶斯是一种典型的用到大量样本的方法（越大计算量的模型可以产生越高的分类精度），所以朴素贝叶斯方法更多用到离散化方法，而不是概率分布估计的方法（虽然这里用到）。
对于该题，求解出男性的身高满足均值是 $5.855$ ，方差是 $0.035$ 的正态分布，即 $P(身高|性别)\backsim{N(μ,\sigma)}$ ，得到 $P(身高|性别)=\frac{1}{\sqrt{2π×0.035}}e^{-\frac{(6-5.855)^2}{2×0.035}}$ 其他类似，最终就可以预测性别了！

Ⅳ 贝叶斯网络

定义：
      令 $G = (I, E)$ 表示一个有向无环图（拓扑图），其中 $I$ 代表图形中所有节点的集合，而 $E$ 代表有向连接线段的集合，且令 $X=(X_i)_{i∈I}$ 为其有向无环图中的某一节点 $i$ 所代表的随机变量，若节点 $X$ 的联合概率可以表示成: $p(x)=\prod_{i∈I}{p(x_i|x_{par(i)})}$       则称 $X$ 为相对于有向无环图 $G$ 的贝叶斯网络，其中 $p a r (i)$ (parents) 表示节点 $i$ 之“因”。此外，对于任意的随机变量，其联合概率可由各自的局部条件概率分配相乘而得出，即 $p(x_1,...,x_k)=p(x_k|x_1,...,x_{k-1})p(x_{k-1}|x_1,...,x_{k-2})...p(x_2|x_1)p(x_1)$       例：比如我们可能会经历过的，因为太久不玩某个游戏，被官方“删号了”，而它的决策机制就是基于贝叶斯网络

      弧上用条件概率 $P (被指向节点 ∣ 指向节点)$ 表示权值（连接强度）
      连接两个节点的箭头代表此两个随机变量是具有因果关系，或非条件独立

贝叶斯网络的三种形式：
      对于一个 $D A G$ (有向无环图) $E$ ，引入 $D - S e p a r a t i o n$ 方法可以快速地判断出两个节点之间是否是条件独立，从而化简概率计算（ $D - S e p a r a t i o n$ 是一种用来判断变量是否条件独立的图形化方法）
形式1： $h e a d - t o - h e a d$

      由图知 $P (a, b, c) = P (b) P (a) P (c ∣ a, b)$
      由联合概率与各自局部条件概率的关系得出
$P (a, b, c) = P (c ∣ a, b) P (a, b) = P (c ∣ a, b) P (b ∣ a) P (a)$
      联立可得 $P (a, b) = P (a) P (b)$
      即在 $c$ 未知的条件下， $a$ 、 $b$ 被阻断(blocked)，是独立的，称之为 $h e a d - t o - h e a d$ 条件独立
      如形式1，可以求如下概率时得到化简： $P (a, b) = P (a) P (b)$ ， $P (a ∣ b) = P (a)$ ， $P (b ∣ a) = P (b)$

形式2： $t a i l - t o - t a i l$

      由图知 $P (a, b, c) = P (c) P (a ∣ c) P (b ∣ c)$
      由联合概率与各自局部条件概率的关系得出
$P (a, b, c) = P (a, b ∣ c) P (c)$
      联立得 $P (a, b ∣ c) = P (a ∣ c) P (b ∣ c)$
      即在 $c$ 给定的条件下， $a$ 、 $b$ 被阻断(blocked)，是独立的，称之为 $t a i l - t o - t a i l$ 条件独立

形式3： $h e a d - t o - t a i l$

      由图知 $P (a, b, c) = P (a) P (c ∣ a) P (b ∣ c)$
      由联合概率与各自局部条件概率的关系得出
$P (a, b, c) = P (a, b ∣ c) P (c)$      $P (a, c) = P (a) P (c ∣ a) = P (c) P (a ∣ c)$
      联立得 $P (a, b ∣ c) = P (a ∣ c) P (b ∣ c)$
      即在 $c$ 给定的条件下， $a$ 、 $b$ 被阻断(blocked)，是独立的，称之为 $h e a d - t o - t a i l$ 条件独立

介绍的不详细，仅作了解，详细分析可看从贝叶斯方法谈到贝叶斯网络

Ⅴ 小结

      ● 通过估计条件概率来进行分类和推理
      ● 朴素贝叶斯假设每个特征是条件独立
      ● 将每个特征（属性）看作随机变量

今日任务

1.给定数据集，比较朴素贝叶斯和KNN的分类性能
2.垃圾邮件过滤器（选做）

任务解决

1、可视化在上一篇博客机器学习实战笔记5——线性判别分析里写过了，这里学习一下朴素贝叶斯的调用即可（和KNN使用方法基本一致，用起来比较简单），注意一点，样本集一定要划分成训练集和测试集

from sklearn.datasets import load_digits
from sklearn import naive_bayes
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from myModule import clustering_performance
import numpy as np
import os
import cv2 as cv


# KNN分类器
def test_KNN(*data):
    X_train, X_test, y_train, y_test = data
    knn = KNeighborsClassifier()
    knn.fit(X_train, y_train)
    y_sample = knn.predict(X_test)
    print('KNN分类器')
    ACC = clustering_performance.clusteringMetrics1(y_test, y_sample)
    print('Testing Score: %.4f' % ACC)
    return ACC


# 高斯贝叶斯分类器
def test_GaussianNB(*data):
    X_train, X_test, y_train, y_test = data
    cls = naive_bayes.GaussianNB()  # ['BernoulliNB', 'GaussianNB', 'MultinomialNB', 'ComplementNB','CategoricalNB']
    cls.fit(X_train, y_train)
    # print('高斯贝叶斯分类器')
    print('贝叶斯分类器')
    print('Testing Score: %.4f' % cls.score(X_test, y_test))
    return cls.score(X_test, y_test)


path_face = 'C:/Users/1233/Desktop/Machine Learning/face_images/'
path_flower = 'C:/Users/1233/Desktop/Machine Learning/17flowers/'


# 读取Face image
def createDatabase(path):
    # 查看路径下所有文件
    TrainFiles = os.listdir(path)  # 遍历每个子文件夹
    # 计算有几个文件(图片命名都是以 序号.jpg方式)
    Train_Number = len(TrainFiles)  # 子文件夹个数
    X_train = []
    y_train = []
    # 把所有图片转为1维并存入X_train中
    for k in range(0, Train_Number):
        Trainneed = os.listdir(path + '/' + TrainFiles[k])  # 遍历每个子文件夹里的每张图片
        Trainneednumber = len(Trainneed)  # 每个子文件里的图片个数
        for i in range(0, Trainneednumber):
            image = cv.imread(path + '/' + TrainFiles[k] + '/' + Trainneed[i]).astype(np.float32)  # 数据类型转换
            image = cv.cvtColor(image, cv.COLOR_RGB2GRAY)  # RGB变成灰度图
            X_train.append(image)
            y_train.append(k)
    X_train = np.array(X_train)
    y_train = np.array(y_train)
    return X_train, y_train


X_train_flower, y_train_flower = createDatabase(path_flower)
X_train_flower = X_train_flower.reshape(X_train_flower.shape[0], 180*200)
X_train_flower, X_test_flower, y_train_flower, y_test_flower = \
    train_test_split(X_train_flower, y_train_flower, test_size=0.2, random_state=22)

digits = load_digits()
X_train_digits, X_test_digits, y_train_digits, y_test_digits = \
    train_test_split(digits.data, digits.target, test_size=0.2, random_state=22)

X_train_face, y_train_face = createDatabase(path_face)
X_train_face = X_train_face.reshape(X_train_face.shape[0], 180*200)
X_train_face, X_test_face, y_train_face, y_test_face = \
    train_test_split(X_train_face, y_train_face, test_size=0.2, random_state=22)

print('17flowers分类')
test_KNN(X_train_flower, X_test_flower, y_train_flower, y_test_flower)
test_GaussianNB(X_train_flower, X_test_flower, y_train_flower, y_test_flower)
print('Digits分类')
test_KNN(X_train_digits, X_test_digits, y_train_digits, y_test_digits)
test_GaussianNB(X_train_digits, X_test_digits, y_train_digits, y_test_digits)
print('Face images分类')
test_KNN(X_train_face, X_test_face, y_train_face, y_test_face)
test_GaussianNB(X_train_face, X_test_face, y_train_face, y_test_face)

效果图（ $t r a i n : t e s t = 8 : 2$ ）

2、原理简单点理解就是，提供训练样本及其标签， $1$ 为 $s p a m$ （垃圾邮件）， $0$ 为 $h a m$ （正常邮件），生成语料库，然后输入测试样本时，根据语料库里提供的数据，计算该邮件中 $s p a m$ 、 $h a m$ 单词出现的频率，求出该邮件是 $s p a m$ 的概率，大于某我们设定的阈值，即预测它为 $s p a m$
核心代码老师基本都写完了然后给我们（文本转向量相关的知识还没有学，目前搞不定），我们主要就做个分类，老师给的库及垃圾邮件样本集已上传到个人资源里了可以下载
因为以后可能自己也会写库，量多了，全放在和程序相同的目录下会看得眼花缭乱，这里最好自己封装起来之后直接import调用就好
路径如图所示

创建一个myModule文件夹，把自己写的.py文件放进去即可（_pycache_里的文件是调用时自动生成的，可以加快之后调用的速度）

主代码

from sklearn.metrics import confusion_matrix
import seaborn as sns
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
# 老师给的库
from myModule import clustering_performance
import myModule.EmailFeatureGeneration as Email

X, Y = Email.Text2Vector()
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=22)
# print("X_train.shape =", X_train.shape)
# print("X_test.shape =", X_test.shape)


# 朴素贝叶斯
clf = GaussianNB()
clf.fit(X_train, y_train)
y_sample_bayes = clf.predict(X_test)
Bayes_ACC = clustering_performance.clusteringMetrics1(y_test, y_sample_bayes)
print("Bayes_ACC =", Bayes_ACC)

fig = plt.figure()
plt.subplot(121)
plt.title('Bayes')
confusion = confusion_matrix(y_sample_bayes, y_test)
confusion = confusion/X_test.shape[0]
# print(confusion)
sns.heatmap(confusion, annot=True, cmap='Blues', fmt='.3g')
plt.xlabel('Predicted label')
plt.ylabel('True label')

# KNN
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
y_sample_knn = knn.predict(X_test)
KNN_ACC = clustering_performance.clusteringMetrics1(y_test, y_sample_knn)
print("KNN_ACC =", KNN_ACC)

plt.subplot(122)
plt.title('KNN')
confusion = confusion_matrix(y_sample_knn, y_test)
confusion = confusion/X_test.shape[0]
sns.heatmap(confusion, annot=True, cmap='YlGn', fmt='.3g')
plt.xlabel('Predicted label')


plt.show()

老师给的代码（部分）
（EmailFeatureGeneration）

"""
@Author: Shiping Wang
@ Email: [email protected]
"""

from myModule import AdaboostNavieBayes as boostNaiveBayes
from sklearn import preprocessing
import numpy as np

path = 'C:/Users/1233/Desktop/Machine Learning/SpamEmailDetector/SpamEmailDetector/'


def Text2Vector( ):
    """
    return: feature matrix: nxd
            labels:  n x 1
    """

    ### Step 1: Read data 
    filename = path + 'emails/training/SMSCollection.txt'
    smsWords, classLabels = boostNaiveBayes.loadSMSData(filename)
    classLabels = np.array(classLabels)


    ### STEP 2: Transform the original data into feature matrix
    vocabularyList = boostNaiveBayes.createVocabularyList(smsWords)
    print("生成语料库！")
    trainMarkedWords = boostNaiveBayes.setOfWordsListToVecTor(vocabularyList, smsWords)
    print("数据标记完成！")
    # 转成array向量
    trainMarkedWords = np.array(trainMarkedWords)  ### Traning feature matrix N x d
    #print("The all feature matrix size is: ", trainMarkedWords.shape)
    
    return trainMarkedWords, classLabels

（AdaboostNaiveBayes）

path = 'C:/Users/1233/Desktop/Machine Learning/SpamEmailDetector/SpamEmailDetector/'


def textParser(text):
    """
    对SMS预处理，去除空字符串，并统一小写
    :param text:
    :return:
    """
    import re
    regEx = re.compile(r'[^a-zA-Z]|\d')  # 匹配非字母或者数字，即去掉非字母非数字，只留下单词
    words = regEx.split(text)
    # 去除空字符串，并统一小写
    words = [word.lower() for word in words if len(word) > 0]
    return words


def loadSMSData(fileName):
    """
    加载SMS数据
    :param fileName:
    :return:
    """
    f = open(fileName, 'rb')
    classCategory = []  # 类别标签，1表示是垃圾SMS，0表示正常SMS
    smsWords = []
    for line in f.readlines():
        linedatas = line.decode('utf-8').strip().split('\t')
        if linedatas[0] == 'ham':
            classCategory.append(0)
        elif linedatas[0] == 'spam':
            classCategory.append(1)
        # 切分文本
        words = textParser(linedatas[1])
        smsWords.append(words)
    return smsWords, classCategory


def createVocabularyList(smsWords):
    """
    创建语料库
    :param smsWords:
    :return:
    """
    vocabularySet = set([])
    for words in smsWords:
        vocabularySet = vocabularySet | set(words)
    vocabularyList = list(vocabularySet)
    return vocabularyList


def getVocabularyList(fileName):
    """
    从词汇列表文件中获取语料库
    :param fileName:
    :return:
    """
    fr = open(fileName)
    vocabularyList = fr.readline().strip().split('\t')
    fr.close()
    return vocabularyList


def setOfWordsToVecTor(vocabularyList, smsWords):
    """
    SMS内容匹配预料库，标记预料库的词汇出现的次数
    :param vocabularyList:
    :param smsWords:
    :return:
    """
    vocabMarked = [0] * len(vocabularyList)
    for smsWord in smsWords:
        if smsWord in vocabularyList:
            vocabMarked[vocabularyList.index(smsWord)] += 1
    return np.array(vocabMarked)


def setOfWordsListToVecTor(vocabularyList, smsWordsList):
    """
    将文本数据的二维数组标记
    :param vocabularyList:
    :param smsWordsList:
    :return:
    """
    vocabMarkedList = []
    for i in range(len(smsWordsList)):
        vocabMarked = setOfWordsToVecTor(vocabularyList, smsWordsList[i])
        vocabMarkedList.append(vocabMarked)
    return vocabMarkedList


def trainingNaiveBayes(trainMarkedWords, trainCategory):
    """
    训练数据集中获取语料库中词汇的spamicity：P（Wi|S）
    :param trainMarkedWords: 按照语料库标记的数据，二维数组
    :param trainCategory:
    :return:
    """
    numTrainDoc = len(trainMarkedWords)
    numWords = len(trainMarkedWords[0])
    # 是垃圾邮件的先验概率P(S)
    pSpam = sum(trainCategory) / float(numTrainDoc)

    # 统计语料库中词汇在S和H中出现的次数
    wordsInSpamNum = np.ones(numWords)
    wordsInHealthNum = np.ones(numWords)
    spamWordsNum = 2.0
    healthWordsNum = 2.0
    for i in range(0, numTrainDoc):
        if trainCategory[i] == 1:  # 如果是垃圾SMS或邮件
            wordsInSpamNum += trainMarkedWords[i]
            spamWordsNum += sum(trainMarkedWords[i])  # 统计Spam中语料库中词汇出现的总次数
        else:
            wordsInHealthNum += trainMarkedWords[i]
            healthWordsNum += sum(trainMarkedWords[i])

    pWordsSpamicity = np.log(wordsInSpamNum / spamWordsNum)
    pWordsHealthy = np.log(wordsInHealthNum / healthWordsNum)

    return pWordsSpamicity, pWordsHealthy, pSpam


def getTrainedModelInfo():
    """
    获取训练的模型信息
    :return:
    """
    # 加载训练获取的语料库信息
    vocabularyList = getVocabularyList(path + 'vocabularyList.txt')
    pWordsHealthy = np.loadtxt(path + 'pWordsHealthy.txt', delimiter='\t')
    pWordsSpamicity = np.loadtxt(path + 'pWordsSpamicity.txt', delimiter='\t')
    fr = open(path + 'pSpam.txt')
    pSpam = float(fr.readline().strip())
    fr.close()

    return vocabularyList, pWordsSpamicity, pWordsHealthy, pSpam


def classify(pWordsSpamicity, pWordsHealthy, DS, pSpam, testWordsMarkedArray):
    """
    计算联合概率进行分类
    :param testWordsMarkedArray:
    :param pWordsSpamicity:
    :param pWordsHealthy:
    :param DS:  adaboost算法额外增加的权重系数
    :param pSpam:
    :return:
    """
    # 计算P(Ci|W)，W为向量。P(Ci|W)只需计算P(W|Ci)P(Ci)
    ps = sum(testWordsMarkedArray * pWordsSpamicity * DS) + np.log(pSpam)
    ph = sum(testWordsMarkedArray * pWordsHealthy) + np.log(1 - pSpam)
    if ps > ph:
        return ps, ph, 1
    else:
        return ps, ph, 0

效果图（KNN跑起来明显要慢不少，但是效果更好）
（ $t r a i n : t e s t = 8 : 2$ ）

李宏毅机器学习笔记——反向传播算法小陈phd 机器学习机器学习算法神经网络
反向传播算法反向传播（Backpropagation）是一种用于训练人工神经网络的算法，它通过计算损失函数相对于网络中每个参数的梯度来更新这些参数，从而最小化损失函数。反向传播是深度学习中最重要的算法之一，通常与梯度下降等优化算法结合使用。反向传播的基本原理反向传播的核心思想是利用链式法则（ChainRule）来高效地计算损失函数相对于每个参数的梯度。以下是反向传播的基本步骤：前向传播（Forwa
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
机器学习笔记 rl染离机器学习笔记人工智能
什么是机器学习：机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。机器学习有下面几种定义：（1）机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。（2）机器学习是对能通过经验自动改进的计算机算法的研究。（3）
机器学习笔记（KNN算法）空木幻城机器学习 python 机器学习算法
情景分析现在一个二维平面上有众多点(x1,y1),(x2,y2)...(xn,yn)(x_1,y_1),(x_2,y_2)...(x_n,y_n)(x1,y1),(x2,y2)...(xn,yn)，我也知道它们所属哪个类别，现在给出一个点(x,y)(x,y)(x,y)，问这个点是属于哪个类的。这是一个典型的分类问题重要概念相邻点的个数K相邻点的个数Kknn中最重要的概念就是这个了，也是唯一需要理解
【机器学习笔记】 9 集成学习 RIKI_1 机器学习机器学习笔记集成学习
集成学习方法概述Bagging从训练集中进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果：假设一个班级每个人的成绩都不太好，每个人单独做的考卷分数都不高，但每个人都把自己会做的部分做了，把所有考卷综合起来得到成绩就会比一个人做的高Boosting训练过程为阶梯状，基模型按次序一一进行训练（实现上可以做到并行），基模型的训练集按照某种策略每次都进行一定的转化
吴恩达机器学习全课程笔记第二篇亿维数组 Machine Learning 机器学习笔记人工智能学习
目录前言P31-P33logistics（逻辑）回归决策边界P34-P36逻辑回归的代价函数梯度下降的实现P37-P41过拟合问题正则化代价函数正则化线性回归正则化logistics回归前言这是吴恩达机器学习笔记的第二篇，第一篇笔记请见：吴恩达机器学习全课程笔记第一篇完整的课程链接如下：吴恩达机器学习教程（bilibili）推荐网站：scikit-learn中文社区吴恩达机器学习学习资料（gith
【机器学习笔记】7 KNN算法 RIKI_1 机器学习机器学习笔记算法
距离度量欧氏距离(Euclideandistance)欧几里得度量（EuclideanMetric）（也称欧氏距离）是一个通常采用的距离定义，指在维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离。曼哈顿距离(Manhattandistance)想象你在城市道路里，要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线
【机器学习笔记】14 关联规则 RIKI_1 机器学习机器学习笔记人工智能
关联规则概述关联规则（AssociationRules）反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系，那么，其中一个事物就能够通过其他事物预测到。关联规则可以看作是一种IF-THEN关系。假设商品A被客户购买，那么在相同的交易ID下，商品B也被客户挑选的机会就被发现了。有没有发生过这样的事：你出去买东西，结果却买了比你计划的多得多的东西？这是一种被称为
【机器学习笔记】13 降维 RIKI_1 机器学习机器学习笔记人工智能
降维概述维数灾难维数灾难(CurseofDimensionality)：通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。在很多机器学习问题中，训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话，不仅会让训练非常缓慢，还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库
【机器学习笔记】8 决策树 RIKI_1 机器学习机器学习笔记决策树
决策树原理决策树是从训练数据中学习得出一个树状结构的模型。决策树属于判别模型。决策树是一种树状结构，通过做出一系列决策（选择）来对数据进行划分，这类似于针对一系列问题进行选择。决策树的决策过程就是从根节点开始，测试待分类项中对应的特征属性，并按照其值选择输出分支，直到叶子节点，将叶子节点的存放的类别作为决策结果。以下小美相亲的例子就是决策树决策树算法是一种归纳分类算法，它通过对训练集的学习，挖掘出
【机器学习笔记】 15 机器学习项目流程 RIKI_1 机器学习机器学习笔记人工智能
机器学习的一般步骤数据清洗数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。探索性数据分析(EDA探索性数据分析（EDA）是一个开放式流程，我们制作绘图并计算统计数据，以便探索我们的数据。目的是找到异常，模式，趋势或关系。这些可能是有趣的（例如，找到两个变量之间的相关性），或者它们可用
【机器学习笔记】5 机器学习实践 RIKI_1 机器学习机器学习笔记人工智能
数据集划分子集划分训练集（TrainingSet）：帮助我们训练模型，简单的说就是通过训练集的数据让我们确定拟合曲线的参数。验证集（ValidationSet）：也叫做开发集（DevSet），用来做模型选择（modelselection），即做模型的最终优化及确定的，用来辅助我们的模型的构建，即训练超参数，可选；测试集（TestSet）：为了测试已经训练好的模型的精确度。三者划分：训练集、验证集、
【机器学习笔记】11 支持向量机 RIKI_1 机器学习机器学习笔记支持向量机
支持向量机（SupportVectorMachine,SVM）支持向量机是一类按监督学习（supervisedlearning）方式对数据进行二元分类的广义线性分类器（generalizedlinearclassifier），其决策边界是对学习样本求解的最大边距超平面（maximum-marginhyperplane）。与逻辑回归和神经网络相比，支持向量机，在学习复杂的非线性方程时提供了一种更为清
【机器学习笔记】12 聚类 RIKI_1 机器学习机器学习笔记聚类
无监督学习概述监督学习在一个典型的监督学习中，训练集有标签，我们的目标是找到能够区分正样本和负样本的决策边界，需要据此拟合一个假设函数。无监督学习与此不同的是，在无监督学习中，我们的数据没有附带任何标签，无监督学习主要分为聚类、降维、关联规则、推荐系统等方面。主要的无监督学习方法聚类（Clustering）如何将教室里的学生按爱好、身高划分为5类？降维（DimensionalityReductio
【机器学习笔记】4 朴素贝叶斯 RIKI_1 机器学习机器学习笔记人工智能
贝叶斯方法贝叶斯分类贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。朴素贝叶斯分类是这一类算法中最简单的较为常见的算法。先验概率根据以往经验和分析得到的概率。我们用()来代表在没有训练数据前假设拥有的初始概率。后验概率根据已经发生的事件来分析得到的概率。以(|)代表假设成立的情下观察到数据的概率，因为它反映了在看到训练数据后成立的置信度。联合概率是指在多元的概率分
【机器学习笔记】 6 机器学习库Scikit-learn RIKI_1 机器学习机器学习笔记 scikit-learn
Scikit-learn概述Scikit-learn是基于NumPy、SciPy和Matplotlib的开源Python机器学习包,它封装了一系列数据预处理、机器学习算法、模型选择等工具,是数据分析师首选的机器学习工具包。自2007年发布以来，scikit-learn已经成为Python重要的机器学习库了，scikit-learn简称sklearn，支持包括分类，回归，降维和聚类四大机器学习算法。
【机器学习笔记】10 人工神经网络 RIKI_1 机器学习机器学习笔记人工智能
人工神经网络发展史1943年，心理学家McCulloch和逻辑学家Pitts建立神经网络的数学模型，MP模型每个神经元都可以抽象为一个圆圈，每个圆圈都附带特定的函数称之为激活函数，每两个神经元之间的连接的大小的加权值即为权重。1960年代，人工网络得到了进一步地发展感知机和自适应线性元件等被提出。M.Minsky仔细分析了以感知机为代表的神经网络的局限性，指出了感知机不能解决非线性问题，这极大影响
【机器学习笔记】3 逻辑回归 RIKI_1 机器学习机器学习笔记逻辑回归
分类问题分类问题监督学习最主要的类型，主要特征是标签离散，逻辑回归是解决分类问题的常见算法，输入变量可以是离散的也可以是连续的二分类先从用蓝色圆形数据定义为类型1，其余数据为类型2；只需要分类1次，步骤：①->②多分类问题先定义其中一类为类型1（正类），其余数据为负类（rest）；接下来去掉类型1数据，剩余部分再次进行二分类，分成类型2和负类；如果有类，那就需要分类-1次,步骤：①->②->③->
【百面机器学习笔记】模型评估葡萄肉多
模型评估指标准确率（Accuracy）准确率是指分类正确的样本占总样本个数的比例。Accuracy=n(correct)/n(total)当负样本占99%时，分类器把所有样本都预测为负样本也可以获得99%的准确率。所以，当不同类别的样本比例非常不均衡时，占比大的类别往往成为影响准确率的最主要因素。精确率（Precision）&召回率（Recall）精确率是指分类正确的正样本个数占分类器判定为正样本
李宏毅机器学习笔记 2.回归 Simone Zeng 机器学习机器学习
最近在跟着Datawhale组队学习打卡，学习李宏毅的机器学习/深度学习的课程。课程视频：https://www.bilibili.com/video/BV1Ht411g7Ef开源内容：https://github.com/datawhalechina/leeml-notes本篇文章对应视频中的P3。另外，最近我也在学习邱锡鹏教授的《神经网络与深度学习》，会补充书上的一点内容。通过上一次课1.机器
【机器学习笔记】基于实例的学习住在天上的云机器学习机器学习笔记学习 KNN 实例学习
基于实例的学习文章目录基于实例的学习1基本概念与最近邻方法2K-近邻（KNN）3距离加权KNN4基于实例/记忆的学习器5局部加权回归5多种回归方式对比6懒惰学习与贪婪学习动机：人们通过记忆和行动来推理学习。1基本概念与最近邻方法名词概念参数化设定一个特定的函数形式优点：简单，容易估计和解释可能存在很大的偏置：实际的数据分布可能不遵循假设的分布非参数化：分布或密度的估计是数据驱动的（data-dri
fast.ai 机器学习笔记（一）绝不原创的飞龙人工智能人工智能 python
机器学习1：第1课原文：medium.com/@hiromi_suenaga/machine-learning-1-lesson-1-84a1dc2b5236译者：飞龙协议：CCBY-NC-SA4.0来自机器学习课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。简要课程大纲根据时间和班级兴趣，我们将涵盖类似以下内容
fast.ai 机器学习笔记（四）绝不原创的飞龙人工智能人工智能 python
机器学习1：第11课原文：medium.com/@hiromi_suenaga/machine-learning-1-lesson-11-7564c3c18bbb译者：飞龙协议：CCBY-NC-SA4.0来自机器学习课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。使用SGD优化多层函数的回顾[0:00]这个想法是
机器学习笔记（3）：误差、复杂度曲线、学习曲线等链原力
本文来自之前在Udacity上自学机器学习的系列笔记。这是第3篇，介绍了模型的误差类型、误差的由来、找到模型适合的参数、以及避免欠拟合和过拟合的方法。1.诊断误差1.1.误差类型我们的预测或者分类的结果与实际结果相比较，会存在一定的误差，误差越小，表示结果越好。一般有两种误差来源，欠拟合和过拟合。将问题看得过于简单导致了欠拟合（Underfitting），将问题看得过于复杂导致了过拟合（Overf
fast.ai 机器学习笔记（三）绝不原创的飞龙人工智能人工智能 python
机器学习1：第8课原文：medium.com/@hiromi_suenaga/machine-learning-1-lesson-8-fa1a87064a53译者：飞龙协议：CCBY-NC-SA4.0来自机器学习课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。广义定义的神经网络视频/笔记本正如我们在上一课结束时讨
fast.ai 机器学习笔记（二）绝不原创的飞龙人工智能人工智能 python
机器学习1：第5课原文：medium.com/@hiromi_suenaga/machine-learning-1-lesson-5-df45f0c99618译者：飞龙协议：CCBY-NC-SA4.0来自机器学习课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。视频复习测试集，训练集，验证集和OOB我们有一个数据集
政安晨：示例演绎机器学习中（深度学习）神经网络的数学基础——快速理解核心概念（一）{两篇文章讲清楚} 政安晨政安晨的机器学习笔记神经网络人工智能深度学习 Python 数学基础机器学习 Conda
进入人工智能领域免不了与算法打交道，算法依托数学基础，很多小伙伴可能新生畏惧，不用怕，算法没那么难，也没那么玄乎，未来人工智能时代说不得人人都要了解算法、应用算法。本文试图以一篇文章，用程序演绎的方式给大家把这里面的数学基础先讲清楚，以便于咱们未来深入，呵呵。第一次接触机器学习的小伙伴，环境搭建参考我的这篇文章（只参考这个里面关于环境搭建的部分就可以）：政安晨的机器学习笔记——跟着演练快速理解Te
【机器学习笔记】贝叶斯学习住在天上的云机器学习机器学习笔记学习贝叶斯学习人工智能
贝叶斯学习文章目录贝叶斯学习1贝叶斯学习背景2贝叶斯定理3最大后验假设MAP(MaxAPosterior)4极大似然假设ML(MaximumLikelihood)5朴素贝叶斯NB6最小描述长度MDL1贝叶斯学习背景试图发现两件事情的关系（因果关系，先决条件&结论）。执果索因：肺炎→肺癌？不好确定，换成确诊肺癌得肺炎的概率2贝叶斯定理贝叶斯定理是一种用先验慨率来推断后验慨率的公式，它可以表示为：P(
【机器学习笔记】决策树住在天上的云机器学习机器学习笔记决策树
决策树文章目录决策树1决策树学习基础2经典决策树算法3过拟合问题1决策树学习基础适用决策树学习的经典目标问题带有非数值特征的分类问题离散特征没有相似度概念特征无序例子：SkyTempHumidWindWaterForecastEnjoySunnyWarmNormalStrongWarmSameYesSunnyWarmHighStrongWarmSameYesRainyColdHighStrongW
【机器学习笔记】回归算法住在天上的云机器学习笔记回归线性回归人工智能
回归算法文章目录回归算法1线性回归2损失函数3多元线性回归4线性回归的相关系数1线性回归回归分析(Regression)回归分析是描述变量间关系的一种统计分析方法例：在线教育场景因变量Y：在线学习课程满意度自变量X：平台交互性、教学资源、课程设计预测性的建模技术，通常用于预测分析，预测的结果多为连续值（也可为离散值，二值）线性回归(Linearregression)因变量和自变量之间是线性关系，就
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class