nono_x

贝叶斯决策、朴素贝叶斯算法与词频统计

贝叶斯决策

概率公式

事件A发生的可能性：记为 $P (A)$
事件A和事件B同时发生的概率：记为 $P (A B)$
条件概率：设 $A ， B$ 为任意两个事件，若 $P (A) > 0$ ，我们称在已知事件A发生的条件下，事件B发生的概率为条件概率，记为 $P (B ∣ A)$ ， $P(B|A)=\frac{P(AB)}{P(A)}$
全概率公式：
如果 $\bigcup_{i=1}^{n} A_{i}=\Omega, \quad A_{i} A_{j}=\phi(\text { 对一切 } i \neq j) \quad, \quad \mathrm{P}\left(\mathrm{A}_{i}\right)>0$ ，则对于任一事件 $B$ ，有 $P(B)=\sum^{n}_{i=1}P(A_i)P(B|A_i)$

从图上看就是， $B$ 发生的概率等于 $B$ 与 $A_i$ 同时发生的概率相加
贝叶斯公式(逆概率公式)
如果 $\bigcup_{i=1}^{n} A_{i}=\Omega, \quad A_{i} A_{j}=\phi(\text { 对一切 } i \neq j) \quad, \quad \mathrm{P}\left(\mathrm{A}_{i}\right)>0$ ，则对于任一事件 $B$ ，只要 $P (B) > 0$ ，有 $P\left(A_{j} | B\right)=\frac{P\left(A_{j} B\right)}{P(B)}=\frac{P\left(A_{j}\right) P\left(B | A_{j}\right)}{\sum_{i=1}^{n} P\left(A_{i}\right) P\left(B | A_{i}\right)}(i, j=1,2, \ldots, n)$

基于风险最小化的贝叶斯准则

假设有 $N$ 个类别： $y=\{c_1,c_2,\ldots,c_n \}$ ，基于后验概率 $P(c_i|x)$ 将样本 $x$ 分到 $c_i$ 的风险（也称期望损失）为：
$R(c_i|x)=\sum^{N}_{j=1} loss_{ij}P(c_j|x)$ ，其中 $loss_{ij}$ 为将样本分类错误产生的损失。

贝叶斯判定准则：要使总体风险最小化，则只需要每个样本的条件风险 $R(c_i|x)$ 最小化。即：
$h^{*}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \min } R(c | \boldsymbol{x})$
$h^{*}$ 称为贝叶斯最优分类器，总体风险： $R(h^{*})=E_x[R(h^{*}(x)|x)]$ 称为贝叶斯风险， $1-R(h^{*})$ 反映分类器达到的最佳精度

基于错误率最小化的贝叶斯准则

对于最小化分类错误率，将分类错误损失记为 $loss_{i j}=\left\{\begin{array}{ll} 0, & {i = j} \\ 1, & { i \ne j } \end{array}\right.$

条件风险变为： $R (c ∣ x) = 1 - P (c ∣ x)$
最优分类器准则为： $h^{*}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \min } P(c | \boldsymbol{x})$ ，即将样本 $x$ 分为后验概率 $P (c ∣ x)$ 最大的类别标记。

两种模型

判别模型：给定样本 $x$ 通过直接建模 $P (c ∣ x)$ 来预测 $c_i$ 。决策树、BP神经网络、支持向量机、线性回归、逻辑回归等属于判别模型
生成模型：对联合概率分布 $P (x, c)$ 建模，再由此获得 $P (c ∣ x)$ 。朴素贝叶斯、高斯混合模型、隐马尔科夫模型等属于生成模型。
关系：由生成模型可以得到判别模型，但由判别模型得不到生成模型。

朴素贝叶斯算法

朴素贝叶斯算法属于生成模型，对于生成模型考虑： $P(c|x)=\frac{P(x,c)}{P(x)}$ ，用于文本分类中

使用条件概率公式： $P(c|x)=\frac{P(c)P(x|c)}{P(x)}$ ， $P (c)$ 为每个类别的概率，是先验概率， $P (x ∣ c)$ 为样本在类别 $c$ 中发生的条件概率。

先验概率 $P (c)$ ，根据大数定律，可通过各类样本出现的频率来进行估计
条件概率 $P(x|c)=\frac{P(xc)}{P(c)}$ 。不过对于较大的数据集中，直接使用频率估计 $P (x ∣ c)$ 不可行。因此，可使用极大似然估计法进行估计，先前已介绍过极大似然估计，这里就不介绍了。

朴素贝叶斯分类器

为解决 $P (c ∣ x)$ 难以估计的问题，朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。因此， $\boldsymbol{x})=\frac{P(c) P(\boldsymbol{x} | c)}{P(\boldsymbol{x})}=\frac{P(c)}{P(\boldsymbol{x})} \prod_{i=1}^{n} P\left(x_{i} | c\right)$

对于所有类别来说， $P (x)$ 是相同的，所以朴素贝叶斯分类器为：
$h_{n b}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \max } P(c) \prod_{i=1}^{d} P\left(x_{i} | c\right)$

小例子

假设有一训练集集包含100个人，包含身体颜色特征和头发形状特征，其中有60个非洲人（黑卷*47, 黑直*1, 黄卷*11, 黄直*1），有40个亚洲人（黑卷*1, 黄卷*4, 黄直*35）

计算先验概率： $P(非洲)=\frac{60}{100}，P(亚洲)=\frac{40}{100}$
计算每个特征的条件概率：
预测样本 (黑，卷，地区未知) 属于哪个地区，根据朴素贝叶斯算法： $P(非洲|黑卷)=P(非洲)P(黑|非洲)P(卷|非洲)=\frac{60*48*58}{100*60*60} \newline P(亚洲|黑卷)=P(亚洲)P(黑|亚洲)P(卷|亚洲)=\frac{40*1*5}{100*40*40}$
因此，这个样本预测为非洲地区的

拉普拉斯平滑

若数据集中出现某个属性值在训练集中没有与某个类同时出现过，
假设 $P (卷 ∣ 非洲) = 0$ ， $P (卷 ∣ 亚洲) = 0.001$ ，则样本(黑，卷，地区未知) 会被预测为亚洲地区： $\newline P(亚洲|黑卷)=P(亚洲)P(黑|亚洲)P(卷|亚洲)=0.00001$ 由于P(卷|非洲)概率为0，导致无论样本其他属性如何，都会被预测为亚洲地区，这显然不合理。

为避免这种情况发生，使用了平滑操作

改造先验概率公式：
$P(非洲)=\frac{60+\lambda}{100+len[亚洲,非洲] \cdot \lambda}=\frac{60+\lambda}{100+2\lambda}$
$- - - - - - - - - -$
一般形式： $P(c_i)=\frac{D_{c_i}+\lambda}{D+N*\lambda}$ ， $c_i$ 为某个类别， $D_{c_i}$ 为该类别的样本数， $D$ 为训练集个数， $N$ 为训练集中可能的类别数
$- - - - - - - - - -$
改造每个特征的条件概率公式：
$P(黑|非洲)=\frac{48+\lambda}{60+len[黑,白] \cdot \lambda}=\frac{48+\lambda}{60+2\lambda}$
$P(直|非洲)=\frac{2+\lambda}{60+len[直,卷] \cdot \lambda}=\frac{2+\lambda}{60+2\lambda}$
$- - - - - - - - - -$
一般形式： $P(x_i|c_i)=\frac{D_{c_i x_i}+\lambda}{D_{c_i}+N_i *\lambda}$ ， $c_i$ 为某个类别， $x_i$ 为该类别下的某个特征(属性)， $D_{c_i}$ 为该类别 $c_i$ 的样本数， $D_{c_i x_i}$ 为类别 $c_i$ 的特征 $x_i$ 的个数， $N_i$ 为类别 $c_i$ 中可能的特征数
$- - - - - - - - - -$

$\lambda>0$ ，当 $\lambda=1$ 时，称为拉普拉斯平滑

例子

不进行平滑操作

进行拉普拉斯平滑操作

python实现

# python3.7
# -*- coding: utf-8 -*-
#@Author    : huinono
#@Software  : PyCharm

import warnings
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt

warnings.filterwarnings('ignore')

mpl.rcParams['font.sans-serif'] = 'SimHei'
mpl.rcParams['axes.unicode_minus'] = 'False'

plt.rcParams['font.sans-serif'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = 'False'

class bayes_principle(object):
    def __init__(self):
        pass

    def tokey(self,col_name,category, y):
        # 定义写key的函数,比如产生字符 'X1=3|Y=1'
        return col_name + "=" + str(category) + "|Y=" + str(y)

    def run(self):
        df = pd.read_csv("../datas/bayes_lihang.txt")
        print(df.T)
        lam = 1  # 拉普拉斯  平滑因子
        P = {}  # 用于存储所有概率的字典
        Y = df["Y"].value_counts().keys()  # 获取类别种类的list   Y = [1, -1]
        col_names = df.columns.tolist()[:-1]  # 获取特征列名   x1,x2
        "使用拉普拉斯平滑处理，计算概率，并使用字典存储"
        for y in Y:  # 遍历每个类别
            df2 = df[df["Y"] == y]  #
            p = (df2.shape[0] + lam) / (df.shape[0] + len(Y) * lam)  # 计算先验概率
            P[y] = p  # 将先验概率加入P
            for col_name in col_names:  # 遍历每个特征
                categorys = df2[col_name].value_counts().keys()  # 获取每个特征下特征值种类的list
                for category in categorys:  # 遍历每个特征值
                    p = (df2[df2[col_name] == category].shape[0] + lam) / (
                        # 计算在某类别下，特征=某特征的条件概率
                            df2.shape[0] + len(categorys) * lam)
                    P[self.tokey(col_name, category, y)] = p  # 将条件概率加到P

        X = [2, "S"]
        res = []  # 用于存储属于某一类别的后验概率
        for y in Y:  # 遍历类别
            p = P[y]  # 获取先验概率
            for i in range(len(X)):  # 遍历特征
                p *= P[self.tokey(col_names[i], X[i], y)]  # 获取条件概率
            # print(p)
            res.append(p)  # 将后验概率加入res
        print(res)
        print(Y[np.argmax(res)])  # 返回最大的后验概率对应的类别

特征工程之词频统计

文本类数据处理的最重要的是需要将文本数据转换为数值型数据，一般情况是将文本转换为一个向量

TF(term frequency)与TF-IDF(term frequency–inverse document frequency)

$T F = 某词在文中出现次数$
$IDF=\log \frac{1+n_d}{1+df(d,t)}+1$ ， $n_d$ 表示文章数量， $d f$ 表示某词在该词文档中出现的频数
$T F - I D F = T F * I D F$

为什么有TF-IDF：
在文章中，出现次数最多的词是----“的”、“是”、“在”、‘the’、‘a’、'is’等等----这一类最常用的词，这些词对文档的实际内容几乎没有任何有意义的信息。如果我们把这些数据直接输入分类器，那么这些非常频繁的词将掩盖一些重要词的频率和结果。
为了将计数特性重新加权为适合分类器使用的浮点值，通常使用TF-IDF转换。

例子

有文本[‘我爱你’ , ‘我恨你恨你’’]，计算"爱"字的TF与TF-IDF：
$T F = 1$ ， $IDF=\log \frac{1+2}{1+1}+1=1.405$ ， $T F - I D F = 1 \times 1.405 = 1.405$

python实现

import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
class WordFrequency(object):
    def __init__(self):
        pass
    def TF(self):
        X = ['我 爱 你', '我 恨 你 恨 你']
        # 正则化处理，有效字符为字母数字和汉字
        countCoder = CountVectorizer(token_pattern="[a-zA-Z|\u4e00-\u9fa5]+")
        X = countCoder.fit_transform(X)
        print(countCoder.get_feature_names())
        print(X.toarray())

    def TF_IDF(self):
        X = ['我 爱 你', '我 恨 你 恨 你']
        tiCoder = TfidfVectorizer(norm=None, token_pattern="[a-zA-Z|\u4e00-\u9fa5]+")
        X2 = tiCoder.fit_transform(X)
        print(tiCoder.get_feature_names())
        print(X2.toarray())

贝叶斯家族简介

多项式朴素贝叶斯

伯努利朴素贝叶斯

高斯朴素贝叶斯

python实现一些数据分类

# python3.7
# -*- coding: utf-8 -*-
#@Author    : huinono
#@Software  : PyCharm

import warnings
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB,GaussianNB
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
from sklearn.preprocessing import StandardScaler

class NBayes_sklearn(object):
    def __init__(self):
        pass
    def text_classifier(self):
        df = pd.read_csv("../datas/bayes_xinxi.txt")  # 读取数据
        # 正则匹配，a-z，A-Z,所有中文
        tfCoder = CountVectorizer(token_pattern="[a-zA-Z|\u4e00-\u9fa5]+")  # TF模型
        X = df["words"]
        Y = df["Y"]
        X = tfCoder.fit_transform(X)  # 训练TF模型
        print(tfCoder.get_feature_names())
        print(X.toarray())
        X_ = ["Chinese Chinese Chinese Tokyo Japan"]  # 训练数据
        X_ = tfCoder.transform(X_).A  # A相当于toarray() 将训练数据转为array类型
        model = MultinomialNB()
        model.fit(X, Y)
        print(model.predict(X_))
        print('-----------')
        print(Y[model.predict(X_)])

    def gametext(self):
        df = pd.read_csv("../datas/bayes_wangzhe.txt", header=None)
        X = df[1]
        Y = df[0]
        tfCoder = TfidfVectorizer(token_pattern="[a-zA-Z|\u4e00-\u9fa5]+")
        X = tfCoder.fit_transform(X)
        print(tfCoder.get_feature_names())
        print(X.toarray())
        X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)
        model = MultinomialNB()
        model.fit(X_train, y_train)
        print(model.predict(X_train))
        print(y_train.values)
        a = ["残血 的 安琪拉 打 不 过 鲁班", "这 一波 大龙 别 再 被 抢 了",
             "你 在 石头 那 不要 动，我 去 买 几个 橘子"]
        # print(tfCoder.transform(a).todense())
        print(model.predict(tfCoder.transform(a)))

    def iris_classifier(self):
        # 花萼长度、花萼宽度，花瓣长度，花瓣宽度
        iris_feature_E = 'sepal length', 'sepal width', 'petal length', 'petal width'
        iris_feature_C = u'花萼长度', u'花萼宽度', u'花瓣长度', u'花瓣宽度'
        iris_class = 'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'
        features = [0, 2]
        ## 读取数据
        path = '../datas/iris.data'  # 数据文件路径，也可以直接使用sklearn内的鸢尾花数据集
        data = pd.read_csv(path, header=None)
        x = data[list(range(4))]
        x = x[features]
        y = pd.Categorical(data[4]).codes  ## 直接将数据特征转换为0，1,2
        print("总样本数目：%d；特征属性数目：%d" % x.shape)
        ## 0. 数据分割，形成模型训练数据和测试数据
        x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.8, random_state=14)
        print("训练数据集样本数目：%d, 测试数据集样本数目：%d" % (x_train.shape[0], x_test.shape[0]))
        ## 高斯贝叶斯模型构建
        clf = Pipeline([
            ('sc', StandardScaler()),  # 标准化，把它转化成了高斯分布
            ('clf', GaussianNB())])  
        ## 训练模型
        clf.fit(x_train, y_train)
        #计算准确度
        y_train_hat = clf.predict(x_train)
        print('训练集准确度: %.2f%%' % (100 * accuracy_score(y_train, y_train_hat)))
        y_test_hat = clf.predict(x_test)
        print('测试集准确度：%.2f%%' % (100 * accuracy_score(y_test, y_test_hat)))
        "画图"
        N, M = 500, 500  # 横纵各采样多少个值

        # 生成画图的图像区域
        x1_min1, x2_min1 = x_train.min()
        x1_max1, x2_max1 = x_train.max()
        x1_min2, x2_min2 = x_test.min()
        x1_max2, x2_max2 = x_test.max()
        x1_min = np.min((x1_min1, x1_min2))
        x1_max = np.max((x1_max1, x1_max2))
        x2_min = np.min((x2_min1, x2_min2))
        x2_max = np.max((x2_max1, x2_max2))

        t1 = np.linspace(x1_min, x1_max, N)
        t2 = np.linspace(x2_min, x2_max, N)
        x1, x2 = np.meshgrid(t1, t2)  # 生成网格采样点
        x_show = np.dstack((x1.flat, x2.flat))[0]  # 测试点

        cm_light = mpl.colors.ListedColormap(['#77E0A0', '#FF8080', '#A0A0FF'])
        cm_dark = mpl.colors.ListedColormap(['g', 'r', 'b'])
        y_show_hat = clf.predict(x_show)  # 预测值
        y_show_hat = y_show_hat.reshape(x1.shape)

        ## 画图
        plt.figure(facecolor='w')
        plt.pcolormesh(x1, x2, y_show_hat, cmap=cm_light)  # 预测值的显示
        plt.scatter(x_train[features[0]], x_train[features[1]], c=y_train, edgecolors='k', s=50, cmap=cm_dark)
        plt.scatter(x_test[features[0]], x_test[features[1]], c=y_test, marker='^', edgecolors='k', s=120, cmap=cm_dark)
        plt.xlabel(iris_feature_C[features[0]], fontsize=13)
        plt.ylabel(iris_feature_C[features[1]], fontsize=13)
        plt.xlim(x1_min, x1_max)
        plt.ylim(x2_min, x2_max)
        plt.title(u'高斯贝叶斯对鸢尾花数据的分类结果, 正确率:%.3f%%' % (100 * accuracy_score(y_test, y_test_hat)), fontsize=18)
        plt.grid(True)
        plt.show()
 
if __name__ == '__main__':
    NBayes = NBayes_sklearn()
    NBayes.iris_classifier()

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
春季养肝正当时 dxn悟
重温快乐2023年2月4日立春。春天来了，春暖花开，小鸟欢唱，那在这样的季节我们如何养肝呢？自然界的春季对应中医五行的木，人体五脏肝属木，“木曰曲直”，是以树干曲曲直直地向上、向外伸长舒展的生发姿态，来形容具有生长、升发、条达、舒畅等特征的食物及现象。根据中医天人相应的理念，肝五行属木，喜条达，主疏泄，与春天相应，所以春天最适合养肝。养肝首先要少生气，因为肝喜条达恶抑郁。人体五志肝为怒，生气发怒最
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

贝叶斯决策、朴素贝叶斯算法与词频统计

贝叶斯决策

概率公式

基于风险最小化的贝叶斯准则

基于错误率最小化的贝叶斯准则

两种模型

朴素贝叶斯算法

朴素贝叶斯分类器

小例子

拉普拉斯平滑

例子

不进行平滑操作

进行拉普拉斯平滑操作

python实现

特征工程之词频统计

TF(term frequency)与TF-IDF(term frequency–inverse document frequency)

例子

python实现

贝叶斯家族简介

多项式朴素贝叶斯

伯努利朴素贝叶斯

高斯朴素贝叶斯

python实现一些数据分类

你可能感兴趣的:(贝叶斯决策、朴素贝叶斯算法与词频统计)