zstarstone

朴素贝叶斯新闻分类器详解

引自

http://sobuhu.com/ml/2012/11/11/navie-bayes-classify.html

朴素贝叶斯新闻分类器详解

2012-11-11

机器学习的三要素是模型、策略（使用Cost Function计算这个模型是不是好的）和优化算法（不断的寻找最优参数，找到一个参数后用策略判断一下是不是可以，不行再找）。

一个具体的机器学习流程是怎么样的呢，下面使用朴素贝叶斯进行新闻分类进行一个完整的介绍。

1、特征表示

一篇新闻中，可以把新闻中出现的词作为特征向量表示出来，如 X = {昨日，是，国内，投资，市场…}

2、特征选择

特征中由于一些词对分类没有比较显著的帮助，甚至会有导致一些噪音，我们需要去除，如“是”、“昨日”等，经过选择的特征可能是 X = {国内，投资，市场…}

3、模型选择

这里选择朴素贝叶斯分类器，关于朴素贝叶斯可以参看刘未鹏的这篇博客，非常详细。

朴素贝叶斯本身非常简单，但是很多情况下这种简单的分类模型却很有效，在我对新闻进行分类测试的过程中，很容易就能达到93%以上的准确率，个别分类的精度能达到99%。

朴素贝叶斯模型的基本公式为：

P (y i | X) = P ( y i ) * P ( X | y i ) P ( X )

其中，各个参数的含义为：

P(yi|X) 当前文档X属于分类Yi的概率
P(yi) 分类 yi 的先验概率，即在整个训练集中这种分类的比率
P(X) 文档 X 的先验概率，每个文档在数据集中都是1/N的概率，可忽略
P(X|yi) 在分类 yi 中，文档X存在的概率

对于第4条，文档 X 存在于 yi 中的概率，可以按照文档X中每个词在Yi中的概率相乘获得，即：

P (X | y i) = \prod j P (x j | y i)

所以贝叶斯公式可以变形为：

P (y i | X) = P ( y i ) * \prod j P ( x j | y i ) P ( X )

其中，上面的那个参数 P(yi) 和 P(xj|yi) 可以根据最大似然估计法来估算，即：

P (y i) = C o u n t ( y i ) C o u n t ( X )

表示当前分类的先验概率为当前分类下的文档数除以所有文档.

P (x j | y i) = C o u n t ( x j ) C o u n t ( y i )

表示当前分类下出现的所有Xj词数除以当前分类下所有的词数.

这里需要注意的是， P(xj|yi) 的计算方式主要有两种，上面所说的是新闻分类实践中效果较好的一种，叫做多项分布（Multinomial Distribution），就是单个文档中重复出现某个词的时候，出现几次计数几次，分母为所有词汇的总数。

另一种计算方式为，01分布（Binary Distribution），即单个文档中出现多次的词只计数一次，分母为所有文章的个数，而不是词的个数。

可能出现的问题一：

在进行预测的时候，如某篇文章包含“澳门”这个词，使用上面变形后的贝叶斯公式计算该文章是“体育”分类的时候，假如“体育”分类下从来没有出现过“澳门”这个词，就会导致

P(xj|yi)=fracCount(xj)Count(xi)=0

进一步导致整个贝叶斯概率为0，这是不合理的，所以我们要避免没有出现过的词概率为0的情况。

这里我们只需要使用一个平滑参数，让上式的分子分母同时加上一个小值即可，假如分子加上 lambda ，则分母需要加上 N * lambda，其中N为所有单词的去重后数量（这是因为分子为每一个词汇都要计算一次）。

这样就变成了：

P(xj|yi)=fracCount(xj)+NCount(xi)+N∗λ

可能出现的问题二：

由于贝叶斯公式中是所有的 P(xj|yi) 求积，概率求积很可能遇到浮点数溢出的情况，这时候我们需要变通一下，把求积转换成求和，只需要对贝叶斯公式中分子求log即可（log(a * b) = log(a) + log(b)）:

4、训练数据准备

我所使用的训练数据集为一批已经分好词的文本文件，文件名中包含它们所属的分类（auto、sports、business），为了让模型训练的时候更方便的读取和使用，我们把数据集按照一定比例（如80%）分为训练集和测试集：

#!/usr/bin/env python
# encoding: utf-8
"""
    author: [email protected]
"""
import os
import random
import re
class DataPrepare(object):
    """处理原始数据，为机器学习模型的训练作准备"""
    def __init__(self, input_dir, train_data_file, test_data_file, train_file_percentage):
        self.input_dir = input_dir
        self.train_data_file = open(train_data_file,'w')
        self.test_data_file = open(test_data_file,'w')
        self.train_file_percentage = train_file_percentage
        self.unique_words = []
        # 每一个单词都使用一个数字类型的id表示，python索引的时候才会快一些
        self.word_ids = {}
    def __del__(self):
        self.train_data_file.close()
        self.test_data_file.close()
    def prepare(self):
        file_num = 0
        output_file = self.test_data_file
        for file_name in os.listdir(self.input_dir):
            # arr = (1234,'business')
            arr = re.findall(r'(\d+)(\w+)',file_name)[0]
            category = arr[1]
            # 随即函数按照train_file_percentage指定的百分比来选择训练和测试数据及
            if random.random() < self.train_file_percentage:
                output_file = self.train_data_file
            else:
                output_file = self.test_data_file
            # 读取文件获得词组
            words = []
            with open(self.input_dir + '/' + file_name,'r') as f:
                words = f.read().decode('utf-8').split()
            output_file.write(category + ' ')
            for word in words:
                if word not in self.word_ids:
                    self.unique_words.append(word)
                    # 可以取Hash，这里为了简便期间，直接使用当前数组的长度（也是唯一的）
                    self.word_ids[word] = len(self.unique_words)
                output_file.write(str(self.word_ids[word]) + " ")
            output_file.write("#"+file_name+"\n")
            # 原始文件较多，需要交互显示进度
            file_num += 1
            if file_num % 100 == 0:
                print file_num,' files processed'
        print file_num, " files loaded!"
        print len(self.unique_words), " unique words found!"
if __name__ == '__main__':
    dp = DataPrepare('newsdata','news.train','news.test',0.8)
    dp.prepare()

5、模型训练

在模型训练的部分，我们需要的是求出模型公式中所有需要的参数，这样预测的时候可以直接调用用来预测一个新闻的分类。

模型训练的目标是获得一个概率矩阵：

分类  单词1   单词2   ...  单词n
体育  0.0123  0.0003  ...  0.00014
商业  0.0034  0.0351  ...  0.1342

需要注意的是，某个单词可能不在其中一个分类中，这时候该单词在该分类下的概率就是上面提到的拉普拉斯平滑取得的默认概率，由于这种单词可能非常多，所以我们可以单独使用一个map来存储默认概率，遇到某分类下没有的单词的时候不再增加新的存储空间。

#!/usr/bin/env python
# coding: utf-8
"""
    author: [email protected]
"""
class NavieBayes(object):
    """朴素贝叶斯模型"""
    def __init__(self,train_data_file,model_file):
        self.train_data_file = open(train_data_file,'r')
        self.model_file = open(model_file,'w')
        # 存储每一种类型出现的次数
        self.class_count = {}
        # 存储每一种类型下各个单词出现的次数
        self.class_word_count = {}
        # 唯一单词总数
        self.unique_words = {}
        # ~~~~~~~~~~ NavieBayes参数 ~~~~~~~~~~~~#
        # 每个类别的先验概率
        self.class_probabilities = {}
        # 拉普拉斯平滑，防止概率为0的情况出现
        self.laplace_smooth = 0.1
        # 模型训练结果集
        self.class_word_prob_matrix = {}
        # 当某个单词在某类别下不存在时，默认的概率（拉普拉斯平滑后）
        self.class_default_prob = {}
    def __del__(self):
        self.train_data_file.close()
        self.model_file.close()
    def loadData(self):
        line_num = 0
        line = self.train_data_file.readline().strip()
        while len(line) > 0:
            words = line.split('#')[0].split()
            category = words[0]
            if category not in self.class_count:
                self.class_count[category] = 0
                self.class_word_count[category] = {}
                self.class_word_prob_matrix[category] = {}
            self.class_count[category] += 1
            for word in words[1:]:
                word_id = int(word)
                if word_id not in self.unique_words:
                    self.unique_words[word_id] = 1
                if word_id not in self.class_word_count[category]:
                    self.class_word_count[category][word_id] = 1
                else:
                    self.class_word_count[category][word_id] += 1
            line = self.train_data_file.readline().strip()
            line_num += 1
            if line_num % 100 == 0:
                print line_num,' lines processed'
        print line_num,' training instances loaded'
        print len(self.class_count), " categories!", len(self.unique_words), "words!"
    def computeModel(self):
        # 计算P(Yi)
        news_count = 0
        for count in self.class_count.values():
            news_count += count
        for class_id in self.class_count.keys():
            self.class_probabilities[class_id] = float(self.class_count[class_id]) / news_count
        # 计算P(X|Yi)  <===>  计算所有 P(Xi|Yi)的积  <===>  计算所有 Log(P(Xi|Yi)) 的和
        for class_id in self.class_word_count.keys():
            # 当前类别下所有单词的总数
            sum = 0.0
            for word_id in self.class_word_count[class_id].keys():
                sum += self.class_word_count[class_id][word_id]
            count_Yi = (float)(sum + len(self.unique_words)*self.laplace_smooth)
            # 计算单个单词在某类别下的概率，存储在结果矩阵中，所有当前类别没有的单词赋予默认概率(即使用拉普拉斯平滑)
            for word_id in self.class_word_count[class_id].keys():
                self.class_word_prob_matrix[class_id][word_id] = \
                    (float)(self.class_word_count[class_id][word_id]+self.laplace_smooth) / count_Yi
            self.class_default_prob[class_id] = (float)(self.laplace_smooth) / count_Yi
            print class_id,' matrix finished, length = ',len(self.class_word_prob_matrix[class_id])
        return
    def saveModel(self):
        # 把每个分类的先验概率写入文件
        for class_id in self.class_probabilities.keys():
            self.model_file.write(class_id)
            self.model_file.write(' ')
            self.model_file.write(str(self.class_probabilities[class_id]))
            self.model_file.write(' ')
            self.model_file.write(str(self.class_default_prob[class_id]))
            self.model_file.write('#')
        self.model_file.write('\n')
        # 把每个单词在当前类别的概率写入文件
        for class_id in self.class_word_prob_matrix.keys():
            self.model_file.write(class_id + ' ')
            for word_id in self.class_word_prob_matrix[class_id].keys():
                self.model_file.write(str(word_id) + ' ' \
                     + str(self.class_word_prob_matrix[class_id][word_id]))
                self.model_file.write(' ')
            self.model_file.write('\n')
        return
    def train(self):
        self.loadData()
        self.computeModel()
        self.saveModel()
if __name__ == '__main__':
    nb = NavieBayes('news.train','news.model')
    nb.train()

6、预测（分类）和评价

预测部分直接使用朴素贝叶斯公式，计算当前新闻分别属于各个分类的概率，选择概率最大的那个分类输出。

由于第5步已经计算出来概率矩阵和 P(yi) 的值，所以预测的时候直接调用朴素贝叶斯函数即可，对测试数据集预测后计算其准确性、精确度等即可。

#!/usr/bin/env python
#coding: utf-8
"""
    author: [email protected]
"""
import math
class NavieBayesPredict(object):
    """使用训练好的模型进行预测"""
    def __init__(self, test_data_file, model_data_file, result_file):
        self.test_data_file = open(test_data_file,'r')
        self.model_data_file = open(model_data_file,'r')
        # 对测试数据集预测的结果文件
        self.result_file = open(result_file,'w')
        # 每个类别的先验概率
        self.class_probabilities = {}
        # 拉普拉斯平滑，防止概率为0的情况出现
        self.laplace_smooth = 0.1
        # 模型训练结果集
        self.class_word_prob_matrix = {}
        # 当某个单词在某类别下不存在时，默认的概率（拉普拉斯平滑后）
        self.class_default_prob = {}
        # 所有单词
        self.unique_words = {}
        # 实际的新闻分类
        self.real_classes = []
        # 预测的新闻分类
        self.predict_classes = []
    def __del__(self):
        self.test_data_file.close()
        self.model_data_file.close()
        self.result_file.close()
    def loadModel(self):
        # 从模型文件的第一行读取类别的先验概率
        class_probs = self.model_data_file.readline().split('#')
        for cls in class_probs:
            arr = cls.split()
            if len(arr) == 3:
                self.class_probabilities[arr[0]] = float(arr[1])
                self.class_default_prob[arr[0]] = float(arr[2])
        # 从模型文件读取单词在每个类别下的概率
        line = self.model_data_file.readline().strip()
        while len(line) > 0:
            arr = line.split()
            assert(len(arr) % 2 == 1)
            assert(arr[0] in self.class_probabilities)
            self.class_word_prob_matrix[arr[0]] = {}
            i = 1
            while i < len(arr):
                word_id = int(arr[i])
                probability = float(arr[i+1])
                if word_id not in self.unique_words:
                    self.unique_words[word_id] = 1
                self.class_word_prob_matrix[arr[0]][word_id] = probability
                i += 2
            line = self.model_data_file.readline().strip()
        print len(self.class_probabilities), " classes loaded!", len(self.unique_words), "words!"
    def caculate(self):
        # 读取测试数据集
        line = self.test_data_file.readline().strip()
        while len(line) > 0:
            arr = line.split()
            class_id = arr[0]
            words = arr[1:len(arr)-1]
            # 把真实的分类保存起来
            self.real_classes.append(class_id)
            # 预测当前行（一个新闻）属于各个分类的概率
            class_score = {}
            for key in self.class_probabilities.keys():
                class_score[key] = math.log(self.class_probabilities[key])
            for word_id in words:
                word_id = int(word_id)
                if word_id not in self.unique_words:
                    continue
                for class_id in self.class_probabilities.keys():
                    if word_id not in self.class_word_prob_matrix[class_id]:
                        class_score[class_id] += math.log(self.class_default_prob[class_id])
                    else:
                        class_score[class_id] += math.log(self.class_word_prob_matrix[class_id][word_id])
            # 对于当前新闻，所属的概率最高的分类
            max_class_score = max(class_score.values())
            for key in class_score.keys():
                if class_score[key] == max_class_score:
                    self.predict_classes.append(key)
            line = self.test_data_file.readline().strip()
        print len(self.real_classes),len(self.predict_classes)
    def evaluation(self):
        # 评价当前分类器的准确性
        accuracy = 0
        i = 0
        while i < len(self.real_classes):
            if self.real_classes[i] == self.predict_classes[i]:
                accuracy += 1
            i += 1
        accuracy = (float)(accuracy)/(float)(len(self.real_classes))
        print "Accuracy:",accuracy
        # 评测精度和召回率
        # 精度是指所有预测中，正确的预测
        # 召回率是指所有对象中被正确预测的比率
        for class_id in self.class_probabilities:
            correctNum = 0
            allNum = 0
            predNum = 0
            i = 0
            while i < len(self.real_classes):
                if self.real_classes[i] == class_id:
                    allNum += 1
                    if self.predict_classes[i] == self.real_classes[i]:
                        correctNum += 1
                if self.predict_classes[i] == class_id:
                    predNum += 1
                i += 1
            precision = (float)(correctNum)/(float)(predNum)
            recall = (float)(correctNum)/(float)(allNum)
            print class_id,' -> precision = ',precision,' recall = ',recall
    def predict(self):
        self.loadModel()
        self.caculate()
        self.evaluation()
if __name__ == '__main__':
    nbp = NavieBayesPredict('news.test','news.model','news.result')
    nbp.predict()

全文完

python 捕获异常 weixin_30730151 python 数据库
异常：由于代码的逻辑或者语法错误导致的程序中断。在学习Python的过程当中，大家一定要区分清楚异常和布尔值False布尔值的False只是一个值，通常代表的是一个条件的不成立，常用于逻辑判断比如：1num=22print(num>3)3ifnum>3:4print("num>3")异常指的是由于代码的逻辑或者语法错误导致的程序中断比如：1num=222+"2"了解了上面的逻辑之后，我们来看看大家
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
stm32-定时器 Amy.com stm32 嵌入式硬件单片机
一、定时器PLL锁相环：作用是倍频prescale:降频2440芯片定时器配置2.代码：t&=~((0xff<<12)|(0x3f<<4)|(3<<0));t|=(127<<12);t|=(2<<4);t|=(1<<0);CLKDIVN|=(2<<1)|(1<<0);二、PWM定时器控制寄存器单稳态：执行一次后关闭间隙模式：反复执行
【Rust基础】使用Rust和WASM开发的图片压缩工具勇敢牛牛_ rust wasm 开发语言图片压缩
图片压缩工具使用rust+wasm开发了一个简易版的图片压缩工具，支持JPG、PNG、GIF、WEBP等图片格式，不限制大小，无需上传图片，完全在浏览器中执行。工具地址：https://eai.coderbox.cn/image-compression实现方式JPEG对原图进行量化，通过指定质量参数，控制压缩质量。PNG同样的进行量化，并重新将rgba颜色（如果原图是rgba）调整为8位索引颜色，
Docker 数据持久化核心：挂载（Mounts）与卷（Volumes）的区别与选择指南 z2637305611 docker 容器运维
Docker容器默认是无状态的——这意味着容器停止后，其内部生成的数据也会随之消失。为了持久化保存数据或在容器间共享数据，Docker提供了两种主要机制：挂载（Mounts）和卷（Volumes）。理解它们的区别并正确使用，是优化Docker应用架构的重要一步。一、挂载（Mounts）1.什么是挂载？挂载（通常指BindMounts）允许将宿主机上的目录或文件直接映射到容器内部，提供了一种直接访问
SpringBoot项目中读取resource目录下的文件（六种方法） web18285997089 面试学习路线阿里巴巴 spring boot python pycharm
文章目录一、先获取绝对路径再读取文件(jar包里会获取不到)方法一：类加载器的getResource().getPath()获取目录路径方法二：类加载器的getResource().getPath()获取文件路径二、直接获取文件流（jar包可用）方法三：ClassLoader对象的getResourceAsStream()方法四：Class对象的getResourceAsStream()三、使用封
使用Docker部署MySQL8.0.29 九思x docker
第一步：拉取镜像dockerpullmysql:8.0.29作用：从DockerHub拉取MySQL8.0.29官方镜像。第二步：启动容器dockerrun--nameshare_mysql\--restart=always\-vmysql-data:/var/lib/mysql\-p3306:3306\-eMYSQL_ROOT_PASSWORD=root\-dmysql:8.0.29参数说明：-
go的hooks如何写 lotluck golang golang 开发语言后端
在Go语言中，实现Hooks的方式多样，具体取决于应用场景。以下是几种常见实现方法及示例：一、函数式Hooks（基础实现）通过函数类型作为参数传递，实现灵活的钩子机制：//定义钩子函数类型typeHookFuncfunc()//业务函数接受钩子参数funcDoSomething(hookHookFunc){//执行前置操作fmt.Println("Beforeoperation")hook()//
DeepSeek R1 本地部署指南 (3) - 更换本地部署模型 Windows/macOS 通用 Eric Woo X 人工智能 AI DeepSeek macos windows deepseek ai
0.准备完成Windows或macOS安装：DeepSeekR1本地部署指南(1)-Windows本地部署-CSDN博客DeepSeekR1本地部署指南(2)-macOS本地部署-CSDN博客以下内容Windows和macOS命令执行相同：Windows管理员启动：命令提示符CMDmacOS启动：Terminal1.查看已安装模型ollamalist如图，已安装1.5b版本：ollamarunde
Indy TIDHttp与TIdMultiPartFormDataStream “"Range check error"解决阆遤 Delphi &Com integer 报表 session 工具 file
这两天在用indyhttp做一个数据上传式工具，在使用TIdMultiPartFormDataStream时，老是了现“Rangecheckerror“错误，一开始以为是自己代码中有漏洞，经２个小时调试，排除自身代码问题并DEBUG跟踪INDY源代码后，发现TIdMultiPartFormDataStream.IdRead中：CopyTIdBytes(FInternalBuffer,0,VBuff
Go语言常用框架及工具介绍半桶水专家 golang入门 golang 开发语言后端
在Go语言开发中，框架和工具的选择能够显著提升开发效率和项目可维护性。以下是Go生态中常用的框架分类及详细介绍：一、Web框架Gin特点：轻量级、高性能，基于httprouter实现快速路由。优势：适合API开发，中间件支持丰富（如日志、CORS、JWT等），社区活跃。适用场景：高并发API服务、微服务、中小型Web应用。示例：r:=gin.Default()r.GET("/ping",func(
Flutter 用户电话号码中间显示* 早起的年轻人 Flutter项目开发全套教程 flutter 前端 javascript
StringmaskPhoneNumber(StringphoneNumber){if(phoneNumber.length=3&&i<7){maskedNumber.write('*');}else{maskedNumber.write(phoneNumber[i]);}}returnmaskedNumber.toString();}voidmain(){Stringphone='1380013
Vs code搭建uniapp-vue项目 .try- uni-app
安装vue环境npminstall-g@vue/clinode版本建议18或者18以上vuecreate-pdcloudio/uni-preset-vue项目名称----正式版vuecreate-pdcloudio/uni-preset-vue#alpha项目名称----alpha版Vue3/Vite版npxdegitdcloudio/uni-preset-vue#vite项目名称---js-正式
Docker 数据卷与文件挂载 huingymm docker 容器运维
Docker数据卷与文件挂载的区别与管理指南在Docker中，数据卷（Volume）和文件挂载（BindMount）是两种常用的数据持久化方式。它们的主要目的是将容器内的数据保存到主机上，以便在容器重启或删除后数据不会丢失。本文将详细介绍数据卷和文件挂载的区别、使用方法以及管理技巧。目录数据卷与文件挂载的区别数据卷的使用创建数据卷挂载数据卷查看数据卷删除数据卷文件挂载的使用挂载主机目录挂载单个文件
记录一次truncate导致MySQL夯住的故障猿小喵 MySQL #故障诊断与恢复 #备份恢复 mysql 数据库
目录环境信息：故障描述：处理过程：原理分析：showprocesslist结果中的systemlock含义：truncate原理：1.TRUNCATE的执行流程2、TRUNCATE表导致数据库夯住的原因3、TRUNCATE表导致数据库夯住的解决方案4、killTRUNCATE语句失败后，主从数据不一致的原因：5、为什么TRUNCATETABLEusers会影响其他表的SQL6、为什么KILL语句无
Python调用WPS进行文档转换PDF及PDF转图片 IT孔乙己 python 开发语言后端
这里是利用WPS进行转换，要先安装WPS。安装依赖pipinstallpypiwin32代码#!/usr/bin/python#-*-coding:UTF-8-*-importosimportwin32com.clientdefConvertByWps(sourceFile,targetFile):ifnotos.path.exists(sourceFile):print(sourceFile+"
SpringBoot分布式架构下字典表设计与实战应用潘多编程 spring boot 分布式架构
在分布式系统中，字典表作为基础数据的核心载体，其设计合理性直接影响系统的扩展性和维护效率。本文将结合具体代码实例，深入讲解分布式环境下字典表的设计方案与实现细节。一、分布式环境下的字典表挑战数据一致性要求：多服务节点间的字典数据同步高并发访问压力：基础数据的频繁读取需求动态更新需求：业务运行时字典数据的热更新能力多级缓存策略：本地缓存与分布式缓存的协同工作二、技术方案设计架构图：[Client]-
java语言map的五种遍历方法 0319zz Java细节 java 开发语言
publicstaticvoidmain(String[]args){Mapmap=newHashMapentry:map.entrySet()){Stringkey=entry.getKey();Integervalue=entry.getValue();System.out.println("Key:"+key+",Value:"+value);}//第二种：使用for-each循环和keyS
【设计模式】外观模式浅慕Antonio 设计模式设计模式
第8章外观模式8.1配置相关范例核心问题游戏配置项复杂，直接调用业务类导致耦合度高：图形配置类//图形相关类classGraphic{private://单件模式实现Graphic()=default;Graphic(constGraphic&)=delete;Graphic&operator=(constGraphic&)=delete;~Graphic()=default;public:sta
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
超高性能机甲机器人技术方案和尚448 机器人
###**超高性能人形机甲机器人技术方案****(代号：ProjectTitan-X)**---####**一、核心参数指标**|项目|参数要求|实现方案||----------------------|----------------------|------------------------||整机重量|≤80kg|碳纤维骨骼+石墨烯肌肉||运动速度|百米冲刺≤9.5秒|仿生肌腱驱动系统||
C语言动态顺序表的实现しかし118114 数据结构数据库 c语言经验分享数据结构链表
目录（一）静态顺序表（二）动态顺序表顺序表是数据结构的入门，本篇文章将详细介绍动态顺序表的增删改补。我们先了解一下静态顺序表。（一）静态顺序表静态顺序表是顺序表的一种，由于静态顺序表的大小固定，很容易溢出或浪费空间，所以我们一般不用静态顺序表。所有顺序表的实现都是基于数组实现的，其实顺序表是顺序表的pro版，可以装更多的数据。#defineTypedataint//这里定义的顺序表是int类型的/
hive服务启停脚本热爱技术的小陈大数据 hive 大数据 hadoop
hive.sh#!/bin/bashHIVE_LOG_DIR=$HIVE_HOME/logs#创建日志目录if[!-d$HIVE_LOG_DIR]thenmkdir-p$HIVE_LOG_DIRfi#检查进程是否运行正常,参数1为进程名,参数2为进程端口functioncheck_process(){pid=$(ps-ef2>/dev/null|grep-vgrep|grep-i$1|awk'{p
用c++语言编写的小程序,利用C++编写一些有趣的小程序瑞士鲁迅用c++语言编写的小程序
虽然说中学没有参加过信息学竞赛，但相对来说，我接触编程算是比较早的。和我同龄的人，若小学参加过计算机竞赛，大概还对PC-logo有点印象，这算是我对编程的最初体验，这里就不叙述。到了初中，便按着规定学习了一点Pascal，在家里也自己写过一点极其简单的程序。高中会考也需要学习VisualBasic，但学的十分浅显，并无什么收获。C语言是大学的必修课，于是在军训期间，我就买来《C++Primer》自
【Jenkins】cmd脚本运行正常，而jenkins卡住报Process leaked file descriptors PostQuitMessage已经解决小黄人软件 jenkins 运维
使用PostQuitMessage(0);(会自动执行ExitInstance())替代exit(0);有效。cmd脚本运行正常，而jenkins卡住报Processleakedfiledescriptors.config.ini路径不对，出现MessageBox导致的。有效。windowsjenkens延时ping-n11127.0.0.1>nul使用timeout/t10/nobreak报错“
一切靠抢的带抢的都是非常赚钱的，比如抢号抢票抢购等小黄人软件经验分享
“带抢”的东西通常意味着供需极度不平衡，信息不对称，或者时间、资源有限，因此具备高利润空间。除了抢号之外，以下这些领域也符合这个特点：1.抢购类抢票：包括演唱会、热门球赛、春运火车票、热门景区门票（如故宫）等，提供代抢服务或者软件。抢鞋、抢限量潮牌：如耐克SNKRS、Supreme等品牌的限量款，通过Bot代抢再高价转卖。抢游戏账号/虚拟物品：抢注游戏ID、游戏道具、限量皮肤，再转卖给需求方。抢新
基于springboot的在线点餐系统爱编程的小哥 java毕设 spring boot 后端 java vue
全栈在线点餐系统架构解析|SpringBoot+ElementUI后台管理实战（附高并发订单处理方案）一、系统全景透视基于五张效果图分析，该系统是餐饮行业全流程数字化解决方案，采用SpringBoot+MyBatisPlus+Vue2+ElementUI技术栈，实现用户端订餐与商家端管理的双向闭环。通过RBAC权限控制+订单状态机+实时库存预警三大核心机制，支持日均万级订单处理，覆盖从用户选餐、支
以光盘读写系统演示面向对象设计的原则与方法 CoderIsArt C++11 设计模式面向对象
面向对象设计（OOD）是软件开发中的核心方法，强调通过对象、类、继承、封装和多态等概念来构建系统。以下是面向对象设计的原则、方法及常用技术手段：一、面向对象设计原则（SOLID原则）单一职责原则（SRP,SingleResponsibilityPrinciple）一个类应只有一个职责，即只负责一项功能。优点：提高类的内聚性，降低耦合性，便于维护和扩展。开放-封闭原则（OCP,Open-Closed
Leetcode 160 Intersection of Two Linked Lists xxxmmc leetcode 算法双指针
题意给定两个链表，找这两个链表第一个公共节点，如果没有返回nullptr题目链接https://leetcode.com/problems/intersection-of-two-linked-lists/description/题解两个指针分别从两个链表（记录为表A，表B）的表头出发，并且记录到表尾移动的步数，得到两个指针移动的步数之差xxx。步数之差为正数，那么把表A的指针移动xxx步，否则移
基于springboot的社区团购系统设计 Olivia-gogogo spring boot 后端 java
一、引言在当今数字化时代，信息技术正以前所未有的速度渗透到社会的各个领域，深刻地改变着人们的生活和工作方式。教育领域也不例外，随着高等教育的普及和招生规模的不断扩大，大学生入学审核工作面临着越来越大的挑战。传统的人工入学审核方式已难以满足现代教育管理的需求，暴露出诸多弊端。传统人工入学审核方式效率低下。在每年的招生季，高校招生工作人员需要面对大量的入学申请材料，这些材料不仅数量庞大，而且种类繁多，
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

朴素贝叶斯新闻分类器详解

朴素贝叶斯新闻分类器详解

1、特征表示

2、特征选择

3、模型选择

可能出现的问题一：

可能出现的问题二：

4、训练数据准备

5、模型训练

6、预测（分类）和评价

你可能感兴趣的:(PR,and,DM,转载)