机器学习案例实战：Python文本数据分析新闻分类任务

原创文章,如需转载请保留出处
本博客为唐宇迪老师python数据分析与机器学习实战课程学习笔记

一. 文本分析与关键词提取
1.1 文本数据

1.2 停用词

语料中大量出现
没啥大用
留着过年吗

1.3 Tf-idf：关键词提取

《中国的蜜蜂养殖》：进行词频（Term frequency，缩写TF）统计
出现次数最多的词：“的”、“是”、“在”…这类最常用的词（停用词）
“中国”、“蜜蜂”、“养殖” 这三个词出现的次数一样多，重要性是一样的？
“中国”是很常见的词，相对而言，“蜜蜂”和“养殖”不那么常见

1.4 逆文档频率（Inverse Document Frequency，IDF）

如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词
词频(TF) = 某个词在文章中的出现次数 / 该文词的个数
逆文档频率(IDF) = log(语料库的文档总数 / 包括该词的文档数 + 1)

1.5 Tf-idf：关键词提取计算
TF-IDF = 词频(TF) * 逆文档频率(IDF)

《中国的蜜蜂养殖》：假定该文长度为1000个词，“中国”、“蜜蜂”、“养殖”各出现20次，则这三个词的“词频”(TF)都是0.02
搜索Google发现，包含“的”字的网页共有250亿张，假定这就是中文网页总数。包含“中国”的网页共有62.3亿张，包含“蜜蜂”的网页共有0.484亿张，包含“养殖”的网页共有0.973亿张

二. 相似度计算
2.1 相识度
句子A：我喜欢看电视，不喜欢看电影
句子B：我不喜欢看电视，也不喜欢看电影

分词
句子A：我 / 喜欢 / 看 / 电视，不 / 喜欢 / 看 / 电影
句子B：我 / 不 / 喜欢 / 看 / 电视，也 / 不 / 喜欢 / 看 / 电影
语料库：我，喜欢，看，电视，电影，不，也
词频：
句子A：我1，喜欢2，看2，电视1，电影1，不1，也0
句子B：我1，喜欢2，看2，电视1，电影1，不2，也1、
词频向量
句子A：[1，2，2，1，1，1，0]
句子B：[1，2，2，1，1，2，1]

余弦相似度：

三. 新闻数据与任务简介

import pandas as pd
import numpy as np
#结吧分词
import jieba

df_news = pd.read_table('./data/val.txt',names=['category','theme','URL','content'],encoding='utf-8')
#dropna:去掉缺失值
df_news = df_news.dropna()
df_news.head()

df_news.shape

(5000, 4)

#分词：使用结吧分词器
#先将content转换成list格式
content = df_news.content.values.tolist()
print (content[1000])

阿里巴巴集团昨日宣布，将在集团管理层面设立首席数据官岗位（Ｃｈｉｅｆ　Ｄａｔａ　Ｏｆｆｉｃｅｒ），阿里巴巴Ｂ２Ｂ公司ＣＥＯ陆兆禧将会出任上述职务，向集团ＣＥＯ马云直接汇报。＞菹ぃ和６月初的首席风险官职务任命相同，首席数据官亦为阿里巴巴集团在完成与雅虎股权谈判，推进“ｏｎｅ　ｃｏｍｐａｎｙ”目标后，在集团决策层面新增的管理岗位。０⒗锛团昨日表示，“变成一家真正意义上的数据公司”已是战略共识。记者刘夏

#利用结吧分词
content_S = []
#line:代表content中每一条
for line in content:
    current_segment = jieba.lcut(line)
    #大于1：代表确实能切分
    if len(current_segment) > 1 and current_segment != '\r\n':
        content_S.append(current_segment)

content_S[1000]

['阿里巴巴',
 '集团',
 '昨日',
 '宣布',
 '，',
 '将',
 '在',
 '集团',
 '管理',
 '层面',
 '设立',
 '首席',
 '数据',
 '官',
 '岗位',
 '（',
 'Ｃ',
 'ｈ',
 'ｉ',
 'ｅ',
 'ｆ',
 '\u3000',
 'Ｄ',
 'ａ',
 'ｔ',
 'ａ',
 '\u3000',
 'Ｏ',
 'ｆ',
 'ｆ',
 'ｉ',
 'ｃ',
 'ｅ',
 'ｒ',
 '）',
 '，',
 '阿里巴巴',
 'Ｂ',
 '２',
 'Ｂ',
 '公司',
 'Ｃ',
 'Ｅ',
 'Ｏ',
 '陆兆禧',
 '将',
 '会',
 '出任',
 '上述',
 '职务',
 '，',
 '向',
 '集团',
 'Ｃ',
 'Ｅ',
 'Ｏ',
 '马云',
 '直接',
 '汇报',
 '。',
 '＞',
 '菹',
 'ぃ',
 '和',
 '６',
 '月初',
 '的',
 '首席',
 '风险',
 '官',
 '职务',
 '任命',
 '相同',
 '，',
 '首席',
 '数据',
 '官亦为',
 '阿里巴巴',
 '集团',
 '在',
 '完成',
 '与',
 '雅虎',
 '股权',
 '谈判',
 '，',
 '推进',
 '“',
 'ｏ',
 'ｎ',
 'ｅ',
 '\u3000',
 'ｃ',
 'ｏ',
 'ｍ',
 'ｐ',
 'ａ',
 'ｎ',
 'ｙ',
 '”',
 '目标',
 '后',
 '，',
 '在',
 '集团',
 '决策',
 '层面',
 '新增',
 '的',
 '管理',
 '岗位',
 '。',
 '０',
 '⒗',
 '锛',
 '团',
 '昨日',
 '表示',
 '，',
 '“',
 '变成',
 '一家',
 '真正',
 '意义',
 '上',
 '的',
 '数据',
 '公司',
 '”',
 '已',
 '是',
 '战略',
 '共识',
 '。',
 '记者',
 '刘夏']

df_content = pd.DataFrame({'content_S':content_S})
df_content.head()

content_S
0 [经销商, 　, 电话, 　, 试驾, ／, 订车, Ｕ, 憬, 杭州, 滨江区, 江陵, …
1 [呼叫, 热线, 　, ４, ０, ０, ８, －, １, ０, ０, －, ３, ０, ０…
2 [Ｍ, Ｉ, Ｎ, Ｉ, 品牌, 在, 二月, 曾经, 公布, 了, 最新, 的, Ｍ, Ｉ…
3 [清仓, 大, 甩卖, ！, 一汽, 夏利, Ｎ, ５, 、, 威志, Ｖ, ２, 低至, …
4 [在, 今年, ３, 月, 的, 日内瓦, 车展, 上, ，, 我们, 见到, 了, 高尔夫…

四.TF-IDF关键词提取

stopwords = pd.read_csv('stopwords.txt',index_col = False, sep = '\t',quoting = 3,names = ['stopword'], encoding = 'utf-8')
stopwords.head()

stopword
0 !
1 "
2 #
3 $
4 %

def drop_stopwords(contents,stopwords):
    contents_clean = []
    all_words = []
    for line in contents:
        line_clean = []
        for word in line:
            if word in stopwords:
                continue
            line_clean.append(word)
            all_words.append(str(word))
        contents_clean.append(line_clean)
    return contents_clean,all_words


contents = df_content.content_S.values.tolist()
stopwords = stopwords.stopword.values.tolist()
contents_clean,all_words = drop_stopwords(contents,stopwords)

df_content = pd.DataFrame({'contents_clean':contents_clean})
df_content.head()

contents_clean
0 [经销商, 电话, 试驾, 订车, Ｕ, 憬, 杭州, 滨江区, 江陵, 路, 号, 转, …
1 [呼叫, 热线, 服务, 邮箱, ｋ, ｆ, ｐ, ｅ, ｏ, ｐ, ｌ, ｅ, ｄ, ａ,…
2 [Ｍ, Ｉ, Ｎ, Ｉ, 品牌, 二月, 公布, 最新, Ｍ, Ｉ, Ｎ, Ｉ, 新, 概念…
3 [清仓, 甩卖, 一汽, 夏利, Ｎ, 威志, Ｖ, 低至, 万, 启新, 中国, 一汽, …
4 [日内瓦, 车展, 见到, 高尔夫, 家族, 新, 成员, 高尔夫, 敞篷版, 款, 全新,…

df_all_words=pd.DataFrame({'all_words':all_words})
df_all_words.head()

all_words
0 经销商
1 电话
2 试驾
3 订车
4 Ｕ

words_count = df_all_words.groupby(by=['all_words'])['all_words'].agg({'count':np.size})
words_count = words_count.reset_index().sort_values(by=['count'],ascending=False)
words_count.head()

all_words count
4077 中 5199
4209 中国 3115
88255 说 3055
104747 Ｓ 2646
1373 万 2390

from wordcloud import WordCloud
import matplotlib.pyplot as plt
%matplotlib inline
import matplotlib
matplotlib.rcParams['figure.figsize'] = (10.0, 5.0)

wordcloud = WordCloud(font_path='./data/simhei.ttf',background_color='white',max_font_size=80)
word_frequence = {x[0]:x[1] for x in words_count.head(100).values}
wordcloud = wordcloud.fit_words(word_frequence)
plt.imshow(wordcloud)

#提取关键字
import jieba.analyse
index = 1000
print(df_news['content'][index])
content_S_str = ''.join(content_S[index])
print(" ".join(jieba.analyse.extract_tags(content_S_str, topK=5, withWeight=False)))

五.LDA建模
Gensim是一个用于从文档中自动提取语义主题的Python库

from gensim import corpora, models, similarities
import gensim

#做映射，相当于词袋
dictionary = corpora.Dictionary(contents_clean)
corpus = [dictionary.doc2bow(sentence) for sentence in contents_clean]

lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20)

#一号分类结果
print(lda.print_topic(1, topn=5))

0.011*“男人” + 0.010*“中” + 0.005*“说” + 0.004*“女人” + 0.003*“於”

for topic in lda.print_topics(num_topics=20, num_words=5):
    print(topic[1])

0.005*“纹身” + 0.004*“中” + 0.004*“台湾” + 0.004*“台北” + 0.003*“女儿”
0.011*“男人” + 0.010*“中” + 0.005*“说” + 0.004*“女人” + 0.003*“於”
0.009*“教育” + 0.007*“学生” + 0.006*“学校” + 0.006*“工作” + 0.006*“发展”
0.009*“比赛” + 0.007*“该剧” + 0.005*“中” + 0.005*“女人” + 0.005*“节目”
0.005*“赛区” + 0.005*“说” + 0.004*“中” + 0.004*“老公” + 0.004*“工作”
0.005*“中” + 0.005*“说” + 0.004*“万” + 0.003*“Ｄ” + 0.003*“比赛”
0.007*“中” + 0.006*“吃” + 0.006*“食物” + 0.005*“含有” + 0.004*“维生素”
0.009*“节目” + 0.007*“中” + 0.005*“Ｓ” + 0.005*“Ｖ” + 0.005*“表演”
0.008*“中” + 0.005*“比赛” + 0.005*“球队” + 0.004*“说” + 0.004*“中国”
0.012*“中” + 0.006*“卫视” + 0.004*“说” + 0.003*“中国” + 0.003*“Ｔ”
0.026*“ａ” + 0.026*“ｅ” + 0.020*“ｉ” + 0.019*“ｏ” + 0.018*“ｎ”
0.015*“中国” + 0.005*“发展” + 0.005*“中” + 0.005*“美国” + 0.004*“文化”
0.007*“中国” + 0.007*“中” + 0.007*“观众” + 0.006*“说” + 0.004*“比赛”
0.004*“节目” + 0.003*“芒果” + 0.003*“单身” + 0.003*“男人” + 0.003*“万”
0.009*“说” + 0.005*“恋情” + 0.005*“分手” + 0.005*“中” + 0.004*“离婚”
0.009*“撒” + 0.005*“高考” + 0.004*“乳房” + 0.004*“孩子” + 0.003*“万”
0.007*“号” + 0.006*“万” + 0.004*“转” + 0.003*“学校” + 0.003*“公司”
0.010*“孩子” + 0.007*“说” + 0.004*“儿子” + 0.004*“中” + 0.003*“Ｍ”
0.017*“电影” + 0.012*“导演” + 0.008*“影片” + 0.007*“中” + 0.007*“观众”
0.006*“女人” + 0.006*“女性” + 0.003*“中” + 0.003*“快感” + 0.002*“Ｗ”

五.基于贝叶斯算法进行新闻分类

df_train = pd.DataFrame({'contents_clean':contents_clean,'label':df_news['category']})
df_train.tail()

contents_clean label
4995 [天气, 炎热, 补水, 变得, 美国, 跑步, 世界, 杂志, 报道, 喝水, 身体, 补… 时尚
4996 [不想, 说, 话, 刺激, 说, 做, 只能, 走, 离开, 伤心地, 想起, 一句, 话… 时尚
4997 [岁, 刘晓庆, 最新, 嫩照, Ｏ, 衷, 诘, 牧跸, 庆, 看不出, 岁, 秒杀, 刘… 时尚
4998 [导语, 做, 爸爸, 一种, 幸福, 无论是, 领养, 亲生, 更何况, 影视剧, 中, … 时尚
4999 [全球, 最美, 女人, 合成图, 国, 整形外科, 教授, 李承哲, 国际, 学术, 杂志… 时尚

df_train.label.unique()

array([‘汽车’, ‘财经’, ‘科技’, ‘健康’, ‘体育’, ‘教育’, ‘文化’, ‘军事’, ‘娱乐’, ‘时尚’],
dtype=object)

label_mapping = {"汽车":1,"财经":2,"科技":3,"健康":4,"体育":5,"教育":6,"文化":7,"军事":8,"娱乐":9,"时尚":0}
df_train['label'] = df_train['label'].map(label_mapping)
df_train.head()

contents_clean label
0 [经销商, 电话, 试驾, 订车, Ｕ, 憬, 杭州, 滨江区, 江陵, 路, 号, 转, … 1
1 [呼叫, 热线, 服务, 邮箱, ｋ, ｆ, ｐ, ｅ, ｏ, ｐ, ｌ, ｅ, ｄ, ａ,… 1
2 [Ｍ, Ｉ, Ｎ, Ｉ, 品牌, 二月, 公布, 最新, Ｍ, Ｉ, Ｎ, Ｉ, 新, 概念… 1
3 [清仓, 甩卖, 一汽, 夏利, Ｎ, 威志, Ｖ, 低至, 万, 启新, 中国, 一汽, … 1
4 [日内瓦, 车展, 见到, 高尔夫, 家族, 新, 成员, 高尔夫, 敞篷版, 款, 全新,…

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(df_train['contents_clean'].values, df_train['label'].values, random_state=1)

x_train[0][1]

‘上海’

words = []
for line_index in range(len(x_train)):
    try:
        words.append(' '.join(x_train[line_index]))
    except:
        print (line_index,word_index)
words[0]

‘中新网上海日电于俊父亲节网络吃一顿电影快餐微电影爸对不起我爱你定于本月父亲节当天各大视频网站首映葜谱鞣剑保慈障蚣钦呓樯埽 ⒌ 缬埃 ǎ 停椋悖颍铩妫椋恚称微型电影新媒体平台播放状态短时休闲状态观看完整策划系统制作体系支持显示较完整故事情节电影微超短放映微周期制作天数周微规模投资人民币几千数万元每部内容融合幽默搞怪时尚潮流人文言情公益教育商业定制主题单独成篇系列成剧唇开播微电影爸对不起我爱你讲述一对父子观念缺少沟通导致关系父亲传统固执钟情传统生活方式儿子新派音乐达习惯晚出早生活性格张扬叛逆两种截然不同生活方式理念差异一场父子间拉开序幕子失手打破父亲心爱物品父亲赶出家门剧情演绎父亲节妹妹哥哥化解父亲这场矛盾映逋坏嚼斫狻 ⒍ 粤 ⒌ 桨容争执退让传统尴尬父子尴尬情男人表达心中那份感恩一杯滤挂咖啡父亲节变得温馨镁缬缮虾Ｎ逄煳幕传播迪欧咖啡联合出品出品人希望观摩扪心自问父亲节父亲记得父亲生日哪一天父亲爱喝跨出家门那一刻感觉一颗颤动心操劳天下儿女父亲节大声喊出父亲家人爱完’

print (len(words))

3750

from sklearn.feature_extraction.text import CountVectorizer
texts = ["dog cat fish","dog cat cat","fish bird","bird"]
cv = CountVectorizer()
cv_fit = cv.fit_transform(texts)

print(cv.get_feature_names())
print(cv_fit.toarray())
print(cv_fit.toarray().sum(axis=0))

[‘bird’, ‘cat’, ‘dog’, ‘fish’]
[[0 1 1 1]
[0 2 1 0]
[1 0 0 1]
[1 0 0 0]]
[2 3 2 2]

from sklearn.feature_extraction.text import CountVectorizer
texts = ["dog cat fish","dog cat cat","fish bird","bird"]
cv = CountVectorizer(ngram_range=(1,4))
cv_fit = cv.fit_transform(texts)

print(cv.get_feature_names())
print(cv_fit.toarray())
print(cv_fit.toarray().sum(axis=0))

[‘bird’, ‘cat’, ‘cat cat’, ‘cat fish’, ‘dog’, ‘dog cat’, ‘dog cat cat’, ‘dog cat fish’, ‘fish’, ‘fish bird’]
[[0 1 0 1 1 1 0 1 1 0]
[0 2 1 0 1 1 1 0 0 0]
[1 0 0 0 0 0 0 0 1 1]
[1 0 0 0 0 0 0 0 0 0]]
[2 3 1 1 2 2 1 1 2 1]

from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer(analyzer='word', max_features=4000,lowercase=False)
vec.fit(words)

CountVectorizer(analyzer=‘word’, binary=False, decode_error=‘strict’,
dtype=, encoding=‘utf-8’, input=‘content’,
lowercase=False, max_df=1.0, max_features=4000, min_df=1,
ngram_range=(1, 1), preprocessor=None, stop_words=None,
strip_accents=None, token_pattern=’(?u)\b\w\w+\b’,
tokenizer=None, vocabulary=None)

from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(vec.transform(words),y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

test_words = []
for line_index in range(len(x_test)):
    try:
        test_words.append(' '.join(x_test[line_index]))
    except:
        print (line_index,word_index)
test_words[0]

‘国家公务员考试申论应用文类试题实质一道集概括分析提出解决问题一体综合性试题说一道客观凝练申发论述文章题目分析历年国考申论真题公文类试题类型多样包括公文类事务性文书类题材从题干作答材料内容整合分析无需太创造性发挥纵观历年申论真题作答应用文类试题文种格式作出特别重在内容考查行文格式考生平常心面对应用文类试题准确把握作答领会内在含义把握题材主旨材料结构轻松应对应用文类试题Ｒ弧 ⒆ 钒盐展文写作原则Ｔ材料中来应用文类试题材料总体把握客观考生材料中来材料中把握材料准确理解题材主旨Ｔ政府角度作答应用文类试题更应注重政府角度观点政府角度出发原则表述观点提出解决之策考生作答站政府人员角度看待提出解决问题Ｔ文体结构形式考查重点文体结构大部分评分关键点解答方法薄 ⒆ ス丶词明方向作答题目题干作答作答方向作答角度关键向导考生仔细阅读题干作答抓住关键词作答方向相关要点整理作答思路年国考地市级真题为例潦惺姓府宣传推进近海水域污染整治工作请给定资料市政府工作人员身份草拟一份宣传纲要Ｒ求保对宣传内容要点提纲挈领陈述玻体现政府精神全市各界关心支持污染整治工作通俗易懂超过字肮丶词近海水域污染整治工作市政府工作人员身份宣传纲要提纲挈领陈述体现政府精神全市各界关心支持污染整治工作通俗易懂提示归结作答要点包括污染情况原因解决对策作答思路情况原因对策意义逻辑顺序安排文章结构病 ⒋ 缶殖龇 ⅲ 明结构解答应用文类试题考生材料整体出发大局出发高屋建瓴把握材料主题思想事件起因解决对策阅读文章构建文章结构直至快速解答场 ⒗ 硭乘悸罚明逻辑应用文类试题严密逻辑思维情况原因对策意义考生作答先弄清楚解答思路统筹安排脉络清晰逻辑表达内容表述础把握明详略考生仔细阅读分析揣摩应用文类试题内容答题时要详略得当主次分明安排内容增加文章层次感阅卷老师阅卷时能明白清晰一目了然玻埃保蹦旯考考试申论试卷分为省级地市级两套试卷能力大有省级申论试题考生宏观角度看注重深度广度考生深谋远虑地市级试题考生微观视角观察侧重考查解决能力考生贯彻执行作答区别对待’

classifier.score(vec.transform(test_words),y_test)

0.804

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(analyzer='word',max_features=4000,lowercase=False)
vectorizer.fit(words)

TfidfVectorizer(analyzer=‘word’, binary=False, decode_error=‘strict’,
dtype=, encoding=‘utf-8’,
input=‘content’, lowercase=False, max_df=1.0, max_features=4000,
min_df=1, ngram_range=(1, 1), norm=‘l2’, preprocessor=None,
smooth_idf=True, stop_words=None, strip_accents=None,
sublinear_tf=False, token_pattern=’(?u)\b\w\w+\b’,
tokenizer=None, use_idf=True, vocabulary=None)

from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(vectorizer.transform(words),y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

classifier.score(vectorizer.transform(test_words),y_test)

0.8152

朴素贝叶斯算法 YuanDaima2048 机器学习算法学习算法机器学习人工智能深度学习 python sklearn
朴素贝叶斯算法一、基本概念二、算法及代码应用朴素贝叶斯NB算法分类算法区别其他机器学习算法：机器学习实战工具安装和使用一、基本概念朴素贝叶斯（NB）是一种基于贝叶斯定理与特征条件独立假设的分类算法。它被广泛应用于文本分类、垃圾邮件过滤等领域。朴素贝叶斯算法简单易懂，其核心思想是假设在给定目标值时，各个属性之间相互独立。在实际应用中，朴素贝叶斯算法在垃圾邮件过滤中表现出色。它不仅准确率高，而且速度快
8、python多项式贝叶斯文本分类（完整） UP Lee 数据挖掘实战多项式贝叶斯文章分类
1、贝叶斯定理（BayesTheorem）朴素贝叶斯分类（NaiveBayesClassifier）贝叶斯分类算法，是统计学的一种分类方法，它是利用贝叶斯定理的概率统计知识，对离散型的数据进行分类的算法2、贝叶斯算法的类型sklearn包naive_bayes模块GaussianNB高斯贝叶斯BernoulliNB伯努利贝叶斯MultionmialNB多项式贝叶斯（需要知道具体每个特征的数值大小）
机器学习入门--朴素贝叶斯原理与实践 Dr.Cup 机器学习入门机器学习概率论人工智能
朴素贝叶斯算法朴素贝叶斯是一种常用的分类算法，其基本思想是根据已有数据的特征和标签，学习出一个概率模型，并利用该模型对新样本进行分类。其优点在于简单快速、易于实现和解释，缺点在于对输入数据的分布做了严格的假设。具体来说，朴素贝叶斯分类器首先根据训练数据计算出每个类别的先验概率P©，即样本中每个类别占比。然后，对于给定的待分类样本，计算出它属于每个类别的条件概率P(X|C)，其中X表示样本的特征向量
sklearn中一些简单机器学习算法的使用橘柚jvyou 机器学习 sklearn 算法
目录前言KNN算法决策树算法朴素贝叶斯算法岭回归算法线性优化算法前言本篇文章会介绍一些sklearn库中简单的机器学习算法如何使用，一些注释已经写在代码中，帮助一些小伙伴入门sklearn库的使用。注意：本篇文章只涉及到如何使用，并不会讲解原理，如果想了解原理的小伙伴请自行搜索其他技术博客或者查看官方文档。KNN算法fromsklearn.datasetsimportload_iris#导入莺尾花
【初中生讲机器学习】5. 从概率到朴素贝叶斯算法，一篇带你看明白！ Geeker · LStar 人工智能机器学习算法机器学习算法人工智能分类算法监督学习朴素贝叶斯
创建时间：2024-02-04最后编辑时间：2024-02-05作者：Geeker_LStar你好呀~这里是Geeker_LStar的人工智能学习专栏，很高兴遇见你~我是Geeker_LStar，一名初三学生，热爱计算机和数学，我们一起加油~！⭐(●’◡’●)⭐那就让我们开始吧！上两篇文章中，我详细讲了支持向量机（SVM）算法的原理，并用一个实例实现了它。在这一篇和下一篇中，我将分别讲解&实现朴素
机器学习：朴素贝叶斯笔记 Ningbo_JiaYT 机器学习机器学习笔记分类算法
朴素贝叶斯（NaiveBayes）是一种基于贝叶斯定理的简单概率分类算法，广泛应用于机器学习和数据挖掘中。“朴素”体现在对特征之间的独立性做出了假设，即一个特征或者一个属性的出现不依赖于其他特征的出现。目录基本原理1.贝叶斯定理2.朴素的独立性假设贝叶斯定理1.简介2.贝叶斯公式算法过程1.训练模型2.预测类别类型注意事项基本原理1.贝叶斯定理朴素贝叶斯算法的核心是贝叶斯定理，即对于给定的样本数据
图解机器学习 | 朴素贝叶斯算法详解 Dashesand 机器学习算法人工智能
图解机器学习|朴素贝叶斯算法详解引言在众多机器学习分类算法中，本篇我们提到的朴素贝叶斯模型，和其他绝大多数分类算法都不同，也是很重要的模型之一。在机器学习中如KNN、逻辑回归、决策树等模型都是判别方法，也就是直接学习出特征输出YYY和特征XXX之间的关系（决策函数Y=f(X)Y=f(X)Y=f(X)或者条件分布P(Y∣X)P(Y|X)P(Y∣X)）。但朴素贝叶斯是生成方法，它直接找出特征输出YYY
机器学习 | 探索朴素贝叶斯算法的应用亦世凡华、 #机器学习机器学习算法人工智能朴素贝叶斯经验分享
朴素贝叶斯算法是一种基于贝叶斯定理和特征条件独立假设的分类算法。它被广泛应用于文本分类、垃圾邮件过滤、情感分析等领域，并且在实际应用中表现出色。朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法：1）对于给定的待分类项r，通过学习到的模型计算后验概率分布。2）此项出现的条件下各个目标类别出现的概率，将后验概率最大的类作为α所属的类别。核心思想：是利用特征之间的条件独立性，来对给定的数据进行分
朴素贝叶斯原理小森( ﹡ˆoˆ﹡ ) 机器学习算法算法人工智能机器学习
朴素贝叶斯的介绍朴素贝叶斯算法（NaiveBayes,NB)是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到，有着坚实的数学基础，以及稳定的分类效率。NB模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。条件概率：表示事件A在另外一个事件B已经发生条件下的发生概率，P(A|B)在女神喜欢的条件下，职业是程序员的概率？女
机器学习_15_贝叶斯算法少云清机器学习机器学习算法概率论贝叶斯算法
文章目录1贝叶斯定理相关公式2朴素贝叶斯算法2.1朴素贝叶斯算法推导2.2朴素贝叶斯算法流程3高斯朴素贝叶斯4伯努利朴素贝叶斯5多项式朴素贝叶斯6贝叶斯网络6.1最简单的一个贝叶斯网络6.2全连接贝叶斯网络6.3“正常”贝叶斯网络6.4实际贝叶斯网络：判断是否下雨6.5贝叶斯网络判定条件独立-016.6贝叶斯网络判定条件独立-026.7贝叶斯网络判定条件独立-031贝叶斯定理相关公式**先验概率P
2019-07-15 周学习计划昭南小星
1.K近邻算法；决策树算法；朴素贝叶斯算法；2.10小节屈婉玲算法课；3.Go语言编程（许式伟）Channel看完；4.流畅的Python元类章节看完；5.减1KG；完成：1.alittle（5）2.0小节（0）3.None（0）4.None（0）5.103.6-103.9=-0.3（0）完成度5/100=5%
01-16 姬汉斯
今天看的是算法部分，首先就是C4.5决策树算法，能够对离散型信息数据进行操作，同时补充有属性缺失的相关数据，在决策树构造过程中进行删减处理。然后就是结合此前的概率论的速速贝叶斯算法，和概率论的基本接近，对未知情况的事物进行模拟分析，计算出大致的概率，以进行数据信息分类等操作。
【机器学习】贝叶斯垃圾邮件识别住在天上的云机器学习机器学习人工智能
实验三：贝叶斯垃圾邮件识别本次作业以垃圾邮件分类任务为基础，要求提取文本特征并使用朴素贝叶斯算法进行垃圾邮件识别（调用已有工具包或自行实现）。1任务介绍电子邮件是互联网的一项重要服务，在大家的学习、工作和生活中会广泛使用。但是大家的邮箱常常被各种各样的垃圾邮件填充了。有统计显示，每天互联网上产生的垃圾邮件有几百亿近千亿的量级。因此，对电子邮件服务提供商来说，垃圾邮件过滤是一项重要功能。而朴素贝叶斯
【机器学习】【贝叶斯算法】Python实战演练贝叶斯算法中的关联规则 hi_ly_51 机器学习算法 python
关联规则概念一个样本称为一个事务每个事务由多个属性来确定，这里的属性称为“项”多个项组成的集合为“项集”X==>Y：X和Y是项集；X称为规则前项；Y称为规则后项支持度支持度(support)：一个项集或者规则在所有事务中出现的频率，σ(X):表示项集X的支持度计数·项集X的支持度：s(X)=σ(X)N·规侧X==>Y表示物品集X对物品集Y的支持度，也就是物品集X和物品集Y同时出现的概率·某天共有1
【机器学习】【贝叶斯算法】Python实现数据预处理实战演练（以购物数据为例） hi_ly_51 机器学习 python 人工智能
importpandasaspdfrommlxtend.frequent_patternsimportapriorifrommlxtend.frequent_patternsimportassociation_rulesretail_shopping_basket={'ID':[1,2,3,4,5,6],'Basket':[['Beer','Diaper','Pretzels','Chips','
朴素贝叶斯算法汪汪军师
贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。贝叶斯公式：换种写法：例题：患有贝叶死的情况下，测出为阳性的概率为P(A|B1)=99.9%，没有患贝叶死，但测出为阳性的概率为P(A|B2)=0.1%。对万分之一的解读：。患有贝叶死的概率为P(B1)=0.01%，没有患贝叶死的概率P(B2)=99.
NLP深入学习（七）：词向量 Smaller、FL NLP 自然语言处理学习人工智能 nlp
文章目录0.引言1.什么是词向量2.Word2Vec2.1介绍2.2例子3.参考0.引言前情提要：《NLP深入学习（一）：jieba工具包介绍》《NLP深入学习（二）：nltk工具包介绍》《NLP深入学习（三）：TF-IDF详解以及文本分类/聚类用法》《NLP深入学习（四）：贝叶斯算法详解及分类/拼写检查用法》《NLP深入学习（五）：HMM详解及字母识别/天气预测用法》《NLP深入学习（六）：n-
NLP深入学习（四）：贝叶斯算法详解及分类/拼写检查用法 Smaller、FL NLP 算法自然语言处理学习 nlp
文章目录0.引言1.什么是贝叶斯定理2.贝叶斯常见实用场景3.贝叶斯用于垃圾邮件分类4.基于贝叶斯算法实现拼写检查器5.参考0.引言前情提要：《NLP深入学习（一）：jieba工具包介绍》《NLP深入学习（二）：nltk工具包介绍》《NLP深入学习（三）：TF-IDF详解以及文本分类/聚类用法》1.什么是贝叶斯定理贝叶斯算法是基于贝叶斯（Bayes）定理的一类统计推断方法，主要用于分类和预测问题。
NLP深入学习（五）：HMM 详解及字母识别/天气预测用法 Smaller、FL NLP 自然语言处理学习人工智能 nlp
文章目录0.引言1.什么是HMM2.HMM的例子2.1字母序列识别2.2天气预测3.参考0.引言前情提要：《NLP深入学习（一）：jieba工具包介绍》《NLP深入学习（二）：nltk工具包介绍》《NLP深入学习（三）：TF-IDF详解以及文本分类/聚类用法》《NLP深入学习（四）：贝叶斯算法详解及分类/拼写检查用法》1.什么是HMM隐马尔可夫模型（HiddenMarkovModel,HMM）是一
史诗级长文--朴素贝叶斯 SQingL 概率论
引言朴素贝叶斯算法是有监督的学习算法，解决的是分类问题，如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立（条件特征独立）性和连续变量的正态性假设为前提，就会导致算法精度在某种程度上受影响。本文将从其原理讲起，通过实例进行辅助。最后使用python实现。基本理论朴素贝叶斯是
ML12-朴素贝叶斯分类杨强AT南京
朴素贝叶斯分类是一种经典的机器学习算法，本主题从贝叶斯的应用场景，到其数学基础，并到最终的实现与应用做了介绍。主要内容包含： 1.NaiveBayes的分类思想； 2.NaiveBayes分类的数学基础； 3.NaiveBayes分类算法实现； 4.NaiveBayes算法的sklearn调用； 5.文本特征处理； 6.NaiveBayes算法的简历薪资预测实现；朴素贝叶斯算法说明朴素
数据结构与算法之美学习笔记：46 | 概率统计：如何利用朴素贝叶斯算法过滤垃圾短信？浊酒南街数据结构与算法之美学习笔记算法数据结构
目录前言算法解析总结引申前言本节课程思维导图：上一节我们讲到，如何用位图、布隆过滤器，来过滤重复的数据。今天，我们再讲一个跟过滤相关的问题，如何过滤垃圾短信？垃圾短信和骚扰电话，我想每个人都收到过吧？买房、贷款、投资理财、开发票，各种垃圾短信和骚扰电话，不胜其扰。如果你是一名手机应用开发工程师，让你实现一个简单的垃圾短信过滤功能以及骚扰电话拦截功能，该用什么样的数据结构和算法实现呢？算法解析实际上
机器学习-0基础猿戴科机器学习 python 人工智能
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录0基础机器学习一、什么是机器学习二、学习软件python三、如何学1.载入数据与理解数据1.1导入数据1.2数据查看2.数据准备与特征过程1.2数据预处理-缺省值-异常值异常值：3特征工程模型与优化sklearn中模型的常用方法sklearn中的模型线性回归逻辑回归朴素贝叶斯算法NB决策树DT结果部署模型持久化模型的序列化模型
贝叶斯算法（新闻分类任务） Avasla 数据分析项目笔记机器学习算法自然语言处理 python 数据分析
文章目录前言介绍一、新闻数据集处理二、文本分词（jibe分词器)三、去停用词停用词表是什么？使用停用词表过滤文件四、构建文本特征4.1）统计词频4.2）词云展示4.3）TF-IDF：提取关键词4.4）数据集标签制作五、建立模型5.1）数据集切分5.2）使用词袋模型的特征来建模5.2.1）制作词袋模型特征5.2.2）建模&观察结果5.3）使用TF-IDF特征建模前言介绍内容介绍：建立新闻文章分类模型
五分钟学完朴素贝叶斯算法你若盛开，清风自来！机器学习算法机器学习人工智能
下面再描述一个详细的案例个人感觉如下链接讲的比较详细图解机器学习|朴素贝叶斯算法详解-知乎
机器学习原理到Python代码实现之NaiveBayes【朴素贝叶斯】神仙盼盼基于python的算法设计机器学习机器学习 python 人工智能
NaiveBayes朴素贝叶斯算法该文章作为机器学习的第二篇文章，主要介绍的是朴素贝叶斯算法的原理和应用。学习本章内容建议对概率论中的联合概率以及先验概率、后验概率有初步的学习和掌握。难度系数：⭐⭐⭐更多相关工作请参考：Github算法介绍朴素贝叶斯算法是一种基于概率论的分类算法，它假设特征之间是独立的，即特征之间没有关联关系。朴素贝叶斯算法通过计算每个类别的概率来对新的样本进行分类。算法原理解析
浅谈树模型与集成学习-从决策树到GBDT 凹凸实验室
引言神经网络模型，特别是深度神经网络模型，自AlexNet在ImagenetChallenge2012上的一鸣惊人，无疑是MachineLearningResearch上最靓的仔，各种进展和突破层出不穷，科学家工程师人人都爱它。机器学习研究发展至今，除了神经网络模型这种方法路径外，还存在许多大相径庭的方法路径，比如说贝叶斯算法、遗传算法、支持向量机等，这些经典算法在许多场景上也一直沿用。本
朴素贝叶斯算法-分类算法 Quinto0 机器学习分类算法朴素贝叶斯算法机器学习拉普拉斯平滑
朴素贝叶斯算法-分类算法1概率基础概率定义为一件事情发生的可能性联合概率：包含多个条件，且所有条件同时成立的概率，记作P(A,B)条件概率：事件A在另一个事件B已经发生条件下的发送概率，记作P(A|B)在A1,A2相互独立的情况下，条件概率的特性：P(A1,A2|B)=P(A1|B)P(A2|B)2贝叶斯公式W：特征向量C：类别贝叶斯公式最常用于文本分类，上式左边可以理解为给定一个文本词向量W，那
【机器学习（一）】机器学习中使用朴素贝叶斯（即最小错误率贝叶斯）、最小风险贝叶斯实现分类 Ai研究僧机器学习朴素贝叶斯算法机器学习 python 算法分类算法
目录1.朴素贝叶斯分类（最小错误率贝叶斯）1.1理论：1.2朴素贝叶斯算法流程：1.3举例说明1.3.1计算步骤：1.3.2程序代码：2.贝叶斯估计2.1算法流程：2.2举例说明3最小风险贝叶斯3.1算法流程：3.2案例说明1.朴素贝叶斯分类（最小错误率贝叶斯）首先得清楚：朴素贝叶斯就是最小错误率贝叶斯，同时也是最大后验概率贝叶斯。朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的
大数据毕业设计：新闻情感分析系统舆情分析 NLP 机器学习爬虫朴素贝叶斯算法（附源码+论文）✅ vx_biyesheji0001 biyesheji0002 毕业设计 biyesheji0001 大数据课程设计自然语言处理 python 机器学习毕业设计爬虫
毕业设计：2023-2024年计算机专业毕业设计选题汇总（建议收藏）毕业设计：2023-2024年最新最全计算机专业毕设选题推荐汇总感兴趣的可以先收藏起来，点赞、关注不迷路，大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助同学们顺利毕业。1、项目介绍技术栈：Python语言、django框架、vue框架、scrapy爬虫框架、jieba分词、nlp算法、爬虫抓取机器学习、朴素
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。

机器学习案例实战：Python文本数据分析新闻分类任务

你可能感兴趣的:(贝叶斯算法)