天浊海

用户评论文本挖掘

学习目标

知道评论文本挖掘的作用
掌握使用nltk和gensim来进行基本NLP处理

一、评论文本挖掘介绍

文本挖掘就是从文本信息中挖掘我们感兴趣的内容
数据分析师为什么要关注文本数据
- 在我们日常的产品和运营工作中，经常接触的数据分析方法、形式绝大部分是基于对数字（值）的描述性分析。这些又被称为结构化数据
- 除此之外，图片，文字，视频，这些统称为非结构化数据
- 非结构化数据蕴含信息量大，特别是文本信息（用户评论）是用户对产品、服务是否满意的重要了解手段
- 在产品和运营的实际工作中，发掘出用户的喜好、购买/使用及流失的内在原因，对我们的工作至关重要
对于非自营电商类业务，文本数据显得异常重要
- 如果是自有APP，可以通过埋点获取我们想要的数据。但作为三方卖家触，达用户手段有限，只能通过平台暴露出的数据接口
- 我们能够通过平台获得的非结构化数据主要是指用户评论数据
- 用户评论数据包含了用户信息，对手信息，产品信息
- 大家都是电商品台的用户，对于用户评论的重要性都有认识，有关评论展开的营销也很多：刷好评，删除评论，红包索评等

通过评论文本挖掘可以实现如下目标：
- 运营优化：挖掘用户喜好，挖掘竞品动态，提升自身产品竞争力
- 产品更新：发掘产品更新动向，及时的从用户处发现产品问题
- 口碑管理：识别出自家产品和竞争对手的口碑差异

二、项目背景

我们想从用户的角度了解有关竞品以及市场的信息
Ukulele 属性简介
- 尺寸：Soprano 21寸 Concert 23寸 Tenor26寸
- 材质：椴木，乌木，桃花芯，塑料
- 颜色：原木色，红色，蓝色，黑色
看一下亚马逊评论的构成，我们主要的分析对象是评论正文
项目需求：
- 竞品销售情况细化：通过对竞品评论中分型号的历史评论数量，反推竞品的主要售卖产品的情况
- 竞品高分和低分的具体发声：高分4-5分的评论主要是说哪些，低分1-2分用户主要说什么，我们比较关注的方面又说了什么
技术实现：
- 竞品细化
- 高分、低分关键词提取

三、文本挖掘相关方法介绍

1、如何用数值来表示文本

机器不懂人类的自然语言，我们要将自然语言转换为机器易于理解的“语言”，NLP（Natural language processing)
NLP 里面，最细粒度的是词语，词语组成句子，句子再组成段落、篇章、文档。所以处理 NLP 的问题，首先要处理词语
词语处理的最终目标是用向量来表示词语

①获取原始文本： Yes, Everjoys ukulele is the right Soprano Ukulele I have been looking for. It arrived earlier and very well packed, just the way I expected.

② 分词：[‘Yes’,’,’, ‘Everjoys’, ‘ukulele’, ‘is’, ‘the’, ‘right’, ‘Soprano’, ‘Ukulele’, ‘I’, ‘have’, ‘been’, ‘looking’, ‘for.’, ‘It’, ‘arrived’, ‘earlier’, ‘and’, ‘very’, ‘well’, ‘packed,’, ‘just’, ‘the’, ‘way’, ‘I’, ‘expected.’]

jieba

③ 向量化编码：[1,0,1,0,1,0,1,0……]

男[1,0]

女[0,1]

北京[1,0,0]

上海[0,1,0]

深圳[0,0,1]

onehot编码

pd.get_dummies()
分词阶段需要处理的内容：
- 首先将一句话拆分成一个一个单词，英文分词很简单，直接通过空格就可以，中文分词可以借助jieba这样的三方库
- I’d I would
- I have
- 接下来我们需要对有时态变化的单词还原成未变化的单词
  - 词干提取 – Stemming
    
    词干提取是去除单词的前后缀得到词根的过程。
    
    大家常见的前后词缀有「名词的复数」、「进行式」、「过去分词」…
  - 词形还原 – Lemmatisation
    
    词形还原是基于词典，将单词的复杂形态转变成最基础的形态。
    
    词形还原不是简单地将前后缀去掉，而是会根据词典将单词进行转换。比如「drove」会转换为「drive」。
- 获取原始单词之后还需要去掉停用词和一些助词，虚词，连词
  - 停用词(stop word)：可以手动指定那些单词经过处理之后不会保留在分词结果中 stop word
  - 一般我们只关心名词，动词和形容词
- 上述过程都有三方库帮助我们实现

四、代码实现

1、导包&载入数据

import pandas as pd
import re
import math
import datetime
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('fivethirtyeight')
import warnings
# 忽略不必要的warnings
warnings.filterwarnings('ignore')

# nltk：文本处理的包
from nltk.stem.wordnet import WordNetLemmatizer # 词性还原
from nltk.corpus import wordnet as wn
from collections import Counter

import pyecharts.options as opts
from pyecharts.charts import WordCloud

%matplotlib inline

加载数据

df_reviews=pd.read_csv('data/reviews.csv')
df_reviews.head()

查看数据情况

df_reviews.info()

从上面结果中看出，short_d，content，name这三个字段有少量缺失，需要我们处理一下

2、数据处理

由于我们分析的就是评论的文本内容，所以content字段有确实的情况，我们直接做删除处理

# 对于评论内容空缺的，直接删除
df_reviews = df_reviews.dropna()

# 截取评论中的星级数据 
def get_stars(n):
    return float(n.replace(' out of 5 stars',''))

# 根据评星数量获取评价属性， 好评（4分及以上）， 中评（3分）， 差评（2分及以下）
def stars_cat(n):
    '''
    评分转换为好中差评  1分2分为差评, 3分中评, 4分5分好评
    '''
    if n<=2:
        return '差评'  
    elif n ==3:
        return '中评' 
    else:
        return '好评'

# 获取评论中的日期信息，转换成日期时间格式
def get_date(x):
    '''
    处理评论日期  Reviewed in the United States on June 24, 2020
    先用 'on ' 去拆分, 把日期文本拆分成两部分
    再用', '拆分, 把后面的部分拆分成 ['月 日','年']
    最后把前面的'月 日' 用空格拆分成 月 日
    '''
    x = x.split('on ')[1] # 把数据拆分成两部分 ['Reviewed in the United States on ','June 24, 2020']
    x = x.split(', ') 
    y= x[1]
    x = x[0].split(' ')
    m,d = x[0],x[1]
    if m=='January' or m=='Jan':
        on_date='01-'+d+'-'+y
    elif m=='February' or m=='Feb':
        on_date='02-'+d+'-'+y
    elif m=='March' or m=='Mar':
        on_date='03-'+d+'-'+y
    elif  m=='April' or m=='Apr':
        on_date='04-'+d+'-'+y
    elif  m=='May':
        on_date='05-'+d+'-'+y
    elif  m=='June' or m=='Jun':
        on_date='06-'+d+'-'+y
    elif  m=='July' or m=='Jul':
        on_date='07-'+d+'-'+y
    elif m=='August' or m=='Aug':
        on_date='08-'+d+'-'+y
    elif m=='September' or m=='Sep':
        on_date='09-'+d+'-'+y
    elif m=='October' or m=='Oct':
        on_date='10-'+d+'-'+y
    elif m=='November' or m=='Nov':
        on_date='11-'+d+'-'+y
    elif m=='December' or m=='Dec':
        on_date='12-'+d+'-'+y    
    #on_date=datetime.datetime.strptime(on_date, '%m-%d-%Y').strftime('%Y-%m-%d')
    return on_date

# 字数统计
df_reviews['stars_num']=df_reviews['stars'].apply(get_stars)
df_reviews['content_cat']=df_reviews['stars_num'].apply(stars_cat)
df_reviews['date_d']=df_reviews['date'].apply(get_date)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5rKRsNDI-1632470680944)(img\reviews3.png)]

3、非文本数据的分析

统计产品的评论数量
统计不同类型的产品数量
统计产品评论星级分布

# 查看不同商品的总数
sns.set(font_scale=1)
df_reviews['product_name'].value_counts().plot(kind='bar')

# 按时间顺序统计发文数量，分析是否有周期性规律
df_reviews['date_d'] = pd.to_datetime(df_reviews['date_d'])
df_reviews['y_m'] = df_reviews['date_d'].astype('datetime64[M]')#提取日期年月
df_reviews.head()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mwBe3U90-1632470680946)(img\reviews5.png)]

# 不同产品  everjoys ranch kala donner 
# 构建结构化多绘图网格,不同子集上绘制同一图的多个实例, --> FacetGrid()
# FacetGrid 参数说明 data 绘图用到的数据 col每一个小图 利用哪一列来截取数据  col_wrap 小图有几列  sharex是否共享x轴  sharey 是否共享Y轴  height图片高度 aspect 宽高比例
g = sns.FacetGrid(data = df_reviews,col = 'product_name',col_wrap = 2,sharex=False,sharey=False,height = 5, aspect= 1.2)
# g.map 绘制分面图中的小图，利用 sns.countplot 绘图  , 从df_reviews 利用 product_name分组  每组画 content_cat 不同类别的数量order 指定柱子的顺序
g.map(sns.countplot,'content_cat',order=['好评','差评','中评'])

# 每种产品的发文数量按月统计
df_content=df_reviews.groupby(['product_name','y_m'])['content'].count().reset_index()
g=sns.FacetGrid(data=df_content,col='product_name',col_wrap=2,sharey=False,sharex=False,height=4,aspect =2)
# 第一个参数传入的是 要调用哪个API 绘图,  后面几个参数传的是 调用 (plt.plot 的时候需要用到哪些参数, 具体的数据传入列名就行了
g.map(plt.plot,"y_m",'content',marker='1')#marker='1' 折线图每一个点会一条短线来表示

# 好中差评的随时间分布
df_content=df_reviews.groupby(['product_name','y_m','content_cat'])['content'].count().reset_index()
g=sns.FacetGrid(data=df_content,col='product_name',hue='content_cat',col_wrap=2,sharey=False,sharex=False,height=4,aspect =2)
g.map(plt.plot,"y_m",'content',marker='.')#marker='.' 折线图每一个点会用一个点来表示
g.add_legend()# 添加图例

# 同产品不同型号的分布
df_content=df_reviews.groupby(['product_name','y_m','type'])['content'].count().reset_index()
g=sns.FacetGrid(data=df_content,col='product_name',hue='type',col_wrap=2,sharey=False,sharex=False,height=4,aspect =2)
g.map(plt.plot,"y_m",'content',marker='.')
g.add_legend()

4、文本挖掘

数据去重

df_data = df_reviews.drop_duplicates(subset={
     "product_name","type","date_d","content_cat","content","stars_num","name"})
df_text=df_data['content']
df_text[0]

"This is for children, not adults. I cannot use the tuner, so I use one on my phone. It doesn't stay in tune longer than a couple minutes."

判断某款产品是好评还是差评

sample_positive=df_data[(df_data.product_name=='everjoys-Soprano') & (df_data.content_cat=='好评')]
sample_negative=df_data[(df_data.product_name=='everjoys-Soprano') & (df_data.content_cat=='差评')]
len(sample_positive)

1037

len(sample_negative)

223

还原常见缩写单词

# 在用语料分析的第一步，用正则表达式对文本进行处理，
# 正则：由一系列普通与特殊字符组成的用于描述文本规则的表达式
# re的包，是一个有关正则匹配的
# re.sub(pattern,replacement,string) ##查找字符串中出现的所有模式，并做替换，输出替换后的结果字符串
# ? 前一个字符至多出现一次：<=1
# * 前一个字符至少出现0次：>=0
# + 前一个字符至少出现一次：>=1
# ^ 标识字符串以后一个字符开始
# . 代表任意一个字符
# $ 标识字符串以前一个字符结束
# () 标识一个group,group(0)表示正则表达式的模式匹配结果，group(1)表示小括号内匹配的第一个群
# [] 中括号内的字符表示一个字符的取值范围
# {} 大括号内的数字表示前一个字符重复的次数
# \ 反斜线表示去除通配符的特殊意义，仅作为普通字符使用
# | 或者
def replace_abbreviations(text):
    # 还原常见缩写单词还原,i'm i'd he's
    new_text = re.sub(r"(it|he|she|that|this|there|here)(\'s)",r"\1 is", text,re.I)
    # (?<=pattern)xxx，就是捕获以pattern开头的内容xxx
    new_text = re.sub(r"(?<=[a-zA-Z])n\'t"," not", new_text) # not的缩写 aren't-- are not
    new_text = re.sub(r"(?<=[a-zA-Z])\'d"," would", new_text) # would的缩写i'd -->i would--> 'i' 'would'
    new_text = re.sub(r"(?<=[a-zA-Z])\'ll"," will", new_text) # will的缩写
    new_text = re.sub(r"(?<=[I|i])\'m"," am", new_text) # am的缩写
    new_text = re.sub(r"(?<=[a-zA-Z])\'re"," are", new_text) # are的缩写
    new_text = re.sub(r"(?<=[a-zA-Z])\'ve"," have", new_text) # have的缩写
    new_text = new_text.replace('\'', ' ').replace('.', '. ')
    return new_text

词形还原(Lemmatization)
- 我们使用nltk 包中的morphy方法来做词形还原

nltk：Natural Language Toolkit 是自然语言处理领域中很常用的Python开源库，nltk提供了一系列的方法帮助我们进行词性标注，词干提取，分词等nlp领域的常见操作,还提供了50多个语料库和词汇资源的接口

def get_lemma(word):
    lemma=wn.morphy(word)
    if lemma is None:
        return word
    else:
        return lemma

去停用词

#标点符号
punctuation = [",", ":", ";", ".", "!", "'", '"', "’", "?", "/", "-", "+", "&", "(", ")"]
stop_words=nltk.corpus.stopwords.words('english')+punctuation

我们将上述处理封装成方法
- 缩写还原→词干提取,词形还原→去停用词

# 封装成pipeline
def prepare_text(n):
    tx = replace_abbreviations(str(n)) # 缩写还原
    # 分词处理  英文分词 实际上就是用空格去split 
    tokens = nltk.word_tokenize(tx)
    # 词还原词形
    tokens = [get_lemma(token) for token in tokens]
    # 去停用词
    tokens = [ i for i in tokens if i not in stop_words] # 遍历每一个单词 如果在停用词表中的就去掉 不在停用词表中的返回
    return tokens

积极、消极评论分别处理

clean_txt_positive=[prepare_text(s) for s in sample_positive['content']]
clean_txt_negative=[prepare_text(s) for s in sample_negative['content']]

查看原始文本

sample_positive['content'][2]

‘Very nice product! The ukulele is very light and the craftsmanship is great. Everything it came with was good as well. Needs lots of tuning in the beginning’

查看处理之后的文本

clean_txt_positive[0]

['nice',
 'product',
 'ukulele',
 'light',
 'craftsmanship',
 'great',
 'everything',
 'come',
 'wa',
 'good',
 'well',
 'need',
 'lots',
 'tuning',
 'beginning']

统计词频

Counter(clean_txt_positive[0]).most_common(2)

[(‘nice’, 1), (‘product’, 1)]

5、创建词云图

创建方法，统计单词总数，每条评论的词汇数量，词汇丰富度（去重后的词汇数量/总的词汇数量）

#clean_text 所有的评论 经过处理之后的list   是一个二维列表 , 每一条评论都对应一个list  这个list里面保存的是这条评论经过处理之后的关键词
def get_words(clean_text):
    words_all = [] # 创建一个列表 用来保存所有评论的单词
    for words in clean_text:
        for word in words:
            words_all.append(word) # 遍历出每条评论的每一个单词, 放到列表里
    total_words = list(set(words_all)) #  统计一共出现了多少个不同的单词  对words_all去重, 转换成list
    all_words = Counter(words_all) # 统计每个单词出现了多少次
    content_mean = len(words_all)/len(clean_text)  # 平均每条评论有多少个关键词  总单词数量/ 一共有多少条评论
    words_cap =  len(total_words)/len(words_all) # 去重之后的词汇总数/去重之前的词汇总数
    return all_words,content_mean,total_words,words_cap
    
words_all_positive,content_mean_positive,total_words,words_cap_positive=get_words(clean_txt_positive)
words_all_negative,content_mean_negative,total_words,words_cap_negative=get_words(clean_txt_negative)

1832

959

查看每条评论的词汇数量和词汇丰富度

content_mean_positive,words_cap_positive

(15.278152069297402, 0.11540884465163159)

content_mean_negative,words_cap_negative

(19.6457399103139, 0.21889979456745035)

统计出现最多的单词的词频,准备绘制词云图

positive_words_wordcloud=words_all_positive.most_common(100)# 取出前100个频率最高的单词
negative_words_wordcloud=words_all_negative.most_common(100)
positive_words_wordcloud

[('ukulele', 402),
 ('love', 390),
 ('great', 381),
 ('wa', 356),
 ('good', 252),
 ('play', 236),
 ('tune', 219),
 ('come', 201),
 ('get', 200),
 ('tuner', 192),
 ('beginner', 189),
 ('daughter', 184),
 ……

绘制好评词云图

(WordCloud()
    .add(series_name="好评词云",
         data_pair=positive_words_wordcloud,  #传入绘制词云图的数据
         word_size_range=[16, 80])  #word_size_range 字号大小取值范围
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title="好评词云", 
            title_textstyle_opts=opts.TextStyleOpts(font_size=23) # 设置标题字号
        ),
        tooltip_opts=opts.TooltipOpts(is_show=True),  # 设置为True 鼠标滑过文字会弹出提示框
    )
    .render_notebook()
)

绘制差评词云图

(WordCloud()
    .add(series_name="差评词云", data_pair=negative_words_wordcloud, word_size_range=[16, 80])
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title="差评词云", title_textstyle_opts=opts.TextStyleOpts(font_size=23)
        ),
        tooltip_opts=opts.TooltipOpts(is_show=True),
    )
    .render_notebook()
)

小结

评论文本挖掘
- 挖掘用户喜好，挖掘竞品动态，提升自身产品竞争力
- 发掘产品更新动向，及时的从用户处发现产品问题
英文文本处理的基本套路
- 分词→缩写还原→词干提取,词形还原→去停用词
- 用到的库nltk
word2vec词向量
- 用一组语料训练一个词向量模型，这个模型相当于一个N维(N需要手动指定)的语义空间，语料中的每一个单词都对应着一个词向量
- 词向量之间的相似度可以作为语义相近的判断依据
- gensim库可以帮助我们训练词向量模型

一文看懂：马斯克旗下人工智能公司 xAI 正式推出的Grok 4，Grok 4 如何开启 “多智能体内生化” 的 AI 新范式，重塑多模态大模型与 AI Agent 未来陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容人工智能 gpt agi chatgpt 大模型 deep learning 神经网络
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十六一文看懂：马斯克旗下人工智能公司xAI正式推出的Grok4，Grok4如何开启“多智能体内生化”的AI新范
大模型开源王炸！Kimi K2凭万亿参数撕开大模型天花板：代码、Agent、推理全碾压，32家企业疯抢接入陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容 transformer chatgpt 深度学习 lstm kimi Agent AIGC
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十七开源王炸！KimiK2凭万亿参数撕开大模型天花板：代码、Agent、推理全碾压，32家企业疯抢接入一、架构
maven本地仓库清缓存py脚本就叫飞六吧 maven 缓存 spring
清_remote.repositories、以及.lastUpdated缓存文件，避免换仓库or私服的时候一直往旧地方去download从而引起的failtodownlown问题importosimportsysdefdelete_maven_metadata_files(directory):"""递归删除指定目录下的_remote.repositories和.lastUpdated文件:par
Prompt：开启与AI高效对话的钥匙
解密Prompt：开启与AI高效对话的钥匙一、什么是Prompt？——AI的“使用说明书”想象一下，你正在指挥一位无所不知但毫无主动性的“实习生”——人工智能（AI）。你不能指望它“心领神会”，你必须给出清晰、具体的指令，它才能准确地完成你想要的任务。这个指令，就是Prompt（提示或提示词）。简单来说，Prompt是你向AI（如大型语言模型LLM）发出的文本或问题，用以引导它生成特定的、高质量的
数据结构自学笔记（四）：单链表，双链表，循环链表和静态链表
根据提供的图片内容，整理链表核心知识点笔记如下：一.单链表定义：通过指针串联节点的线性结构，每个节点包含数据域和指向后继节点的指针。typedefstructLNode{ElemTypedata;//数据域structLNode*next;//指针域（指向后继结点）}LNode,*LinkList;//LinkList为单链表头指针类型特性：带头结点：空表判断L->next==NULL，操作统一不
BPE（字节对编码）和WordPiece 是什么 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法人工智能 transformer 深度学习
BPE（字节对编码）和WordPiece是什么BPE（字节对编码）和WordPiece是自然语言处理中常用的子词分词算法，它们通过将文本拆分为更小的语义单元来平衡词汇表大小和表达能力。BPE（BytePairEncoding，字节对编码）原理初始化：将文本按字符（或Unicode字节）拆分为最小单元，形成初始词汇表。统计合并：迭代合并最频繁出现的相邻字符对，形成新的子词单元，直到达到预设的词汇表大
AI人工智能中Actor - Critic算法的深入解析与应用场景 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能中Actor-Critic算法的深入解析与应用场景关键词：Actor-Critic、强化学习、策略梯度、价值函数、深度强化学习、马尔可夫决策过程、A2C/A3C摘要：本文将深入解析Actor-Critic算法的核心原理，从基础概念到数学推导，再到实际应用场景。我们将通过生动的比喻解释这一强化学习中的重要算法，展示其Python实现代码，并探讨它在游戏AI、机器人控制等领域的应用。最后，
AI人工智能领域多模态大模型的发展历程回顾 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
AI人工智能领域多模态大模型的发展历程回顾关键词：AI人工智能、多模态大模型、发展历程、技术演变、应用场景摘要：本文旨在全面回顾AI人工智能领域多模态大模型的发展历程。通过对不同阶段核心概念、算法原理、数学模型等方面的深入剖析，结合实际项目案例，探讨其在各个领域的应用场景。同时，推荐相关的学习资源、开发工具和重要论文著作，最后总结多模态大模型的未来发展趋势与挑战，并对常见问题进行解答。1.背景介绍
AI人工智能领域Actor - Critic算法的可视化分析 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能领域Actor-Critic算法的可视化分析关键词：Actor-Critic算法、强化学习、策略梯度、价值函数、可视化分析、神经网络、马尔可夫决策过程摘要：本文深入浅出地讲解Actor-Critic算法的核心原理，通过生活化的比喻和可视化分析，帮助读者理解这一强化学习中的重要算法。我们将从基础概念入手，逐步剖析算法架构，并通过Python代码实现和可视化演示，展示算法在实际问题中的应用
如何用深度学习实现图像风格迁移
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。前言图像风格迁移是人工智能领域中一个非常有趣且富有创意的应用。它能够让一张普通的照片瞬间变成梵高笔下的《星月夜》风格，或者像莫奈的《睡莲》一样充满艺术感。这种技术不仅在
docker 安装Home Assistant 铭keny Home Assistant docker 容器运维
一、安装docker1、先切换到root用户，先安装一些基本环境：yuminstall-yyum-utilsdevice-mapper-persistent-datalvm22、添加阿里云软件源yum-config-manager--add-repohttp://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo3、然后安装Docker
Java框架入门——SpringBoot框架初尘屿风 java 初尘屿风 SpringBoot java spring spring boot maven vue
文章目录前言一、SpringBoot是什么？二、请求与响应介绍二、springBoot之helloWorld总结前言Spring都包含了哪些部分呢？主要包含SpringBoot、SpringFramework、SpringData、SpringCloud、SpringCloudDataFlow、SpringSecurity、SpringBatch等众多项目。在spring的官网中对其有详细的介绍。
AI人工智能领域TensorFlow的模型训练策略 AIGC应用创新大全人工智能 tensorflow python ai
AI人工智能领域TensorFlow的模型训练策略关键词：TensorFlow、模型训练、深度学习、神经网络、优化策略、分布式训练、迁移学习摘要：本文将深入探讨TensorFlow框架下的模型训练策略，从基础概念到高级技巧，全面解析如何高效训练深度学习模型。我们将从数据准备、模型构建、训练优化到部署应用，一步步揭示TensorFlow模型训练的核心技术，并通过实际代码示例展示最佳实践。背景介绍目的
Actor - Critic：AI人工智能领域的新宠儿
Actor-Critic：AI人工智能领域的新宠儿关键词：强化学习、Actor-Critic、策略梯度、价值函数、深度强化学习、A2C、A3C摘要：Actor-Critic是强化学习领域的一种重要算法框架，它结合了策略梯度方法和价值函数方法的优点，成为近年来人工智能领域的热门研究方向。本文将用通俗易懂的方式介绍Actor-Critic的核心概念、工作原理、实现方法以及实际应用，帮助读者理解这一强大
探索AI人工智能中遗传算法的进化奥秘 AI学长带你学AI 人工智能 ai
探索AI人工智能中遗传算法的进化奥秘关键词：遗传算法、自然选择、基因编码、适应度函数、群体进化、交叉变异、优化问题摘要：本文将用生物进化视角解读人工智能中的遗传算法原理。通过达尔文进化论的生活化比喻，结合Python代码实例演示如何模拟基因遗传、自然选择等过程，揭示遗传算法在路径规划、参数优化等场景的应用奥秘。最后探讨遗传算法的局限性与未来发展方向。背景介绍目的和范围本文旨在用通俗易懂的方式解析遗
深度剖析AI人工智能领域多模态大模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能 ai
深度剖析AI人工智能领域多模态大模型关键词：AI人工智能、多模态大模型、模型架构、算法原理、应用场景摘要：本文旨在对AI人工智能领域的多模态大模型进行深度剖析。首先介绍多模态大模型的背景知识，包括目的、预期读者等。接着阐述核心概念，分析其架构和原理，并给出相应的流程图。通过Python代码详细讲解核心算法原理和具体操作步骤，同时用数学模型和公式进一步阐释。在项目实战部分，给出实际案例及详细代码解读
Open AI在AI人工智能领域的创新之路 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能 ai
OpenAI在AI人工智能领域的创新之路关键词：OpenAI、人工智能、创新之路、技术突破、应用场景摘要：本文深入探讨了OpenAI在AI人工智能领域的创新之路。首先介绍了OpenAI的背景信息，包括其成立目的、发展历程等。接着详细阐述了OpenAI的核心概念，如强化学习、生成式对抗网络等，并通过示意图和流程图展示其原理和架构。然后讲解了相关核心算法原理，结合Python代码进行具体说明。同时，给
【PTA数据结构 | C语言版】前序遍历二叉树秋说 PTA 数据结构题目集数据结构 c语言算法
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目请编写程序，创建一棵有3个结点的二叉树，并输出其前序遍历序列。输入格式：输入给出3个整数，依次为二叉树根结点的左孩子、右孩子、根结点本身存储的键值。输出格式：输出二叉树的前序遍历序列，每个数字占一行。输入样例：123输出样例：312代码#include#includetypedefstructTreeNode{intdata;struct
探索AI人工智能领域Actor - Critic的无限潜力
探索AI人工智能领域Actor-Critic的无限潜力关键词：AI人工智能、Actor-Critic、强化学习、策略网络、价值网络摘要：本文将深入探索AI人工智能领域中Actor-Critic方法的无限潜力。我们会先介绍其背景知识，接着用通俗易懂的方式解释核心概念，包括Actor和Critic的含义及它们之间的关系，然后阐述其核心算法原理和具体操作步骤，还会给出数学模型和公式并举例说明。通过项目实
[spring6: AspectJAdvisorFactory & AspectJProxyFactory]-源码解析 idolyXyz spring6-源码阅读 spring
推荐阅读：[spring6:AspectMetadata&AspectInstanceFactory]-源码解析[spring6:TargetSource&AopProxyFactory&AdvisorChainFactory&ProxyFactory]-源码分析AspectJAdvisorFactoryAspectJAdvisorFactory接口用于从使用AspectJ注解语法的类中创建Spr
AI人工智能领域多模态大模型的技术瓶颈与解决方案 AI学长带你学AI 人工智能 ai
AI人工智能领域多模态大模型的技术瓶颈与解决方案关键词：多模态大模型、技术瓶颈、跨模态对齐、计算效率、数据稀缺、模型泛化、解决方案摘要：本文深入探讨了AI人工智能领域多模态大模型发展过程中面临的主要技术瓶颈，包括跨模态对齐困难、计算资源消耗巨大、高质量多模态数据稀缺、模型泛化能力不足等问题。针对这些挑战，我们提出了系统性的解决方案，涵盖算法优化、架构创新、数据增强等多个维度。文章通过理论分析、数学
Electron实现“仅首次运行时创建SQLite数据库” 几道之旅数据库 electron sqlite
在桌面应用中，SQLite因其轻量、嵌入式特性成为本地存储的热门选择。但若重复初始化数据库，会导致数据覆盖或冗余。本文将详解如何让Electron应用仅在首次启动时创建SQLite数据库，后续启动直接连接现有库。一、核心逻辑与实现原理核心思路：通过检测数据库文件是否存在，决定是否执行建表操作。关键技术点：路径管理：使用Electron的app.getPath('userData')获取用户数据目录
【杂谈】-人工智能：从无序部署到可问责治理的转型之路
人工智能：从无序部署到可问责治理的转型之路文章目录人工智能：从无序部署到可问责治理的转型之路1、失控的人工智能与“漂移”现象的潜在危机2、穿透迷雾：探寻人工智能治理的真谛3、民主化进程中的治理觉醒4、迈向未来：构建可问责的人工智能生态体系5、抉择时刻：关乎人工智能发展走向的关键权衡人工智能已然步入一个关键的转折阶段。当下，众多企业竞相投身于各类人工智能系统的部署浪潮之中，从功能多样的生成式人工智能
自动字幕生成器：Auto-Subtitle — 技术解析与应用指南房耿园Hartley
自动字幕生成器：Auto-Subtitle—技术解析与应用指南在视频内容日益丰富的今天，自动字幕生成工具变得越来越重要，尤其是对于听障人士、非母语者和在嘈杂环境下观看视频的人来说。Auto-Subtitle是一个开源项目，它利用先进的自然语言处理（NLP）技术为你的视频自动生成准确的字幕。本文将深入探讨这个项目的原理、功能、应用场景及特点，以期吸引更多开发者和用户关注并使用。项目简介Auto-Su
Python在股票数据分析中的应用，如何通过代码实现精准预测股价走势？股票程序化交易接口量化交易股票API接口 Python股票量化交易数据分析 python 股票数据分析股价走势预测代码实现股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>数据获取与导入在股票数据分析中，首先要获取相关数据。Python有许多库可实现这一功能，比如pandas-datareader。使用它可以轻松从知名数据源如雅虎财经获取股票的历史价格、成交量等数据。只需简单几行代码，就能将特定股票在特
机器视觉通用平台之点直线距离算法UI 小治视觉算法 ui visual studio c#windows
usingCvBase;usingCWindowTool;usingHalconDotNet;usingSystem;usingSystem.Collections.Generic;usingSystem.ComponentModel;usingSystem.Data;usingSystem.Diagnostics;usingSystem.Drawing;usingSystem.Linq;usin
视觉构架流程编辑UI 小治视觉 c#visual studio
usingSystem;usingSystem.Collections.Generic;usingSystem.ComponentModel;usingSystem.Data;usingSystem.Drawing;usingSystem.Linq;usingSystem.Text;usingSystem.Text.RegularExpressions;usingSystem.Threading.
机器视觉通用平台之线线距离算法UI 小治视觉算法 ui windows visual studio c#
usingCvBase;usingCWindowTool;usingHalconDotNet;usingSystem;usingSystem.Collections.Generic;usingSystem.ComponentModel;usingSystem.Data;usingSystem.Diagnostics;usingSystem.Drawing;usingSystem.Linq;usin
Anaconda 、Pytorch下载教程（保姆级）湲绘 pytorch opencv 人工智能 conda python 深度学习
#因为每次都自己去搜教程太麻烦，索性写个博客记录一下#一、Anaconda的下载与安装进入Anaconda官网官网：Anaconda|TheWorld’sMostPopularDataSciencePlatform下载地址：FreeDownload|Anaconda直接点击Download即可版本对应表如下，选择自己想要的python版本下载就好[环境配置]anaconda3的base环境与pyt
从“直觉抢答”到“深度思考”：大模型的“慢思考”革命，思维链、树、图如何让AI越来越像人？陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容人工智能 chatgpt AIGC 神经网络 python 大模型思维链
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列十六从“直觉抢答”到“深度思考”：大模型的“慢思考”革命，思维链、树、图如何让AI越来越像人？引言：当AI从“快
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

用户评论文本挖掘

用户评论文本挖掘

学习目标

一、评论文本挖掘介绍

二、项目背景

三、文本挖掘相关方法介绍

1、如何用数值来表示文本

四、 代码实现

1、导包&载入数据

2、数据处理

3、非文本数据的分析

4、文本挖掘

5、创建词云图

小结

你可能感兴趣的:(自然语言处理,人工智能,big,data)

四、代码实现