文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）

1 爬虫

1.1 爬虫原理

这部分内容可以跳过，掌握与否对后面内容的阅读影响并不大，但有兴趣的话可以看看呐~

实现一个爬虫，一般需要经过两个步骤：处理请求和解析源码/数据。

处理请求方面，我们可以使用Python程序自动发送请求，然后根据返回的网页脚本，判断该页面是服务器端渲染还是浏览器端渲染。服务器端渲染可以直接获取到源码并进行解析，如果是浏览器端渲染则需要获取浏览器向服务器发送的二次请求得到的数据。其中，服务器端渲染的网页需要我们解析源码，而浏览器端渲染的网页一般可以直接获得数据。

浏览器端渲染：右键 - 查看页面源代码，如果在源码中能看到页面中字条的内容，则认为该字条是服务端渲染的。
浏览器端渲染：右键 - 检查，分别点击网络、Fetch/XHR，当搜索框获得焦点的时候，我们可以看到浏览器会向服务器发送一个请求，然后将服务器返回的数据渲染后到页面上，这种方式就是浏览器端渲染，也被称为AJAX技术。

对于浏览器端渲染的页面，我们直接获取二次请求得到的数据即可，而对于服务器端渲染的页面，我们需要从源码解析出有价值的内容。我们可以使用Python的第三方模块re、bs4、xpath等。re是使用正则表达式匹配网页源码，从而得到我们想要的内容；而bs4是通过标签和属性定位网页源码中我们需要的内容的位置，其更符合前端的编程习惯；xpath同样是通过标签和属性定位，但它看起来更加直观。

import re

list = re.findall(r"\d+", "我的电话号码是:10086, 我女朋友的电话号码是:10010")  # ['10086', '10010']

from bs4 import BeautifulSoup

page = BeautifulSoup(res, "html.parser")  # 把页面源代码（res）交给BeautifulSoup进行处理, 生成BeautifulSoup对象
table = page.find("table", attrs={"class": "hq_table"})  # 找到table

xpath

# xpath是在XML文档中搜索内容的一门语言，html是xml的一个子集
from lxml import etree

xml = 
"""

    1
    野花遍地香
    1.23
    
        周大强
        周芷若
    

"""
tree = etree.XML(xml)
result = tree.xpath("/book/name/text()")  # ['野花遍地香']。/表示层级关系，第一个/是根节点，text() 拿文本

另外，在处理请求的过程中，可能需要解决一系列的反爬措施：(1)防止网站识别Python程序需要加上User-Agent请求头；(2)对于使用cookie验证登录的网站需要带上登录后服务器返回的cookie作为请求头；(3)防止因频繁的请求导致ip地址被封需要使用代理；(4)以及针对浏览器端渲染的情况，直接请求数据时可能遇到的一系列加密手段，这时候获取数据需要模拟加密过程进行解密……

个人理解的爬虫原理~

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第4张图片

1.2 实现一个爬虫

一般来说，平台知名度越大，其反爬措施就越多，这时候获取数据也会变得更加困难，而下文将会介绍一种技巧性的方法。

1.2.1 Selenium

Selenium是一个用于Web应用程序测试的工具，它可以直接运行在浏览器中，模拟用户的操作，例如点击、输入、关闭、拖动滑块等，就像真正的用户在操作一样。通过Selenium我们可以直接定位到页面中某段文字的位置，在已经经过浏览器渲染的网页中获取需要的内容，而不需要关心网页是服务器端渲染还是浏览器端渲染，所见即所得。

1.2.2 超级鹰

另一方面，某些数据可能需要登录网站后才能获取，而在登录选项中选择账号密码登录一般会被要求输入验证码，比如常见的数字、汉字验证码等，某东平台使用的是滑块。我们可以使用超级鹰处理滑块，它是一款成熟的验证码处理工具，其使用原理是通过截取浏览器中验证码的图片传到超级鹰工具接口，然后接口会返回识别出来的数据（数字，汉字，坐标等），我们通过Selenium可以直接操作浏览器从而通过验证。

1.2.3 实现一个爬虫（源码在这里~）

在这之前，大家可以先注册一个超级鹰账号哈，1元=1000题分，识别一次只需不到50题分，还是相当良心的。
其次，在1.1 爬虫原理部分有简单介绍过xpath，这里有一种更便捷的方法获取元素的xpath，就像这样：右键-检查
另外，部分商品可以使用id搜索
再有就是，Selenium是需要配合浏览器驱动使用的，Chrome的驱动：chromedriver，对应浏览器版本的驱动下载完成后，将驱动放置在Python的安装目录，像下面这样：（也许还需要配置环境变量？？如果遇到报错说没有找到浏览器驱动的话，可以自行搜一下具体是怎么配置的哈）

chaojiying.py（验证码处理）

#!/usr/bin/env python
# coding:utf-8

import requests
from hashlib import md5

class Chaojiying_Client(object):

    def __init__(self, username, password, soft_id):
        self.username = username
        password =  password.encode('utf8')
        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    def PostPic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': codetype,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', im)}
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
        return r.json()

    def ReportError(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()


# if __name__ == '__main__':
    # 用户中心>>软件ID
    # chaojiying = Chaojiying_Client('超级鹰账号', '密码', '软件ID')
    # 本地图片文件路径替换code.png，有时WIN系统须要//
    # im = open('code.png', 'rb').read()  # im就是图片的所有字节
    # 官方网站>>价格体系
    # print(chaojiying.PostPic(im, 9101))  # 9101验证码类型

jd.py - 爬虫主程序

目标链接：（第24行代码）

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys
from chaojiying import Chaojiying_Client
import time

# 初始化超级鹰
chaojiying = Chaojiying_Client('******', '********', '******')  # 替换自己的账号、密码和软件ID

# 无头浏览器
# opt = Options()
# opt.add_argument("--headless")
# opt.add_argument("--disbale-gpu")
# options = opt

# 设置不关闭浏览器
option = webdriver.ChromeOptions()
option.add_experimental_option("detach", True)

web = webdriver.Chrome(options = option)

# 打开登录页面
web.get("")  # 填入某东登录页面链接，由于不能出现具体的目标链接，故以截图显示
# 最大化窗口，防止误触
web.maximize_window()

# time.sleep()是为了等待资源加载完
time.sleep(3)
# 使用账号登录
web.find_element(By.XPATH, '//*[@id="content"]/div[2]/div[1]/div/div[3]/a').click()

time.sleep(3)
# 输入用户名和密码
web.find_element(By.XPATH, '//*[@id="loginname"]').send_keys("***********")  # 某东账号
web.find_element(By.XPATH, '//*[@id="nloginpwd"]').send_keys("********")  # 某东密码
# 点击登录
web.find_element(By.XPATH, '//*[@id="loginsubmit"]').click()

time.sleep(3)
# 处理验证码，识别图像
verify_img = web.find_element(By.XPATH, '//*[@id="JDJRV-wrap-loginsubmit"]/div/div/div/div[1]/div[2]/div[1]/img')
dic = chaojiying.PostPic(verify_img.screenshot_as_png, 9101)
result = dic['pic_str']  # x1,y1
p_temp = result.split(",")
x = int(p_temp[0])

# 滑动滑块
btn = web.find_element(By.XPATH, '//*[@id="JDJRV-wrap-loginsubmit"]/div/div/div/div[2]/div[3]')
ActionChains(web).drag_and_drop_by_offset(btn, x, 0).perform()

time.sleep(8)
# 登陆成功，搜索界面（使用id搜索）
web.find_element(By.XPATH, '//*[@id="key"]').send_keys("100010935292", Keys.ENTER)

# time.sleep(5)
# # 点击商品
# web.find_element(By.XPATH, '//*[@id="J_goodsList"]/ul/li[1]/div/div[1]/a/img').click()

# time.sleep(5)
# # 移动到新窗口
# web.switch_to.window(web.window_handles[-1])

time.sleep(5)
# 商品属性
web.find_element(By.XPATH, '//*[@id="choose-attr-1"]/div[2]/div[1]/a').click()

time.sleep(5)
# 点击（商品评论）
comment_el = web.find_element(By.XPATH,'//*[@id="detail"]/div[1]/ul/li[5]')
comment_el.click()

time.sleep(5)
# 点击（只看当前商品评价）
only_el = web.find_element(By.XPATH, '//*[@id="comment"]/div[2]/div[2]/div[1]/ul/li[9]/label')
webdriver.ActionChains(web).move_to_element(only_el ).click(only_el ).perform()

f = open("comments.txt", mode="w", encoding='utf-8')

time.sleep(5)
# 评论列表
for i in range(100):
  # 每一页的评论
  div_list = web.find_elements(By.XPATH,'//*[@id="comment-0"]/div[@class="comment-item"]')  

  for div in div_list:
    comment = div.find_element(By.TAG_NAME, 'p').text
    f.write(comment + '\n\n')
    # 打印页数
    print(i)

  if i < 99:
    # 下一页 
    next_el = web.find_element(By.XPATH, '//*[@id="comment-0"]/div[12]/div/div/a[@class="ui-pager-next"]')
    # 防止元素遮挡 
    webdriver.ActionChains(web).move_to_element(next_el ).click(next_el ).perform()

  time.sleep(3)

f.close()
print('over!')

把chaojiying.py和jd.py放在同一个目录下，然后下载相关依赖包，运行jd.py就ok了，再放个视频趴（懒得剪了）：

其中，Selenium执行的动作有：(1)打开登录页面并最大化窗口 - (2)使用账号登录并输入用户名和密码 - (3)处理验证码，滑动滑块（使用超级鹰滑动没通过的时候可以手动滑一次，时间足够的） - (4)使用id搜索商品 - (5)点击商品属性 - (6)点击评论（加载页面的时候可以事先滑到评论位置，因为不这样做的话有时候评论数据不会显示出来⚠️）和只看当前商品评价 - (7)获取评论数据，再看下打印结果：

可以看到，由于Selenium需要等待浏览器将页面渲染完成，最终程序运行了7分钟多，个人认为这算得上是使用Selenium实现爬虫的最大的缺点了。另外，其优点也是显而易见的：(1)不容易遇到反爬（但好像爬某宝还是不行）；(2)代码稳定性高，根据指定的页面修改xpath，代码放个半年再拿出来同样可以运行；(3)通俗易懂，代码容易上手；

以上是搜索商品的时候输入不同的商品id的获取到的评论，内容是这样的：
其他需要注意的点：
- 我曾经遇到过的一种情况就是，某一页的评论结构突然不一致了，导致爬到那一页之后就报错，这时候加一个条件判断区别处理就可以了。

2 预处理

获取到文本之后，我们对文本进行预处理，包括去重和拆分短句。

2.1 去重

无论文本挖掘的最终目的是什么，去重几乎是必需的，目的可能是排除一个消费者复制另一个消费者的评论，“挺好的”、“满意”、“不错”等重复率较高的评论，或者爬取重复等情况的出现，本文使用JS实现去重。（基于Node.js环境）（后面步骤不是必须使用Python的都会用JS来完成）

先把所有评论合并为一个文件：

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第11张图片

代码可以这样写（JS）：

let fs = require('fs')

// 读取comments目录下的所有文件
fs.readdir('../comments', (err, data) => {
  if (err) {
    throw err
    return;
  }
  
  let res

  // data是一个包含文件名的数组
  for (let item of data) {
    res = fs.readFileSync(`../comments/${item}`)

    fs.writeFileSync('./comments.txt', res.toString(), {flag:'a'})
  }
})

然后对评论进行去重处理：

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第12张图片

打印结果（合并后一共有30799条评论，去重后剩余30352条评论，重复评论447条）：

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第13张图片

程序可以这样写（JS）：

let fs = require('fs')

// 读取评论
fs.readFile('comments.txt', function (err, data) {
  if (err) {
    console.log(err)
    return;
  }

  // 字符串转数组：（回车换行）
  let arr = data.toString().split('\r\n\r\n')

  // 数组去重
  let arr2 = []  // 保存重复的评论
  let arr1 = arr.filter((value, index, arr) => {  // 保存去重后的评论
    if (arr.indexOf(value) !== index) {
      arr2.push(value)
    }

    return arr.indexOf(value) === index
  })

  // 写入数据
  // 去重后的评论
  fs.writeFile('./comments1.txt', arr1.join('\r\n\r\n'), function (err) {
    if (err) {
      console.log(arr)
      return;
    }

    console.log('comments1.txt写入成功。')
  })
  
  // 重复的评论
  fs.writeFile('./comments2.txt', arr2.join('\r\n\r\n'), function (err) {
    if (err) {
      console.log(arr)
      return;
    }

    console.log('comments2.txt写入成功。')
  })

  console.log(arr.length)
  console.log(arr1.length)
  console.log(arr2.length)
})

comments目录文件
comments.txt
comments1.txt
comments2.txt

2.2 拆分短句

如标题所示，后面我们将会计算特征词的情感得分，而研究上一般将短句的情感得分作为特征词的情感得分，因此我们可以将去重后的每一个评论拆分为多个短句，从而提高情感分析的准确度。

先通过换行符划分短句，就像这样：

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第14张图片

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第15张图片

程序可以写成这样（JS）：只是将两个换行符替换为一个换行符

let fs = require('fs')

fs.readFile('./comments1.txt', (err, data) => {
  if (err) {
    console.log(err)
    return;
  }
  
  fs.writeFile('./comments - 拆分短句1.txt', data.toString().replace(/\r\n\r\n/g, '\r\n'), (err) => {
    if (err) {
      console.log(err)
      return;
    }

    console.log('成功。')
  })
})

另外，根据中文的书写习惯，一般以句号、感叹号、问号、省略号等作为一个句子结束的标志，所以我们可以依据这些标点符号继续拆分句子。Python的LTP模块实现了分句函数，在这里我们直接调用LTP模块的分句函数进行分句，以达到这样的效果：

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第16张图片

代码可以写成这样（Python）：

from ltp import LTP

f = open("comments - 拆分短句1.txt", encoding='utf-8')
list = []
line = f.readline()

while line:
  # 读取到数组
  list.append(line.replace("\n", ""))
  line = f.readline()

f.close()

ltp = LTP()
# 分句，sents是一个数组
sents = ltp.sent_split(list)

# 打开一个文件
fo = open("comments - 拆分短句2.txt", "w", encoding='utf-8')

for i in range(len(sents)):
  fo.write( f"{sents[i]}\n")

fo.close()

comments - 拆分短句1.txt
comments - 拆分短句2.txt

3 高频词统计

3.1 分词

分词即将句子切分为多个词语，它是统计高频词的关键，我们可以使用Python的jieba库实现分词，它有四种分词模式：

分词模式	特点
精确模式	试图将句子最精确地切开，适合文本分析；
全模式	把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式	在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词；
paddle模式	利用PaddlePaddle深度学习框架，训练序列标注（双向GRU）网络模型实现分词；

jieba也支持自定义词典（dict.txt），可以添加未包含在jieba词库里的词语，jieba在处理自定义词典的词语时不会继续拆分，下面是一个自定义词典：

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第17张图片

分词后的结果：

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第18张图片

代码这样写（Python）：

import jieba

# 添加自定义词典
jieba.load_userdict("E:\\封存\论文\处理过程\project\prehandler_py\dict.txt")

# 对文本进行操作
with open('comments - 拆分短句2.txt', 'r', encoding = 'utf-8') as sourceFile, open('comments-分词.txt', 'a+', encoding = 'utf-8') as targetFile:
    for line in sourceFile:
        seg = jieba.cut(line.strip(), cut_all = False)  # 精确模式
        # 分好词之后之间用空格隔断
        targetFile.write(' '.join(seg))
        targetFile.write('\n')
    print('写入成功！')

dict.txt
comments - 分词.txt

3.2 去停用词

从分词结果可以看到，词语基本上可以被单独的划分出来，例如“外观”、“音质”、“像素”等，但分词后的句子夹杂着许多类似“已经”、“了”、“很”等没有实际意义的文本，这些词语我们称之为停用词，为使高频词统计的结果更加准确，我们对分词后的短句进行去除停用词处理。

本文使用的停用词表结合了四川大学机器智能实验室停用词库、百度停用词和哈工大停用词表，一共包含了2131个停用词。

停用词表

去停用词处理后：（此步骤同时进行分词和去停用词）

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第19张图片

代码可以这样写（Python）：

import jieba

# 加载字典
jieba.load_userdict("E:\\封存\论文\处理过程\project\prehandler_py\dict.txt")

# 读取停用词
def stopwordslist(filepath):
  stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
  return stopwords

def seg_sentence(sentence):
  sentence_seged = jieba.cut(sentence.strip(), cut_all = False)  # 分词
  stopwords = stopwordslist('E:\\封存\论文\处理过程\stopwords\stopwords.txt')  # 加载停用词的路径
  outstr = ''
  for word in sentence_seged:
    if word not in stopwords:
      outstr += word
      outstr += " "
  return outstr

inputs = open('comments - 拆分短句2.txt', 'r', encoding='utf-8')
outputs = open('comments - 分词、去停用词.txt', 'w', encoding='utf-8')

for line in inputs:
    line_seg = seg_sentence(line)  # 返回每行
    outputs.write(line_seg + '\n')
    
outputs.close()
inputs.close()

stopwords.txt
comments - 分词、去停用词.txt

3.3 词频统计

分词后得到的词语数量庞大，分别统计每一个词语的数量可以直观地看出消费者更关注哪些产品特征，本文只取数量在前300名之内的词语亦即消费者更关注的前300个特征进行分析。

以下是在分词和去停用词处理后进行词频统计的结果：

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第20张图片

统计词频的代码可以这样写（Python）：（分词、去停用词、词频统计同时进行）

import jieba

# 加载字典
jieba.load_userdict("E:\\封存\论文\处理过程\project\prehandler_py\dict.txt")

# 读取停用词
def stopwordslist(filepath):
  stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
  return stopwords

counts = {}
def seg_sentence(sentence):
  sentence_seged = jieba.cut(sentence.strip(), cut_all = False)  # 分词
  stopwords = stopwordslist('E:\\封存\论文\处理过程\stopwords\stopwords.txt')  # 加载停用词的路径
  outstr = ''
  for word in sentence_seged:
    if word not in stopwords:
      outstr += word
      outstr += " "

      if len(word) == 1:
        continue
      else:
        counts[word] = counts.get(word, 0) + 1  # 返回指定键的值，如果值不在字典中返回default值
  return outstr

inputs = open('comments - 拆分短句2.txt', 'r', encoding='utf-8')
outputs = open('comments - 分词、去停用词.txt', 'w', encoding='utf-8')
output_count = open('comments - 词频.txt', 'w', encoding='utf-8')

for line in inputs:
    line_seg = seg_sentence(line)  # 返回每行
    outputs.write(line_seg + '\n')

items = list(counts.items())  # 字典转列表
items.sort(key = lambda x : x[1], reverse = True)  # 降序排列

N = 300
for i in range(N):
    word, count = items[i]
    output_count.write("{0:<10} {1:>5}".format(word, count) + '\n')  # 格式化

outputs.close()
inputs.close()

还可以制作词云图（使用ECharts的API）：

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第21张图片

词云代码可以这样写（wordcloud.html）：把echarts.min.js、echarts-wordcloud.min.js和wordcloud.html放到同一目录，直接在浏览器打开wordcloud.html即可。

DOCTYPE html>
<html lang="en">

<head>
  <meta charset="UTF-8">
  <meta http-equiv="X-UA-Compatible" content="IE=edge">
  <meta name="viewport" content="width=device-width, initial-scale=1.0">
  <title>Documenttitle>
  <script src="./echarts.min.js">script>
  <script src="./echarts-wordcloud.min.js">script>
head>

<body>
  <style>
    html,
    body,
    #main {
      width: 100%;
      height: 100%;
      margin: 0;
    }
  style>
  <div id="main">div>

  <script>
    window.onload = function () {
      var chart = echarts.init(document.getElementById('main'))
      var maskImage = new Image()
      maskImage.src = "data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAMgAAADICAYAAACtWK6eAAAAAXNSR0IArs4c6QAAAARnQU1BAACxjwv8YQUAAAAJcEhZcwAAFiUAABYlAUlSJPAAABUkSURBVHhe7d0HcFXF/gfwfY4ECb2LVCkClgCRIip9UKSIkKiINAUUGKLSLICCvQAiowNKHVDEEhREBKWIYIl0pCOEUAURARWQKL7//7v+7iMJuTf33nO2nHt+n5k7OXvyHu89nt+7e/bs/vY///1/gkXt559/Funp6dk+586d+98nMzMzW/v8+fMiLi5O5M+fX34C14GfhQsXFtWrVxdVq1aVP6tVqyYKFChA/2lMNw5IBLZs2SLWr18vfvzxx/+F4Y8//qDfqnPFFVfIoCAw1113nUhMTBQlS5ak3zKVOCBBnD17VmzYsEFs3LhR/PDDD2LTpk1awhAuhCUhIUHUqVNH1KtXT1x55ZX0G+YmDkgW6BG++eYb8e2338pg2BSIvCAwDRo0EDfccINo3LgxD8tc4vuAbN++XQYCn9WrV9Ndb8PwKxAUfMqUKUO/YZHyZUAOHDggFixYIEOBoVMsw4M/wtK0aVPRvn17ER8fT79h4fBVQDBsQjA+/fRTcebMGbrrHxUrVpQh6dChg7xmefNFQJYtWyaDgZ9MyF4kEJS6devSXZabmA7I3Llzxbx582TPwXLXqlUrkZycLG6++Wa6w7KKyYB89dVX4p133hFpaWl0h+WlY8eOolu3bqJWrVp0h0FMBWTr1q0yGHjGYJHDAz1Cgk+pUqXorr/FRECOHj0qg/H222/LpRzMGby5R0i6d+9Od/zL8wHBM8akSZPE4cOH6Q5zC1489u/fX/70K88G5NChQzIY8+fPpztMFYRkwIAB1PIXTwaEew39/NqbeCog3GuY57fexDMBWbt2rRg9erTYt28f3WGmNG/eXDz11FOidOnSdCd2eSIgixcvFsOGDaMWs8HVV18tRo0aJX/Gskvop7UwfcvhsM+2bdtESkqKfCkby6zuQQYNGiSWLl1KLWYr9CRYrhKLrA3IjTfeKH7//XdqMdvhwR0P8LHGyoBgKvHPP/+kFvOKHj16xNxw2LpnEMyQcDi8adasWXKmMZZY1YO0a9dO7N+/n1rMqzACwPsqLH70OmsCctddd8n94Sw2FCtWTK548Hp5IiuGWL169eJwxJiTJ0/K4fLOnTvpjjcZ70GGDh0qPv/8c2qxUIoUKSJn91CpBBub8CYbn2PHjsnPjh07xHfffSeLUfz222/07zLv448/lmWJvMhoQF555RW5h4Pl7c477xR9+/YV5cqVozvBISwffvih3HKM0qg2QEklL9bqMhaQmTNnirFjx1KLBYNeAzNDrVu3pjvh27Nnj+yhd+/eTXfMqVSpkli4cCG1vMNIQJYvXy4efvhharFgateuLadOL7vsMroTnXvvvVeWTzUNhSEwu+Ul2h/SUfj5hRdeoBYLBlOlH3zwgeNwwOzZs63Yx/H111+LF198kVreoD0gEydOlHvIWXBly5YVzzzzDLXcgT/PhinXd999V368QmtA5syZw4sPw4CCCRUqVKCWO/DnoVCcDdCLrFmzhlp20xaQvXv3irfeeotaLBg8d+CZQQVbAgJeeRbRFpA333xTHD9+nFosGByQky9fPmq566qrrpKFrG2AHgTDbdtpCQheFH322WfUYqEgICqhyrst0IvYPtRSHhC8qELvwcKDb3mVrr/+erqyg+1DLeUBwRQjl+cJn+pCCLYVWrB9qKU0IHiD66UpPRv4LSBg81BLaUDQe/Dmp8ioXjuFdVo2wj8rNlIWkHXr1onU1FRqsXCpfolqa0BwuBGO2LaNsoDgpSAL33333SdP2FU9i2XDmqxgcAqYbZQEZOXKlbzHIwzFixeXRQ42b94sBg8eLFfuqoYQ2uqTTz6RL5RtoiQg/M4jtJo1a4oxY8bILxJUAslJ1TALwyuUcLVVZmamDIlNXF/ujj0InTt3Fv/88w/dMQMFA3AQTPny5eXPggULym8nfEzV98Vy7379+ok6derQnexWrVoly6xiUSF6FLdhOtX29w440x3PruhdbeB6QF5//XUxefJkaukVODwfP0PVjMV2VAQZww2UzsRWVZXwhYH9LyVKlKA7F2CWD6FYtGiR3CobgL9D/G9xy08//SQXQdqywzAUDDtz61lNcDUg+D+7U6dO4uDBg3RHDyzCu+eee6J+wP3+++9lULBN1a1p6UsuuURukR04cCDdyQ5HOSAU+OzatYvuXoD9G9OnT6eWcyNGjLBu+BIMhqC2zIC6GpCPPvpI1mnVBVUzEAwUMnADpqZffvllRxVWLr/8chkKnBqbm02bNslQ4KDRU6dO0d3cYUj20ksviaJFi9Kd6HhhaJXTG2+8IZo1a0Ytc1wNSJ8+feS3sQ633HKLGDduHLXcFc23bUJCghgyZIhITEykO9lhnh/BiHR2Dwf9P//883JPd6QyMjLkF5aN7xfygiIVOIPENNcCgjH9HXfcQS212rZtK7/pVULQEfi8oJjCE088kesSDjzrIBSY30fPES2UzEFhPfRK8fHxdDc0DBenTJkinz28CA/r6GVNV0JxLSC6hlf4h1ZXwQf8w/3oo49SK7vevXuLRx55hFrZpaeny6luHBV35MgRuuscepHbb79dLlmvWLGiKFSoEP3mXyjbin3fmA3DT6/DVHibNm2oZYZrAUE4EBKV0EM9++yz1NIj6/gd32aPP/64nJXKDRbcYWiGYLj01xoSamRhKy1mpn755Rdx+vRp+k1saN++vfEiD64F5NZbb1W6rB1je0x9miiIjF4EQ5z69evTnezQW2BTWFpaGt1hbsAwa8mSJXJG0BRXAqLj+QPf4pjVsQW+sdFT4BNseUTlypXFNddcI6uUYOk//p54b0xkUGAw2MSHDq4E5P333xfPPfcctdyn46E8XDibD1XL8Tl79izdzQ7TzziSLLdpSgxD8TIVAWN5w3MenvdMcaXvQsFklfCuwzR88z/00EPi7rvvliuVg4UDleoRgGBz+Hh+QUhatGhBd1gophdXuhIQfKuqgmcbvAswDeu58iq8hp4O70LygnVGXbt2pRYLBRMfZ86coZZ+jgOCgzZVzrWbHH/mhAf1UHBCVriwXiwpKYlaLBSTLzodBwS1dlXCnL8tUNStUaNGciYNJyhhmrVq1aryQRzVQiL97+rWEplYh3Vrpjh+SMd4XFUxarxBxvRprMJ7C1sKudkMz3XhDF1VcNyD5LYS1S2qa0SZhj0qNlRdt53JHsTqIZbbBZzdgiXxJ06ckM9eeAeC1b/RjJPxZ9heWdAGurdPZGV1D2JrQPCtj+cNrCjG2ig8vPfs2ZN+Gz7sQWF582wPgj3Ewd4HuMHWgAQT6Vo0LmwRHqyKNjXV6ygg586doys1THatwWDFbDA4EerXX3+lVmhY1BgLK251MbXywFFAVFdN9FpAtm7dKp588sk8i7N9+eWXXNA7QqYK3nEPEqFQAQGU8unSpYtcJo/FiVnheQ3Lt7Fk5cCBA3SXhcPU2TJW9yAqJwCiFc4DI/ZnYPUxVji3atVKriVr2LChfHPOxbyj48khluoeBEvEbetFIl1Wg7Bs2bJF6WSGH2BK3ASrAwIYstgC42Ane8tZ9P7++2+60stRQHTs9LKpIgcKIXih8Fos8mRA3DjkPi94V7Bx40ZqmYPeY+7cudRiunkyIHFxcXSllg1HKXDvYZYnA6KrgAKKIph8qca9h3ncg+QBRdB0TArkBud2oPAz9n8wM/766y+60sv6Z5AAPKyrLAwRCnpKnACFt994Ccj04x4kDKgkMmHCBGqphwqFWQtMY/cg6vbaVoLIDzzZg5go4jZ16lTx2GOPUUudGTNmiAEDBsgg5KyMHriHsCA0TD1P9iCgc5gVgId2lVswsY7q1Vdfpda/bez/yHm0HIZb2BKM4ZeJLws/4YBE6IsvvhApKSnZTmVyChXdUagsZ48BWOqAnqt79+5y1W4AXpbiuDTsBUGld6aGqYA4LtqguiZvOJyeMIVTZrGXA8844cJOQhx7kLPCOgqdoXBc1hAx57DYc9q0adTSx3FAcGYFyv3bINwzCgF7yZcvXy4/Ts4ORy/2wAMPUOsClGPFKUknT56kO8wJFO4zsQPTcUBQilNlZcVo4Zkg6ym3+KbHyuDAB9s43YI/H8Ms9KY5jR07VhZgzgqH4KBiCz44DRh/fzb+Hdpm9erV2g/UcRwQFCvw4hFfKqDnwuRBrVq16M6/cIgOzhrEMWw4EAYHAOXcb49nKRwpZ+MeGFtgydG1115LLT0cBwTjcByVxS5AlZOhQ4de9G2HEj951cEaP368q6fbxhIcnqTrmL8Ax7NYVapUoSsWgAd+PAvNmjWL7vwrnCJxgwYNkuWE2MVMPOs6DggOiWEXO3/+vDxjD5MYK1asoLvhwVQyuxh2mOrGAVEM33rBDgINBjNwl156KbVYgJvvvMLFAdGgWrVqdBUerHGrUaMGtVgAemW8INbJcUAwZYnDFllw0VR/MVXmxnaYCdTJcUCAe5HQwq22GICaWbx7MXeqj/vLyZWARLvEwy8QkHXr1lErb1hmz3KHNXE6exEOiCYjR46kq9BQudH04fm203kevSsBSUhIoCsWDJa3dOrU6aJypFnhATSScw79Cj2Irmc0x2/SA1Bik8fN4enfv7881xDTuViLhWJ0eFeyYMEC+lewvARbJOo21wKCN8BLly6lFmNqYREqViygoIZKrgyxgJ9DmE4oIq6jFBMHhHkWdnGqLgruWkCwEI/3ZTOdMjIyIj72LlKuBQSaNGlCV4zpgWGWyv3qrgbkpptuoivG9MAx5Cp7EVcDkpiYSFeM6ZOamqrsFFxXA4IiathnzZhO27dvl7WbVXA1IFC/fn26YkwfVNyMZL1buFwPCA+zmCkIidtcDwge1EuXLk0txvTBGTI56wA45XpAUH+qRYsW1GJML9QBcLMMlesBAQ4IM+nBBx8UmZmZ1HJGSUBwPEDNmjWpxZhe2OKME8HcoCQgwL0IMwlTv25sPFMWkJYtW9IVY2YsXLiQrqKnLCC1a9eWtWoZMwXH56HcqxPKAgJcQpN5ndKAJCUl8dITZpTT2tFKA4LjyRASxkzA3n+nL61d25MeDKbccBwATnRiTIdSpUqJvn37iq5du9Kd6CntQQCHfHbu3JlajKlTqVIlGQqc6OVGOEB5DwI47gy9CDbaM+YUakGjlwj8xDAKL6dV1GfTEhCYPHmyPP2VMSdwmvHw4cOppZ7yIVYAHtZ5lS9zKjk5ma700BaQkiVLyhNxGYsWThPW/dpAW0AA3SMepBiLBk4I1k1rQFAmskuXLtRiLDLhHILqNq0BAfQiWKfFWCTy5cun/Yx00B4QHE7JvQiLFCrhFytWjFr6aA8I4MUhF3dgkUBATDASEMBQi7FwmRhegbGAYEaCa/mycJkacRgLCPTs2ZOuGAsO7z8qVKhALb2MBqRRo0aid+/e1GIsdybPnjEaEMCy5Fq1alGLsYuZnNAxHpCCBQvKkDAWDA48NcV4QAB713UvQmPegSXtplgREEAvgocxxnLCvg9TrAkIwsFDLZab06dP05V+1gQEMMziUkEsp2PHjtGVflYFBHjal+V08uRJutLPuoBgzQ0/sLOsTD6bWhcQ4CooLKBGjRqifPny1NLPyoDgzSmv9mXQr18/ujLDyoBAs2bN6Ir5Ud26dcW4ceOMT9poK/sTqd27d4tOnTpRi8W61q1byw1RxYsXl6u8ERAbWNuDVK9eXR4IyvwhPj5e3HbbbSIlJcWacIC1AQGs9mX+MH/+fHH//ffLjXSpqal01zyrA4IZDOYvW7ZsEU8//bSsobZp0ya6a47VATG5D4CZtW3bNtGnTx959rlJVgekaNGiXGjOx3B0RlpaGrXMsDogULFiRbpifoSexCTrA4INVcy/TB8nbn1AChUqRFfMb8qVK2f8pGTuQZi1Ro4caXwmk3sQZqUhQ4aIpk2bUssc6wPC/KdDhw6iV69e1DKLA8KsUqBAAflG3RYcEGaVbt26yXV4tuCAMKvYVpOAA8KsUbhwYeuqbFofkF27dtEVi3U2lqC1PiB79uyhK8b0szogZ86cERkZGdRiTD+rA8LDK385d+4cXdnD6oDs3buXrpgfmCwQF4zVAdm8eTNdMT84deoUXdnD2oCkp6fLfcrMPzggEZg3b57IzMykFvMD7CC1jZUBOXr0qAwI8xcOSJimTZsmTpw4QS3mFygcZxvrAoLnjjlz5lCL+Um9evXoyh5WBQTlRsePH08t5jc2Hp5kVUAQjuPHj1OL+UlCQoL82MaagEycOFGsXLmSWsxvBg4cSFd2sSIgq1atEpMmTaIW85vhw4eLxo0bU8suVhx/gILFqMnK/APlfBo2bCgLlNs4tAowHpClS5eKQYMGUYuZgnMAq1SpIipXrqxkuhV/Po5SC/z0CuMBGTNmjJg1axa1mC758+eXBxS1bdtWBgMH17CLGQ8Ieg/0IkwPBAHBwAfBYKEZf0i3cYFarEpKSpKH0+BLicMRHqvegzB1EIrRo0eLMmXK0B0WDuMBqVatGl0xFRCI5cuXW1WMzUuMB6RBgwZ0xdyGv9tly5aJ0qVL0x0WKeMBad68OY+HFUA4pk+fTi0WLeMBiYuLk8f/MvdgVexrr71GLeaEFQ/pAwYMEP3796cWc6JEiRJixIgRokiRInSHOWFFQIBD4o7BgweLmjVrUos5ZU1AIBASfqsbna5du4qOHTtSi7nBisWKOR08eFDuKnzvvfe4cEOY8NwxZcoUuYSEucfKgATs3LlThgRvf1lo2E/TpEkTajG3WB2QgPXr18seZfHixXSHZdWmTRu56JO5zxMBCcDGKgQFP9kFM2fOFImJidRibvJUQALQkyAo6Fn8Ljk5WYwaNYpazG2eDEgAnk0WLVokVq9eTXf8Z8aMGaJ+/frUYm7zdEACNmzYIJYsWSLXHR0+fJjuxj5sV506dSq1mAoxEZCAs2fPyqDgs2LFCrobuzC0whCLqRNTAckKh+8gKNitiIJ0sQbL2FG/GAdfMnViNiBZYeiFoCAwNp5iFI0ePXqIYcOGUYup4ouABBw6dEikpaXJZ5aNGzeKffv20W+8Z/bs2VaXy4kVvgpITjt27JBTxQgMPjh2wQtatmwpJkyYQC2mkq8DkhMCs2bNGrF27VoZHBvPzMMzB94BoX4VU48DEkIgMPv375e9y5EjR+TH1NklqGHVrl070bRpU7rDVOOARAErjAOBwc+s19GECMv7sW8cM1NZf5YtWzZbm+kmxP8B65khCA2jcQoAAAAASUVORK5CYII="

      chart.setOption({
        series: [{
          type: 'wordCloud',

          // 要绘制的“云”的形状。
          // shape: 'circle',

          // 保持maskImage的纵横比
          keepAspect: true,

          // 其中白色区域将被排除绘制文本。
          maskImage: maskImage,

          // 用于定位词云。
          left: 'center',
          top: 'center',
          // width: '80%',
          height: '100%',
          right: null,
          bottom: null,

          // 将映射到的文本大小范围。默认为最小 12px 和最大 60px 大小。
          sizeRange: [12, 60],

          // 文本旋转范围和步长。文本将在 [-90, 90] 范围内通过 rotationStep 45 随机旋转
          rotationRange: [-90, 90],
          rotationStep: 45,

          // 用于标记画布可用性的网格大小（以像素为单位），网格尺寸越大，单词之间的差距越大。
          gridSize: 8,

          // 设置为 true 以允许在画布之外部分绘制单词。
          drawOutOfBound: false,

          // 是否执行布局动画。注意当有很多单词时禁用它会导致 UI 阻塞。
          layoutAnimation: true,

          // Global text style
          textStyle: {
            fontFamily: 'sans-serif',
            fontWeight: 'normal',
            // Color can be a callback function or a color string
            color: function () {
              // Random color
              return 'rgb(' + [
                Math.round(Math.random() * 160),
                Math.round(Math.random() * 160),
                Math.round(Math.random() * 160)
              ].join(',') + ')';
            }
          },
          emphasis: {
            focus: 'self',

            textStyle: {
              shadowBlur: 10,
              shadowColor: '#333'
            }
          },

          // Data is an array. Each array item must have name and value property.
          data: [{ "name": "拍照", "value": 9595 },
                 { "name": "外观", "value": 8495 },
                 { "name": "运行", "value": 8408 },
                 { "name": "屏幕", "value": 7887 },
                 { "name": "流畅", "value": 5993 },
                 { "name": "外形", "value": 5215 },
                 { "name": "音效", "value": 4798 },
                 { "name": "好看", "value": 4550 },
                 { "name": "性价比", "value": 4427 },
                 { "name": "手感", "value": 4095 },
                 { "name": "充电", "value": 4051 },
                 { "name": "清晰", "value": 3626 },
                 { "name": "待机时间", "value": 3129 },
                 { "name": "物流", "value": 2468 },
                 { "name": "系统", "value": 2459 },
                 { "name": "颜色", "value": 2305 },
                 { "name": "漂亮", "value": 2245 },
                 { "name": "颜值", "value": 2188 },
                 { "name": "价格", "value": 2184 },
                 { "name": "像素", "value": 2001 },
                 { "name": "性能", "value": 1694 },
                 { "name": "特色", "value": 1626 },
                 { "name": "很漂亮", "value": 1543 },
                 { "name": "质量", "value": 1495 },
                 { "name": "音质", "value": 1485 },
                 { "name": "游戏", "value": 1340 },
                 { "name": "玩游戏", "value": 1336 },
                 { "name": "打游戏", "value": 1320 },
                 { "name": "快递", "value": 1299 },
                 { "name": "电池", "value": 1297 },
                 { "name": "骁龙", "value": 1273 },
                 { "name": "870", "value": 1195 },
                 { "name": "配置", "value": 1189 },
                 { "name": "功能", "value": 1172 },
                 { "name": "包装", "value": 1139 },
                 { "name": "续航", "value": 1040 },
                 { "name": "处理器", "value": 1039 },
                 { "name": "发货", "value": 995 },
                 { "name": "内存", "value": 982 },
                 { "name": "曲面", "value": 957 },
                 { "name": "888", "value": 957 },
                 { "name": "质感", "value": 945 },
                 { "name": "发热", "value": 928 },
                 { "name": "活动", "value": 873 },
                 { "name": "耳机", "value": 856 },
                 { "name": "大气", "value": 836 },
                 { "name": "客服", "value": 820 },
                 { "name": "价位", "value": 752 },
                 { "name": "轻薄", "value": 712 },
                 { "name": "声音", "value": 702 },
                 { "name": "不卡", "value": 691 },
                 { "name": "实惠", "value": 677 },
                 { "name": "做工", "value": 672 },
                 { "name": "摄像头", "value": 646 },
                 { "name": "显示", "value": 637 },
                 { "name": "品牌", "value": 631 },
                 { "name": "时尚", "value": 591 },
                 { "name": "618", "value": 588 },
                 { "name": "设计", "value": 580 },
                 { "name": "视频", "value": 572 },
                 { "name": "便宜", "value": 567 },
                 { "name": "256", "value": 566 },
                 { "name": "耐用", "value": 564 },
                 { "name": "优惠", "value": 564 },
                 { "name": "相机", "value": 556 },
                 { "name": "扬声器", "value": 556 },
                 { "name": "服务", "value": 552 },
                 { "name": "指纹", "value": 545 },
                 { "name": "王者", "value": 531 },
                 { "name": "双十", "value": 518 },
                 { "name": "不卡顿", "value": 515 },
                 { "name": "卡顿", "value": 512 },
                 { "name": "时间", "value": 511 },
                 { "name": "妈妈", "value": 492 },
                 { "name": "送货", "value": 471 },
                 { "name": "正品", "value": 468 },
                 { "name": "充电器", "value": 467 },
                 { "name": "一亿", "value": 460 },
                 { "name": "到货", "value": 449 },
                 { "name": "老婆", "value": 447 },
                 { "name": "大小", "value": 447 },
                 { "name": "细腻", "value": 439 },
                 { "name": "照片", "value": 437 },
                 { "name": "划算", "value": 430 },
                 { "name": "色彩", "value": 422 },
                 { "name": "屏幕显示", "value": 416 },
                 { "name": "顺畅", "value": 410 },
                 { "name": "机身", "value": 403 },
                 { "name": "照相", "value": 396 },
                 { "name": "黑色", "value": 391 },
                 { "name": "蓝色", "value": 375 },
                 { "name": "防抖", "value": 371 },
                 { "name": "耗电", "value": 371 },
                 { "name": "刷新率", "value": 366 },
                 { "name": "精致", "value": 359 },
                 { "name": "白色", "value": 356 },
                 { "name": "自营", "value": 353 },
                 { "name": "高端", "value": 348 },
                 { "name": "待机", "value": 343 },
                 { "name": "旗舰", "value": 340 },
                 { "name": "美观", "value": 340 },
                 { "name": "不卡", "value": 339 },
                 { "name": "电量", "value": 338 },
                 { "name": "灵敏", "value": 331 },
                 { "name": "自带", "value": 330 },
                 { "name": "外放", "value": 329 },
                 { "name": "软件", "value": 324 },
                 { "name": "顺滑", "value": 323 },
                 { "name": "外观设计", "value": 318 },
                 { "name": "服务态度", "value": 315 },
                 { "name": "开机", "value": 312 },
                 { "name": "音乐", "value": 306 },
                 { "name": "家人", "value": 300 },
                 { "name": "国货", "value": 297 },
                 { "name": "上档次", "value": 296 },
                 { "name": "芯片", "value": 295 },
                 { "name": "5G", "value": 293 },
                 { "name": "国产", "value": 281 },
                 { "name": "分辨率", "value": 279 },
                 { "name": "重量", "value": 276 },
                 { "name": "高刷", "value": 271 },
                 { "name": "背面", "value": 267 },
                 { "name": "美颜", "value": 267 },
                 { "name": "丝滑", "value": 266 },
                 { "name": "老爸", "value": 266 },
                 { "name": "品质", "value": 261 },
                 { "name": "信号", "value": 261 },
                 { "name": "评论", "value": 259 },
                 { "name": "后盖", "value": 258 },
                 { "name": "120hz", "value": 258 },
                 { "name": "实用", "value": 257 },
                 { "name": "态度", "value": 257 },
                 { "name": "丝滑", "value": 256 },
                 { "name": "小哥", "value": 255 },
                 { "name": "画质", "value": 254 },
                 { "name": "老人", "value": 254 },
                 { "name": "解锁", "value": 249 },
                 { "name": "画面", "value": 242 },
                 { "name": "散热", "value": 239 },
                 { "name": "稳定", "value": 236 },
                 { "name": "家里", "value": 235 },
                 { "name": "老公", "value": 235 },
                 { "name": "光学", "value": 233 },
                 { "name": "老妈", "value": 230 },
                 { "name": "升级", "value": 230 },
                 { "name": "款式", "value": 224 },
                 { "name": "音响", "value": 222 },
                 { "name": "清晰度", "value": 218 },
                 { "name": "无线", "value": 215 },
                 { "name": "图片", "value": 214 },
                 { "name": "牌子", "value": 213 },
                 { "name": "反应速度", "value": 207 },
                 { "name": "夜景", "value": 206 },
                 { "name": "爸爸", "value": 201 },
                 { "name": "配色", "value": 198 },
                 { "name": "机型", "value": 196 },
                 { "name": "孩子", "value": 191 },
                 { "name": "材质", "value": 186 },
                 { "name": "礼物", "value": 184 },
                 { "name": "镜头", "value": 179 },
                 { "name": "大方", "value": 177 },
                 { "name": "磨砂", "value": 170 },
                 { "name": "直屏", "value": 164 },
                 { "name": "价钱", "value": 160 },
                 { "name": "实体店", "value": 155 },
                 { "name": "边框", "value": 155 },
                 { "name": "版本", "value": 155 },
                 { "name": "玻璃", "value": 152 },
                 { "name": "电池容量", "value": 152 },
                 { "name": "赠品", "value": 151 },
                 { "name": "同价位", "value": 151 },
                 { "name": "贴膜", "value": 148 },
                 { "name": "售后", "value": 148 },
                 { "name": "亮度", "value": 147 },
                 { "name": "国产手机", "value": 146 },
                 { "name": "女生", "value": 146 },
                 { "name": "媳妇", "value": 143 },
                 { "name": "力度", "value": 143 },
                 { "name": "降价", "value": 142 },
                 { "name": "同事", "value": 140 },
                 { "name": "细节", "value": 137 },
                 { "name": "后置", "value": 136 },
                 { "name": "学生", "value": 135 },
                 { "name": "尺寸", "value": 133 },
                 { "name": "粉丝", "value": 132 },
                 { "name": "立体", "value": 131 },
                 { "name": "网速", "value": 131 },
                 { "name": "实物", "value": 129 },
                 { "name": "网络", "value": 129 },
                 { "name": "素质", "value": 128 },
                 { "name": "电影", "value": 127 },
                 { "name": "技术", "value": 121 },
                 { "name": "弟弟", "value": 120 },
                 { "name": "喇叭", "value": 120 },
                 { "name": "前置", "value": 119 },
                 { "name": "女朋友", "value": 116 },
                 { "name": "眼睛", "value": 114 },
                 { "name": "触感", "value": 113 },
                 { "name": "父母", "value": 112 },
                 { "name": "硬件", "value": 110 },
                 { "name": "备用机", "value": 106 },
                 { "name": "儿子", "value": 105 },
                 { "name": "观感", "value": 104 },
                 { "name": "原装", "value": 103 },
                 { "name": "骁龙", "value": 103 },
                 { "name": "音量", "value": 103 },
                 { "name": "刷屏", "value": 101 },
                 { "name": "后壳", "value": 99 },
                 { "name": "人性化", "value": 97 },
                 { "name": "年轻人", "value": 96 },
                 { "name": "工艺", "value": 95 },
                 { "name": "官方", "value": 95 },
                 { "name": "价格便宜", "value": 95 },
                 { "name": "金属", "value": 93 },
                 { "name": "功耗", "value": 92 },
                 { "name": "温度", "value": 92 },
                 { "name": "平台", "value": 92 },
                 { "name": "橙色", "value": 91 },
                 { "name": "外壳", "value": 90 },
                 { "name": "广告", "value": 88 },
                 { "name": "屏下", "value": 88 },
                 { "name": "角度", "value": 87 },
                 { "name": "火龙", "value": 87 },
                 { "name": "幻境", "value": 87 },
                 { "name": "神速", "value": 86 },
                 { "name": "女孩子", "value": 86 },
                 { "name": "科技", "value": 86 },
                 { "name": "风格", "value": 86 },
                 { "name": "界面", "value": 85 },
                 { "name": "盒子", "value": 85 },
                 { "name": "塑料", "value": 83 },
                 { "name": "音响效果", "value": 82 },
                 { "name": "通话", "value": 80 },
                 { "name": "新款", "value": 79 },
                 { "name": "厚度", "value": 78 },
                 { "name": "包装盒", "value": 77 },
                 { "name": "造型", "value": 76 },
                 { "name": "空间", "value": 75 },
                 { "name": "长辈", "value": 74 },
                 { "name": "绿色", "value": 72 },
                 { "name": "钢化", "value": 71 },
                 { "name": "水桶", "value": 71 },
                 { "name": "微距", "value": 70 },
                 { "name": "光线", "value": 68 },
                 { "name": "原神", "value": 68 },
                 { "name": "热情", "value": 66 },
                 { "name": "妹妹", "value": 66 },
                 { "name": "运存", "value": 66 },
                 { "name": "渐变色", "value": 65 },
                 { "name": "父亲", "value": 65 },
                 { "name": "档次", "value": 64 },
                 { "name": "现货", "value": 64 },
                 { "name": "容量", "value": 63 },
                 { "name": "主打", "value": 62 },
                 { "name": "样式", "value": 62 },
                 { "name": "系统优化", "value": 62 },
                 { "name": "原生", "value": 62 },
                 { "name": "同学", "value": 61 },
                 { "name": "英寸", "value": 60 },
                 { "name": "老人家", "value": 60 },
                 { "name": "拍照片", "value": 59 },
                 { "name": "经典", "value": 59 },
                 { "name": "扫码", "value": 59 },
                 { "name": "音箱", "value": 58 },
                 { "name": "配件", "value": 57 },
                 { "name": "触屏", "value": 56 },
                 { "name": "女儿", "value": 56 },
                 { "name": "柔性", "value": 56 },
                 { "name": "情怀", "value": 56 },
                 { "name": "亮眼", "value": 55 },
                 { "name": "全家", "value": 55 },
                 { "name": "动画", "value": 55 },
                 { "name": "秒杀", "value": 55 },
                 { "name": "官网", "value": 54 },
                 { "name": "按键", "value": 54 },
                 { "name": "参数", "value": 52 },
                 { "name": "优惠券", "value": 52 },
                 { "name": "无线耳机", "value": 51 },
                 { "name": "杂音", "value": 51 },
                 { "name": "单手操作", "value": 51 },
                 { "name": "短板", "value": 51 },
                 { "name": "代言", "value": 50 },
                 { "name": "素皮", "value": 50 },
                 { "name": "麒麟", "value": 50 },
                 { "name": "银色", "value": 49 },
                 { "name": "直播间", "value": 49 },
                 { "name": "新品", "value": 49 },
                 { "name": "圆润", "value": 49 },
                 { "name": "分量", "value": 49 },
                 { "name": "礼品", "value": 49 },
                 { "name": "模组", "value": 49 },
                 { "name": "饱和度", "value": 48 }]
        }]
      })
    }
  script>
body>

html>

comments - 词频.txt
词云依赖包

3.3 词频统计优化

从上面的词频统计结果可以看到，去停用词后直接进行词频统计，得到的结果混杂了许多不属于手机特征的词语（下文称非特征词），包括词频位于前三的“手机”、“不错”、“速度”，在笔者看来，这些词语均属于非特征词。

例如“手机”，虽然它是一个名词，但其并不是描述手机特征的词语，它代表手机本身；例如“不错”，它是一个形容词，不在手机特征范畴；又如“速度”一词，它可以指物流速度，也可以指系统流畅度，这类模棱两可的词语我们也是不需要的，原因是在出现这些词语的地方，正确的句法里应会存在着一个更合适的具体的特征词。例如我们可以在拆分短句后的原始评论中搜索“速度”，以下是原始评论中最前面的两条包含“速度”的短句：

“宝贝已经收到了，试用了一段时间，运行平稳，速度还不错！”
“运行速度：完美”

可以看到，两条短句都包含了更合适的具体的特征词——“运行”，所以我们可以保留“运行”而不是使用泛指的“速度”。

对于上面提及的三个词语以及没有罗列出来的非特征词，可以采取不同的处理方式。查看3.2词频统计步骤得出的前300个高频词，可以发现本身为名词但并不是特征词的“手机”，以及代表泛指的“速度”这两类词在统计出来的前300个高频词中数量并不多，前300个高频词中的非特征词里更多的是类似“不错”、“喜欢”等词性为形容词和动词的词语，所以我们对去除停用词后的短句进一步筛选出名词进行词频统计，便可以去除大部分非特征词。

为了筛选出名词，我们需要进行词性标注，词性标注即确定句子中各个词的词性。Python里的jieba库的分词模块同样提供了词性标注功能，该模块可以标注出24个词性标签和4个专名类别标签，如下图所示：

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第22张图片

前面提到，去除非名词处理并不能完全清除非特征词，仍会存在一部分像“手机”、“速度”等词性为名词的非特征词，为使结果更加准确，通过人工筛选的方式清除其余的非特征词。另外，jieba的词性标注功能也有一定的误差，例如将名词标注为其它词性，为了使结果更加准确，对3.2词频统计结果和3.3词频统计优化结果进行整合，最终得到数量在前292位的高频特征词（下文称之为高频词）。

去除非名词后的的结果：comments - 词频1.txt

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第23张图片

代码可以这样写（Python）：

import jieba
import jieba.posseg as pseg

# 加载字典
jieba.load_userdict("E:\\封存\论文\处理过程\project\prehandler_py\dict.txt")

# 读取停用词
def stopwordslist(filepath):
  stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
  return stopwords

counts = {}
def seg_sentence(sentence):
  sentence_seged = pseg.cut(sentence.strip())  # 分词
  stopwords = stopwordslist('E:\\封存\论文\处理过程\stopwords\stopwords.txt')  # 加载停用词的路径
  outstr = ''
  for word in sentence_seged:  # 每个词
    if word.word not in stopwords:
      outstr += word.word
      outstr += " "

      if len(word.word) == 1 or word.flag != 'n':
        continue
      else:
        counts[word.word] = counts.get(word.word, 0) + 1  # 返回指定键的值，如果值不在字典中返回default值
  return outstr

inputs = open('comments - 拆分短句2.txt', 'r', encoding='utf-8')
outputs = open('comments - 分词、去停用词.txt', 'w', encoding='utf-8')
output_count = open('comments - 词频1.txt', 'w', encoding='utf-8')

for line in inputs:
    line_seg = seg_sentence(line)  # 返回每行
    outputs.write(line_seg + '\n')

items = list(counts.items())  # 字典转列表
items.sort(key = lambda x : x[1], reverse = True)  # 降序排列

N = 300
for i in range(N):
    word, count = items[i]
    output_count.write("{0:<10} {1:>5}".format(word, count) + '\n')  # 格式化

outputs.close()
inputs.close()

然后，通过整合最终得出手机的前292个高频词：comments - 词频整合

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第24张图片

再次绘制词云图：

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第25张图片

可以看到，词频统计优化后的结果基本上属于手机的特征词，也可以看出消费者对“拍照”、“外观”、“运行”、“屏幕”等产品特征最为关注，这也符合现实生活中的情况。

4 特征词聚类

从上个步骤的词云图可以看出，虽然经过优化后的词频统计得到的结果有明显改善，但仔细观察优化后的版本，前10的特征词里处于第二位的“外观”和第六位的“外形”以及第八位的“好看”，本质上都是描述手机这一个产品的外部特征，即消费者在使用这三个词语评价的时候，表达的都是对同一个产品特征的评价。同样，处于第三位的“运行”和第五位的“流畅”也是表达对系统这一产品特征的评价。

既然统计出来的292个高频词里存在表达意思相同的特征词，那么下一步，我们需要对这292个词语进行分类处理。

显然，手动分类的方式繁琐且不现实，我们可以使用K-means聚类算法实现分类。在本例中，我们希望将292个特征词经过聚类变成若干个特征集合，例如将“外观”、“外形”、“好看”都分到外观这一集合去。

K-means聚类算法是一种通过不断迭代找出最优解的聚类分析算法，K-means聚类需要指定聚类个数K和输入一组数据点，我们可以通过计算轮廓系数获得最佳聚类个数，而文本作为一种非结构化的数据信息，并不能被直接计算，因此我们需要将词转化为词向量，以获得数据点。

自然语言理解转化为机器学习的第一步通常都是将文本信息数学化，通过word2vec我们可以获得某词语的低维实数向量，如：[0.278,0.320,0.197,0.534,0.164,…]，向量的每个维度都代表了该词的一个潜在特征，而该特征捕获了有用的句法及语义信息。

我们可以使用使用分词后的评论训练词向量模型——训练集.model，然后从词向量模型中提取292个高频词的向量，来计算最佳聚类个数和进行聚类。

训练词向量模型代码：

from gensim.models import word2vec
import logging
import os

# 模型训练，生成词向量模型
def model_train(train_file_name, save_model_file):
    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)  # 日志
    sentences = word2vec.Text8Corpus(train_file_name)  # 加载语料
    model = word2vec.Word2Vec(sentences, vector_size=100, min_count=5, sg=1)  # 训练skip-gram模型，默认window=5，参数参考https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.Word2Vec
    model.save(save_model_file)  # 保存模型
    model.wv.save_word2vec_format(save_model_name + ".bin", binary=True)  # 以二进制类型保存模型以便重用

save_model_name = '训练集.model'

if not os.path.exists(save_model_name):  # 判断文件是否存在
    model_train('comments - 分词.txt', save_model_name)  # 须注意文件必须先另存为utf-8编码格式
else:
    print('此训练模型已经存在，不用再次训练。')

可以从训练集中输出“手机”一词的词向量：

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第26张图片

代码是这样写的：

from gensim.models import word2vec

save_model_name = '训练集.model'

# 加载已训练好的模型
model_1 = word2vec.Word2Vec.load(save_model_name)

# 返回词向量
print(model_1.wv.get_vector('手机'))

训练集.model

4.1 K值计算

得到词向量模型后，我们可以从词向量模型中提取292个高频词的向量，然后计算最佳聚类个数。轮廓系数可以评价聚类效果的好坏，Python的sklearn模块给出了轮廓系数的求解方法，其实现步骤是：事先给定一个聚类簇数区间[2,40]（即把292个特征词依次分为2类至40类），然后分别计算这个区间内每个簇数的轮廓系数，结果如下所示：

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第27张图片

轮廓系数越接近1，表明聚类效果越好，所以K值（聚类个数）我们定为26。

代码可以这样写（Python）：

from gensim.models import word2vec
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt

save_model_name = '训练集.model'

# 加载已训练好的模型
model_1 = word2vec.Word2Vec.load(save_model_name)

# 获取指定关键词的词向量
f = open(r"E:\封存\论文\处理过程\project\vector\key.txt", encoding = 'utf-8')  # 之前提取的292个高频词

line = f.readline()
keys = []  # 关键字数组

while line:
  keys.append(line.strip('\n'))
  line = f.readline()

f.close()

wordvector = []  # 词向量数组

for key in keys:
  wordvector.append(model_1.wv.get_vector(key))

# 轮廓系数确定簇数，最佳值为1，最差值为-1，接近0的值表示重叠的群集
def silhouette_score_show(data_vec=None, name=None):
    k = range(2, 40)
    score_list = []
    for i in k:
        model = KMeans(n_clusters=i).fit(data_vec)
        y_pre = model.labels_
        score = round(silhouette_score(data_vec, y_pre), 2)
        score_list.append(score)
    plt.figure(figsize=(12, 8))
    plt.plot(list(k), score_list)
    plt.xticks(fontsize=12)
    plt.yticks(fontsize=12)
    plt.xlabel('簇数', fontsize=15)
    plt.ylabel('系数', fontsize=15)
    plt.savefig(f'{name}轮廓系数.jpg')
    plt.show()

silhouette_score_show(wordvector, 'word2vec')

key.txt

4.2 聚类

接着，根据292个高频词的词向量模型进行聚类，打印结果如下：

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第28张图片

整理后可以得到这样的结果：

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第29张图片

代码是这样写的：

from gensim.models import word2vec
from sklearn.cluster import KMeans
from collections import Counter

save_model_name = '训练集.model'

# 加载已训练好的模型
model_1 = word2vec.Word2Vec.load(save_model_name)

# 获取指定关键词的词向量
f = open(r"E:\封存\论文\处理过程\project\vector\key.txt", encoding = 'utf-8')  # 之前提取的292个关键词

line = f.readline()
keys = []  # 关键字数组

while line:
  keys.append(line.strip('\n'))
  line = f.readline()

f.close()

wordvector = []  # 词向量数组

for key in keys:
  wordvector.append(model_1.wv.get_vector(key))

# 聚类
clf = KMeans(n_clusters=26).fit(wordvector)
labels = clf.labels_

# 把是一类的放入到一个集合
classCollects = {}
for i in range(len(keys)):
    if labels[i] in classCollects.keys():
        classCollects[labels[i]].append(keys[i])
    else:
        classCollects[labels[i]]=[keys[i]]

print(classCollects)

# 统计数量
center_dict = Counter(labels)
print(center_dict)

至此，我们得到了手机的27个特征词，可以统计出每个特征词的词频：（值等于每个特征词所包含的高频词的词频之和）

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第30张图片

5 情感分析

通过聚类我们得到了手机的27个特征词，那么接下来，我们可以计算27个特征词的情感得分。进行情感分析，我们可以使用Python的snowNLP模块，snowNLP是一个针对中文文本写的自然语言处理库，其自带了针对电商平台评价数据训练好的模型，所以我们可以直接调用SnowNLP的接口计算短句的情感得分，进而得出短句所包含的高频词的情感得分。（短句的情感得分作为短句中所包含高频词的情感得分）

先计算每一个短句的情感得分：⛄️

from snownlp import SnowNLP

f = open("comments - 拆分短句2.txt", encoding = 'utf-8')
outputs = open('comments - 情感', 'w', encoding='utf-8')

line = f.readline()

while line:
  # 情感得分
  try:
    emo = SnowNLP(line.strip()).sentiments
  except: 
    print('异常')

  outputs.write(str(emo) + ' ' + line.strip() + '\n')
  line = f.readline()

f.close()
outputs.close()
print('write down.')

结果像这样：score.txt

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）_第31张图片

我们的目的是计算27个特征词的情感得分，而特征词是由292个高频词聚类得到的，所以我们首先需要获得每个高频词的情感得分，具体步骤为：（不知道大家能不能看懂，可能会有点绕哈）

对于特征词中的每一个高频词，其情感得分为：检索每一条短句，如果短句包含该高频词，那么将这些短句的情感得分平均值作为该高频词的情感得分；
将特征词所包含的每一个高频词的情感得分平均值，作为该特征词的情感得分；

代码可以这样写（JS）：

// 引入fs模块
let fs = require('fs')

let arr1 = []  // ["0.998506036016588 宝贝已经收到了，试用了一段时间，运行平稳，速度还不错！", ...]
let arr2 = []  // ["0.998506036016588", "宝贝已经收到了，试用了一段时间，运行平稳，速度还不错！"]
let arr3 = []  // [["0.998506036016588", "宝贝已经收到了，试用了一段时间，运行平稳，速度还不错！"], [], ...]

// 同步读取
let res = fs.readFileSync('./score.txt')
arr1 = res.toString().split('\r\n')

for (let item of arr1) {
  arr2 = item.split(/\s/)  // 只有一个空格

  if (arr2.length > 2) {  // 有多个空格
    let str1 = arr2[0]
    let str2 = ''
    let arr4 = []

    for (let index in arr2) {
      if (Number(index)) {
        arr4.push(arr2[index])
        str2 = arr4.join(' ')
      }
    }

    arr2 = [str1, str2]
  }

  arr3.push(arr2)  // 得到二维数组
}

let obj1 = {
  "质量": ["质量", "做工", "按键", "正品", "自营", "品质", "评论", "实体店", "官方", "平台", "官网", "代言"],
  "游戏": ["游戏", "玩游戏", "打游戏", "发热", "王者", "耗电", "信号", "散热", "稳定", "网络", "温度", "原神"],
  "处理器": ["骁龙", "870", "处理器", "888", "骁龙", "性能", "旗舰", "芯片", "技术", "功耗", "火龙", "麒麟"],
  "包装": ["包装", "盒子", "包装盒", "原装"],
  "内存": ["内存", "空间", "运存", "容量"],
  "配件": ["耳机", "充电器", "配件", "无线", "赠品", "贴膜", "钢化", "无线耳机", "礼品"],
  "客服": ["客服", "服务", "服务态度", "态度", "售后"],
  "重量与尺寸": ["轻薄", "大小", "重量", "尺寸", "英寸", "厚度", "分量", "单手操作", "手感"],
  "指纹": ["屏下", "指纹", "灵敏", "解锁", "反应速度"],
  "配色": ["黑色", "蓝色", "白色", "配色", "橙色", "角度", "幻境", "光线", "渐变色", "银色", "颜色", "绿色"],
  "屏幕刷新率": ["刷新率", "顺滑", "高刷", "丝滑", "120hz", "丝滑", "刷屏"],
  "边框和后盖": ["背面", "后盖", "外壳", "材质", "磨砂", "边框", "玻璃", "后壳", "工艺", "金属", "塑料", "素皮"],
  "版本": ["256", "版本"],
  "现货": ["现货"],
  "摄像": ["拍照", "清晰", "视频", "照片", "色彩", "照相", "分辨率", "画质", "画面", "细节", "清晰度", "图片", "拍照片", "饱和度", "像素", "摄像头", "相机", "一亿", "防抖", "美颜", "光学", "夜景", "镜头", "后置", "前置", "微距", "扫码", "模组"],
  "外观": ["外观", "外形", "实物", "大气", "时尚", "设计", "精致", "高端", "美观", "外观设计", "上档次", "实用", "大方", "科技", "风格", "样式", "经典", "好看", "漂亮", "颜值", "很漂亮", "曲面", "质感", "款式", "女生", "触感", "年轻人", "女孩子", "造型", "档次", "亮眼", "圆润", "机身"],
  "屏幕": ["屏幕", "显示", "细腻", "屏幕显示", "直屏", "亮度", "素质", "眼睛", "观感", "柔性", "触屏"],
  "系统": ["流畅", "不卡", "不卡顿", "顺畅", "不卡", "卡顿", "运行", "系统", "功能", "软件", "升级", "人性化", "广告", "界面", "原生", "动画", "系统优化", "开机"],
  "喇叭": ["音效", "音质", "声音", "扬声器", "外放", "音乐", "音响", "立体", "电影", "喇叭", "音量", "音响效果", "音箱", "通话", "杂音"],
  "网络": ["网速", "5G"],
  "性价比": ["性价比", "同价位", "价位"],
  "电池和充电": ["充电", "待机时间", "电池", "续航", "耐用", "时间", "待机", "电量", "电池容量"],
  "物流": ["物流", "快递", "发货", "送货", "到货", "神速", "小哥", "热情"],
  "品牌": ["品牌", "国货", "国产", "国产手机", "牌子", "全家"],
  "价格": ["价格", "活动", "实惠", "618", "便宜", "优惠", "双十", "划算", "价钱", "力度", "降价", "学生", "价格便宜", "优惠券", "直播间", "秒杀"],
  "总体配置": ["配置", "水桶", "参数", "短板"],
  "新品": ["新品", "新款"]
}

// [["0.998506036016588", "宝贝已经收到了，试用了一段时间，运行平稳，速度还不错！"], [], ...]

let obj2 = []

// 每一个特征词
for (let key in obj1) {
  let value = obj1[key]
  let classScore = 0
  let classN = 0

  // item：特征词中的每一个高频词
  for (let item of value) {
    let score = 0
    let n = 0

    // 遍历arr3
    for (let item1 of arr3) {
      if (item1[1].indexOf(item) > -1) {
        score += Number(item1[0])
        n++
      }
    }

    if (n > 0) {
      classScore += score / n  // 每一个高频词的情感得分
      classN++
    }
  }

  obj2[key] = classScore / classN  // 每一个特征词的情感得分
}

console.log(obj2)

获得每个特征词的情感得分：

{
  '质量': 0.8001988613911016,
  '游戏': 0.8328068700046466,
  '处理器': 0.9206259082705203,
  '包装': 0.7446243653468196,
  '内存': 0.8606755206176194,
  '配件': 0.7304562836583399,
  '客服': 0.7413850463524174,
  '重量与尺寸': 0.8684763363457315,
  '指纹': 0.8014712886190194,
  '配色': 0.8997966312328575,
  '屏幕刷新率': 0.8689830665013788,
  '边框和后盖': 0.8395039787132342,
  '版本': 0.8198596845192971,
  '现货': 0.6576323267151287,
  '摄像': 0.8694447377114252,
  '外观': 0.9623818798921722,
  '屏幕': 0.8378220399511975,
  '系统': 0.8730660909832209,
  '喇叭': 0.859654212822756,
  '网络': 0.8525110175919286,
  '性价比': 0.9570735256053896,
  '电池和充电': 0.8121310500793762,
  '物流': 0.7835370259175152,
  '品牌': 0.8819576886088969,
  '价格': 0.821030357019408,
  '总体配置': 0.8459965298429362,
  '新品': 0.9029555229440966
}

至此，我们基本上完成了如标题所示的需求类型，当然我们也可以继续扩展，例如进行基于KANO模型的需求分析，感兴趣的朋友们可以研究下哦。

附：

Python爬虫系列教程

你可能感兴趣的:(文本挖掘,爬虫,数据挖掘,自然语言处理,word2vec,聚类)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
爬虫技术抓取网站数据被限制怎么处理 Bearjumpingcandy 爬虫
爬虫技术用于抓取网站数据时，可能会遇到一些限制，常见的包括反爬机制、速率限制、IP封禁等。以下是应对这些情况的一些策略：尊重robots.txt：每个网站都有robots.txt文件，遵循其中的规定可以避免触犯网站的抓取规则。设置合理频率：控制爬虫请求的速度，通过添加延迟或使用代理服务器，减少对目标网站的压力。使用代理：获取并使用代理IP地址可以更换访问来源，降低被识别的可能性。模拟用户行为：使用
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是指通过程序自动访问网页并提取数据的技术。一般来说，爬虫技术包含以下几个步骤：确定目标网站：确定需要抓取的网站，并了解其页面结构和数据特点。分析页面结构：分析网页的结构和源代码，找到需要抓取的数据在页面中的位置和标识。编写爬虫程序：使用编程语言（如Python）编写爬虫程序，实现对目标网站的自动访问和数据提取。处理抓取数据：对抓取到的数据进行清洗、去重、整合等处理，以便后续的分析和利用。爬
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/