weixin_30663391

中文情感分析——snownlp类库源码注释及使用

最近发现了snownlp这个库，这个类库是专门针对中文文本进行文本挖掘的。

主要功能：

中文分词（Character-Based Generative Model）
词性标注（TnT 3-gram 隐马）
情感分析（现在训练数据主要是买卖东西时的评价，所以对其他的一些可能效果不是很好，待解决）
文本分类（Naive Bayes）
转换成拼音（Trie树实现的最大匹配）
繁体转简体（Trie树实现的最大匹配）
提取文本关键词（TextRank算法）
提取文本摘要（TextRank算法）
tf，idf
Tokenization（分割成句子）
文本相似（BM25）
支持python3（感谢erning）

官网信息：

snownlp github:https://github.com/isnowfy/snownlp

使用及源码分析：

snownlp类库的安装：

$ pip install snownlp

使用snownlp进行情感分析：

# -*- coding:utf-8 -*-
from snownlp import SnowNLP

#创建snownlp对象，设置要测试的语句
s = SnowNLP(u'买来给家婆用来洗儿子的衣服的')

print("1",s.words)   
                #将句子分成单词      
                # ['买', '来', '给', '家婆', '用', '来', '洗', '儿子', '的', '衣服', '的']

s.tags         
                # 例如：[(u'这个', u'r'), (u'东西', u'n'),
                #  (u'真心', u'd'), (u'很', u'd'),
                #  (u'赞', u'Vg')]

# 调用sentiments方法获取积极情感概率 positive的概率
print("2",s.sentiments)

s.pinyin        # 将汉字语句转换为Pinyin语句
                # 例如：[u'zhe', u'ge', u'dong', u'xi',
                #  u'zhen', u'xin', u'hen', u'zan']
#————————————————————————————————————————————————————————————————————————————————————————————————————————
s = SnowNLP(u'「繁體字」「繁體中文」的叫法在臺灣亦很常見。')

s.han           #将繁体字转换为简体字      
                # u'「繁体字」「繁体中文」的叫法
                # 在台湾亦很常见。'
#————————————————————————————————————————————————————————————————————————————————————————————————————————
text = u'''
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。
它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，
所以它与语言学的研究有着密切的联系，但又有重要的区别。
自然语言处理并不是一般地研究自然语言，
而在于研制能有效地实现自然语言通信的计算机系统，
特别是其中的软件系统。因而它是计算机科学的一部分。
'''

s = SnowNLP(text)

s.keywords(3)    # [u'语言', u'自然', u'计算机']

s.summary(3)    # [u'因而它是计算机科学的一部分',
                #  u'自然语言处理是一门融语言学、计算机科学、
                #     数学于一体的科学',
                #  u'自然语言处理是计算机科学领域与人工智能
                #     领域中的一个重要方向']
s.sentences
                #分成句子
#————————————————————————————————————————————————————————————————————————————————————————————————————————
s = SnowNLP([[u'这篇', u'文章'],
             [u'那篇', u'论文'],
             [u'这个']])
print(s.tf)     #TF意思是词频(Term Frequency)
print(s.idf)    #IDF意思是逆文本频率指数(Inverse Document Frequency)  
s.sim([u'文章'])# [0.3756070762985226, 0, 0]

实现过程：

1.首先从SnowNLP入手，看一下sentiments方法，在sentiments方法中，调用了sentiment下的分类方法。

# -*- coding: utf-8 -*-
from __future__ import unicode_literals
 
from . import normal
from . import seg
from . import tag
from . import sentiment
from .sim import bm25
from .summary import textrank
from .summary import words_merge
 
 
class SnowNLP(object):
 
    def __init__(self, doc):
        self.doc = doc
        self.bm25 = bm25.BM25(doc)
 
    @property
    def words(self):
        return seg.seg(self.doc)
 
    @property
    def sentences(self):
        return normal.get_sentences(self.doc)
 
    @property
    def han(self):
        return normal.zh2hans(self.doc)
 
    @property
    def pinyin(self):
        return normal.get_pinyin(self.doc)
 
    @property
    def sentiments(self):
        return sentiment.classify(self.doc)#调用了sentiment的classify分类方法
 
    @property
    def tags(self):
        words = self.words
        tags = tag.tag(words)
        return zip(words, tags)
 
    @property
    def tf(self):
        return self.bm25.f
 
    @property
    def idf(self):
        return self.bm25.idf
 
    def sim(self, doc):
        return self.bm25.simall(doc)
 
    def summary(self, limit=5):
        doc = []
        sents = self.sentences
        for sent in sents:
            words = seg.seg(sent)
            words = normal.filter_stop(words)
            doc.append(words)
        rank = textrank.TextRank(doc)
        rank.solve()
        ret = []
        for index in rank.top_index(limit):
            ret.append(sents[index])
        return ret
 
    def keywords(self, limit=5, merge=False):
        doc = []
        sents = self.sentences
        for sent in sents:
            words = seg.seg(sent)
            words = normal.filter_stop(words)
            doc.append(words)
        rank = textrank.KeywordTextRank(doc)
        rank.solve()
        ret = []
        for w in rank.top_index(limit):
            ret.append(w)
        if merge:
            wm = words_merge.SimpleMerge(self.doc, ret)
            return wm.merge()
        return ret

2.sentiment文件夹下的__init__文件

sentiment中创建了Sentiment对象

首先调用load方法加载训练好的数据字典，然后调用classify方法，在classify方法中实际调用的是Bayes对象中的classify方法。

# -*- coding: utf-8 -*-
from __future__ import unicode_literals
 
import os
import codecs
 
from .. import normal
from .. import seg
from ..classification.bayes import Bayes
 
#数据文件路径
data_path = os.path.join(os.path.dirname(os.path.abspath(__file__)),
                         'sentiment.marshal')
 
 
class Sentiment(object):
 
    def __init__(self):
        #创建Bayes对象
        self.classifier = Bayes()
 
    #保存训练好的字典数据
    def save(self, fname, iszip=True):
        self.classifier.save(fname, iszip)
 
    #加载字典数据
    def load(self, fname=data_path, iszip=True):
        self.classifier.load(fname, iszip)
 
    #对文档分词
    def handle(self, doc):
        words = seg.seg(doc)
        words = normal.filter_stop(words)
        return words
 
    # 训练数据集
    def train(self, neg_docs, pos_docs):
        data = []
        #读取消极评论list，同时为每条评论加上neg标签，也放入到一个list中
        for sent in neg_docs:
            data.append([self.handle(sent), 'neg'])
        #读取积极评论list，为每条评论加上pos标签
        for sent in pos_docs:
            data.append([self.handle(sent), 'pos'])
        #调用分类器的训练数据集方法，对模型进行训练
        self.classifier.train(data)
 
    #分类
    def classify(self, sent):
        #调用贝叶斯分类器的分类方法，获取分类标签和概率
        ret, prob = self.classifier.classify(self.handle(sent))
        #如果分类标签是pos直接返回概率值
        if ret == 'pos':
            return prob
        #如果返回的是neg，由于显示的是积极概率值，因此用1减去消极概率值
        return 1-prob
 
 
classifier = Sentiment()
classifier.load()
 
#训练数据
def train(neg_file, pos_file):
    #打开消极数据文件
    neg = codecs.open(neg_file, 'r', 'utf-8').readlines()
    pos = codecs.open(pos_file, 'r', 'utf-8').readlines()
    neg_docs = []
    pos_docs = []
    #遍历每一条消极评论，放入到list中
    for line in neg:
        neg_docs.append(line.rstrip("\r\n"))
    #遍历每一条积极评论，放入到list中
    for line in pos:
        pos_docs.append(line.rstrip("\r\n"))
    global classifier
    classifier = Sentiment()
    #训练数据，传入积极、消极评论list
    classifier.train(neg_docs, pos_docs)
 
#保存数据字典
def save(fname, iszip=True):
    classifier.save(fname, iszip)
 
#加载数据字典
def load(fname, iszip=True):
    classifier.load(fname, iszip)
 
#对语句进行分类
def classify(sent):
    return classifier.classify(sent)

sentiment中包含了训练数据集的方法，看一下是如何训练数据集的：
在sentiment文件夹下，包含了以下文件：

neg.txt和pos.txt是已经分类好的评论数据，neg.txt中都是消极评论，pos中是积极评论

sentiment.marshal和sentiment.marshal.3中存放的是序列化后的数据字典，这个也稍后再说

（1）在train()方法中，首先读取消极和积极评论txt文件，然后获取每一条评论，放入到list集合中，格式大致如下

[ ' 还没有收到书！！！还没有收到书 ' , ' 小熊宝宝我觉得孩子不喜欢，能换别的吗 ' , ......]

#训练数据
def train(neg_file, pos_file):
    #打开消极数据文件
    neg = codecs.open(neg_file, 'r', 'utf-8').readlines()
    pos = codecs.open(pos_file, 'r', 'utf-8').readlines()
    neg_docs = []
    pos_docs = []
    #遍历每一条消极评论，放入到list中
    for line in neg:
        neg_docs.append(line.rstrip("\r\n"))
    #遍历每一条积极评论，放入到list中
    for line in pos:
        pos_docs.append(line.rstrip("\r\n"))
    global classifier
    classifier = Sentiment()
    #训练数据，传入积极、消极评论list
    classifier.train(neg_docs, pos_docs)

然后调用了Sentiment对象中的train()方法：
在train方法中，遍历了传入的积极、消极评论list，为每条评论进行分词，并为加上了分类标签，此时的数据格式如下：

评论分词后的数据格式：['收到','没有'...]

加上标签后的数据格式(以消极评论为例)：[ [['收到','没有' ...],'neg'] , [['小熊','宝宝' ...],‘neg’] ........]]

可以看到每一条评论都是一个list，其中又包含了评论分词后的list和评论的分类标签

# 训练数据集
    def train(self, neg_docs, pos_docs):
        data = []
        #读取消极评论list，对每条评论分词，并加上neg标签，也放入到一个list中
        for sent in neg_docs:
            data.append([self.handle(sent), 'neg'])
        #读取积极评论list，为每条评论分词，加上pos标签
        for sent in pos_docs:
            data.append([self.handle(sent), 'pos'])
        #调用分类器的训练数据集方法，对模型进行训练
        self.classifier.train(data)

经过了此步骤，已经对数据处理完毕，接下来就可以对数据进行训练

3.classification下的bayes.py

# -*- coding: utf-8 -*-
from __future__ import unicode_literals
 
import sys
import gzip
import marshal
from math import log, exp
 
from ..utils.frequency import AddOneProb
 
 
class Bayes(object):
 
    def __init__(self):
        #标签数据对象
        self.d = {}
        #所有分类的词数之和
        self.total = 0
 
    #保存字典数据
    def save(self, fname, iszip=True):
        #创建对象，用来存储训练结果
        d = {}
        #添加total，也就是积极消极评论分词总词数
        d['total'] = self.total
        #d为分类标签，存储每个标签的数据对象
        d['d'] = {}
        for k, v in self.d.items():
            #k为分类标签，v为标签对应的所有分词数据，是一个AddOneProb对象
            d['d'][k] = v.__dict__
        #这里判断python版本
        if sys.version_info[0] == 3:
            fname = fname + '.3'
        #这里可有两种方法可以选择进行存储
        if not iszip:
            ##将序列化后的二进制数据直接写入文件
            marshal.dump(d, open(fname, 'wb'))
        else:
            #首先获取序列化后的二进制数据，然后写入文件
            f = gzip.open(fname, 'wb')
            f.write(marshal.dumps(d))
            f.close()
 
    #加载数据字典
    def load(self, fname, iszip=True):
        #判断版本
        if sys.version_info[0] == 3:
            fname = fname + '.3'
        #判断打开文件方式
        if not iszip:
            d = marshal.load(open(fname, 'rb'))
        else:
            try:
                f = gzip.open(fname, 'rb')
                d = marshal.loads(f.read())
            except IOError:
                f = open(fname, 'rb')
                d = marshal.loads(f.read())
            f.close()
        #从文件中读取数据，为total和d对象赋值
        self.total = d['total']
        self.d = {}
        for k, v in d['d'].items():
            self.d[k] = AddOneProb()
            self.d[k].__dict__ = v
 
    #训练数据集
    def train(self, data):
        #遍历数据集
        for d in data:
            #d[1]标签-->分类类别
            c = d[1]
            #判断数据字典中是否有当前的标签
            if c not in self.d:
                #如果没有该标签，加入标签，值是一个AddOneProb对象
                self.d[c] = AddOneProb()
            #d[0]是评论的分词list，遍历分词list
            for word in d[0]:
                #调用AddOneProb中的add方法，添加单词
                self.d[c].add(word, 1)
        #计算总词数
        self.total = sum(map(lambda x: self.d[x].getsum(), self.d.keys()))
 
    #贝叶斯分类
    def classify(self, x):
        tmp = {}
        #遍历每个分类标签
        for k in self.d:
            #获取每个分类标签下的总词数和所有标签总词数，求对数差相当于log（某标签下的总词数/所有标签总词数）
            tmp[k] = log(self.d[k].getsum()) - log(self.total)
            for word in x:
                #获取每个单词出现的频率，log[（某标签下的总词数/所有标签总词数）*单词出现频率]
                tmp[k] += log(self.d[k].freq(word))
        #计算概率，由于直接得到的概率值比较小，这里应该使用了一种方法来转换，原理还不是很明白
        ret, prob = 0, 0
        for k in self.d:
            now = 0
            try:
                for otherk in self.d:
                    now += exp(tmp[otherk]-tmp[k])
                now = 1/now
            except OverflowError:
                now = 0
            if now > prob:
                ret, prob = k, now
        return (ret, prob)

from . import good_turing
 
class BaseProb(object):
 
    def __init__(self):
        self.d = {}
        self.total = 0.0
        self.none = 0
 
    def exists(self, key):
        return key in self.d
 
    def getsum(self):
        return self.total
 
    def get(self, key):
        if not self.exists(key):
            return False, self.none
        return True, self.d[key]
 
    def freq(self, key):
        return float(self.get(key)[1])/self.total
 
    def samples(self):
        return self.d.keys()
 
 
class NormalProb(BaseProb):
 
    def add(self, key, value):
        if not self.exists(key):
            self.d[key] = 0
        self.d[key] += value
        self.total += value
 
 
class AddOneProb(BaseProb):
 
    def __init__(self):
        self.d = {}
        self.total = 0.0
        self.none = 1
 
    #添加单词
    def add(self, key, value):
        #更新该类别下的单词总数
        self.total += value
        #如果单词未出现过
        if not self.exists(key):
            #将单词加入对应标签的数据字典中，value设为1
            self.d[key] = 1
            #更新总词数
            self.total += 1
        #如果单词出现过，对该单词的value值加1
        self.d[key] += value

在bayes对象中，有两个属性d和total,d是一个数据字典，total存储所有分类的总词数，经过train方法训练数据集后，d中存储的是每个分类标签的数据key为分类标签，value是一个AddOneProb对象。

def __init__(self):
        self.d = {}
        self.total = 0.0

在AddOneProb对象中，同样存在d和total属性，这里的total存储的是每个分类各自的单词总数，d中存储的是所有出现过的单词，单词作为key，单词出现的次数作为value.
为了下次计算概率时，不用重新训练，可以将训练得到的数据序列化到文件中，下次直接加载文件，将文件反序列为对象，从对象中获取数据即可(save和load方法)。

4.得到训练数据后，使用朴素贝叶斯分类进行分类

该方法可自行查阅。

转载于:https://www.cnblogs.com/X-knight/p/10853699.html

金考卷五年（45套)英语高考（及各省市独立命题）试卷心得忆若成风
宏观+微观---“双观旗下”宏观：1.从2018起高考试卷和政治紧密联系，具体表现为高度彰显了十九大提出的道路自信、制度自信、理论自信和文化自信，而文化自信在英语试卷上尤为突出。2.高考英语试卷不论题型如何，其实都是阅读理解的形式，而文章都是“正能量文”，正能量文！正能量文！正能量文！（重要的事情说三遍)即传播社会正能量，弘扬社会真善美，所以应该教育引导学生树立正确的人生观，价值观。（考试做题不跑
Vue3 实现 DOCX 文档在线预览功能（基于 docx-preview）
Vue3实现DOCX文档在线预览功能（基于docx-preview）在本篇文章中，我们将介绍如何使用Vue3+docx-preview来实现浏览器端的.docx文档预览功能。项目依赖首先需要安装以下依赖：npminstalldocx-previewaxios组件代码详解Template部分预览DOCX按钮用于触发加载文档事件，文档内容将渲染在docxContainer容器中。Script部分imp
注释Wordle游戏小飞LOVE霞游戏 java 深度优先
packagecsdn005;importjavax.swing.*;importjava.awt.*;importjava.util.Locale;/***@authorwangfei*/publicclassWorldleGameextendsJFrame{privateintcount=0;publicstaticvoidmain(String[]args){newWorldleGame()
中原焦点团队初33期王小梅第四十天分享黄金书
2022年3月4日重新建构的功能与注意事项1透过此过程来引导孩子看见事件中的正向意义。2带领孩子重新诠释事件中所带来的不好经验。与其说重新建构是一个技巧，不如说它是一种态度。重新建构的英文为reframing，其中包含了两重意思，一是re-重新，一是framing—框架。“重新”的意思大家自然都懂，“框架”的意思可能就需要解释一下了，它指的是人们看事情的角度或是眼光。因此，在使用重新建构时要注意。
PHP与Web页面交互：从基础表单到AJAX实战独立开发者阿乐综合性原创前端 php 交互 Web页面表单处理 AJAX技术 AJAX
文章目录PHP与Web页面交互：从基础到高级实践1.引言2.基础表单处理2.1HTML表单与PHP交互基础2.2GET与POST方法比较3.高级交互技术3.1AJAX与PHP交互3.2使用FetchAPI进行现代AJAX交互4.文件上传处理5.安全性考量5.1常见安全威胁与防护5.2数据验证与过滤6.现代PHP与前端框架交互6.1构建RESTfulAPI6.2使用JWT进行认证7.性能优化7.1缓
css实现箭头进度条惜音renee
实现的目标：源码：首先写出一个基本的样式：买家下单买家付款发货买家确认收货.progress-barli{padding:0px20px;line-height:40px;background:#50abe4;display:inline-block;color:#fff;position:relative;width:180px;text-align:center;}接下来使用:after伪类画
酷暑难当，足不出户也能看病？互联网医院的优势来啦！争实科技互联网医院医疗信息化
根据最新的气象预报显示，当前我国正经历大范围持续性的高温天气，部分地区最高气温达40℃以上，突破历史极值。在这样持续高温的天气里，互联网医院真正成为医疗服务的“避暑利器”，让你无需奔波即可享受专业的医疗服务。下面我们结合当前政策与技术发展，一起来了解一下互联网医院的核心优势和使用要点吧。一、核心优势：足不出户解决看病难题1.高效便捷，告别高温奔波线上复诊配药：慢性病患者（如高血压、糖尿病）可直接通
客服系统本地部署对接fastgpt 以及现有业务系统 adminwolf 个人开发
在日常的用户咨询中，许多用户会问我们的系统或浏览器插件能否直接接入Deepseek。其实，这种说法存在一定的不准确之处。正确的理解是，我们需要接入的是支持Deepseek的AI知识库平台，而非直接接入Deepseek本身，而且这些平台通常都支持多种大模型切换。下面，就为大家详细介绍相关的接入方式。我们网站：gofly.v1kf.com一、扣子智能体平台对于非技术人员来说，现在建议直接使用coze.
互联网医院运营数据采集争实科技互联网医院医疗信息化
互联网医院运营数据采集是支撑业务优化、服务监管和决策分析的核心环节，需整合多源异构数据并确保其安全性与有效性。以下从采集内容、技术方法、挑战及解决方案等方面系统阐述：一、核心数据采集内容1.患者与业务数据基础信息：患者人口学特征、病史、过敏史等。服务记录：挂号量、问诊类型（图文/视频）、诊断量、处方量、复诊率、药品配送量。交互指标：平均就诊时长、会话响应时间、服务完成率。2.资源与效率数据医生资源
生死四分钟4 minute泰剧免费在线观看《死生时刻》4分钟中文字幕高清HD全集4 Minutes完整无删减版观看-4分钟在哪看多少集百度云/夸克迅雷网盘资源优惠攻略官
《生死四分钟》（4Minutes）是一部泰国电视剧，讲述了一个关于时间、命运和选择的故事。主角Great是一名工商管理学院的大学生，同时也是一位富有企业主的儿子。他意外获得了一种超自然的力量，可以预见四分钟后的未来，这种能力使他能够改变许多事件的结果。Great在某天遇见了外科住院医生Tyme，两人逐渐增进关系并开始发展。死生时刻链接：https://pan.quark.cn/s/d4c20b70
GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
使用电脑如何将多张CAD图纸转换成高清黑白SVG格式？周周周大璇
使用电脑如何将多张CAD图纸转换成高清黑白SVG格式？SVG格式是图片的格式之一，为了方便将图纸文件进行打开查看的操作，将CAD图纸文件进行格式间的转换成SVG格式是在CAD工作中经常需要进行的，具体应该怎么样操作，多张CAD图纸文件共同进行此项操作的步骤是什么，下面小编就要来教大家的就是使用电脑如何将多张CAD图纸转换成高清黑白SVG格式的全部操作步骤，希望能够帮助到你们，望采纳！步骤一：首先需
gpt面试题任小栗 #面试题 gpt vue.js 前端
vue面试题一、响应式系统相关❓1.Vue3的响应式系统是如何实现的？和Vue2有何本质区别？答案：Vue3使用Proxy实现响应式（位于@vue/reactivity模块），替代Vue2的Object.defineProperty。核心机制如下：使用targetMap:WeakMap存储依赖关系利用track()和trigger()方法实现依赖收集与派发更新effect()包装副作用函数，自动收
【项目实战】在 Python 中，可以通过 `subprocess` 模块调用系统的压缩程序（如 7-Zip 或系统自带的zip命令）来实现文件或文件夹的压缩。本本本添哥 011 -Python python 7-zip 开发语言
在Python中，可以通过subprocess模块调用系统的压缩程序（如7-Zip或系统自带的zip命令）来实现文件或文件夹的压缩。通过subprocess调用系统压缩工具（如7-Zip）是最灵活的方式，支持多线程、密码保护和多种压缩格式。需注意路径配置和参数的正确性，并通过异常处理提升代码健壮性。对于轻量需求，可优先考虑zipfile或py7zr等库。以下是详细的实现方法和注意事项：1.使用7-
HBase 监控 | HBase Metrics 初探（一）禅克
前言：对于任意一个系统而言，做好监控都是非常重要的，HBase也不例外。经常，我们会从JMX中获取相关指标来做展示、对HBase进行监控，那这些指标是怎么生成的呢？如果你想自定义自己的监控指标又该怎么做呢？基于好奇之心和学习的目的，最近打算学习一下HBase监控相关原理及实现，今天先简单捋一捋思路。1.如何下手？我一向比较喜欢先看项目所依赖的pom文件，打开HBase源码，有两个非常相关的模块：h
深入解析 Spark：关键问题与答案汇总 ※尘 sql hive spark
在大数据处理领域，Spark凭借其高效的计算能力和丰富的功能，成为了众多开发者和企业的首选框架。然而，在使用Spark的过程中，我们会遇到各种各样的问题，从性能优化到算子使用等。本文将围绕Spark的一些核心问题进行详细解答，帮助大家更好地理解和运用Spark。Spark性能优化策略Spark性能优化是提升作业执行效率的关键，主要可以从以下几个方面入手：首先，资源配置优化至关重要。合理设置Exec
Kafka服务器的简单部署以及消息的生产、消费、监控
目录1.在服务器上安装Kafka1.1直接安装1.2使用镜像方式配置到服务器1.准备Kafka镜像(1)远程拉取Kafka镜像(2)在本地下载镜像并上传至服务器启动2.创建配置目录1.3编写DockerCompose文件1.4启动Kafka服务(2)测试Kafka服务2.在项目中进行调用2.1消息的生产：（1）首先安装Confluent.Kafka库（NuGet包）（2）向Kafka所在服务器生产
使用uv工具高效管理Python版本安装指南庞翰烽
使用uv工具高效管理Python版本安装指南前言在现代Python开发中，多版本Python环境管理是每个开发者都会遇到的挑战。传统方式需要手动下载安装不同版本的Python，配置环境变量，过程繁琐且容易出错。uv工具提供了一套优雅的解决方案，让Python版本管理变得简单高效。uv工具简介uv是一个现代化的Python工具链管理器，它不仅能够管理Python包依赖，还能智能地管理Python解释
【Flink图计算源码解析】开篇：Flink图计算总览 hxcaifly Flink Flink原理和应用
文章目录1.图计算的作用2.本专题的写作目的3.FlinkGelly引擎总览3.1.Gelly的源码结构1.Graph的存储数据结构2.图的类别3.图的验证以及指标4.图的生成器5.Library6.图的迭代计算7.examples案例4.后记1.图计算的作用哲学上说事物之间普遍存在联系的，通常来说可以将事物看作图的顶点，事物间的联系看作图的边，典型的场景：对应于学术界的文献来说，每篇论文可以看作
用python实现无限弹窗-五一劳动节快乐数据知道 python3案例和总结 python 开发语言
更多内容请见：python3案例和总结-专栏介绍和目录文章目录1.使用`tkinter`实现无限弹窗1.1实现代码1.2代码说明2.使用`pyautogui`实现无限弹窗2.1安装`pyautogui`2.2实现代码2.3代码说明3.使用`ctypes`实现无限弹窗3.1实现代码3.2代码说明4.注意事项5.总结使用tkinter库使用pyautogui库在Python中实现无限弹窗可以通过tki
2015笔记——富文本满庭花醉三千客
鉴于之前遇到富文本的东西，一窍不通，如今是要好好学习学习了，先从最基本的开始吧：屏幕快照2015-12-1016.28.40.png我分别设置了字号、字体颜色、下划线、字体及大小、删除线。接下来给label赋值：屏幕快照2015-12-1016.29.09.png为了直观，我给label添加了背景色。接下来就是看效果了：屏幕快照2015-12-1016.33.43.png是不是很简单呢？加油！
ASP.NET Core与Confluent.Kafka深度整合：构建高性能Kafka生产者与消费者的终极指南墨夶 C#学习资料6 asp.net kafka linq
Kafka在现代微服务架构中的量子跃迁在2025年的分布式系统战场上，ApacheKafka已经超越了传统的消息队列角色，成为微服务架构的神经中枢。本文将通过1200+行代码和深度技术解析，揭秘如何在ASP.NETCore中使用Confluent.Kafka实现工业级的Kafka生产者与消费者。我们将从底层原理到高阶技巧，带你构建可扩展、可观察的Kafka集成方案。第一章：环境准备与核心概念1.1
易效能一阶 G188期的90天践行正式开始任旻
G188期是我参加第二次复训的班级，第一次参加的是G151，2017年的三八节在成都开启了真正的易效能系统的学习和践行。第一次复训是G169重庆班，这次也是重庆班，与前两次有很多不同的地方:1.强大的教练团队支持，有每年读书300本的教练带班，有全球工具使用最牛的教练，有易效能系统的学习部部长带教练团队的教练等等。全班来了二三十位教练。2.课程内容的升级，两天全是满满干活，get到不少的新知识，在
淘宝优惠券去哪里领?5大领取方法好项目高省
大家好，我是万方，从事导购返利行业8年了。期间见证了无数平台崛起及各种套路，以及后来更多平台的倒闭和跑路。对于这个话题，今天我从一个内行的角度跟大家分享下，避免大家吃亏上当和走弯路。返利平台大概有这么几种类型：其一是社交电商导购类型，代表有：氧惠，高省，花生日记，蜜源，悦拜，美逛，高佣联盟，粉象生活，好省等；这种类型的平台从2017年出来后，几乎每年都有一些新平台出来。也是市面上目前最主流，用户群
支付宝扫一扫，能领多少红包 - 草稿海光_HG
最近一段时间，微信的朋友圈，各种微信群都被支付宝扫一扫领红包给占领了。一开始我不以为意，随着它的霸屏，甚至连007里的区块链大佬都在朋友圈里呼吁扫码，让我不得不去了解这是什么东西。后来一经了解，原来是这样的。你用支付宝通过他人的二维码等扫取得红包，并在支付宝指定的时间和渠道内使用掉红包。你领取多少钱的红包，提供二维码给你的支付宝账号也能获得相同金额的红包。金额随机，一般从几分钱到几十元都有。正是因
数据结构入门：像整理收纳一样简单！今天你睡了嘛数据结构数据结构
在我们生活中，经常会面对这样的问题：“我要怎么整理我的衣柜？”“电脑里照片太多了，怎么归类才方便查找？”其实，程序员也有类似的烦恼。他们不整理衣柜，而是“整理数据”。而这门关于如何“收纳”和“使用”数据的学问，就叫做数据结构。一、数据结构的基本概念1、数据数据是信息的载体，是数字、字符以及所有能输入到计算机中并被计算机程序识别和处理的符号的集合。数据是计算机程序加工的原料。2、数据元素数据元素是数
学习小结记录歪歪驴学习网络
一、TLS（TransportLayerSecurity）握手是建立安全通信通道的关键过程，确保客户端与服务器之间的通信加密和身份验证。以下是TLS1.2和TLS1.3的握手流程详解及对比：TLS1.2握手流程目标：协商加密套件、交换密钥、验证身份步骤：1.ClientHello-客户端发送支持的TLS版本、加密套件列表（如`AES256-GCM-SHA384`）、随机数（ClientRandom
编译源代码形式的CVE为二进制.o文件需要先使用GPT补全 Che_Che_ 网络二进制代码相似度
#include#include#include#defineVLC_EGENERIC-1#defineVLC_SUCCESS0#defineMMS_BUFFER_SIZE1024//定义access_sys结构体typedefstruct{charbuffer_tcp[MMS_BUFFER_SIZE];//存储TCP数据的缓冲区inti_buffer_tcp;//缓冲区大小inti_comman
【正常配置了beast扩展，phpinfo信息也显示了，但是就是不运行】 xuefeiniao 持续部署 php 源代码管理
正常配置了beast扩展，phpinfo信息也显示了，但是就是不运行场景原因解决排查过程扩展场景项目中使用到了beast进行源码保护，指定类存在，但是报错信息提示类找不到，beast扩展添加到了正在运行的php版本下的ext文件夹下，php.ini也将扩展开启了，使用phpinfo，也显示了beast扩展信息原因项目放在了一个中文命名的文件夹下，导致扩展加载失败，但其他php代码如：echophp
ChatGPT如何实现文字分类？精选案例和最佳实践山城程序员
ChatGPT是一种预训练语言模型，通常用于生成自然语言文本。但是，在将其应用于分类任务时，它也可以表现出色。本文将介绍如何使用ChatGPT实现文本分类，并提供实践步骤和示例代码。1.数据准备在进行文本分类之前，您需要选择一个合适的数据集并对其进行清理和预处理。确保您的数据集包含带有标签的文本数据。例如，您可能拥有一些产品评论，并且需要将它们分类为积极或消极。以下是一个示例代码，演示如何加载数据
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

中文情感分析——snownlp类库 源码注释及使用

主要功能：

官网信息：

使用及源码分析：

实现过程：

你可能感兴趣的:(中文情感分析——snownlp类库 源码注释及使用)

中文情感分析——snownlp类库源码注释及使用

你可能感兴趣的:(中文情感分析——snownlp类库源码注释及使用)