HsuHeinrich

常见的文本分析大汇总

小P：小H，你平时做数据分析的时候，会考虑文本信息吗

小H：会啊，虽然能力一般，但是一些基础的信息还是会尝试挖掘的

小P：都有哪些信息可以挖掘啊

小H：比如词频、关键词提取、情感分析、主题词提取等等

词频与词云图

# pip install wordcloud
# pip install jieba

# 导入库
import re  # 正则表达式库
import collections  # 词频统计库
import numpy as np  # numpy库
import jieba  # 结巴分词
import wordcloud  # 词云展示库
from PIL import Image  # 图像处理库
import matplotlib.pyplot as plt  # 图像展示库
import jieba.analyse  # 导入关键字提取库
import pandas as pd

词频提取

本文所有数据如果有需要的同学可关注公众号HsuHeinrich，回复【数据挖掘-文本分析】自动获取～

# 读取文本文件
with open('article1.txt', encoding='gbk') as fn:
    string_data = fn.read()  # 使用read方法读取整段文本

# 文本预处理
pattern = re.compile(u'\t|\n|\.|-|一|:|;|\)|\(|\?|"')  # 建立正则表达式匹配模式
string_data = re.sub(pattern, '', string_data)  # 将符合模式的字符串替换掉

# 文本分词
seg_list_exact = jieba.cut(string_data, cut_all=False)  # 精确模式分词[默认模式]
remove_words = ['的', '，', '和', '是', '随着', '对于', ' ', '对', '等', '能',
                '都', '。', '、', '中', '与', '在', '其', '了', '可以',
                '进行', '有', '更', '需要', '提供', '多', '能力', '通过',
                '会', '不同', '一个', '这个', '我们', '将', '并', '同时',
                '看', '如果', '但', '到', '非常', '—', '如何', '包括', '这']  # 自定义停用词
object_list = [i for i in seg_list_exact if i not in remove_words] # 将不在停用词列表中的词添加到列表中

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/5c/cshbhmfd1bg0zfq_52jlszfh0000gn/T/jieba.cache
Loading model cost 0.649 seconds.
Prefix dict has been built successfully.

# 词频统计
word_counts = collections.Counter(object_list)  # 对分词做词频统计
word_counts_top5 = word_counts.most_common(5)  # 获取前5个频率最高的词
for w, c in word_counts_top5:  # 分别读出每条词和出现从次数
    print(w, c)  # 打印输出

数据 113
分析 48
功能 47
Adobe 45
Analytics 37

将词频转为词云图展示

# 词频展示
mask = np.array(Image.open('wordcloud.jpg'))  # 定义词频背景
wc = wordcloud.WordCloud(
    font_path='/Users/heinrich/opt/anaconda3/lib/python3.8/site-packages/matplotlib/mpl-data/fonts/ttf/SimHei.ttf',  # 设置字体格式，不设置将无法显示中文
    mask=mask,  # 设置背景图
    max_words=200,  # 设置最大显示的词数
    max_font_size=100  # 设置字体最大值
)
wc.generate_from_frequencies(word_counts)  # 从字典生成词云
image_colors = wordcloud.ImageColorGenerator(mask)  # 从背景图建立颜色方案
wc.recolor(color_func=image_colors)  # 将词云颜色设置为背景图方案
plt.figure(figsize=(12,8))
plt.imshow(wc)  # 显示词云
plt.axis('off')  # 关闭坐标轴
plt.show()

关键词提取

# 读取文本数据
with open('article1.txt', encoding='gbk') as fn:
    string_data = fn.read()  # 使用read方法读取整段文本
# 关键字提取
tags_pairs = jieba.analyse.extract_tags(string_data, topK=5, withWeight=True, 
                                        allowPOS=['ns', 'n', 'vn', 'v', 'nr'], withFlag=True)  # 提取指定词性
tags_list = [(i[0].word, i[0].flag, i[1]) for i in tags_pairs] 
tags_pd = pd.DataFrame(tags_list, columns=['word', 'flag', 'weight'])  # 创建数据框
tags_pd

	word	flag	weight
0	数据	n	0.313395
1	报表	n	0.163367
2	功能	n	0.150263
3	分析	vn	0.134857
4	用户	n	0.126633

情感分析

snownlp是常见的中文分析包，主要功能包括：中文分词、词性标注、情感分析、文本分类、转换成拼音、繁体转简体、提取文本关键词、提取文本摘要、tf，idf、Tokenization（分割成句子）、文本相似。由于自带电商训练数据，支持快速分析。也提供自己训练语料库

基于标注好的玻森情感词典来计算情感值

# pip install snownlp

from snownlp import SnowNLP
import pandas as pd
import jieba

# 基于snownlp的情感打分
def get_snownlp_score(text):
    s=SnowNLP(text)
    score=s.sentiments
    return score

# 基于玻森情感词典的情感打分
def get_BosonNLP_score(text):
    df = pd.read_table("BosonNLP_sentiment_score.txt",sep= " ",names=['key','score']) # 加载情感词典
    key = df['key'].values.tolist()
    score = df['score'].values.tolist()
    segs = jieba.lcut(text)  # 分词
    score_list  = [score[key.index(x)] for x in segs if(x in key)]
    return  sum(score_list)  # 计算得分

# 数据读取
comment = pd.read_excel('comment.xlsx')
pattern = re.compile(u'\t|\n|\.|-|一|:|;|\)|\(|\?|"')  # 建立正则表达式匹配模式
comment['content'] = comment['content'].map(lambda x: re.sub(pattern, '', x)) # 将符合模式的字符串替换
comment.tail()

# 情感打分
comment['snownlp_score'] = comment['content'].apply(get_snownlp_score)
comment['BosonNLP_score'] = comment['content'].apply(get_BosonNLP_score)
comment.head()

基于LDA的主题词提取

# pip install gensim

import os
import tarfile
import jieba.posseg as pseg
from bs4 import BeautifulSoup
from gensim import corpora, models
import itertools
import matplotlib.pyplot as plt  # 图像展示库
from matplotlib.font_manager import FontProperties

自定义函数

# 中文分词
def jieba_cut(text):
    '''
    将输入的文本句子根据词性标注做分词
    :param text: 文本句子，字符串型
    :return: 符合规则的分词结果
    '''
    rule_words = ['z', 'vn', 'v', 't', 'nz', 'nr', 'ns', 'n', 'l', 'i', 'j', 'an','a']
    words = pseg.cut(text)
    seg_list = [word.word for word in words if word.flag in rule_words]
    return seg_list

# 文本预处理
def text_pro(words_list, tfidf_object=None, training=True):
    '''
    gensim主题建模预处理过程，包含分词类别转字典、生成语料库和TF-IDF转换
    :param words_list: 分词列表，列表型
    :param tfidf_object: TF-IDF模型对象，该对象在训练阶段生成
    :param training: 是否训练阶段，用来针对训练和预测两个阶段做预处理
    :return: 如果是训练阶段，返回词典、TF-IDF对象和TF-IDF向量空间数据；如果是预测阶段，返回TF-IDF向量空间数据
    '''
    # 分词列表转字典
    dic = corpora.Dictionary(words_list)  # 将分词列表转换为字典形式
#     print('{:*^60}'.format('token & word mapping review:'))
#     for i, w in list(dic.items())[:5]:  # 循环读出字典前5条的每个key和value，对应的是索引值和分词
#         print('token:%s -- word:%s' % (i, w))
    # 生成语料库
    corpus = [dic.doc2bow(words) for words in words_list]  # 用于存储语料库的列表
#     print('{:*^60}'.format('bag of words review:'))
#     print(corpus[0])
    # TF-IDF转换
    if training:
        tfidf = models.TfidfModel(corpus)  # 建立TF-IDF模型对象
        corpus_tfidf = tfidf[corpus]  # 得到TF-IDF向量稀疏矩阵
#         print('{:*^60}'.format('TF-IDF model review:'))
#         print(list(corpus_tfidf)[0])  # 打印第一条向量
        return dic, corpus_tfidf, tfidf
    else:
        return tfidf_object[corpus]
    
# 全角转半角
def str_convert(content):
    '''
    将内容中的全角字符，包含英文字母、数字键、符号等转换为半角字符
    :param content: 要转换的字符串内容
    :return: 转换后的半角字符串
    '''
    strs = []
    for each_char in content:  # 循环读取每个字符
        code_num = ord(each_char)  # 读取字符的ASCII值或Unicode值
        if code_num == 12288:  # 全角空格直接转换
            code_num = 32
        elif 65281 <= code_num <= 65374:  # 全角字符（除空格）根据关系转化
            code_num -= 65248
        strs.append(chr(code_num))
    return ''.join(strs)

# 解析文件内容
def data_parse(data):
    '''
    从原始文件中解析出文本内容数据
    :param data: 包含代码的原始内容
    :return: 文本中的所有内容，列表型
    '''
    raw_code = BeautifulSoup(data, 'lxml')  # 建立BeautifulSoup对象
    content_code = raw_code.find_all('content')  # 从包含文本的代码块中找到content标签
    content_list = [str_convert(each_content.text) for each_content in content_code if len(each_content) > 0]
    return content_list

# 构造主题数寻优函数
def cos(vector1, vector2):  # 余弦相似度函数
    dot_product = 0.0;  
    normA = 0.0;  
    normB = 0.0;  
    for a,b in zip(vector1, vector2): 
        dot_product += a*b  
        normA += a**2  
        normB += b**2  
    if normA == 0.0 or normB==0.0:  
        return(None)  
    else:  
        return(dot_product / ((normA*normB)**0.5))   

# 主题数寻优
def lda_k(x_corpus, x_dict):  
    
    # 初始化平均余弦相似度
    mean_similarity = []
    mean_similarity.append(1)
    
    # 循环生成主题并计算主题间相似度
    for i in np.arange(2,11):
        lda = models.LdaModel(x_corpus, num_topics=i, id2word=x_dict)  # LDA模型训练
        for j in np.arange(i):
            term = lda.show_topics(num_words=50)
            
        # 提取各主题词
        top_word = []
        for k in np.arange(i):
            top_word.append([''.join(re.findall('"(.*)"',i)) \
                           for i in term[k][1].split('+')])  # 列出所有词
            
        # 构造词频向量
        word = sum(top_word,[])  # 列出所有的词   
        unique_word = set(word)  # 去除重复的词
        
        # 构造主题词列表，行表示主题号，列表示各主题词
        mat = []
        for j in np.arange(i):
            top_w = top_word[j]
            mat.append(tuple([top_w.count(k) for k in unique_word]))  
            
        p = list(itertools.permutations(list(np.arange(i)),2))
        l = len(p)
        top_similarity = [0]
        for w in np.arange(l):
            vector1 = mat[p[w][0]]
            vector2 = mat[p[w][1]]
            top_similarity.append(cos(vector1, vector2))
            
        # 计算平均余弦相似度
        mean_similarity.append(sum(top_similarity)/l)
    return(mean_similarity)

数据探索

# 汇总所有新闻
all_content = []  # 总列表，用于存储所有文件的文本内容
for root, dirs, files in os.walk('./news_data'):  # 分别读取遍历目录下的根目录、子目录和文件列表
    for file in files:  # 读取每个文件
        file_name = os.path.join(root, file)  # 将目录路径与文件名合并为带有完整路径的文件名
        with open(file_name, encoding='utf-8') as f:  # 以只读方式打开文件
            data = f.read()  # 读取文件内容
        all_content.extend(data_parse(data))  # 从文件内容中获取文本并将结果追加到总列表
        
print('新闻数量：%d' % len(all_content))

新闻数量：18374

中文分词

words_list = [list(jieba_cut(each_content)) for each_content in all_content]  # 分词列表，用于存储所有文件的分词结果

模型拟合

# 训练集的文本预处理
dic, corpus_tfidf, tfidf = text_pro(words_list)

# 主题寻优
# 计算主题平均余弦相似度
news_k = lda_k(corpus_tfidf, dic)

# 绘制主题平均余弦相似度图形
#解决中文显示问题
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False  
font = FontProperties(size=14) # 设置字体大小
plt.figure(figsize=(12,8))
plt.plot(news_k)
plt.title('新闻LDA主题数寻优', fontproperties=font)
plt.show()

# 模型训练
num_topics = 3  # 设置主题个数
lda = models.LdaModel(corpus_tfidf, id2word=dic, num_topics=num_topics)  # 通过LDA进行主题建模
lda.print_topics(num_words=5) # 展示每个主题的5个关键词

[(0, '0.003*"小区" + 0.003*"登录" + 0.002*"编号" + 0.002*"户型" + 0.002*"信息"'),
 (1, '0.002*"比赛" + 0.002*"是" + 0.001*"散布" + 0.001*"民族" + 0.001*"稳定"'),
 (2, '0.001*"过客" + 0.001*"正方" + 0.001*"反方" + 0.001*"牛肉" + 0.001*"失事"')]

预测主题

with open('article1.txt', encoding='gbk') as f:  # 打开新的文本
    text_new = f.read()  # 读取文本数据
text_content = data_parse(data)  # 解析新的文本
words_list_new = jieba_cut(text_new)  # 将文本转换为分词列表
corpus_tfidf_new = text_pro([words_list_new], tfidf_object=tfidf, training=False)  # 新文本数据集的预处理
corpus_lda_new = lda[corpus_tfidf_new]  # 获取新的分词列表（文档）的主题概率分布
print('{:*^60}'.format('topic forecast:'))
print(list(corpus_lda_new))

**********************topic forecast:***********************
[[(0, 0.23170891), (1, 0.73669183), (2, 0.0315993)]]

总结

文本分析的核心是自然语言处理，本文只能说是冰山一角，但是对于日常挖掘有用的文本信息也还OK，但是如果想更深层次的挖掘文本信息，还是需要寻求专业算法工程师的帮助，例如NLP实验室的同学们～

共勉～

探索Reflex：纯Python打造高性能web应用的未来孔岱怀
探索Reflex：纯Python打造高性能web应用的未来去发现同类优质开源项目:https://gitcode.com/在快速迭代的Web开发领域，寻找一种既高效又能让开发者以熟悉的方式工作的框架至关重要。今天，我们来深入了解一个革新性的开源项目——Reflex，它承诺让你在纯Python的环境中构建响应式web应用，并且能在几秒钟内完成部署。1.项目介绍Reflex是一个新兴的全栈web框架，
python | cudf，一个超实用的 Python 库！双木的木 python拓展学习 python库 python 开发语言人工智能深度学习算法 database 数据分析
本文来源公众号“python”，仅用于学术分享，侵权删，干货满满。原文链接：cudf，一个超实用的Python库！大家好，今天为大家分享一个超实用的Python库-cudf。Github地址：https://github.com/rapidsai/cudf在数据分析和科学计算领域，Pandas是最常用的Python工具之一，然而随着数据规模的增长，其单线程CPU的处理性能往往成为瓶颈。cuDF是N
2025年8个热门Python Web开发框架极道Jdon javascript reactjs
Python拥有适合各种用例的框架，从全栈Web开发到数据可视化，为每位开发人员提供了所需的工具。得益于其活跃的社区和强大的生态系统，开发人员在构建Web应用时拥有广泛的选择。然而，选择数量之多可能会使您难以为您的项目选择合适的框架。这就是为什么我们回顾了用于构建Web应用程序的顶级Python框架，并比较了每个框架的优缺点。在本文中，我们将回顾以下框架：Reflex、Django、Flask、G
python | reflex，一个无敌的 Python 库！双木的木深度学习拓展阅读 python库 python拓展学习 python 开发语言算法人工智能深度学习硬件工程异步
本文来源公众号“python”，仅用于学术分享，侵权删，干货满满。原文链接：reflex，一个无敌的Python库！大家好，今天为大家分享一个无敌的Python库-reflex。Github地址：https://github.com/reflex-dev/reflex在软件开发过程中，事件驱动编程模型越来越受欢迎，尤其是在处理复杂的系统和实时交互时。Reflex是一个轻量级的Python库，它专注
遗传算法GA特征选择Python 明天早下班YEAH python 笔记其他
一、遗传算法GA特征选择——代码importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.ensembleimportRandomForestRegressorfromsklearn.metricsimportmean_squared_error,r2_scorefromg
CTF-web: YAML是什么 A5rZ 网络安全
YAML（YAMLAin’tMarkupLanguage）是一种常见的序列化数据格式，主要用于配置文件和数据交换。它的设计目标是简洁、易读，并且易于与编程语言交互。YAML使用缩进来表示层次结构，类似于Python的语法。：基本语法结构键值对：YAML中最基本的结构是键值对，用于表示映射（类似于Python的字典）。name:JohnDoeage:30列表：用破折号（-）表示列表项。items:-
python3调用arcpy地理加权回归_混合地理加权回归python实现代码 weixin_39942995
【实例简介】通过python编码实现MGWR、MGWTR模型的求解。能够解决空间非平稳性问题。【实例截图】【核心代码】mgwr-py└──mgwr-master├──CHANGELOG.md├──LICENSE├──MANIFEST.in├──README.md├──doc│├──Makefile│├──_static││├──images│││├──gwr-mgwr.png│││└──pysal
python在abaqus中的应用_Python在ABAQUS中的使用【z】 weixin_39835925
【篇首语】首先说，我不懂abaqus。只是一次帮同学处理混合编程问题查到这些资料，借机贴过来。拷贝过程中有些混乱字符，时间关系我没有删干净。因为我也是从转帖转过来，原出处找不到了。#开头的为注释行.9_-m2r;n%h-G第一节,建立建模环境,这一步中py将从abaqus中导入建模所需的所有程序模块frompartimport*接下来定义草图环境mdb.models['Model-1'].Sket
ctf python大法好_【技术分享】记CTF比赛中发现的Python反序列化漏洞 weixin_39631370 ctf python大法好
预估稿费：200RMB投稿方式：发送邮件至linwei#360.cn，或登陆网页版在线投稿写在前面的话在前几天，我有幸参加了ToorConCTF(https://twitter.com/toorconctf)，而在参加此次盛会的过程中我第一次在Python中发现了序列化漏洞。在我们的比赛过程中，有两个挑战中涉及到了能够接受序列化对象的Python库，而我们通过研究发现，这些Python库中存在的安
python3调用arcpy地理加权回归_分析地理加权回归分析结果的操作方法 weixin_39545269
1从地理加权回归(GWR)工具生成的输出包括以下内容：输出要素类可选系数栅格表面整体模型结果的消息窗口报告显示模型变量和诊断结果的辅助表预测输出要素类2下文中将使用一系列运行GWR和解释GWR结果的步骤对以上每项输出进行说明。通常将以普通最小二乘法(OLS)开始回归分析。有关详细信息，请参阅回归分析基础知识和解释OLS回归结果。回归分析的一种常用方法是在移动到GWR之前识别可能的最佳OLS模型。此
python炫酷特效代码_推荐几个炫酷的 Python 开源项目高杉峻 python炫酷特效代码
推荐几个炫酷的Python开源项目项目一:Supervisor简介:Supervisor是实际企业常用的一款Linux/Unix系统下的一个进程管理工具,基于Python开发,可以很方便的监听,启动,停止,重启一个或多个进程,而且当进程意外被杀死时,其可以实现自动恢复,很方便的做到进程自动恢复的功能,提高系统,服务的稳定性,多用于生产环境.下载地址:https://github.com/Super
198、Django安全攻略：全方位防护Web应用常见漏洞多多的编程笔记 django 安全前端
Python开发框架Django之安全性：防止常见的Web安全漏洞本文将为大家介绍Python开发框架Django的安全性，重点关注如何防止常见的Web安全漏洞。我们将简要了解Web安全漏洞的背景知识，然后深入探讨Django框架在防止这些漏洞方面的优势，最后提供一些实用的技巧和案例。一、Web安全漏洞概述在互联网时代，Web安全漏洞已经成为黑客攻击的首选目标。常见的Web安全漏洞包括：跨站脚本攻
Python语言在Abaqus中的应用---2.3.1.1Abaqus对象模型之概述 Coder_Zeus python 经验分享
在Python语言基础上，Abaqus脚本接口增加了许多新的对象模型这些对象之间的层次（hierarchy）和关系（relationship）称为Abaqus对象模型（Abaqusobjectmodel）本文将详细介绍Abaqus对象模型的相关知识，包括：概述、导入模块、抽象基本模型、查询对象模型、[Tab]键自动完成功能等内容一、概述Abaqus对象模型描述了各个对象之间的关系1）定义对象的方法
Appium介绍 max500600 开发工具 appium
在使用不同版本的Appium包进行自动化测试时，出现警告问题可能是由于版本不兼容、配置不正确等原因导致的。下面将详细介绍解决这些问题的步骤，确保模拟器能够正常启动，并能在Appium查看器中同步显示。1.环境准备首先，确保你已经安装了以下工具和库：AppiumServer：可以从Appium官方网站下载并安装。AppiumPythonClient：使用以下命令安装：pipinstallAppium
磁盘调度算法 max500600 算法算法数据库服务器
先来先服务（FCFS）算法原理：按照进程请求访问磁盘的先后顺序进行调度。就像是排队买东西，先到的先服务。示例（Python）：deffcfs(requests):"""requests是一个包含磁盘请求序列的列表例如requests=[98,183,37,122,14,124,65,67]假设磁头初始位置为53"""head_position=53total_distance=0forreques
requests 模块 dme. 爬虫学习dme 爬虫爬虫 python
在python中requests模块常用于爬虫本文将会讲述requests常用函数的用法。1.requests.get()/requests.post()1.基本语法#首先导入requests#pipinstallrequestsimportrequests#这里以百度为例url="https://www.baidu.com/"resp=requests.get(url)#requests.pos
Python学习第十天--处理CSV文件和JSON数据無量空所 python学习 python
CSV：简化的电子表格，被保存为纯文本文件JSON：是一种数据交换格式，易于人阅读和编写，同时也易于机器解析和生成，以JavaScript源代码的形式将信息保存在纯文本文件中一、csv模块CSV文件中的每行代表电子表格中的一行，逗号分隔了该行中的单元格。但并非CSV文件中的每个逗号都表示两个单元格之间的分界。CSV文件也有自己的转义字符，允许逗号和其他字符作为值的一部分。所以总是应该使用csv模块
使用 Python 的`turtle`库来实现 2025 新年快乐的程序 go5463158465 算法 python python 开发语言
以下是一个使用Python的turtle库来实现2025新年快乐的程序，其中包含烟花效果和祝福语：importturtleimportrandom#设置画布和画笔screen=turtle.Screen()screen.setup(width=800,height=600)screen.bgcolor("black")screen.title("2025新年快乐！")#定义烟花类classFire
二叉树深度的介绍 go5463158465 python 算法算法开发语言 python
二叉树深度的定义：二叉树的深度（高度）是指从根节点到最远叶子节点的最长路径上的节点数。例如，一个只有根节点的二叉树，其深度为1；如果根节点有两个子节点，且每个子节点又分别有两个子节点，那么这个二叉树的深度为3。计算二叉树深度的方法：递归方法：递归是解决二叉树问题的常用方法。对于二叉树深度的计算，其递归的思想是：二叉树的深度等于其左子树和右子树深度的最大值加1。以下是使用Python实现的代码：cl
2025最新实测可用的免费股票API接口推荐：python、JavaScript 、JAVA等实例代码演示教你如何免费获取股票实时、历史、指标等数据 Eumenides_max python javascript java 股票数据接口股票API接口
在数字化时代，股票投资已不再局限于传统的交易方式。随着金融科技的飞速发展，API（应用程序编程接口）接口正逐渐成为股票交易领域的新宠，为投资者提供了更加便捷、高效的交易体验。API接口在股票交易中的应用，主要体现在其能够实现数据的实时传输和交互。通过API接口，投资者可以实时获取市场动态、股票价格、交易量等关键信息，为决策提供有力支持。同时，API接口还支持自动化交易，投资者可以根据预设的交易策略
Python 魔法学院 - 第03篇：Python 变量与数据类型 ⭐ 码力全開《Python 魔法学院》python 开发语言 windows pycharm
目录1.引言：开启Python变量与数据类型的魔法之旅2.变量：数据的魔法标签️2.1什么是变量？2.2变量的命名规则3.数据类型：Python的魔法工具箱3.1数据类型示例3.2数据类型的内存结构内存结构模拟4.Python中的关键字和保留字5.Python可变类型及其方法详解️5.1列表（List）5.1.1列表的创建5.1.2列表的常用方法5.1.3列表方法的使用示例及内存模拟5.2集合（S
空间权重矩阵——理论介绍（第一期）我也可以是流浪诗人584 空间计量经济学矩阵 python 数据分析线性回归
空间权重矩阵的介绍在进行空间数据分析时，空间权重矩阵是一个重要的工具。它用于表示不同地理位置之间的空间关系。本文将详细介绍空间权重矩阵的定义、构建方法以及在空间计量分析中的应用。什么是空间权重矩阵？空间权重矩阵（SpatialWeightMatrix）是一个矩阵，用于量化地理单元之间的相互影响。矩阵中的每个元素表示两个地理单元之间的空间联系强度。常见的空间权重矩阵类型包括：邻接矩阵（Adjacen
Python 实现2048 yingjiejk python python pygame 开发语言
2048游戏是一个经典的数字益智游戏，使用Python语言可以很容易地实现它。以下是一个简单的代码示例：importpygameimportrandompygame.init()#设置颜色WHITE=(255,255,255)BLACK=(0,0,0)GRAY=(128,128,128)RED=(255,0,0)GREEN=(0,255,0)BLUE=(0,0,255)#设置屏幕大小size=(4
python 中serial.read用法详解之serial.read(inwaiting or 1) huiyuanzhenduo python
在Python中，serial.read(inwaitingor1)是pyserial库中用于从串口读取数据的代码片段，下面是详细解释：read()serial类的方法，用于从串口缓冲区读取指定数量的字节数据。格式为read(size)，size为读取的字节数。inwaiting是serial类的属性，返回串口输入缓冲区中等待读取的字节数。如ser.inwaiting()可获取当前缓冲区字节数。i
通达信实时行情API的功能有哪些？如何利用这些功能进行股票分析股票程序化交易接口量化交易股票API接口 Python股票量化交易通达信实时行情api 股票分析行情数据股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>行情数据获取功能通达信实时行情API能够提供全面的行情数据。它可以获取股票的基本信息，如股票代码、名称等。能精确提供股票的实时价格，包括当前价、开盘价、收盘价等重要价格数据。这些数据是进行股票分析的基础。投资者可以根据当前价与开盘价的
Python项目之Pygame制作新年烟花！ WANGWUSAN66 pygame python 开发语言计算机经验分享源码
实现源码涉及到两个Python库：random和pygame。1.random库：randint(a,b)：返回一个在[a,b]范围内的随机整数。uniform(a,b)：返回一个在[a,b]范围内的随机浮点数。choice(sequence)：从给定的序列中随机选择一个元素。2.Pygame是一个用于制作游戏的Python模块，它包含了许多用于游戏开发和图形渲染的功能。以下是Pygame的一些主
python爬虫框架Scrapy简介码农~明哥 python python 爬虫 scrapy
当你写了很多个爬虫程序之后，你会发现每次写爬虫程序时，都需要将页面获取、页面解析、爬虫调度、异常处理、反爬应对这些代码从头至尾实现一遍，这里面有很多工作其实都是简单乏味的重复劳动。那么，有没有什么办法可以提升我们编写爬虫代码的效率呢？答案是肯定的，那就是利用爬虫框架，而在所有的爬虫框架中，Scrapy应该是最流行、最强大的框架。Scrapy概述Scrapy是基于Python的一个非常流行的网络爬虫
【算法】经典博弈论问题——斐波那契博弈 + Zeckendorf 定理 python 查理零世算法 python 数据结构
目录斐波那契博弈（FibonacciNim）齐肯多夫（Zeckendorf）定理示例分析实战演练斐波那契博弈（FibonacciNim）先说结论：当初始石子数目n是斐波那契数时，先手必败；否则，先手有策略获胜。证明概要:当n=2时，先手只能取1颗石子，后手直接取剩下的1颗石子获胜，因此先手必败。假设对于所有小于等于某个斐波那契数f[k]的情况，结论都成立。归纳：对于f[k+1]=f[k]+f[k-
用 Python 实现经典的 2048 游戏：一步步带你打造属于你的小游戏！一位小说男主 python python 游戏
用Python实现经典的2048游戏：一步步带你打造属于你的小游戏！（结尾附完整代码）简介2048是一个简单而又令人上瘾的数字拼图游戏。玩家通过滑动方块使相同数字的方块合并，目标是创造出数字2048！在这篇博客中，我们将用Python的Tkinter库从零开始实现这款游戏，涵盖从界面设计到逻辑实现的每一个细节，帮助你全面了解背后的开发思路。游戏特点经典玩法：滑动合并相同数字，尽可能达到2048。随
Python跨年烟花代码花洵琴
Python跨年烟花代码【下载地址】Python跨年烟花代码分享本资源文件提供了一个使用Python编写的跨年烟花代码，代码中使用了`pygame`、`random`和`math`库来实现烟花的模拟效果。代码中定义了三个类：`Firework`、`Particle`和`Trail`，分别代表烟花、烟花中的颗粒以及颗粒的轨迹点项目地址:https://gitcode.com/open-source-
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

常见的文本分析大汇总

常见的文本分析大汇总

词频与词云图

关键词提取

情感分析

基于LDA的主题词提取

总结

你可能感兴趣的:(数据分析,python,数据分析)