weixin_39964391

python文本聚类词云图_数据思维实践 | TASK 12 文本分析

原标题：数据思维实践 | TASK 12 文本分析

文本分析可以干什么

生活中文本无处不在，网页上的新闻、证券分析师的研究报告、政府工作报告等等，这些都是文本。如何从文本中挖掘价值是文本分析需要回答的问题。对于生产厂家来说，可以从用户评论中挖掘消费者对产品的关注点，从而帮助改善产品的设计。在金融行业，可以从上市公司的公告、年报、新闻中探究公司的发展状况；从网民在股吧、论坛上的动态来判断大众对股票的评价和喜好程度。在互联网行业，谷歌曾经做过一个流感预测，通过监测“温度计”、“肌肉疼痛”等一系列和流感相关的关键词在网上的搜索量来追踪分析不同地区的流感趋势，比传统方法快两周。在文学领域，还可以通过对文学作品进行分析来获得一些写作线索，比如关于红楼梦的前八十回和后四十回的作者问题。

举了这么多例子，不禁要问文本分析主要包括哪些内容？如何进行文本分析？有哪些常用的技巧？TASK 12的目的就是帮助读者进行文本分析的入门。

文本分析的主要内容

文本分析是一种把非结构化数据转化成结构化数据的方法，通常包含以下几方面的内容。首先要对文档进行中文分词，在分词的基础上可以进行字、词、句的统计，对文档有一个初步的认识。接下来可以进行一些关键词的提取，帮助提炼文档的内容，达到简化、概括文档的目的。提取关键词方法有很多，最简单的就是词频的统计，选取出现次数最多的词根作为关键词。

图3-18 文本分析的内容

此外，还可以对词语进行情感分析，即判断词性是积极的还是消极的，这在用户评论分析中比较常见，常常会据此来判断用户对产品的喜好程度。还可以进行聚类分析和其他模型的研究。下面举一个简单的关于分词的例子：可以看到左边是一段文字叙述，首先通过分词技术可以把这段文本分成右边的单词，进而对单词进行字数、句数以及关键词的统计。

图3-19 一个关于分词的示例

文本分析基本流程

在进行文本分析之前，首先熟悉一些常用的字符处理函数(以R语言为例)。这些函数可以辅助进行诸如字符提取、字符拼接、字句统计等基本应用，下面以简单的示例进行介绍。

简单的字句统计

针对简单的字句统计，常用的字符处理函数有以下几个：nchar、strsplit、paste、paste0、grep、gsub、substr等函数。具体地，nchar这个函数是用来统计字符个数。下述示例可以看到对于中文字符，一个中文字符计数为1，所以统计“我和你”结果就是3。但是对于英文字符，是一个字母计数为1，且空格也作为计数。strsplit是字符分切函数，比如下例就由参数split指定以逗号为分切标志。paste为字符粘贴函数，其他函数请读者自行试验，探索其实现的功能。

中文分词

在英文中，单词和单词之间是以空格作为自然分界符的，每一个单词都可以表示一个较为完整的语义。但是中文不同。中文以汉字作为基本单位，只有句和段能通过明显的分界符来简单划分，而“词”却没有形式上的分界符。因此，在对中文文本进行分析时，首先需要进行分词。

在R语言中，有两种较为常用的分词包。第一种是Rwordseg。这种分词方法使用 rJava 调用了Java 分词工具 Ansj。Ansj 是一个开源的中文分词工具，基于中科院的 ICTCLAS中文分词算法，是学术界著名的分词算法之一。第二种是jiebaR，是jieba分词算法在R中的实现。jieba是基于python写成的一个工业界的分词开源库，具有很好的扩展性。Rwordseg在分词之前会去掉文本中所有的标点符号，这就会造成原本分开的两个句子前后相连，因此前一句的最后一个字就可能会和后一句的第一个字连在一起变为一个词；而jiebaR在分词时不会去掉任何标点符号，而且返回的结果里面也会有标点符号。因此，在较小的文本数据集上，jiebaR的分词效果会相对较好。下面将详细介绍如何使用jiebaR进行中文分词。

在使用jiebaR包进行分词时，首先需要在R中安装并加载jiebaR分词包，然后通过worker函数来初始化分词器。worker函数包括很多参数，用户可以在里面指定使用的分词模式、是否加载自定义词典或者停用词词典，以及返回分词结果的同时是否标注词性。用户可以通过“?worker”来查看该函数的帮助文档。图3-20展示了使用jiebaR进行分词的结果，它将“东西不错，很好用”这句话分为了五个词：“东西”“不错”“很”“好”“用”。

图3-20 jiebaR中文分词示例

优化词典

在上面的例子中，jiebaR将“东西不错，很好用”这句话被分为了“东西”“不错”“很”“好”“用”五个词。可能很多读者对这个分词结果都不太满意，因为“好用”应该是一个词，而不应该被分为两个独立的词，而且“很”这个副词只是表达了强度，而没有实际的含义。那怎么才能得到较为满意的分词结果呢？这就需要对jiebaR的词典进行优化。优化词典大致分为两种，一种是去掉停用词，一种是添加用户自定义词典。下面将对两种方式进行具体说明。

>>>去掉停用词

停用词大致可以分为两类：一类是语言中使用的功能词，如语气助词、副词、介词、连接词等，这些功能词通常极其普遍，但并没有什么实际含义，比如：“你、我、他、了、的”之类的。另一类是有特定含义，但是应用十分广泛的词，比如“想、做、来、去”等。

目前业界以及学界对停用词的范围没有给出统一的划分标准，但很多机构都给出了自己的停用词表，如百度，哈尔滨工业大学，四川大学机器自然实验室等，读者可以参考这些机构发布的停用词表。jieba分词算法中也有自带的停用词库。值得注意的是，很多时候对于停用词的设置需要根据研究文本的特点来设定。例如，在分析手机评论的文本数据时，大部分评论中都会出现“手机”这个词，但这个词对于挖掘评论中影响手机好评率的关注点并没有帮助，所以可以把“手机”这个高频词作为停用词去掉。

>>>添加自定义词典

绝大多数的分词方法都是基于“字典”，只有字典里有的词，才可能在分词的时候分出来。比如上面的“好用”之所以没有被分出来，就是因为词典中只有“好”“用”这两个字，而没有“好用”这个词。这就带来一个问题，对于一些专业词汇或者新词，字典里没有怎么办？这时就要通过添加自定义词典来丰富原始字典。那么如何选取自定义词典呢？有几种途径供大家参考。首先是从原始分词结果中总结，这样虽然费时费力，但效果却是比较好的。其次就是有自己领域的行业词汇。第三就是可以从搜狗细胞词库中下载，通过一些转化就可以应用。

词性标注

分词之后，我们还可以对词性进行标注，这在jiebaR里是可以轻松实现的。比如图3-21展示的例子就可以告诉我们分出的词具体属于哪个词性。jiebaR将所有可能出现的词性划分为22大类，每个大类下又进行了二级和三级划分。常见的词性主要有名词、动词、形容词、代词、副词等。使用jiebaR进行词性标注之后，可以指导我们进行更复杂的分析，比如对分词结果按词性进行筛选等等。

图3-21 词性标注示意图

关键词提取

关键词的提取有很多方法，其中最简单的就是按照在全部文本中出现的词频大小。出现的次数越多，说明越重要。还可以使用TF-IDF(词频-逆向文件频率)指标来进行计算。其中，TF(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF(inverse document frequency)是对一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。图3-22通过一个具体的示例展示了什么是TF-IDF。

图3-22 TF-IDF计算示例

绘制词云

词云是一种非常简洁美观的可视化展示方式，通过词云可以一目了然的知道在一段文本中哪些词出现的次数最多。词云的展示方式可以通过多种途径实现，比如通过R包RColorBrewer和wordcloud(第一个R包可以提供颜色方案，第二个R包用来绘制词云图)，可以得到图3-23(a)的词云图。另外，现在也有很多专门绘制词云图的网站，比如tagxedo(http://www.tagxedo.com/app.html)，用它可以画出很多精美的词云图(如图3-23中右图所示)。

图3-23 词云图示例(左图为使用R包绘制，右图为在网站tagxedo绘制)

文本分析示例

谁是主角？——轻小说《Fate/Zero》文本分析

南京大学边逸群

一、背景介绍

轻小说(Light novel)，又名“奇幻小说”、“少年小说”、“青年小说”。可简单地解释为“可轻松阅读的小说”，与网络文学关系密切。读者群主要为青少年、中学生等年轻读者。文体多使用惯常口语，运用特定的故事描绘手法，以其多样的风格、变幻的场景、大胆的设定如动漫般迤逦，辞藻华丽，行文不拘一格，语言表达带有魔幻与神奇色彩等特点吸引读者。作者并不是向青少年诉说一个故事，而是往往和读者用相同观点描述有趣的事情。

轻小说由于其强烈的动漫风格，强的故事节奏感且多为阶段性完结的分卷故事，改编成本低，易于把控质量，因此经常改编成漫画动画和游戏。例如千万级别销量的作品《刀剑神域》等。在漫画，动画，游戏以及周边衍生方面创造了大量的财富。

图3-24 轻小说典型作品

《Fate/Zero》是一部比较成功的轻小说。根据此小说改编的同名电视动画，豆瓣评分高达9.0分，在各大视频网站均已有几千万的播放量。同时，还有与之相关的漫画以及游戏，已成功地形成系列文化。小说共52万字，11712个自然段，原版分为《第四次圣杯战争秘话》、《王者的盛宴》、《逝去的人们》、《炼狱之炎》四章。小说描述的是第五次圣杯战争(《Fate/stay night》的主要内容)10年之前的第四次圣杯战争。圣杯是传说中能够实现拥有者愿望的宝物，每隔60年在冬木市出现一次，然后选出7位魔术师作为御主(Master)与7位英灵作为从者(Servant)订立契约，从而展开圣杯战争，最终获胜的一组可以用圣杯来实现任何愿望。所谓的英灵是历史或传说中赫赫有名的英雄的灵魂，他们通过仪式被召唤到现世。小说最终的结局也解释了标题，从零开始，又回归于零。

文中仅御主与相应的从者就有14人，性格志趣各不相同。此外还有与御主相关的亲属，与御主形成一个阵营，乍看令人眼花缭乱。“在眼花缭乱地踏进Fate的故事世界的时候，假如本书能够担当起领航人的职务，我作为著者将为此感到不胜幸福。”2011年1月作者在谈及创作灵感时说道。即便如此，头一次接触这部小说的读者可能阅读过半，但对主角是谁仍然没有头绪。同时，这一问题在社区中形成了激烈的讨论。

为此我们用文本分析的方法，观察人物的特点并且分析小说中人物关系，进而对谁是主角做简单的判断。

二、文本分析

小说结构紧凑，剧情快速冲突。涉及了7个阵营间、共计八场战斗。其中前三场为牵扯多个阵营之间的混战。而后五场为从者或者御主之间一对一的决战。

图3-25 《Fate/Zero》时间线

主角是文学作品的主要人物，即作者所着力刻画的一个或几个在作品中占据主导地位的中心人物。作品的矛盾冲突和故事情节紧紧围绕主人公展开，其他次要人物的出现及其活动，也以主角及其活动为中心，并对主角起一定的映衬作用。

所以判断小说主角主要借助两步：抓住描写刻画谁、借宾衬托凸显谁。

(1)抓住描写刻画谁：作为一篇小说的主人公必定是作者倾力刻画的艺术形象，作者定然会不惜笔墨，而且还会抓住某个局部从不同的角度，多方面地去描绘、刻画，从而达到主要人物有鲜明的个性特征。首先我们对比各阵营出场次数(如图3-26)。Berserker与Caster阵营的描写较少，从而他们不是主角。而Assassin阵营中，Assassin描写较少，但其御主绮礼的描写段落较多。

图3-26 各阵营出场次数分组柱状图

对于剩余的五个阵营，我们看对应的出场密度(如图3-27)。虽然Lancer阵营在三次混战时，出场密度远高于其他阵营，但他们死于第三次混战，没有贯穿整个故事。而其他阵营总体的出场密度大致相当。

图3-27 出场密度

其次，选择典型的人物结合词云进行分析。

图3-28 人物词云图

Saber是出场最多的人物，通过词云可以看出，她身为亚瑟王，战斗能力较强，能与男人相匹敌，从而渴求胜利。从图中比较大的动词，如“点头”、“看着”等，可以看出与她相关的对话较多。从小说的情节中求证，她在三王狂宴上意志动摇，所以更多的是听从别人的讲述。虽然出场多，但更倾向于配角。

接下来看Saber的御主卫宫切嗣。他作为魔术师参战，反而更钟爱用手枪子弹这种非魔术的方法消灭魔术师。从“敌人”、“时间”、“目标”这几个词中，可以看出卫宫切嗣对战术的掌控更多。并且他的确喜爱暗中行动，搜集情报，性格复杂，更倾向于主角。

出场次数第三多的言峰绮礼生于宗教家庭，受到其父亲的影响大。有“离开”、“愤怒”，也有“明白”、“期待”，展现了他的两个面。从故事里求证，是因为他少时情感压抑，找不到自己的欲望。在圣杯战争中遇到Archer后，找到了方向。凸显了他的转变，描写同样充实。

(2)借宾衬托凸显谁：单独从人物入手有时只是表层的，我们还需关注小说中人物之间的关系。

图3-29 《Fate/Zero》社交关系图

此图展示了小说主要人物之间的互动关系。可以看出，由英文名表示的从者在整个关系的互动中，处于更核心的位置。其中，Rider与Saber处在更中心的位置。所以接下来，单独看Rider的社交关系。

图3-30 Rider人物关系

Rider与其御主韦伯互动非常多，俨然是一对好搭档。其次与Saber和Archer的互动也较多，对应于三王狂宴的剧情，用Saber王道的变化展现出Archer王道的吸引力。并且他与其余御主均有互动，表现十分活跃。

三、总结

综上所述，这部描写圣杯战争的小说，人物众多、各有特色。每个人都有自己的理想，每个人都有自己的战略。Saber出场次数最多，但人物塑造较为单一。卫宫切嗣与言峰绮礼性格有差距，但表现不相上下。而Rider社交同样复杂，与其他从者均有互动。不同人物的故事相互交错，剧情丰富。几乎没有明确的主角位置。更倾向于群像小说。

课后作业

找到作业数据“琅琊榜”，并完成以下五个任务：

将文本读入并将数据集命名为langya，展示数据集的前10行。提示：处理中文时最常见的错误就是乱码问题，这往往是是由于编码造成的，通常可以通过设置UTF-8编码来解决。

进行初步的分词尝试，提示：本任务有三个关键点，如何进行逐行分词？如何添加自定义词典？如何去掉停用词？

进行词频统计，要求：只对字符数大于等于2的词根进行统计，将结果按照降序排列。存成数据集命名为freq，其中第一列为词根，第二列为频数，展示数据集的前6项。

统计主要人物在全书的出场频次并绘制柱形图。提示：这里需要注意的是对于某一个人物可能要统计他不同称谓，例如梅长苏就有好几种叫法，比如苏哲、小殊、林殊等等说法。

统计作者在描写梅长苏时经常用的动词有哪些，并对这些常用动词绘制词云。

提示：如果不是非常了解琅琊榜，你可以看一下这部豆瓣评分9.1的电视剧。当然，你可以用其他你熟悉的文本数据，来完成这个课后作业。

责任编辑：

华为OD机试 - 寻找最富裕的小家庭（Python/JS/C/C++ 2024 D卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述在一棵树中，每个节点代表一个家庭成员，节点的数字表示其个人的财富
学习111 麋鹿叔叔学习
项目名称项目简介主要功能技术原理GitHub地址browser-use智能浏览器工具，让AI像人类一样操作浏览器，实现网页自动化网页浏览与操作、多标签页管理、视觉识别与内容提取、操作记录与重复执行、自定义动作支持、主流LLM模型支持为大语言模型服务的创新Python工具库GitHubEkoFellouAI推出的生产就绪型JavaScript框架，基于自然语言驱动创建智能代理支持所有平台，提供统一便
不用再当“技术宅“！这个AI神器让我5分钟变身人工智能达人阳光永恒736 AI工具人工智能 deepseek 一键包本地部署 AI资源
最近我在朋友圈刷到好多朋友都在玩AI画图、AI写诗，看得我心痒痒。可每次想自己试试，打开教程就被满屏的代码吓退——"Python环境配置"、"CUDA驱动安装"这些词比数学作业还让人头疼。直到我发现了一个叫DeepSeek本地部署一键包的神器，我的AI探索之旅终于变得像搭乐高一样简单！夸克网盘分享一、原来AI离我们这么近上周三放学路上，我看见隔壁班的小美用AI给自己照片生成古风造型，这让我突然意识
创建Datas 一一代码 python
核心数据结构创建DataFrame```pythonimportpandasaspd#从字典创建DataFramedata={'Name':['Alice','Bob','Charlie'],'Age':[25,30,35],'City':['NewYork','LosAngeles','Chicago']}df=pd.DataFrame(data)print(df)```输出：```NameAg
python将网银web工程转换成客户端electron工程案例银行金融科技人工智能机器学习 DeepSeek electron
以下是一个将网银Web工程转换为Electron客户端的技术方案，结合Python和Electron实现桌面端增强功能：bash#项目结构webank-electron/├──main/#Electron主进程代码│├──main.js│└──python_server.py├──renderer/#网页渲染进程│└──webank-web/#原始网银Web工程├──package.json└──
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
PHP与Java的区别分析 Monika Zhang java 架构设计 php java 开发语言
一、语言特点php：一种的像Python的动态弱语言类型的服务器脚本语言，不需要编译代码；它是专为Web开发目的而开发和设计的，而且简单容易上手。Java：是一种通用的面向对象编程语言，属于强势优选语言类型，在执行前必须先正确编译。是面向对象的和人类可读的；支持服务器端和客户端；可用于开发独立应用程序或基于Web的应用程序，上手比PHP难。二、语法1.PHP是一种脚本语言，代码在服务器上执行，而结
闭包的概念总结与分析 Monika Zhang java java
1定义闭包又称词法闭包闭包最早定义为一种包含和的实体.在计算机科学中，闭包（英语：Closure），又称词法闭包（LexicalClosure）或函数闭包（functionclosures），是引用了自由变量的函数。解释一：闭包是引用了自由变量的函数，这个被引用的变量将和这个函数一同存在。解释二：闭包是函数和相关引用环境组成的实体。注：：除了局部变量的其他变量《Python核心编程》对闭包的解释:
毕业论文代码实验（Python\MATLAB）基于K-means聚类的EMD-BiLSTM-Attention光伏功率预测模型清风AI 毕业设计代码实现 python lstm 深度学习神经网络人工智能 matlab pytorch
一、项目背景1.1光伏功率预测意义在能源结构转型背景下（国家能源局2025规划），光伏发电渗透率已超过18%。但受天气突变、云层遮挡等因素影响，光伏出力具有显著波动性，导致：电网调度难度增加（±15%功率波动）电力市场交易风险提升光储协同控制效率降低1.2技术挑战多尺度特征耦合：分钟级辐照度变化与小时级天气模式共存非线性映射关系：气象因素与发电功率呈高阶非线性关系数据模态差异：数值天气预报(NWP
DeepSeek 部署指南 (使用 vLLM 本地部署) AGI大模型资料分享员人工智能语言模型学习 chatgpt 深度学习大模型 deepseek
DeepSeek部署指南(使用vLLM本地部署)本文档将指导您如何使用vLLM在本地部署DeepSeek语言模型。我们以deepseek-ai/DeepSeek-R1-Distill-Qwen-7B模型为例进行演示。1、安装Python环境首先，您需要安装Python环境。访问Python官网:https://www.python.org/根据您的操作系统选择安装包:Python官网提供Windo
Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
Python与区块链隐私保护技术：如何在去中心化世界中保障数据安全 Echo_Wish Python！实战！区块链 python 去中心化
Python与区块链隐私保护技术：如何在去中心化世界中保障数据安全在区块链世界里，透明性和不可篡改性是两大核心优势，但这也带来了一个悖论——如何在公开账本的同时保障用户隐私？如果你的交易记录对所有人可见，如何防止敏感信息泄露？Python作为区块链开发中最受欢迎的语言之一，提供了强大的工具和库来增强隐私保护。本文将深入探讨区块链的隐私保护技术，并结合Python代码示例，带你了解如何在Web3时代
人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
Python从入门到精通的系统性学习路径 niuTaylor 编程区 python 学习开发语言
Python从入门到精通的系统性学习路径一、基础语法快速突破1.变量与基础操作#动态类型演示a=10#整型a=3.14#浮点型a="Python"#字符串a=[1,2,3]#列表#格式化输出进阶name="Alice"print(f"{name:*^20}")#居中填充输出：******Alice*******2.运算符优先级实战#常见运算符优先级练习result=5+3*2**2//(4%3)p
Python技术全景解析：从基础到前沿的深度探索靠近彗星 python 开发语言性能优化个人开发极限编程
目录一、Python为何成为开发者首选？1.核心优势矩阵2.性能进化史二、Python核心应用领域1.数据科学黄金三角2.AI开发新范式三、现代Python进阶技巧1.类型提示革命2.异步编程实战四、Python工程化实践1.现代项目架构2.性能优化矩阵五、Python未来生态展望1.前沿技术融合2.性能革命六、学习路线图1.技能成长路径基础阶段（1-3月）专业方向（3-6月）深度进阶（6-12月
如何使用DeepSeek编写测试用例？海姐软件测试 deepseek 大数据测试工具
一、DeepSeek在测试用例设计中的定位DeepSeek作为AI工具，并非直接替代测试设计，而是通过以下方式提升效率：快速生成基础用例框架（等价类、边界值等）智能补充易遗漏场景（如特殊字符、异常流）自动化脚本片段生成（Python/pytest/JUnit等）测试数据构造建议（符合业务规则的Mock数据）二、四步法实战：AI协作编写测试用例Step1：明确需求输入输入质量决定输出质量，需向Dee
Explore Model-Based Feature Importance 后端
Question1.ExploreModel-BasedFeatureImportanceThroughoutthisquestion,youmayonlyusePython.Foreachsub-question,providecommentary(ifneeded)alongwithscreenshotsofthecodeused.Pleasealsoprovideacopyofthecode
Python 标准库之 logging 模块 36度道 python系列学习笔记 python
1.logging模块简介在软件开发过程中，了解程序的运行状态、记录重要事件以及排查错误是至关重要的。logging模块为Python提供了灵活且强大的日志记录功能。它允许开发者控制日志的输出内容、输出位置（如文件、控制台）、日志级别（用于过滤不同重要程度的日志信息）等，帮助开发者更好地监控和调试程序。2.基本使用简单配置与输出：importlogging#配置日志基本设置logging.basi
python 标准库之 functools 模块 36度道 python系列学习笔记 python
functools模块提供了一系列用于处理函数的工具。其中，像partial可以创建一个新的可调用对象，这个对象固定了原函数的部分参数，有点像给函数穿上了“参数防护服”；reduce能对一个序列进行累积计算，就好比是一个勤劳的小会计，按顺序把序列里的数加起来或者做其他运算；wraps主要用于装饰器，它能帮助装饰器函数保留被装饰函数的元信息，比如函数名、文档字符串等，让被装饰函数“表里如一”。底层原
Python——函数生如雪花 Python python
一、十进制小数转换成二进制小数【问题描述】编写程序，输入十进制小数（只考虑正数），把它转换为以字符串形式存储的二进制小数，输出该二进制小数字符串。对于转换得到的二进制小数，小数点后最多保留10位。小数点后不足10位，则输出这些位，尾部不补0；小数点后超出10位，则直接舍弃超出部分。【输入形式】十进制浮点小数【输出形式】对应输入小数的二进制小数字符串。若整数部分或者小数部分为0，则输出0。比如输入0
Python Web框架 Flask vs Django vs FastAPI ZengDerby python flask fastapi django
如果您需要构建大型的、功能丰富的应用程序，Django可能是一个很好的选择。如果您需要更灵活的框架，可以选择Flask来定制开发。而对于追求极致性能和高并发处理的项目，FastAPI可能是一个更加理想的选择。优缺点Flask在小型项目或微服务理想的选择。Flask灵活且轻量，非常适合快速开发小型应用。Flask是一个非常灵活的框架，它允许您根据项目需求进行定制。您可以根据需要选择合适的插件和扩展。
python if用法 IT技术土狗 python从入门到入狱 python
pythonif用法流程控制流程控制即控制流程，具体指控制程序的执行流程，而程序的执行流程分为三种结构：顺序结构（之前我们写的代码都是顺序结构）、分支结构（用到if判断）、循环结构（用到while与for）1、分支结构分支结构就是根据条件判断的真假去执行不同分支对应的子代码2、为什么需要分支结构人类某些时候需要根据条件来决定做什么事情，比如：如果今天下雨，就带伞所以程序中必须有相应的机制来控制计算
python与数值有关的问题 cbxjsdg python
1.复数的问题x=123+456j#后面没加j部分为实数，加j部分为虚数print('实数部分',x.real)#表示实数print('虚数部分',x.imag)#表示虚数2.查看数值的类型a=10b=10.0c=1.99E2#表示1.99*10的二次方的意思，这是科学计数法print('数值为',a,'数值类型为',type(a))print('数值为',b,'数值类型为',type(b))pr
【架构设计】前置知识 GIS程序媛—椰子架构设计架构设计
架构设计是软件开发的进阶技能，需要结合理论知识和实践经验。以下是掌握架构设计所需的前置知识及其重要性，以及学习路径建议：一、基础编程能力1.编程语言与核心概念掌握至少一门主流语言（如Java、Python、C#、Go等），理解其语法、特性及生态。核心概念：面向对象（OOP）、函数式编程（FP）、并发/异步、内存管理等。示例：通过Java理解接口、多态、设计模式。通过Go学习并发模型（Gorouti
Python, C ++开发家庭开支 Geeker-2025 python c++
开发一款**家庭开支数字化记录与结算App**是一个非常有意义的项目，旨在帮助家庭用户高效管理开支、记录消费、分析财务状况，并提供结算和预算管理功能。以下是基于**Python**和**C++**的开发方案，结合两者在数据处理、实时通信和系统开发中的优势。---##1.**项目需求分析**家庭开支数字化记录与结算App的核心功能包括：1.**用户管理**：-用户注册、登录，支持家庭成员管理。2.*
linux执行python脚本conda库_Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解）)... weixin_39992462
Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解))1.首先在PycharmTools->Deployment->Configurations打开新建SFTP输入host:ip地址username密码然后点击TestConnection出现下图，则测试成功因为已经连接成功，这时候已经可以读取远程服务器的目录了：2.选择项目mapping(可以跳过3.在Set
brew mysql client_Mac安装mysqlclient过程解析 weixin_39630440 brew mysql client
尝试在虚拟环境下通过pip安装：pipinstallmysqlclient然后报错：OSError:mysql_confignotfound找到官方文档https://github.com/PyMySQL/mysqlclient-python，解释说安装前需安装另一个模块：brewinstallmysql-connector-c但是报错：查看报错信息，在安装mysql-connector-c前先b
macos安装python-nodejs_MAC平台基于Python Appium环境搭建过程图解 weixin_39612038
前言最近笔者要为python+appium课程做准备，mac在2019年重新安装了一次系统，这次重新在mac下搭建appium环境，刚好顺带写个文稿给大家分享分享搭建过程。一、环境和所需软件概述1.1目前环境：MacOS(10.15.3)1.2所需软件:jdk-8u91-macosx-x64.dmg(jdk1.8及以上版本应该都可以)android-sdk_r24.4.1-macosx.zip(m
python接口自动化全世界最帅的男人 python 自动化开发语言
Python是一种非常流行的编程语言，也是许多接口自动化测试框架的首选语言。下面是一个简单的接口自动化测试框架的思路：1.安装必要的库和工具：在Python中，我们可以使用requests库来发送HTTP请求，使用unittest库来编写测试用例，使用HTMLTestRunner库来生成测试报告。此外，我们还需要安装一个代码编辑器，如PyCharm或VSCode。2.创建测试用例：编写测试用例是接
Python接口自动化花落同学 Python自动化从入门到放弃 python 自动化
4接口自动化4.1使用python实现接口自动化如果不了解接口测试可参考https://ke.qq.com/course/4092904使用Python的request库实现接口测试：importjsonimportrequests#使用session管理：#1.可以自动关联set-cookie里面的内容#2.可以加快与服务器的连接速度session=requests.session()#auth
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

python文本聚类 词云图_数据思维实践 | TASK 12 文本分析

你可能感兴趣的:(python文本聚类,词云图)

python文本聚类词云图_数据思维实践 | TASK 12 文本分析