JackHCC

利用jieba库对中文小说进行词频统计并进行简单的正则匹配

中文小说词频统计及正则匹配

首先导入中文分词库jieba，Counter库和re库

import jieba
import re
from collections import Counter

导入打开要处理的文本傲慢与偏见中文版小说并利用jieba分词

txt = open("傲慢与偏见.txt", "r", encoding="gb18030").read()
words = jieba.lcut(txt)

去除的标点符号,只统计词频

excludes = {"，", "。", "\n", "-", "“", "”", "：", "；", "？", "（", "）", "！", "…"}

遍历计数并去除标点

for word in words:
    counts[word] = counts.get(word,0)+1
    
for word in excludes:
    del counts[word]

返回遍历得分所有键与值并排序

items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)

将统计数据写入txt文本

file = open('data.txt', mode='w')

for i in range(10963):
    word, count = items[i]
    print("{0:<10}{1:>5}".format(word,count))
    
    new_context = word + "   " + str(count) + '\n'
    file.write(new_context)

file.close()

正则匹配结果

result = open('正则.txt', mode='w')
#存正则匹配的数组
things = []

#正则匹配：人物说的内容
for i in re.finditer("[说｜道]：“(.+)\？”", txt):
    message = i.group(1)
    things.append(message)

#计数和展示
c = Counter(things)
for k, v in c.most_common(51):
    print(k, v)
    context = k + "   " + str(v) + '\n'
    result.write(context)

result.close()

输出 data.txt是词频统计的文本数据，正则是匹配人物说的话并且是问句，结果写入正则.txt

验证Zipf-Law

image.png

源码地址：https://github.com/JackHCC/Word-Counting

你可能感兴趣的:(利用jieba库对中文小说进行词频统计并进行简单的正则匹配)

无为而治 guojuqi
不尚贤①，使民不争。不贵难得之货，使民不为盗；不见可欲，使民心不乱。是以圣人之治，虚其心，实其腹，弱其志，强其骨。常使民无知无欲，使夫智者不敢为也。为无为，则无不治。【注释】①尚：推崇。【译文】不推崇贤能之才，使人民不争名夺位；不以奇珍异宝为贵重之物，使人民不做偷盗的坏事；不炫耀可贪的事物，使人民不产生邪恶、动乱的念头。因此，有道的人治理天下的方法，是要净化人民的心灵，满足人民的温饱，减损人民争名
图片压缩脚本 ytempest 其他 github java jar
写在前面这是一个图片压缩脚本，Github地址：https://github.com/ytempest/TinyImg触发机制：开发过程中美工给到的UI图片太大，产品又在意应用包体大小，这个时候就是脚本策马奔腾的时候了TinyPNG简介TinyPNG是一个在线压缩PNG或JPEG格式图片的工具，同时压缩质量比较好。TinyPNG官网地址：https://tinypng.com/附上一张官网的截图：
PostgreSQL数据库集群如何进行自动化性能监测？ TechVision大咖圈数据库 postgresql 自动化性能监测
前言：在这个数据爆炸的时代，PostgreSQL数据库集群就像是我们的"数据宝库"。但是，再好的宝库也需要有专业的"保安"来守护。今天我们就来聊聊如何给PostgreSQL集群配备一套智能的"保安系统"——自动化性能监测。文章目录一、为什么需要自动化监测？二、核心监测指标解析三、监测工具选型指南四、监测架构设计五、实施方案详解六、告警策略配置七、最佳实践总结八、常见问题解答一、为什么需要自动化监测
《度五行》生活报报庚子128：达到我好、你好、大家好的共同美好容易落实 YangduSam2021
221014壬寅庚戌庚子，20221014，周五，兴大上海六班2578天，西交大2013上海班3278天，后TA15398天，度生活688天，《度.生活五行》:天干金生水，庚庚反吟。地支寅戌合。静心花了大约30分钟确认了同事送出来的设计图纸，因为厂区客户变更的原因，有些计划明年第一季度才需要完成的进度在这个月需要局部执行落实，以便其他相关计划可以配合进行。不过这次变更有个小插曲，负责的同事在一大早
企业级AI搜索引擎从零到一开发实战：全链路技术解析与代码实现
简介从零开始构建一个企业级AI搜索引擎，是掌握现代搜索技术栈的重要实践。本文将深入剖析基于大语言模型、知识图谱和分布式架构的智能搜索引擎开发全流程，从数据抓取、索引构建到查询处理模块，提供完整的代码实现和架构设计。通过整合多平台数据并应用优化策略，构建一个具备高并发处理能力、精准语义理解及高效搜索排序的智能搜索引擎系统。一、架构设计：智能搜索引擎的核心组件智能搜索引擎架构由三个核心模块组成：数据抓
6月13日记录书石页
心与心的距离，我就是自作自受，违心的做出选择。真的成了陌生的自己。不知道自己在做什么，放弃一切，保持距离，坚持3个月再说。下一步学写
Springboot 实现热部署小白的代码日记 spring boot java 数据库
spring为开发者提供了一个名为spring-boot-devtools的模块来使SpringBoot应用支持热部署，提高开发者的开发效率，无需手动重启SpringBoot应用。引入依赖org.springframework.bootspring-boot-devtoolstrue修改java代码或者配置文件模板后可以通过ctrl+f9来实施热部署。启动项目：Ctrl+f9实施热部署修改项目内容
2018-08-27 helen海音
海英觉察日记:一事件:参加成人礼和另外一个家长住在一起，但是那个家长到了半夜还没回来。自己给她打电话也不接，只好敞着门缝睡觉了。早上醒来一看她根本就没有回来，也没有回任何信息。也有点后怕。二感受:生气平静三想法:还是学习传统文化的人素质太低。如果不回来住怎么也要告诉我一声，不然我一直等着她，睡不着怎么办。还有幸亏是在安全的地点，不然这样敞着门会有有危险。转化:自己也没有一直等着她啊，到半夜还是睡觉
高仿服装产地，给大家介绍下比较靠谱渠道天坛众
中国是全球最大的高仿服装生产和出口国，拥有众多知名的服装生产基地。以下是一些主要的服装产地：拿货微信:377267298(手表、鞋子包包服装首饰皮带等)1.广东省：广州、深圳、虎门等地是中国时尚前沿的基地，拥有强大的制造业基础和丰富的设计资源。广州白马服装批发城、广州十三行服装批发市场等都是国内知名的服装批发市场。2.浙江省：杭州、宁波、温州等地依托传统的制造基地，形成了不同风格款式的服饰，尤其是
Android Fragment 嵌套使用 Lrxc
1setUserVisibleHint只有fragment与viewpager配合使用，才会调用3onHiddenChanged的回调时机当使用add()+show()，hide()跳转新的Fragment时，旧的Fragment回调onHiddenChanged()，不会回调onStop()等生命周期方法，而新的Fragment在创建时是不会回调onHiddenChanged()，这点要切记。
模式识别与机器学习课程笔记（1）：数学基础 Ro Jace 学习笔记机器学习笔记人工智能
模式识别与机器学习课程笔记（1）：数学基础特征矢量和特征空间随机矢量的描述随机矢量的分布函数随机矢量的数字特征随机变量、随机矢量间的统计关系随机矢量的变换正态分布正态分布的定义正态分布随机矢量的性质离散随机矢量及其分布信息论矩阵微分法基本知识矢量或矩阵对于数量变量的微分二、数量函数对于矢量的微分三、矢量函数对于矢量的微分特征矢量和特征空间特征量的类型：物理量、次序量、名义量物理量：直接反映特征的实
教育随感佳记录
夜幕笼罩下的学校很美，站在五楼远眺更多的是璀璨的灯光。这几天颇为疲累，感觉就像傍晚时分笼罩的那层灰砂，无力且肆意。究其原因还是那几个让人费心的小伙子。之前的种种不是我当下评判的标准，但是却是导致他们现状不可或缺的因素。坚持一份底线和原则，我平静地接受问题的无常，耐着性子去解决问题，在一次又一次的重复中探寻解决之道，虽然不尽如人意，甚至还滋生是非，但是总归是要过去的，就像他们终究是要长大的。在反复纠
拼多多购物攻略：返利APP助你轻松省下一半氧惠好项目
《拼多多返利app全揭秘：购物新风尚，省钱新选择》在消费升级的浪潮中，拼多多返利app如同一股清新的风，吹散了传统购物的沉闷。它不仅仅是一个购物平台，更是消费者追求性价比、享受购物乐趣的得力助手。通过整合海量商品与商家资源，拼多多返利app为消费者提供了丰富的选择空间。更重要的是，其独特的返利机制，让用户在享受购物乐趣的同时，还能获得实实在在的现金返还，真正实现了购物与省钱的双赢。无论您是初来乍到
iOS赚钱软件排行榜前十名，iOS赚钱软件推荐高省张导师
对于iOS赚钱软件排行榜前十名，由于具体排名可能会随时间和市场变化而变动，且不同用户对软件的评价和喜好也存在差异，因此很难给出一个绝对准确的排名。不过，我可以根据当前市场上较受欢迎的几款iOS赚钱软件进行推荐，这些软件在多个方面都有不错的表现。1、社交导购电商社交导购电商是当下最值得年轻人去尝试创业的一种零成本创业模式，也是最早淘宝客的优化版，无货源无售后操作模式，很多小伙伴不知道怎么做，这里我给
（桑晚、白思榆）&《公司裁员，我开始不断泡男人》授权正版小说推荐阅读！嘎嘎精彩~ 今日推文
（桑晚、白思榆）&《公司裁员，我开始不断泡男人》授权正版小说推荐阅读！嘎嘎精彩~（桑晚、白思榆）&《公司裁员，我开始不断泡男人》授权正版小说推荐阅读！嘎嘎精彩~完整版在文章底部——完整版在文章底部——我很冷淡：“没事就挂了吧，我还忙着呢。”“别挂。”桑晚的气息变得急促，“你的行李还在我这里，见一面好吗，思榆，就见一面......”“打包好了给我寄过来呗，你现在穷到连这点快递费都出不起了吗？”“我出
2019年告诉我一个道理遇见小五
时间匆匆如流水，之前每天一写坚持了一个多月，最终因为个人原因问题，就导致不再写下去。这样告诉我们一个道理，养成一个习惯很难，而偷懒却很简单。我们要做难的事情，人生在世，唯有挑战了，努力了，成功的滋味才会格外的甜。偷懒的时间很多，可是奋斗的时间不多，看着别人能不工作就能去旅游，而你却为了一点工资而整日加班，你不焦虑吗？看到一句话:让自已先痛苦再幸福。眼前的舒服只会让以后的你更痛苦，趁着年轻多奋斗，让
黔西南在哪里可以做亲子鉴定多少钱啊(附2024年最新亲子鉴定办理流程) 成之嘉_基因检测
2024年黔西南最新亲子鉴定收费标准：个人隐私亲子鉴定收费标准：￥2000-￥2400，常见用途：怀疑孩子的父亲身份，想私下偷偷检测；无创胎儿亲子鉴定收费标准：￥4500-￥5000，常见用途：孩子未出世，怀疑胎儿的父亲身份，想思想偷偷检测；司法亲子鉴定收费标准：￥2400-￥3600，常见用途：上户口、移民；成之嘉亲子鉴定优势1、全程匿名2、快速出结果3、检测更精准口号：每一次检测都是一份责任孕
【灵动碎片战记】第八章：与浅夏的谈话 Mint思
六人敲了敲门，迎面来的竟然是一个老态龙钟的老奶奶。老奶奶抬头看了看，断断续续的说：“你，你们，是谁啊，找，谁啊，有，事，吗？”颖饼：“奶奶，这里是浅夏的家吗？我们是她的朋友，找她有事。”奶奶：“额……你们是她朋友呀，她现在不在家，你们改日再来吧。”说完，奶奶就要关住门，就在这时，迎面走来了一个小姑娘。她战战兢兢的说到：“奶奶，是谁呀。”奶奶：“呼，有人来找你，”霎时间，浅夏心中咯噔了一下。云雀：你
RocketMQ源码级实现原理-NameServer路由机制每天的每一天 java-rocketmq rocketmq java
面试题从年末生产故障解锁RocketMQ集群部署的最佳实践-求其在我-博客园操作系统tcp链接established但是没超时的问题_mob6454cc769a22的技术博客_51CTO博客net.ipv4.tcp_retries2作用介绍-郭流水-博客园TCP保活机制的根本意义，就是要让本端能够，及时感知对端的服务进程是不是挂了，或者对端服务器本身宕机了，方便本端针对此情况做出后续的处理比如上面
儿子婚礼上，准儿媳将我打残装进麻袋送给儿子后(夫人顾景琛)免费完整版小说_完结版小说全文免费阅读儿子婚礼上，准儿媳将我打残装进麻袋送给儿子后(夫人顾景琛) 小文文斋
《儿子婚礼上，准儿媳将我打残装进麻袋送给儿子后》主角：夫人顾景琛简介：儿子年幼贪玩，在家玩闹时不小心引发了火灾。我用被单绑着儿子将他从阳台吊到了楼下。而我则在大火吞噬前，选择了从三楼跳下。人没死，但摔断了一条腿。儿子含泪跪在我病床前，发誓以后不会再让我受到半分伤害。老公喝多了喊了我一句死瘸子。就被儿子一酒瓶砸破了头。“我不允许任何人侮辱我妈，即便你是我爸。”老公吓得丢下离婚协议，连夜离家出走。儿子
ADC（Analog-to-Digital Converter，模数转换器）是什么？ Yashar Qian 嵌入式 ADC mcu 嵌入式硬件
ADC（Analog-to-DigitalConverter，模数转换器）是什么？ADC（Analog-to-DigitalConverter，模数转换器）是电子系统中一种至关重要的硬件电路或集成模块，它的核心功能是将连续的模拟信号（如电压、电流、温度、压力、声音等物理量转换成的电信号）转换为离散的数字信号（由0和1组成的二进制代码），以便数字系统（如微控制器MCU、处理器CPU、FPGA等）能够
无删减-《你且去寻她》江宥齐路蓁蓁已完结小说推荐_抖音热文好看小说（江宥齐路蓁蓁）完本小说大全_完本小说每日文馆
小说：《你且去寻她》主角：江宥齐路蓁蓁简介：“你好，我要离婚！”结婚第三年，路蓁蓁决定离婚了，“你好，我要离婚！”结婚第三年，路蓁蓁决定离婚了，不过，是瞒着她的丈夫。对面的律师听完她的来意，公式化的开口，“如果您要离婚，需要夫妻双方签署离婚协议，然后为期一个月的离婚冷静期结束就行，您丈夫今天没来吗？”路蓁蓁沉默了几秒，“我会让他签字的。”“那好，我先起草一份离婚协议给您。”静候片刻后，路蓁蓁拿到了
全是托！社科院正式学堂朱民ST-balance数字投票助力被骗真实案例分享!股友亲身经历！别再上当了！大盛律道
社科院正式学堂朱民St-balance平台可信吗？亏损是老师故意的！被骗蒙在鼓里！！随着这几年经济的发展，股市也经历了一定的成长，股民越来越多。由于人性的贪婪，市场监管的缺陷，互联网平台监管不力，众多网络骗子便把目光顶到了股民，尤其是处于亏损状态，迫切渴望摆脱被套牢的命运。于是用非市民聊天软件商小信，泡泡MosTalk，土豆，WorkPro，MosTalk，Smallchat，MosGram建群免
老鼠为何列十二生之首？这种说法我还是第一次听说延平延微
生肖纪年，是中国传统文化之一。而且这生肖也成了人的属性，你哪年出生的你就属什么。十二生肖，子鼠丑牛寅虎卯兔辰龙巳蛇午马未羊申猴酉鸡戌狗亥猪。有的人对这个顺序就觉得很奇怪，你看这十二生肖里边谁是老大？子鼠是老大。可是你这12种动物里，你鼠的体型是最小的。12种动物里它可能是最弱的。那为什么鼠是老大？这个就有民间的各种传说了，听过的说法有好几种，但下面这种说法，我也是第一次听说。中国古代三祖是炎帝、黄
我的姊妹团（二）品读流年
（二）发小四姐妹论起认识时间，发小四姐妹远远在闺蜜四人团的前面，只是闺蜜团中的那几个人每一个人的经历都足够写一篇小说的，昨晚就先写她们了。但是在我心目中的分量，这几位一起长大的姐妹一点不亚于那几位风雨中相互扶持的闺蜜。按照年龄，红是大姐长我两岁，那两个比我小一岁，论月份平最小，大姐红，三妹千，小妹平，我就是二姐了。我们一起有三十年了，感情不亚于亲姐妹，除了我在县城上班，她们三个都在那个两边小镇，因
2019-03-21 Fien88
我为什么会选择JOEJOE?记得第一次购买JOEJOE鱼子水润面膜是今年2月份，因为当时去了泰国一段时间皮肤又黄又缺少水用了很多护肤品涂涂抹抹，效果都不怎么明显，后来经同行介绍JOEJOE鱼子精华水润面膜，当时也就是抱着试试的态度买了一箱，回到家就百度小红书各种查，当时的念头是想买SK2这个牌子的前男友面膜，火嘛！追的人也多嘛！无意间在小红书看到很多人在推JOEJOE鱼子精华水润面膜，虽然有各种代
日念一好（310）2022-10-27 思辰1218
1、感恩朋友推心置腹与我聊工作前景和规划，我也是站在她的角度表达见识，感恩这份信任。2、感恩看过我的朋友，一直在默默关心我受伤的手，一份问候，带来暖暖关怀，在文字的世界里交友，不曾谋面，却心意相通，如此甚好！
乐买买抖音优惠券平台是真的吗(小程序开发分析) 好项目高省
乐买买项目，可以用一句话说清楚。在抖音购物，复制购物链接，在乐买买小程序上跳转，自己买也能获得回报。分享别人用乐买买在抖音购物，也有佣金。至于我为何转到高省呢？高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777775，注册送2皇冠会员，送
2023-08-16解读《莲花楼》女性角色，乔婉娩遇人不淑，角丽谯自作自受娱娱鱼
古装武侠悬疑剧《莲花楼》，戏份最多六位女性角色，乔婉娩遇人不淑，角丽谯自作自受。1.陈都灵饰演的乔婉娩。很多人以为做李相夷的恋人会很幸福，其实是一件十分痛苦的事。首先作为女朋友的乔婉娩，要拼命练习武功，要善于处理人际关系，这样才配得上李相夷。其次要守得住寂寞和耐得住孤单，毕竟年轻气盛的李相夷，把江湖的事情看的比爱情要重。比如乔婉娩刚要跟李相夷说几句悄悄话，李相夷突然想到有江湖事没处理，他抬腿就走人
汗是咸的吗？南九条7号
汗，是咸的吗？当然，但它终会是甜的。凌晨五点半的健身房里居然有人在锻炼，我以为只有我是早班，进来后发现两个大爷赤裸上身正在锻炼。那分明的肌肉线条丝毫让你忘记他们脸上岁月的痕迹。随着时间的推移，渐渐的健身房里人多了起来，完全没有我想象的早起健身房的冷清场面。今天是周五，是工作日，没想到大家的热情如此之高。比我年长的人都那么努力，你还有什么理由“怂”下去？这两天训练的强度有些大，当我站上跑步机的时候感
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

利用jieba库对中文小说进行词频统计并进行简单的正则匹配

中文小说词频统计及正则匹配

首先导入中文分词库jieba，Counter库和re库

导入打开要处理的文本傲慢与偏见中文版小说并利用jieba分词

去除的标点符号,只统计词频

遍历计数并去除标点

返回遍历得分所有键与值并排序

将统计数据写入txt文本

正则匹配结果

输出 data.txt是词频统计的文本数据，正则是匹配人物说的话并且是问句，结果写入 正则.txt

验证Zipf-Law

你可能感兴趣的:(利用jieba库对中文小说进行词频统计并进行简单的正则匹配)

输出 data.txt是词频统计的文本数据，正则是匹配人物说的话并且是问句，结果写入正则.txt