牛油菠蘿包

jieba中文分词

序言

jieba是目前最好的Python中文分词组件，它主要有以下3种特性：

支持3种分词模式：精确模式、全模式、搜索引擎模式
支持繁体字
支持自定义词典

# 导入 jieba
import jieba		
import jieba.posseg as pseg			# 词性标注
import jieba.analyse as anls		# 关键词提取

分词

可使用jieba.cut和jieba.cut_for_search方法进行分词，两者所返回的结果都是一个可迭代的generator，可使用for循环来获得分词后得到的每一个词语(unicode)，或者直接使用jieba.lcut以及jieba.lcut_for_search直接返回list。其中：

jieba.cut和jieba.lcut接受3个参数：
- 需要分词的字符串（unicode或UTF-8字符串、GBK字符串）
- cut_all参数：是否使用全模式，默认值为False
- HMM参数：用来控制是否使用HMM模型，默认值为True
jieba.cut_for_search和jieba.lcut_for_search接受2个参数：
- 需要分词的字符串（unicode或UTF-8字符串、GBK字符串）
- HMM参数：用来控制是否使用HMM模型，默认值为True

尽量不要使用GBK字符串，可能无法预料的错误解码成UTF-8

全模式

seg_list = jieba.cut("他来到上海交通大学",cut_all = True)
print("【全模式】：" + "/".join(seg_list))

【全模式】：他/来到/上海/上海交通大学/交通/大学

精确模式

seg_list = jieba.cut("他来到上海交通大学",cut_all = False) 
# cut_all默认值为False，所以不提供该参数与设置为False效果一样，都是使用精确模式
print(type(seg_list))

print("【精确模式】：" + "/".join(seg_list))

【精确模式】：他/来到/上海交通大学

 # 返回列表
seg_list = jieba.lcut("他来到上海交通大学",cut_all = True)
print(type(seg_list))

print("【返回列表】：{0}".format(seg_list))

【返回列表】：[‘他’, ‘来到’, ‘上海’, ‘上海交通大学’, ‘交通’, ‘大学’]

搜索引擎模式

seg_list = jieba.cut_for_search("他毕业于上海交通大学机电系，后来在一机部上海电器科学研究所工作")
print(type(seg_list))

print("【搜索引擎模式】：" + "/".join(seg_list))

【搜索引擎模式】：他/毕业/于/上海/交通/大学/上海交通大学/机电/系/，/后来/在/一机部/上海/电器/科学/研究/研究所/工作

 # 返回列表
seg_list = jieba.lcut_for_search("他毕业于上海交通大学机电系，后来在一机部上海电器科学研究所工作")
print(type(seg_list))

print("【返回列表】：{0}".format(seg_list))

【返回列表】：[‘他’, ‘毕业’, ‘于’, ‘上海’, ‘交通’, ‘大学’, ‘上海交通大学’, ‘机电’, ‘系’, ‘，’, ‘后来’, ‘在’, ‘一机部’, ‘上海’, ‘电器’, ‘科学’, ‘研究’, ‘研究所’, ‘工作’]

HMM模型

HMM模型，即隐马尔可夫模型（Hidden Markov Model，HMM），是一种基于概率的统计分析模型，用来描述一个系统隐性状态的转移和隐性状态的表现概率。在jieba中，对于未登录到词库的词，使用了基于汉字成词能力的HMM模型和Viterbi算法，其大致原理是：

采用四个隐含状态，分别表示为单字成词，词组的开头，词组的中间，词组的结尾。通过标注号的分词练集，可以得到HMM的各个参数，然后使用Viterbi算法来解释测试集，得到分词结果。

seg_list = jieba.cut("他来到了网易杭研大厦",HMM = False) #默认精确模式和关闭HMM
print("【未启用HMM】：" + "/".join(seg_list))

【未启用HMM】：他/来到/了/网易/杭/研/大厦

seg_list = jieba.cut("他来到了网易杭研大厦",HMM = True) #默认精确模式和启用HMM
print("【启用HMM】：" + "/".join(seg_list))

【启用HMM】：他/来到/了/网易/杭研/大厦

繁体字分词

jieba还支持对繁体字进行分词

ft_text = """人生易老天難老 歲歲重陽 今又重陽 戰地黃花分外香 壹年壹度秋風勁 不似春光 勝似春光 寥廓江天萬裏霜 """

# 全模式
print("【全模式】：" + "/".join(jieba.cut(ft_text,cut_all=True)))

【全模式】：人生/易/老天/難/老// //歲/歲/重/陽// //今/又/重/陽// //戰/地/黃/花/分外/香// //壹年/壹/度/秋/風/勁// //不似/春光// //勝/似/春光// //寥廓/江天/萬/裏/霜// /

# 精确模式
print("【精确模式】：" + "/".join(jieba.cut(ft_text,cut_all=False)))

【精确模式】：人生/易/老天/難老/ /歲/歲/重陽/ /今/又/重陽/ /戰地/黃/花/分外/香/ /壹年/壹度/秋風勁/ /不/似/春光/ /勝似/春光/ /寥廓/江天/萬/裏/霜/

# 搜索引擎模式
print("【搜索引擎模式】：" + "/".join(jieba.cut_for_search(ft_text)))

【搜索引擎模式】：人生/易/老天/難老/ /歲/歲/重陽/ /今/又/重陽/ /戰地/黃/花/分外/香/ /壹年/壹度/秋風勁/ /不/似/春光/ /勝似/春光/ /寥廓/江天/萬/裏/霜/

添加自定义词典

开发者可以指定自定义词典，以便包含jieba词库里没有的词，词典格式如下：

词语词频(可省略) 词性(可省略)

虽然jieba有新词识别能力，但自行添加新词可以保证更高的正确率

载入词典

使用jieba.load_userdict(file_name)即可载入词典；filename为文件类对象或自定义词典的路径。

sample_text = "周大福是创新办主任也是云计算方面的专家"

# 未加载词典
print("【未加载词典：】" + '/'.join(jieba.cut(sample_text)))

【未加载词典：】周大福/是/创新/办/主任/也/是/云/计算/方面/的/专家

# 载入词典
jieba.load_userdict("userdict.txt")
# 加载词典后
print("【加载词典后】：" + '/'.join(jieba.cut(sample_text)))

【加载词典后】：周大福/ 是/ 创新办/ 主任/ 也/ 是/ 云计算/ 方面/ 的/ 专家

调整词典

使用add_word(word,freq=None,tag=None)和del_word(word)在程序中动态修改词典。

jieba.add_word('石墨烯') #增加自定义词语
jieba.add_word('凯特琳',freq=42,tag='nz') #设置词频和词性
jieba.del_word('自定义词')  #删除自定义词语

使用suggest_freq(segment,tune=True)可调节单个词语的词频，使其能（或不能）被分出来。

 # 调节词频前
print("【调节词频前】：" + '/'.join(jieba.cut('如果放到post中将出错。',HMM=False)))

【调节词频前】：如果/放到/post/中将/出错/。

# 调节词频
jieba.suggest_freq(('中','将'),True)

494

# 调节词频后
print("【调节词频后】：" + '/'.join(jieba.cut('如果放到post中将出错。',HMM=False)))

【调节词频后】：如果/放到/post/中/将/出错/。

关键词提取

jieba提供了两种关键词提取方法，分别基于 TF-IDF 算法和 TextRank 算法。

基于 TF-IDF 算法的关键词提取

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率)是一种统计方法，用以评估一个词语对于一个文件集或一个语料库中的一份文件的重要程度，其原理可概括为：

一个词语在一篇文章中出现次数越多，同时在所有文档中出现次数越少，越能够代表该文章

计算公式：
$T F - I D F = T F * I D F$

其中：

TF(term frequency, TF)：词频，某一个给定的词语在该文件中出现的次数，计算公式：

$TF_w = \frac{在某一类中词条w出现的次数}{该类中所有的词条数目}$

IDF(inverse document frequency, IDF)：逆文件频率，如果包含词条的文件越少，则说明词条具有很好的类别区分能力，计算公式：

$log(\frac{语料库的文档总数}{包含词条w的文档数+1})$

通过jieba.analyse.extract_tags方法可以基于 TF-IDF 算法进行关键词提取，该方法共有4个参数：

sentence：为待提取的文本
topK：为返回几个 TF/IDF 权重最大的关键词，默认值为20
withWeight：是否一并返回关键词权重值，默认值为False
allowPOS：仅包括指定词性的词，默认值为空

s = "此外，公司拟对全资子公司吉林欧亚置业有限公司增资4.3亿元，增资后，吉林欧亚置业注册资本由7000万元增加到5亿元。吉林欧亚置业主要经营范围为房地产开发及百货零售等业务。目前在建吉林欧亚城市商业综合体项目。2013年，实现营业收入0万元，实现净利润-139.13万元。"

for x, w in anls.extract_tags(s, topK=20, withWeight=True):
    print('%s %s' % (x, w))

欧亚 0.7300142700289363
吉林 0.659038184373617
置业 0.4887134522112766
万元 0.3392722481859574
增资 0.33582401985234045
4.3 0.25435675538085106
7000 0.25435675538085106
2013 0.25435675538085106
139.13 0.25435675538085106
实现 0.19900979900382978
综合体 0.19480309624702127
经营范围 0.19389757253595744
亿元 0.1914421623587234
在建 0.17541884768425534
全资 0.17180164988510638
注册资本 0.1712441526
百货 0.16734460041382979
零售 0.1475057117057447
子公司 0.14596045237787234
营业 0.13920178509021275

使用jieba.analyse.TFIDF(idf_path=None)可以新建TFIDF实例，其中idf_path为IDF频率文件。

基于 TextRank算法的关键词提取

TextRank是另一种关键词提取算法，基于大名鼎鼎的PageRank，其原理可参见论文——http://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

通过jieba.analyse.testrank方法可以使用基于 TextRank 算法的关键词提取，其与jieba.analyse.extract_tags有一样的参数，但前者默认过滤词性(allowPOS=('ns','n','vn','v'))。

for x, w in anls.textrank(s, withWeight=True):
    print('%s %s' % (x, w))

吉林 1.0
欧亚 0.9966893354178172
置业 0.6434360313092776
实现 0.5898606692859626
收入 0.43677859947991454
增资 0.4099900531283276
子公司 0.35678295947672795
城市 0.34971383667403655
商业 0.34817220716026936
业务 0.3092230992619838
在建 0.3077929164033088
营业 0.3035777049319588
全资 0.303540981053475
综合体 0.29580869172394825
注册资本 0.29000519464085045
有限公司 0.2807830798576574
零售 0.27883620861218145
百货 0.2781657628445476
开发 0.2693488779295851
经营范围 0.2642762173558316

使用jieba.analyse.TextRank()可以新建自定义 TextRank 实例。

自定义语料库

关键词提取所使用逆向文件频率（IDF）文本语料库和停止词（Stop Words）文本语料库可以切换成自定义语料库的路径。

jieba.analyse.set_stop_words("stop_words.txt")
jieba.analyse.set_idf_path("idf.txt.big")

for x, w in anls.extract_tags(s, topK=20, withWeight=True):
    print('%s %s' % (x, w))

吉林 1.0174270215234043
欧亚 0.7300142700289363
增资 0.5087135107617021
实现 0.5087135107617021
置业 0.4887134522112766
万元 0.3392722481859574
此外 0.25435675538085106
全资 0.25435675538085106
有限公司 0.25435675538085106
4.3 0.25435675538085106
注册资本 0.25435675538085106
7000 0.25435675538085106
增加 0.25435675538085106
主要 0.25435675538085106
房地产 0.25435675538085106
业务 0.25435675538085106
目前 0.25435675538085106
城市 0.25435675538085106
综合体 0.25435675538085106
2013 0.25435675538085106

词性标注

jieba.posseg.POSTokenizer(tokenizer=None)新建自定义分词器，tokenizer参数可指定内部使用的jieba.Tokenizer分词器。jieba.posseg.dt为默认词性标注分词器。

标注句子分词后的每个词的词性，采用和ictcals兼容的标记法。

words = pseg.cut("他改变了中国")
for word, flag in words:
    print("{0} {1}".format(word, flag))

他 r
改变 v
了 ul
中国 ns

并行分词

将目标文本按行分隔后，把各行文本分配到多个Python进程并行分词，然后归并结果，从而获得分词速度的客观提升。用法：

jieba.enable_parallel(4)：开启并行分词模式，参数为并行进程数
jieba.disable_parallel()：关闭并行分词模式

注意：基于 python 自带的 multiprocessing 模块，目前暂不支持 Windows

返回词语在原文的起止位置

使用jieba.tokenize方法可以返回词语在原文的起止位置。

注意：输入参数只接受unicode

result = jieba.tokenize(u'上海益民食品一厂有限公司')
print("【普通模式】")
for tk in result:
    print("word：{0} \t start：{1} \t end：{2}".format(tk[0],tk[1],tk[2]))

【普通模式】

word：上海 start：0 end：2
word：益民 start：2 end：4
word：食品 start：4 end：6
word：一厂 start：6 end：8
word：有限公司 start：8 end：12

result = jieba.tokenize(u'上海益民食品一厂有限公司',mode="search")
print("【搜索模式】")
for tk in result:
    print("word：{0} \t start：{1} \t end：{2}".format(tk[0],tk[1],tk[2]))

【搜索模式】

word：上海 start：0 end：2
word：益民 start：2 end：4
word：食品 start：4 end：6
word：一厂 start：6 end：8
word：有限 start：8 end：10
word：公司 start：10 end：12
word：有限公司 start：8 end：12

实例

1.1对哈姆雷特文本进行词频统计

def getText():
    txt = open(r"hamlet.txt",'r').read()
    txt = txt.lower()
    for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_{|}·~’‘':         #将特殊符号均替换为空格
        txt = txt.replace(ch," ")
    return txt

hamletTxt = getText()
words = hamletTxt.split()
counts = {}
for word in words:
    counts[word] = counts.get(word,0) + 1

items = list(counts.items())
items.sort(key = lambda x:x[1], reverse=True)   #按value值排序
for i in range(10):                             #输出前十多的词频
    word, count = items[i]
    print("{0:<10}{1:>5}".format(word, count))

the 1138
and 965
to 754
of 669
you 550
i 542
a 542
my 514
hamlet 462
in 436

1.2《三国演义》人物出场统计

# V1版本
from os import read
import jieba
txt = open(r"threekingdoms.txt","r",encoding="utf-8").read()
words = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
    word, count = items[i]
    print("{0:<10}{1:>5}".format(word,count))

曹操 953
孔明 836
将军 772
却说 656
玄德 585
关公 510
丞相 491
二人 469
不可 440
荆州 425
玄德曰 390
孔明曰 390
不能 384
如此 378
张飞 358

可以看出以上的结果中存在着很多不是人名的词频，这需要我们对代码做一些改进。改进版如下：

# V2版
from os import terminal_size
import jieba
excludes = {"将军","却说","荆州","二人","不可","不能","如此","商议","军士","左右","军马","次日","引兵","如何","大喜","天下","东吴"}

txt = open(r"threekingdoms.txt",'r',encoding='utf-8').read()
words = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    elif word == "诸葛亮" or word == "孔明曰":
        rword = "孔明"
    elif word == "关公" or word == "云长":
        rword = "关羽"
    elif word == "玄德" or word == "玄德曰":
        rword == "刘备"
    elif word == "孟德" or word == "丞相" or word == "主公":
        rword = "曹操"
    else:
        rword = word
    
    counts[rword] = counts.get(rword,0) + 1

for word in excludes:
    del counts[word]
    
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(10):
    word, count = items[i]
    print("{0:<10}{1:>5}".format(word,count))

曹操 1795
孔明 1384
关羽 788
张飞 361
吕布 303
赵云 280
刘备 277
孙权 265
于是 252
今日 244

1.3 利用extract_tags算法对《三国演义》中的关键词进行提取

from os import read
import jieba
import jieba.analyse as anls
txt = open(r"threekingdoms.txt","r",encoding="utf-8").read()
for x, w in anls.extract_tags(txt, topK=20, withWeight=True):
    print('%s %s' % (x, w))

孔明 0.03758532276566071
曹操 0.03691595997415334
玄德 0.026956068237259715
将军 0.02673692163610917
关公 0.025206101530884824
却说 0.02446332750666053
丞相 0.020777068164177157
玄德曰 0.01954516271712038
孔明曰 0.01954516271712038
引兵 0.01898980058244164
云长 0.018232960704155924
荆州 0.018136019538121863
张飞 0.017755511674800408
二人 0.017061952960250298
主公 0.016121368683811123
吕布 0.01529292186862885
赵云 0.014223904044216125
不可 0.013875565783051705
军士 0.013751985052577697
商议 0.013351444143675124

1.4 利用textrank算法对《三国演义》中的关键词进行提取

from os import read
import jieba
import jieba.analyse as anls
txt = open(r"threekingdoms.txt","r",encoding="utf-8").read()
for x, w in anls.textrank(txt, withWeight=True):
    print('%s %s' % (x, w))

将军 1.0
却说 0.847581019581622
丞相 0.5718053633959947
荆州 0.5303375153661818
不能 0.5290785118607801
不可 0.5001642467979682
军士 0.45454238780777795
军马 0.36953009002402293
主公 0.3676381961018778
引兵 0.34890535163745795
商议 0.3238605331150697
东吴 0.3033786183888577
只见 0.3024237420127731
后主 0.2830994654967138
陛下 0.2823911867603753
人马 0.279927492918901
汉中 0.26341749501986467
都督 0.25452786463113664
大喜 0.251798437942011
众将 0.25156001701107994

你可能感兴趣的:(Python项目,python)

Python 中的 Iterable、Iterator 与生成器 CavenWang python python 开发语言
Python中的Iterable、Iterator与生成器Iterable（可迭代对象）Iterator（迭代器）生成器（Generator）Iterable、Iterator与生成器的关系实际应用生成器的高级用法（send()）总结在Python中，Iterable、Iterator和生成器是三个密切相关的概念，它们都与迭代操作有关，但各自扮演不同的角色。本文将深入探讨它们的定义、区别以及实际应
Python Lambda 函数详解 2201_75491841 python 开发语言 lambda函数
一、引言在Python编程中，我们经常会遇到一些简单的函数，这些函数可能只在某个特定的地方使用一次，而且逻辑非常简单。如果为了这些简单的功能定义一个常规的函数，不仅会增加代码的冗余，还会使代码结构变得不够简洁。这时，lambda函数就派上用场了。lambda函数也被称为匿名函数，它为我们提供了一种简洁的方式来定义小型的、一次性使用的函数。在本文中，我们将深入探讨Python中的lambda函数，包
小白学AI量化：DeepSeek+Python构建强大的金融数据挖掘与多维分析机器人老余捞鱼 AI顾投高级策略 AI探讨与学习人工智能 python 金融 deepseek
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：在机构主导的量化交易时代，普通投资者如何用一杯奶茶的钱（15元/天）打造专业级智能量化产品？本文将为您揭秘一个革命性的解决方案——基于国产大模型DeepSeek和Python构建的智能数据挖掘分析机器人。它不仅适用于通用网页数据抓取，更能深度应用于金融领域，精准捕捉市场信号。本文“干货”很多，请务必耐心读完。一、颠覆认知的性价比革命1.
python processpoolexecutor_Python多进程解决方案multiprocessing ProcessPoolExecutor weixin_39599046 python
大多数编程语言都会有多线程和多进程的概念，至于线程和进程的概念，大家可以百度一下。作为一门胶水语言，Python毫不意外，也可以利用多线程和多进程处理并发问题，但是多线程由于GIL的存在，起作用范围大打折扣，仅限于在IO等场景可以发挥点作用。所以，今天要跟大家分享的是Python多进程方案，更好地利用系统多核，从而提升性能。基础方案一：利用Process新建一个子进程，在子进程执行任务。我们写一个
python processpoolexecutor_Python线程和进程池并行编程三千香蕉三千 python
Python3.2版本之后发布了concurrent.futures模块，用以支持和管理并发编程，内容涵盖了进程和线程池(ThreadandProcessPooling)、非确定性执行流(NondeterministicExecutionFlows)以及进程和线程同步。本文通过将带有可选参数的任务提交(Submit)给执行器(Executor)来实例化futures对象。执行器是线程或者进程执行池
python 底层原理processpoolexecutor_Python 并发编程：PoolExecutor 篇风投小虾 python
个人笔记，如有疏漏，还请指正。使用多线程(threading)和多进程(multiprocessing)完成常规的并发需求，在启动的时候start、join等步骤不能省，复杂的需要还要用1-2个队列。随着需求越来越复杂，如果没有良好的设计和抽象这部分的功能层次，代码量越多调试的难度就越大。对于需要并发执行、但是对实时性要求不高的任务，我们可以使用concurrent.futures包中的PoolE
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
conda篇----在已有conda环境的基础上升级python包心惠天意 conda python jvm
conda篇----在已有conda环境的基础上升级python包原先的python版本第一步：condaupdate--all(py11)[xxx@aivrs01xxx]$condaupdate--allCollectingpackagemetadata(current_repodata.json):doneSolvingenvironment:done==>WARNING:Anewervers
conda：一个当下最流行的Python虚拟环境工具 Wang_AI
点击上方“AI派”，选择“设为星标”最新分享，第一时间送达！作者：LeonWang，现为中科院特别研究助理(博士后)，在AI、数据科学和科学计算等方面相关的工程实践上积累了丰富的经验。编辑：王老湿前面的文章中，为大家介绍过Python下的虚拟环境和包管理。在实际中，更为流行的是用Conda来管理Python环境。今天这篇文章就为大家介绍这方面的相关内容。Conda环境Conda简介Conda是目前
轻松上手：Matplotlib的基本用法全知道大数据方向陪跑私教 python
《轻松上手：Matplotlib的基本用法全知道》嗨，小伙伴们！之前咱们了解了好多厉害的Python包，今天咱们来好好讲讲Matplotlib这个在数据可视化方面超棒的包。**Matplotlib到底该怎么用呢？**这就像是探索一个新的游乐场，每个功能都是一样好玩的项目。一、安装Matplotlib在开始使用Matplotlib之前，得先把它安装好。如果你已经安装了Python的包管理工具pip，
Python 高手编程系列一千七百零八：在事件循环中使用 executors 杨琴1 python 开发语言
Executor.submit()方法返回的Future类实例在概念上非常接近异步编程中使用的协程。这就是为什么我们可以使用执行器在协同多任务和多进程或多线程之间进行混合。此解决方法的核心是事件循环类的BaseEventLoop.run_in_executor(executor,func,*args)方法。它会在进程池或线程池中调度执行由executor参数表示的func函数。这个方法最重要的是它
conda将python低版本环境升级到高版本 dkgee conda python 开发语言
conda将python低版本环境3.7.16升级到高版本3.81.激活你的Conda环境2.升级Python版本3.验证升级4.处理依赖问题5.测试环境注意事项可以将Conda环境中的Python版本从3.7.16升级到3.8。以下是具体步骤：1.激活你的Conda环境首先，你需要激活你想要升级Python版本的环境。假设你的环境名为myenv，你可以使用以下命令激活它：condaactivat
python 爬取某乎某选全部内容路笑笑
在发布了python爬取知乎盐选文章内容后，没想到居然这么快就要更新新的内容了。在下午思考第一篇python爬取知乎盐选文章内容的时候，其实就把自动爬取目录内的其他内容的方法想出来了，但是本来没想这么快更新的，哈哈。不过思来想去还是发出来吧，毕竟要不哪天就忘了。fromDecryptLoginimportloginfrombs4importBeautifulSoupimportreimportba
（含import）两行代码，将ppt的每一页幻灯片保存为图片。（如果你没装office，只装了WPS也可以，只不过更麻烦一些）几道之旅人工智能智能体及数字员工 powerpoint wps
文章目录第一步:安装包第二步：写代码，运行第三步：如果你是Office，现在已经搞定了。但我是WPS，会报错：第四步：直接去包里改代码第五步：保存对包中代码的修改，重新运行咱最开头的代码第六步：成功了第一步:安装包pipinstallpython-office第二步：写代码，运行#安装库：pipinstallpython-officeimportoffice#单页转图片office.ppt.ppt
Python知识分享第十四天闵少搞AI python 开发语言
“”"1.面向对象相关概述概述面向对象是一种编程思想强调的是以对象为基础完成的各种操作它是基于面向过程的扩展Python中是同时支持面向对象和面向过程这两种编程思想的思想特点更符合人们的思考习惯把复杂的问题简单化把人们(程序员)从执行者变成了指挥者2.面向对象三大特征介绍封装继承多态封装概述封装就是隐藏对象的属性和实现细节仅对外提供公共的访问方式举例:插板电脑手机好处提高代码的安全性弊端代码量增加
pythontype函数使用_Python astype(np.float)函数使用方法解析 weixin_39870238 pythontype函数使用
Pythonastype(np.float)函数使用方法解析我的数据库如图结构我取了其中的nameagenr，做成array，只要所取数据存在str型，那么取出的数据，全部转化为str型，也就是array阵列的元素全是str，不管数据库定义的是不是int型。那么问题来了，取出的数据代入公式进行计算的时候，就会类型不符，这是就用到astype(np.float)代码如下importpymysqlim
conda install 和 pip install 的区别不知江月待何人.. 深度学习
condainstall和pipinstall是两个常用的包安装命令，但它们在很多方面存在差异。1.所属管理系统不同1.1condainstallcondainstall是Anaconda和Miniconda发行版自带的包管理工具conda的安装命令。conda是一个跨平台的开源包管理系统和环境管理系统，它不仅可以管理Python包，还能管理其他语言（如R、C++等）的包。conda更侧重于数据科
蓝桥杯备赛计划 laitywgx 蓝桥杯职场和发展
1-2小时的蓝桥杯PythonB组冲刺日程表（持续1个月，聚焦高频考点）：第一周：核心算法突破Day1（周一）学习重点：动态规划（01背包问题）学习资源：AcWing《蓝桥杯辅导课》第8讲（背包问题模板）代码模板速记：#一维01背包模板n,V=map(int,input().split())dp=[0]*(V+1)for_inrange(n):w,v=map(int,input().split()
Conda常用命令汇总（持续更新中） X-future426 conda linux 运维
原文章：安装和使用Miniconda来管理Python环境-CSDN博客一、Miniconda的使用Miniconda没有GUI界面，只能通过conda命令对Python环境和软件包进行管理，所以这里主要介绍一下conda的常用命令。1.Conda相关(1)查询conda版本conda--version(2)更新conda版本condaupdateconda2.环境管理(1)查询已创建的虚拟环境c
Python 爬虫实战：从知乎盐选专栏，爬取优质内容付费数据西攻城狮北 python 爬虫开发语言实战案例知乎
目录一、前言二、准备篇2.1确定目标2.2工具与库2.3法律与道德声明三、实战篇3.1分析知乎盐选专栏页面3.2模拟登录3.3获取文章列表3.4爬取更多文章数据3.5数据存储四、分析篇4.1数据清洗4.2热门文章分析4.3收藏数分析4.4评论数分析五、总结与展望六、注意事项一、前言知乎盐选专栏作为知乎平台上的优质内容付费板块，汇聚了众多创作者的高质量文章。了解这些文章的付费数据，如点赞数、收藏数、
Python 常用函数全解析，轻松提升编码效率 jiajia651304 python 开发语言 windows
Python常用函数全解析，轻松提升编码效率Python常用函数全解析，轻松提升编码效率1.基础内置函数1.1`print()`与`input()`1.2`len()`、`type()`与`isinstance()`2.数学与数值处理函数2.1`abs()`、`round()`与`pow()`2.2`divmod()`与`max()/min()`3.序列与迭代相关函数3.1`range()`与`e
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
新手如何使用 Milvus 巴依老爷coder 数据库 milvus 向量数据库数据库
一文带你入门Milvus：详细指南新手如何使用Milvus：详细指南一、Milvus简介主要特点应用领域二、安装Milvus安装DockerCompose基于DockerCompose安装Milvus服务端安装attu-可视化界面工具三、快速入门安装PythonSDK连接数据库方式1方式2（方式1的封装）数据库操作核心概念集合操作数据操作插入数据精准查询数据-get条件查询数据-query查询数据
nginx-部署Python网站项目 skyQAQLinux python linux nginx 服务器
一、部署Python网站项目实验要求配置Nginx使其可以将动态访问转交给uWSGI安装Python工具及依赖1)拷贝软件到proxy主机[root@server1~]#scp-r/linux-soft/s2/wk/python/192.168.99.5:/root2)安装python依赖软件[root@proxy~]#yum-yinstallgccmakepython3python3-devel
Python 3.6.8 64位独立安装程序霍娴果Myrtle
Python3.6.864位独立安装程序【下载地址】Python3.6.864位独立安装程序Python3.6.864位独立安装程序欢迎使用Python3.6.64位版安装包！本资源专门针对需要在64位操作系统上进行Python环境搭建的用户项目地址:https://gitcode.com/open-source-toolkit/98d19欢迎使用Python3.6.64位版安装包！本资源专门针对
Python 3.6.8 安装包下载何盼思Kit
Python3.6.8安装包下载【下载地址】Python3.6.8安装包下载Python3.6.8安装包下载本仓库提供适用于Windows操作系统的Python3.6.8安装包，支持x86和x64架构项目地址:https://gitcode.com/open-source-toolkit/d9647本仓库提供适用于Windows操作系统的Python3.6.8安装包，支持x86和x64架构。Pyt
Python匿名函数Lambda，不止是省略函数名这么简单橙色小博 python的学习之旅 python 开发语言
目录1.前言2.Lambda函数的基本用法3.关于Lambda函数的应用3.1与map函数结合3.2lambda与if-else语句3.3多参数lambda3.4嵌套lambda3.5字典与lambda（也是我本人最喜欢的用法）3.6lambda其他用法4.总结：Lambda的编程哲学1.前言在Python的广阔天地里，Lambda函数宛如一颗璀璨的明珠，以其简洁优雅的姿态，为代码增添了一份独特的
AtCoder备赛冲刺必刷题（C++） | 洛谷 AT_abc396_a Triple Four 热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：AT_abc396_a[ABC396A]
python 捕获异常 weixin_30730151 python 数据库
异常：由于代码的逻辑或者语法错误导致的程序中断。在学习Python的过程当中，大家一定要区分清楚异常和布尔值False布尔值的False只是一个值，通常代表的是一个条件的不成立，常用于逻辑判断比如：1num=22print(num>3)3ifnum>3:4print("num>3")异常指的是由于代码的逻辑或者语法错误导致的程序中断比如：1num=222+"2"了解了上面的逻辑之后，我们来看看大家
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj