草棚

NLP-nltk篇

nltk

by deamon([email protected])
nltk的全称是natural language toolkit，是一套基于python的自然语言处理工具集,⾃带语料库，词性分类库,⾃带分类，分词，等等功能。

注意： 在运行命令nltk.download()安装 NLTK 的 nltk_data 模块的时候可能会出错。此时建议离线下载安装 NLTK 的 nltk_data 模块。
数据见：https://pan.baidu.com/s/1jIHTlyQ。在下载完数据之后，将数据放在正确的nltk目录下，查看目录运行nltk.data.find(".")，如下所示：

      In [14]: 
    

 
             import nltk 
             nltk.data.find(".")

        Out[14]: 
      

FileSystemPathPointer('C:\\Users\\deamon\\AppData\\Roaming\\nltk_data')

      In [ ]: 
    

 
             import nltk 
             #nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml

NLTK功能如下表所示

NLTK⾃带语料库

      In [15]: 
    

 
             from nltk.corpus import brown 
             brown.categories() 
             print(len(brown.sents())) 
             print(len(brown.words())) 
            

57340

1161192

⽂本处理流程

Tokenize

      In [16]: 
    

 
             import nltk 
             sentence = "hello, world" 
             tokens = nltk.word_tokenize(sentence) 
             print(tokens) 
            

['hello', ',', 'world']

中英⽂NLP区别

英文直接使用空格分词，中文需要专门的方法进行分词：

社交⽹络语⾔的tokenize

      In [7]: 
    

 
             from nltk.tokenize import word_tokenize 
             tweet = 'RT @angelababy: love you baby! :D http://ah.love #168cm' 
             print(word_tokenize(tweet)) 
            

['RT', '@', 'angelababy', ':', 'love', 'you', 'baby', '!', ':', 'D', 'http', ':', '//ah.love', '#', '168cm']

使用正则表达式对社交网络语言进行切词

如上面对'RT @angelababy: love you baby! :D http://ah.love #168cm'的切词客户已发现，切出来的数据不是很正确。那么对社交网络语言进行
tokenize的时候需要借助正则表达式，将表情符，网址，话题，@某人等作为一个整体.
正则表达式：http://www.regexlab.com/zh/regref.htm

      In [8]: 
    

 
             import re 
             emoticons_str = r""" 
                 (?: 
                 [:=;] # 眼睛 
                 [oO\-]? # ⿐⼦ 
                 [D\)\]\(\]/\\OpP] # 嘴 
                 )""" 
             regex_str = [ 
                 emoticons_str, 
                 r'<[^>]+>', # HTML tags 
                 r'(?:@[\w_]+)', # @某⼈ 
                 r"(?:\#+[\w_]+[\w\'_\-]*[\w_]+)", # 话题标签 
                 r'http[s]?://(?:[a-z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-f][0-9a-f]))+', 
                 # URLs 
                 r'(?:(?:\d+,?)+(?:\.?\d+)?)', # 数字 
                 r"(?:[a-z][a-z'\-_]+[a-z])", # 含有 - 和 ‘ 的单词 
                 r'(?:[\w_]+)', # 其他 
                 r'(?:\S)' # 其他 
             ] 
             ​ 
            

      In [13]: 
    

 
             tokens_re = re.compile(r'('+'|'.join(regex_str)+')', re.VERBOSE | re.IGNORECASE) 
             emoticon_re = re.compile(r'^'+emoticons_str+'$', re.VERBOSE | re.IGNORECASE) 
             def tokenize(s): 
                 return tokens_re.findall(s) 
             def preprocess(s, lowercase=False): 
                 tokens = tokenize(s) 
                 if lowercase: 
                     tokens = [token if emoticon_re.search(token) else token.lower() for token in tokens] 
                 return tokens 
             tweet = 'RT @angelababy: love you baby! :D http://ah.love #168cm' 
             print(preprocess(tweet)) 
            

['RT', '@angelababy', ':', 'love', 'you', 'baby', '!', ':D', 'http://ah.love', '#168cm']

纷繁复杂的词形

Inflection变化: walk => walking => walked （不影响词性）
derivation 引申: nation (noun) => national (adjective) => nationalize (verb) (影响词性)

词形归⼀化

Stemming 词⼲提取：⼀般来说，就是把不影响词性的inflection的⼩尾巴砍掉
walking 砍ing = walk
walked 砍ed = walk
Lemmatization 词形归⼀：把各种类型的词的变形，都归为⼀个形式
went 归⼀ = go are 归⼀ = be

NLTK实现Stemming

词⼲提取：是把不影响词性的inflection的⼩尾巴砍掉

      In [3]: 
    

 
             from nltk.stem.porter import PorterStemmer 
             porter_stemmer = PorterStemmer() 
             print(porter_stemmer.stem('maximum')) 
             print(porter_stemmer.stem('presumably')) 
             print(porter_stemmer.stem('multiply')) 
             print(porter_stemmer.stem('provision')) 
            

maximum

presum

multipli

provis

      In [4]: 
    

 
             from nltk.stem import SnowballStemmer 
             snowball_stemmer=SnowballStemmer('english') 
             print(snowball_stemmer.stem('maximum')) 
             print(snowball_stemmer.stem('presumably')) 
            

maximum

presum

      In [5]: 
    

 
             from nltk.stem.lancaster import LancasterStemmer 
             lancaster_stemmer=LancasterStemmer() 
             print(lancaster_stemmer.stem('maximum')) 
             print(lancaster_stemmer.stem('presumably')) 
             print(lancaster_stemmer.stem('presumably')) 
            

maxim

presum

      In [6]: 
    

 
             from nltk.stem.porter import PorterStemmer 
             p = PorterStemmer() 
             print(p.stem('went')) 
             print(p.stem('wenting')) 
            

went

LTK实现Lemma

词形归⼀：把各种类型的词的变形，都归为⼀个形式

      In [8]: 
    

 
             from nltk.stem import WordNetLemmatizer 
             wordnet_lemmatizer = WordNetLemmatizer() 
             print(wordnet_lemmatizer.lemmatize('dogs')) 
             print(wordnet_lemmatizer.lemmatize('churches')) 
             print(wordnet_lemmatizer.lemmatize('aardwolves')) 
             print(wordnet_lemmatizer.lemmatize('abaci')) 
             print(wordnet_lemmatizer.lemmatize('hardrock')) 
            

dog

church

aardwolf

abacus

hardrock

Lemma Tips

一些词的雌性不一样的时候表达的意思是不一样的，比如：
Went v. go的过去式
Went n. 英⽂名：温特

NLTK更好地实现Lemma

      In [9]: 
    

 
             # 没有POS Tag，默认是名词 
             print(wordnet_lemmatizer.lemmatize('are')) 
             print(wordnet_lemmatizer.lemmatize('is')) 
             # 加上POS Tag 
             print(wordnet_lemmatizer.lemmatize('is',pos='v')) 
             print(wordnet_lemmatizer.lemmatize('are',pos='v')) 
            

are

部分语言

NLTK词性标注符号含义

标记含义例子
CC 连词 and, or,but, if, while,although
CD 数词 twenty-four, fourth, 1991,14:24
DT 限定词 the, a, some, most,every, no
EX 存在量词 there, there's
FW 外来词 dolce, ersatz, esprit, quo,maitre
IN 介词连词 on, of,at, with,by,into, under
JJ 形容词 new,good, high, special, big, local
JJR 比较级词语 bleaker braver breezier briefer brighter brisker
JJS 最高级词语 calmest cheapest choicest classiest cleanest clearest
LS 标记 A A. B B. C C. D E F First G H I J K
MD 情态动词 can cannot could couldn't
NN 名词 year,home, costs, time, education
NNS 名词复数 undergraduates scotches
NNP 专有名词 Alison,Africa,April,Washington
NNPS 专有名词复数 Americans Americas Amharas Amityvilles
PDT 前限定词 all both half many
POS 所有格标记 ' 's
PRP 人称代词 hers herself him himself hisself
PRP 所有his mine my our ours
RB 副词 occasionally unabatingly maddeningly
RBR 副词比较级 further gloomier grander
RBS 副词最高级 best biggest bluntest earliest
RP 虚词 aboard about across along apart
SYM 符号 % & ' '' ''. ) )
TO 词to to
UH 感叹词 Goodbye Goody Gosh Wow
VB 动词 ask assemble assess
VBD 动词过去式 dipped pleaded swiped
VBG 动词现在分词 telegraphing stirring focusing
VBN 动词过去分词 multihulled dilapidated aerosolized
VBP 动词现在式非第三人称时态 predominate wrap resort sue
VBZ 动词现在式第三人称时态 bases reconstructs marks
WDT Wh限定词 who,which,when,what,where,how
WP WH代词 that what whatever
WP WH代词所有格 whose
WRB WH副词
P.S.上面的含义可以直接使用“nltk.help.upenn_tagset()”查看官方英文说明。

NLTK标注POS Tag

      In [12]: 
    

 
             import nltk 
             text=nltk.word_tokenize('what does the for say') 
             print('text : ',text) 
             print(nltk.pos_tag(text))

text : ['what', 'does', 'the', 'for', 'say']

[('what', 'WDT'), ('does', 'VBZ'), ('the', 'DT'), ('for', 'IN'), ('say', 'NN')]

停用词

停用词(Stop Words) ，词典译为“电脑检索中的虚字、非检索用字”。在SEO中，为节省存储空间和提高搜索效率，搜索引擎在索引页面
或处理搜索请求时会自动忽略某些字或词，这些字或词即被称为Stop Words(停用词、静止词)。
停用词一定程度上相当于过滤词(Filter Words)，不过过滤词的范围更大一些，包含黄色、政治等敏感信息的关键词都会被视做过滤词加以处理，
停用词本身则没有这个限制。通常意义上，停用词(Stop Words)大致可分为如下两类：
（1）使用十分广泛，甚至是过于频繁的一些单词。比如英文的“i”、“is”、“a”、“the”，中文的“我”、“的”之类词几乎在每个文档上
均会出现，查询这样的词搜索引擎就无法保证能够给出真正相关的搜索结果，难于缩小搜索范围提高搜索结果的准确性，同时还会降低搜索的效率。
因此，在真正的工作中，Google和百度等搜索引擎会忽略掉特定的常用词，在搜索的时候，如果我们使用了太多的停用词，也同样有可能无法得到
非常精确的结果，甚至是可能大量毫不相关的搜索结果。
（2）文本中出现频率很高，但实际意义又不大的词。这一类主要包括了语气助词、副词、介词、连词等，通常自身并无明确意义，只有将其放入
一个完整的句子中才有一定作用的词语。如常见的“的”、“在”、“和”、“接着”之类，比如“SEM分享是个关于SEM的博客”这句话中的
“是”、“的”就是两个停用词。
英文停用词：https://www.ranks.nl/stopwords
中文停用词：https://github.com/chdd/weibo/tree/master/stopwords

NLTK去除stopwords

      In [15]: 
    

 
             from nltk.corpus import stopwords 
             # 先token，得到一个word_list 
             word_list = nltk.word_tokenize('what does the for say') 
             # 然后filter 
             filtered_words = [word for word in word_list if word not in stopwords.words('english')] 
             print(' filtered_words : ',filtered_words) 
            

 filtered_words :  ['say']

⼀条typical的⽂本预处理流⽔线

文本预处理流程

NLTK在NLP中的应用

情感分析
⽂本相似度
⽂本分类

应用一：情感分析

对词进行打分，并且构建词典，比如：

like 1
good 2
bad -2
terrible -3

      In [38]: 
    

 
             import sys 
             sentiment_dictionary = {} 
             file = open('./nltk/data/AFINN-111.txt',encoding='utf-8') 
             line = file.readline() 
             while line: 
                 word,score = line.split('\t') 
                 sentiment_dictionary[word] = int(score) 
                 line = file.readline() 
             words = sentiment_dictionary.keys() 
             total_score = sum(sentiment_dictionary.get(word,0) for word in words) 
             print(total_score) 
            

-1460

基于ML的情感分析

      In [39]: 
    

 
             from nltk.classify import NaiveBayesClassifier 
             s1='this is a good book' 
             s2='this is a awesome book' 
             s3='this is a bad book' 
             s4='this is a terrible book' 
             ​ 
             def preprocess(s): 
                 # Func:句子处理，简单的用split()，把句子中每个单词分开 
                 return {word:True for word in s.lower().split()} 
             ​ 
             # 把训练集做成标准形式 
             training_data=[[preprocess(s1),'pos'], 
                            [preprocess(s2),'pos'], 
                            [preprocess(s3),'neg'], 
                            [preprocess(s4),'neg']] 
             #模型训练 
             model=NaiveBayesClassifier.train(training_data) 
             #输出结果 
             print(model.classify(preprocess('this is a good book'))) 
            

pos

应用二：文本相似度

⽤元素频率表⽰⽂本特征，如下所示：
文本相似度求解原理，余弦定理
Frequency频率统计

      In [45]: 
    

 
              
            
 
             import nltk 
             from nltk import FreqDist 
             ​ 
             #词库 
             corpus='this is my sentence this is my life this is the day ' 
             tokens=nltk.word_tokenize(corpus) 
             print(' tokens : ',tokens) 
             # 用NLTK的FreqDist统计一下文字出现的频率 
             fdist = FreqDist(tokens) 
             # 查看某一个单词的频次 
             print('the word is frequence : ',fdist['is']) 
             # 最常用的50个单词 
             standard_freq_vector = fdist.most_common(50) 
             size = len(standard_freq_vector) 
             print('top 50 common words : ') 
             print(standard_freq_vector) 
             # 按照出现频率大小，记录每一个单词的位置 
             def position_lookup(v): 
                 res = {} 
                 counter=0 
                 for word in v: 
                     res[word[0]]=counter 
                     counter+=1 
                 return res 
             # 把标准的单词位置记录下来 
             standard_position_dict=position_lookup(standard_freq_vector) 
             print(standard_position_dict) 
            

tokens : ['this', 'is', 'my', 'sentence', 'this', 'is', 'my', 'life', 'this', 'is', 'the', 'day']

the word is frequence : 3 top 50 common words :

{'this': 0, 'is': 1, 'my': 2, 'sentence': 3, 'life': 4, 'the': 5, 'day': 6}

[('this', 3), ('is', 3), ('my', 2), ('sentence', 1), ('life', 1), ('the', 1), ('day', 1)]

      In [47]: 
    

 
             sentence='this is cool' 
             # 新建一个和标准vector同样大小的向量 
             freq_vector=[0]*size 
             tokens=nltk.word_tokenize(sentence) 
             # 对sentence中的词进行处理 
             for word in tokens: 
                 try: 
                     # 如果在词库中出现过，那么就在“标准位置”上+1 
                     freq_vector[standard_position_dict[word]] += 1 
                 except KeyError: 
                     # 如果是新词，就pass掉 
                     continue 
             print(freq_vector) 
            

[1, 1, 0, 0, 0, 0, 0]

应用三：文本分类

TF-IDF

TF: Term Frequency, 衡量⼀个term在⽂档中出现得有多频繁。

TF(t) = (t出现在⽂档中的次数) / (⽂档中的term总数).
IDF: Inverse Document Frequency, 衡量⼀个term有多重要。

有些词出现的很多，但是明显不是很有卵⽤。⽐如’is'， ’the‘， ’and‘之类的。

为了平衡，我们把罕见的词的重要性（weight）搞⾼，把常见词的重要性搞低。

IDF(t) = log_e(⽂档总数 / 含有t的⽂档总数).
TF-IDF = TF * IDF

举个例子：⼀个⽂档有100个单词，其中单词baby出现了3次。那么， TF(baby) = (3/100) = 0.03.

有10M的⽂档， baby出现在其中的1000个⽂档中。那么， IDF(baby) = log(10,000,000 / 1,000) = 4

TF-IDF(baby) = TF(baby) * IDF(baby) = 0.03 * 4 = 0.12
NLTK实现TF-IDF

      In [63]: 
    

 
             from nltk.text import TextCollection 
             text1 = 'I like the movie so much ' 
             text2 = 'That is a good movie ' 
             text3 = 'This is a great one ' 
             text4 = 'That is a really bad movie ' 
             text5 = 'This is a terrible movie' 
             # 构建TextCollection对象 
             tc=TextCollection([text1,text2,text3,text4,text5]) 
             new_text = 'That one is a good movie. This is so good!' 
             word = 'That' 
             tf_idf_val=tc.tf_idf(word,new_text) 
             print('{}的TF-IDF值为：{}'.format(word,tf_idf_val)) 
            

That的TF-IDF值为：0.02181644599700369

正则表达式分块器

为了创建一个NP-块，我们需要定义NP-块的块语法。正则表达式分块器接受正则表达式规则定义的语法来对文本进行分块

      In [53]: 
    

 
             import nltk 
             ​ 
             # 分词 
             text = "the little yellow dog barked at the cat" 
             sentence = nltk.word_tokenize(text) 
             ​ 
             # 词性标注 
             sentence_tag = nltk.pos_tag(sentence) 
             print(sentence_tag) 
             ​ 
             # 定义分块语法 
             # 这个规则是说一个NP块由一个可选的限定词后面跟着任何数目的形容词然后是一个名词组成 
             # NP(名词短语块) DT(限定词) JJ(形容词) NN(名词) 
             grammar = "NP: {?*}" 
             ​ 
             # 进行分块 
             cp = nltk.RegexpParser(grammar) 
             tree = cp.parse(sentence_tag) 
             tree.draw() 
            

[('the', 'DT'), ('little', 'JJ'), ('yellow', 'JJ'), ('dog', 'NN'), ('barked', 'VBD'), ('at', 'IN'), ('the', 'DT'), ('cat', 'NN')]

多条规则的正则表达式分块器

上面的例子只有一条语法规则，如果面对复杂的情况就不太适用，我们可以定义多条分块规则。面对多条规则，分块器会轮流应用分块规则，
依次更新块结构，所有的规则都被调用后才返回。

      In [54]: 
    

 
             import nltk 
             ​ 
             # 分词 
             text = "Lucy let down her long golden hair" 
             sentence = nltk.word_tokenize(text) 
             ​ 
             # 词性标注 
             sentence_tag = nltk.pos_tag(sentence) 
             print(sentence_tag) 
             ​ 
             # 定义分块语法 
             # NNP(专有名词) PRP$(格代名词) 
             # 第一条规则匹配可选的词（限定词或格代名词），零个或多个形容词，然后跟一个名词 
             # 第二条规则匹配一个或多个专有名词 
             # $符号是正则表达式中的一个特殊字符，必须使用转义符号\来匹配PP$ 
             grammar = r""" 
                 NP: {?*} 
                     {+} 
             """ 
             ​ 
             # 进行分块 
             cp = nltk.RegexpParser(grammar) 
             tree = cp.parse(sentence_tag) 
             tree.draw() 
            

[('Lucy', 'NNP'), ('let', 'VBD'), ('down', 'RP'), ('her', 'PRP$'), ('long', 'JJ'), ('golden', 'JJ'), ('hair', 'NN')]

ConditionalFreqDist::tabulate(conditions, samples)：根据指定的条件和样本，打印条件频率分布表格。

      In [60]: 
    

 
             import nltk 
             from nltk.corpus import brown 
             pairs = [(genre, word) for genre in brown.categories() for word in brown.words(categories=genre)] 
             cfd = nltk.ConditionalFreqDist(pairs) 
             genres = ['news', 'religion', 'hobbies', 'science_fiction', 'romance', 'humor'] 
             modals = ['can', 'could', 'may', 'might', 'must', 'will'] 
             cfd.tabulate(conditions=genres, samples=modals) 
             cfd.plot(conditions=genres, samples=modals) 
            

can could may might must will

news 93 86 66 38 50 389

hobbies 268 58 131 22 83 264

religion 82 59 78 12 54 71 science_fiction 16 49 4 12 8 16

humor 16 30 8 8 9 13

romance 74 193 11 51 45 43

你可能感兴趣的:(Python)

Nuitka打包python脚本 __如风__ python 开发语言
Python脚本打包Python是解释执行语言，需要解释器才能运行代码，这就导致在开发机上编写的代码在别的电脑上无法直接运行，除非目标机器上也安装了Python解释器，有时候还需要额外安装Python第三方包，相当麻烦。事实上Python并不适合干这种事，但有时候确实需要Python编写的程序打包给他人一键运行。思路通常都是分析脚本依赖（所有使用到的模块），然后收集相关资源，为了能在目标机器上正确
燕大《Python机器学习》实验报告：探索机器学习的奥秘温冰礼
燕大《Python机器学习》实验报告：探索机器学习的奥秘【下载地址】燕大Python机器学习实验报告下载这份实验报告是燕山大学软件工程专业的学生在进行机器学习实验时所编写的，内容详实，结构清晰，可以直接下载使用。报告中的实验数据和代码均经过验证，确保下载后可以直接应用于实际项目或作为学习参考项目地址:https://gitcode.com/Open-source-documentation-tut
Python 运用 Matplotlib 绘制动画图的流程 Python编程之道 Python人工智能与大数据 Python编程之道 python matplotlib 开发语言 ai
Python运用Matplotlib绘制动画图的流程关键词：Python、Matplotlib、动画图、绘制流程、动画原理摘要：本文详细介绍了使用Python的Matplotlib库绘制动画图的完整流程。从背景知识入手，阐述了Matplotlib动画绘制的目的和适用读者群体，接着深入剖析了核心概念，包括动画的基本原理和架构。通过核心算法原理的讲解和Python源代码示例，展示了如何实现动画绘制。同
Python Pandas 如何进行数据分组统计 Python编程之道 Python人工智能与大数据 Python编程之道 python pandas 网络 ai
PythonPandas如何进行数据分组统计关键词：PythonPandas、数据分组、groupby、聚合函数、数据透视表、数据统计、数据分析摘要：本文将深入探讨如何使用PythonPandas库进行高效的数据分组统计操作。我们将从基础概念入手，详细讲解groupby机制的原理和使用方法，介绍各种聚合函数的应用，探讨高级分组技巧，并通过实际案例展示如何解决复杂的数据分析问题。文章还将涵盖性能优化
Python可视化环境：Matplotlib_Seaborn+Conda配置 Python编程之道 Python人工智能与大数据 Python编程之道 python matplotlib conda ai
Python可视化环境：Matplotlib/Seaborn+Conda配置关键词：Python可视化、Matplotlib、Seaborn、Conda、环境配置摘要：本文主要探讨了如何利用Conda来配置Python可视化所需的Matplotlib和Seaborn环境。首先介绍了Python可视化的背景和重要性，明确目标读者为想要学习Python可视化的初学者和有一定基础的开发者。接着详细解析了
Nuitka 打包Python程序 Humbunklung 学海泛舟 python 开发语言 nuitka
文章目录Nuitka打包Python程序**一、Nuitka核心优势**⚙️**二、环境准备（Windows示例）****三、基础打包命令****单文件脚本打包****带第三方库的项目**️**四、高级配置选项****示例：完整命令**⚠️**五、常见问题与解决****六、Nuitkavs其他工具****七、最佳实践建议****八、使用举例**总结Nuitka打包Python程序需要把Python
python selenium 滚动页面到定位元素我有一个希哥 python selenium 前端
用js语句target=driver.find_element_by_id("id")driver.execute_script("arguments[0].scrollIntoView();",target)或target=WebDriverWait(driver,3).until(expected_conditions.presence_of_element_located((By.ID,"i
pythonselenium时间选择_使用pythonselenium选择特定日期（滚动日期） xu534328661
所有人我们正在尝试自动化日期选择过程以供参考Clickhere。请参考出生日期和预约日期字段。我们选择日期的方式是不同的。我不知道如何为这两个字段选择日期。你能帮帮我吗？在我已经尽了我的最大努力，它与下面的代码除了日期字段Python版本：2.7硒3.8.0铬：48倍importseleniumimportsysfromseleniumimportwebdriverfromselenium.web
python与anaconda安装（先安装了python后安装anaconda，基于python已存在的基础上安装anaconda）——逼死强迫症、超详解苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
版权声明：本文为CSDN博主「牛斌帅」的原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/qq_43529415/article/details/100847887目录一、安装python（python3.7.4）1、下载(1)下载1(32位)(2)下载2(64位)2、安装3、配置python环境变量4、检验pytho
（转）优秀的 python 机器学习库 patrick75 python 机器学习 python 机器学习
优秀的python机器学习库IntroductionThereisnodoubtthatneuralnetworks,andmachinelearningingeneral,hasbeenoneofthehottesttopicsintechthepastfewyearsorso.It’seasytoseewhywithallofthereallyinterestinguse-casestheys
DAY 2 字符串与比较运算心落薄荷糖 Python训练营 python 算法
文章目录题目1：字符串的操作小结题目2：比较运算题目1：字符串的操作题目:定义两个字符串变量，str1赋值为“Hello”，str2赋值为“Python”。将这两个字符串拼接起来（中间加一个空格），并将结果存储在变量greeting中；计算greeting字符串的长度，存储在变量length中；获取greeting字符串的第一个字符，存储在变量first_char中。然后，使用f-string分三
python学习记录14 彤银浦学习 python
1.字符串的编码和解码不同的计算机之间在信道中传输的信息本质上是二进制数据，因此当你有一串文本需要传输给另外一台电脑时，则需要将这串文本编译为二进制类型的数据。python中的二进制数据类型称为byte类型。将字符串的str类型转变为byte类型称为字符串的编码，将byte类型转变为str类型称为字符串的解码。字符串的编码用到的是encode的方法，语法格式为：string.encode(enco
Python实例之十大歌手评分 *濒危物种* 算法前端 python
实例背景：十大歌手，为丰富校园文化生活，学校拟组织一场歌手大赛，从参赛选手中选拔出十名相对突出的学生，授予“校园十大歌手”称号。比赛之中设置有评委组，每名选手演唱完毕之后会由评委组的十名评委打分。为保证比赛公平公正、防止作弊和恶意打分，计算得分(即平均分)时会先去掉最高分和最低分要求实现：根据每位评委的输入分数，实现计算每位选手得分的功能。【重要步骤提示】定义列表放评委给分找出列表的最高分和最低分
如何用Python统计字符串（引用ASCII码）【两种方法】 *濒危物种* python 前端 linux
要求实现：根据输入的字符串，统计其中大写字母、小写字母、数字、字符各有多少个【重要步骤提示】0-9的ASCII数字的ASCII码值取值范围为48-57；a-z小写英文字母的取值范围为97-122；A-Z大写英文字母的取值范围为65-90；Len()、append()方法的使用ord()函数获取字符对应的ASCII码值方法一#引到用户输入字符list1=list(input('请输入一行字符：'))
Python机器学习元学习库higher 音程机器学习人工智能 python 机器学习
higher是一个用于元学习（Meta-Learning）和高阶导数（Higher-ordergradients）的Python库，专为PyTorch设计。它扩展了PyTorch的自动微分机制，使得在训练过程中可以动态地计算参数的梯度更新，并把这些更新过程纳入到更高阶的梯度计算中。一、主要用途higher主要用于以下场景：元学习（Meta-Learning）比如MAML（Model-Agnosti
Python Selenium 滚动到特定元素 Humbunklung 学海泛舟 python selenium 开发语言
文章目录PythonSelenium滚动到特定元素⚙️**1.使用`scrollIntoView()`方法（最推荐）**️**2.结合`ActionChains`移动鼠标（模拟用户行为）****3.使用坐标计算滚动（精确控制像素）**⚠️**4.处理复杂场景的进阶技巧****（1）元素在iframe中****（2）动态加载内容****（3）横向滚动****5.常见问题与解决方案****总结：根据场
Python 常用正则表达式大全朱公子的Note python 爬虫正则表达式
你是否在写Python爬虫时，总是卡在“正则提取”这一步？明明页面源码已经拿到，却怎么也匹配不到目标数据……不是提取失败，就是提取不全，搞得调试半天还抓不到核心字段？别急！今天我们就来一次**“正则一网打尽”**，专为爬虫而生的表达式宝典，让你写起爬虫来如虎添翼！在当下数据驱动时代，网络数据是企业的“金矿”，而Python爬虫则是挖掘这金矿的“利器”！从电商价格到社交媒体评论，爬虫技术让数据采集变
学校老师课堂点名管理系统带TkinterUI界面深度学习乐园 oracle 数据库
完整源码项目包获取→点击文章末尾名片！基于PythonTkinter的学生管理系统，有最基本的增删改查功能，还有随机点名、顺序点名功能##1、研究现状综述目前，在学生信息管理领域，各大高校面临的难题在于对学生信息管理的效率过低，传统的人工管理造成了资金和劳动力的浪费。因此，大部分学者研究的是针对高校的学生信息或成绩管理系统，而用python语言的也很少，其中大多用的是PyQt5模块。而且，针对低年
算法训练营|数组总结慧泽huize 数据结构算法 leetcode python c++
时间复杂度：算法执行语句的次数空间复杂度：算法在运行过程中临时占存储空间大小数组（C++）：存放在连续内存空间的相同类型固定大小的数据的集合，不能删除，只能覆盖列表（Python）：数据可以是不同类型，列表长度可变1.二分查找循环不变量原则，清楚区间定义时间复杂度：O(logn)空间复杂度：O(1)2.双指针法快指针找到新数组元素，慢指针指向新数组下标时间复杂度：O(n)空间复杂度：O(1)3.双
python正则匹配11个数字_python正则表达式re.match()匹配多个字符方法的实现小馬锅 python正则匹配11个数字
1.*表示匹配任意多个字符\d*表示匹配任意多个数字字符importretext="123h1elloworld"text1="123Helloworld456"text2="helloworld"res=re.match("\d*",text)res1=re.match("\d*",text1)res2=re.match("\d*",text2)print(res.group())print(r
基于MATLAB的资源优化与工期固定-资源均衡分析方法研究【附代码】拉勾科研工作室 matlab 开发语言
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）资源均衡优化相关理论与问题分类在现代工程项目中，资源的合理分配和使用是确保项目按时完成、成本可控的关键因素。资源均衡优化作为项目管理中的核心环节，旨在通过调整资源的使用方案，使资源消耗在整个工期内尽可能平稳，避免
医学图像增强的层级化模糊与虚拟仪器无参考质量评价研究【附代码】拉勾科研工作室计算机视觉图像处理人工智能
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）层级模糊隶属度的X光医学图像增强算法针对X光医学图像普遍存在的对比度差、细节模糊等问题，本算法提出了一种基于层级模糊隶属度的增强方法。该方法的核心思想在于利用拉普拉斯金字塔分解图像，并在多尺度下分层计算模糊隶属度
【半夜爬起来学python】零基础学习Pygame|第一期|知识点+小球反弹游戏案例奈樱. python(pygame)pygame 学习游戏 pip
一.安装PygamePygame是跨平台Python模块，很多编译器不会向用户提供该模块，需要我们自己安装。安装步骤：打开Pygame官网：www.pygame.org点击PYGAME2.6.0-25JUN,2024下载好之后，解压压缩包，安装路径最好放在c盘里Administrator文件里在菜单栏点击搜索，输入cmd，找到“命令提示符”输入命令pipinstallpygame运行的时候会发现命
【Python】Pygame从零开始学习宅男很神经 python 开发语言
模块一：Pygame入门与核心基础本模块将引导您完成Pygame的安装，并深入理解Pygame应用程序的基石——游戏循环、事件处理、Surface与Rect对象、显示控制以及颜色管理。第一章：Pygame概览与环境搭建1.1什么是Pygame？Pygame是一组专为编写视频游戏而设计的Python模块。它构建在优秀的SDL(SimpleDirectMediaLayer)库之上，允许您使用Pytho
【python】判断值是否为NaN MoFe1 python 开发语言
importmathdefis_nan(value):returnisinstance(value,float)andmath.isnan(value)#测试print(is_nan(float('nan')))#输出：Trueprint(is_nan(None))#输出：Falseprint(is_nan('abc'))#输出：False
print(3 or 5)的结果是什么？为什么？ Lauren_Lu python
print(3or5)的结果是：3原因：在Python中，or是一个逻辑运算符，但当它作用于非布尔类型（比如整数）时，它的行为是：返回第一个为真的值；如果第一个值为假，则返回第二个值。具体分析：3是一个非零整数，在布尔上下文中被视为True所以3or5就是：如果3是True，就返回3；否则返回5由于3是True，所以返回的是3。类似例子：print(0or5)#输出5，因为0被视为Falsepri
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
[python系列] 创建虚拟环境 venv en-route python virtualenv
虚拟环境定义Python中的虚拟环境是一个隔离的运行环境，旨在为每个Python项目提供独立的执行空间，支持在不同的项目中分别管理依赖关系，而不会影响到其他项目或系统的原始Python安装。可以将虚拟环境视为每个Python项目的“独立容器”，每个容器具备以下特点：拥有独立的Python解释器拥有各自独立的包管理和安装的软件包与其他虚拟环境相互隔离允许同一包存在不同版本使用虚拟环境的重要性体现在以
Python代理池的构建与应用：实现高效爬虫与防封禁策略程序员威哥 python 爬虫开发语言
在进行大规模网络数据抓取时，IP封禁是最常见的反爬虫手段之一。为了应对这一挑战，代理池成为了一个重要工具。通过构建代理池，爬虫程序可以随机切换代理IP，避免同一IP被频繁访问而导致封禁，确保数据抓取任务的稳定性和持续性。本文将详细介绍如何使用Python构建一个高效的代理池，并结合实际应用场景，讲解如何使用代理池提升爬虫的抓取能力和防封禁策略。一、代理池的工作原理代理池的基本工作原理是，爬虫请求时
Python爬虫实战：用Tushare和Baostock爬取股票历史数据及K线图与技术指标计算
在金融数据分析和量化交易中，股票历史数据的获取是进行技术分析、回测和策略研究的第一步。传统上，投资者需要依赖付费数据服务，然而如今，借助Python强大的爬虫工具和开源数据接口，我们能够轻松地爬取免费的历史股票数据，并结合K线图与技术指标来进行深入分析。Tushare和Baostock是两个非常流行的开源金融数据接口。Tushare提供了丰富的国内外金融数据，特别是A股市场的历史数据和实时数据，而
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

NLP-nltk篇

nltk

NLTK功能如下表所示

NLTK⾃带语料库

⽂本处理流程

Tokenize

中英⽂NLP区别

社交⽹络语⾔的tokenize

使用正则表达式对社交网络语言进行切词

纷繁复杂的词形

词形归⼀化

NLTK实现Stemming

LTK实现Lemma

Lemma Tips

NLTK更好地实现Lemma

部分语言

NLTK词性标注符号含义

NLTK标注POS Tag

停用词

NLTK去除stopwords

⼀条typical的⽂本预处理流⽔线

文本预处理流程

NLTK在NLP中的应用

应用一：情感分析

基于ML的情感分析

应用二：文本相似度

Frequency频率统计

应用三：文本分类

TF-IDF

NLTK实现TF-IDF

正则表达式分块器

多条规则的正则表达式分块器

你可能感兴趣的:(Python)