无限大地NLP_空木

《python自然语言处理》笔记---chap3加工原料文本

chap3中关于，NLP中的关键概念，包括分词和词干提取。字符串、文件、正则表达式、去除HTML标签

以下所有程序，默认导入包

import nltk,re,pprint     #即，nltk包，正则表达式re包，输出pprint包

3.1 从网络和硬盘访问文本
电子书

http://www.gutenberg.org/files/2554/2554.txt，古腾堡项目编号2554的文本：《罪与罚》的英文翻译

#coding:utf-8
import nltk

from urllib import urlopen
url = "http://www.gutenberg.org/files/2554/2554.txt"
raw=urlopen(url).read()

print type(raw) #文本的类型
print len(raw)  #文本长度
print raw[:75]  #文本前75个字符，不要直接打印出raw,太长了

#使用代理访问：
#proxies={'http':'http://www.someproxy.com:3128'}
#raw=urlopen(url,proxies=proxies).read()

分词：将字符串分解为词和标点符号；经过分词，产生一个词汇和标点符号的链表

tokens=nltk.word_tokenize(raw)
print type(tokens)
print len(tokens)
print tokens[:10]
#从链表创建一个NLTK文本，对其进行操作
text=nltk.Text(tokens)
print type(text)
print text[:10]     #text似乎同tokens没什么区别？
#print text.collocations()

古腾堡项目的每个文本：包含一个首部，涵盖了文本的名称、作者、扫描和校对文本的人的名字、许可证等信息。手工检查文件以发现标记内容开始和结尾的独特的字
符串。

print raw.find("PART I")
print raw.rfind("End of Project Gutenberg's Crime")   #逆向查找
#重新复制，将从"PART I"到"End of Project Gutenberg's Crime"部分截下来，赋给raw
raw=raw[raw.find("PART I"):raw.rfind("End of Project Gutenberg's Crime")]

处理的HTML

HTML全部内容包括：meta元标签、图像标签、map标签、JavaScript、表单和表格。
提取文本：clean_html()将HTML字符串作为参数，返回原始文本，然后对原始文本进行分词，活得熟悉的文本结构

#coding:utf-8
import nltk

from urllib import urlopen
url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = urlopen(url).read()
print html[:60]
#'

 
  通过尝试，找到内容索引的开始和结尾，并选择你感兴趣的标识符，初始化一个文本。
 更多更复杂的有关处理HTML 的内容，可以使用http://www.crummy.com/software/BeautifulSoup/上的Beautiful Soup 软件包。
处理搜索引擎的结果 
   
   搜索引擎的主要优势是规模 
   
  
读取本地文件 
  open()函数：
f=open(r'D:\test.txt') #注意格式，文件路径前面用个r，或者对文件路径里面的符号进行转义
raw=f.read()

#按行读出
for line in f:
 print line.strip()#去掉换行符
#nltk语料库中的文件，使用nltk.data.find()函数
path = nltk.data.find('corpora/gutenberg/melville-moby_dick.txt')
raw = open(path, 'rU').read() 
  从 PDF、MS Word 及其他二进制格式中提取文本
 
   
   打开PDF和MSWord，用第三方函数库如pypdf和pywin32, 
   
  捕获用户输入 
   
   输入函数：raw_input("")
 输出函数：print  
   
  NLP 的流程 
   
  处理流程：打开一个URL，读里面HTML 格式的内容，去除标记，并选择字符的切
 片，然后分词，是否转换为nltk.Text 对象是可选择的。我们也可以将所有词汇小写并提取词汇表。 
   
    一个对象的类型决定了它可以执行哪些操作，如可以追加元素到一个链表，但是不能追加元素到一个字符串 
   可以用加号，连接字符串与字符串，但是不能连接字符串与链表 
   
  3.2 字符串：最底层的文本处理 
  字符串的基本操作 
   
    1.字符串中包含单引号，需要用"\"转义
 2.可用单引号，双引号，三重引号来指定字符串，其中的区别，见博客
 3.字符串跨好几行，a:使用反斜杠"\"，解释器就知道第一行的表达式不完整;b:使用括号，将两个字符串括起来，中间换行即可，不用加逗号
 4.对字符串操作，“+”加法：连接字符串；“*”乘法：多倍连接字符串；不能使用减法和除法 
   
  >>> a='first'\
   'second'		#使用反斜杠跨行
>>> a
'firstsecond'

'very' + 'very' + 'very'
'very' * 3 
  输出字符串 
   
   print '逗号隔开'，'能够连着一行输出去'“，”告诉python不要再行尾输出换行符 
   
  访问单个字符 
   
   1.从0开始，长度为1的字符串，用索引符号[]调用，
 2.超出索引范围，出错
 3.字符串的负数索引，-1为最后一个字符的索引，-2，-3，...对应着过去，
 4.计数单个字符。将所有字符小写，忽略掉大小写，并过滤掉非字母字符 
   
  import nltk
from nltk.corpus import gutenberg
raw=gutenberg.raw('melville-moby_dick.txt')
fdist=nltk.FreqDist(ch.lower() for ch in raw if ch.isalpha())
print fdist.keys()	#出现频率最高排在最先的顺序显示出英文字母
print fdist.values()	#fdist如同key-value一般，调用keys和values方法，能够显示对应的字符情况
fdist.plot()		#可视化输出
'''运行结果：
[u'e', u't', u'a', u'o', u'n', u'i', u's', u'h', u'r', u'l', u'd', u'u', u'm', u'c', u'w', u'f', u'g', u'p', u'b', u'y', u'v', 

u'k', u'q', u'j', u'x', u'z']
[117092, 87996, 77916, 69326, 65617, 65434, 64231, 62896, 52134, 42793, 38219, 26697, 23277, 22507, 22222, 20833, 20820, 

17255, 16877, 16872, 8598, 8059, 1556, 1082, 1030, 632]
图略''' 
  访问子字符串
 
   
   1.使用切片，开始于第一个索引，结束于最后一个索引的前一个。注意，最后索引的前一个
 2.负数索引切片，-1为最后一个，-2，-3...推算过去
 3.省略：第一个值，即从字符串开头开始；第二个值，切到字符结尾结束；
 4.in操作符：测试一个字符串是否包含一个特定的子字符串
 5.find()函数操作：子字符串在字符串内的位置；从开头到找到的第一个位置.（若是第二个怎么算？）
 6.rfind()函数，从末尾开始查找，同findd().只是开始位置相反而已。
 
   
  monty='Monty Python'
monty[6:10]
monty[-12:-7]
phrase = 'And now for something completely different'
if 'thing' in phrase:
    print '''find "thing"''' 
  更多的字符串操作 
   help(str)可以找到所有的有关函数 
     
   
    
     
     
    
    
     
     方法 
     功能 
     
     
     s.find(t) 
     字符串s 中包含t 的第一个索引（没找到返回-1） 
     
     
     s.rfind(t) 
     字符串s 中包含t 的最后一个索引（没找到返回-1） 
     
     
     s.index(t) 
     与s.find(t)功能类似，但没找到时引起ValueError 
     
     
     s.rindex(t) 
     与s.rfind(t)功能类似，但没找到时引起ValueError 
     
     
     s.join(text) 
     连接字符串s 与text 中的词汇 
     
     
     s.split(t) 
     在所有找到t 的位置将s 分割成链表（默认为空白符） 
     
     
     s.splitlines() 
     将s 按行分割成字符串链表 
     
     
     s.lower() 
     将字符串s 小写 
     
     
     s.upper() 
     将字符串s 大写 
     
     
     s.titlecase() 
     将字符串s 首字母大写 
     
     
     s.strip() 
     返回一个没有首尾空白字符的s 的拷贝 
     
     
     s.replace(t, u) 
     用u 替换s 中的t 
     
    
   
  链表与字符串的差异 
   
   1.字符串和链表之间不能连接
 2.我们使用一个for 循环来处理读入文件（对应的文件内容对应一个字符串），所有我们可以挑选出的只是单个的字符——我们不选择粒度；链表中的元素可以很大也可以很小，它们可能是段落、句子、短语、单词、字符。链表的优势在于我们可以灵活的决定它包含的元素，相应的后续的处理也变得灵活
 3.我们在一段NLP 代码中可能做的第一件事情就是将一个字符串分词放入一个字符；当我们要将结果写入到一个文件或终端，我们通常会将它们格式化为一个字符串
 4.字符串是不可改变的：一旦你创建了一个字符串，就不能改变它。链表是可变的，内容可以随时修改
 
   
   3.3 使用 Unicode 进行文字处理 
  什么是 Unicode？ 
   
   编码点：每个字符分配一个编号；python中编码点写作\uXXXX 的形式，其中XXXX 是四位十六进制形式数。
 字节流：
 解码：将文本翻译成Unicode——翻译成Unicode
 编码：将Unicode 转化为其它编码的过程
 Unicode的角度看字符：，字符是可以实现一个或多个字形的抽象的实体。只有字形可以出现在屏幕上或被打印在纸上。一个字体是一个字符到字形映射。 
   
   
  Unicode 的解码和编码 
  从文件中提取已编码文本 
   
   nltk.data.find()函数：定位文件 
   
  import nltk
path = nltk.data.find('corpora/unicode_samples/polish-lat2.txt') 
   
   codecs模块：提供了将编码数据读入为Unicode 字符串和将Unicode 字符串以编码形式写出的函数。
 codecs.open()函数：encoding 参数来指定被读取或写入的文件的编码。
 unicode_escape编码：Python的一个虚拟的编码；把所有非ASCII 字符转换成它们的\uXXXX 形式。 
   
  path = nltk.data.find('corpora/unicode_samples/polish-lat2.txt')
f=codecs.open(path,encoding='latin2')
#print f
#似乎调用出错，还是说没有将f读出来以Unicode返回

#f2=codecs.open(path,'w',encoding='utf-8')
#print f2
#文件对象f 读出的文本将以Unicode 返回
for line in f.readlines():
    line=line.strip()
    print line.encode('unicode_escape')
 
   
   Unicode 字符串常量：在字符串常量前面加一个u，
 ord()函数：查找一个字符的整数序列。如ord('a') 
   
  >>> a=u'\u0062'		#对其进行转义
>>> a
u'b'
>>> print a
b 
   
   print 语句：假设Unicode 字符的默认编码是ASCII 码。
 repr()函数：转化的字符串，输出utf-8转义序列（以\xXX的形式） 
   
  nacute = u'\u0144'
nacute_utf = nacute.encode('utf8')
print nacute
print repr(nacute_utf) 
   
   unicodedata模块：检查Unicode 字符的属性。 
   
  在 Python中使用本地编码 
   
   pass 
   
  3.4  使用正则表达式检测词组搭配 
  使用基本的元字符 
   
   美元符号$：用来匹配单词的末尾；
 乘方符号^：用来匹配单词的开始；
 符号“？”：表示前面的一个字符可选；
 通配符“.”:匹配任何单个字符。 
   «^e-?mail $»将匹配email 和e-mail
 例1：查找以ed结尾的词汇，《ed$》
 例2：假设我们有一个8 个字母组成的词的字谜室，j 是其第三个字母，t 是其第六个字母。
 例3：计数一个文本中出现email 或e-mail的次数， 
   
  import re,nltk
wordlist = [w for w in nltk.corpus.words.words('en') if w.islower()]

print [w for w in wordlist if re.search('ed$',w)]
print [w for w in wordlist if re.search('^..j..t..$',w)]
print sum(1 for w in text if re.search('^e-? mail$',w))
#用IDLE运行有点慢，直接用命令窗口的话，更快。。。 
  范围与闭包 
   
   手机输入法联想提示：例如，hole 和golf 都是通过输入序列4653。 
   
   
  T9：9 个键上的文字 
   
   闭包：+、*
 “+”：前面的项目的一个或多个实例
 “*”：前面的项目的零个或多个实例
 “^”：出现在方括号内的第一个字符位置 
   查找非元音字母组成的词汇：«^[^aeiouAEIOU]+$»
 例1：按键4653，产生哪些相同的序列单词？ 
   
  [w for w in wordlist if re.search('^[ghi][mno][jlk][def]$',w)]	
#以g或者h或者i开头，以d或者e或者f结尾的，并且第二个字符是m,n,o中的一个，第三个字符是j,l,k中的一个
 
   
   例2：“+”符号的使用 
   
  chat_words = sorted(set(w for w in nltk.corpus.nps_chat.words()))
print [w for w in chat_words if re.search('^m+i+n+e+$', w)]	#1个或者多个m,i,n,e，并且以m开头，e结尾
print [w for w in chat_words if re.search('^[ha]+$', w)]	#以ha开头，并且有1一个或者多个ha,
'''
[u'miiiiiiiiiiiiinnnnnnnnnnneeeeeeeeee', u'miiiiiinnnnnnnnnneeeeeeee', u'mine', u'mmmmmmmmiiiiiiiiinnnnnnnnneeeeeeee']
[u'a', u'aaaaaaaaaaaaaaaaa', u'aaahhhh', u'ah', u'ahah', u'ahahah', u'ahh', u'ahhahahaha', u'ahhh', u'ahhhh', u'ahhhhhh', 

u'ahhhhhhhhhhhhhh', u'h', u'ha', u'haaa', u'hah', u'haha', u'hahaaa', u'hahah', u'hahaha', u'hahahaa', u'hahahah', u'hahahaha', 

u'hahahahaaa', u'hahahahahaha', u'hahahahahahaha', u'hahahahahahahahahahahahahahahaha', u'hahahhahah', u'hahhahahaha']
'''
wsj = sorted(set(nltk.corpus.treebank.words()))
print [w for w in wsj if re.search('^[0-9]+\.[0-9]+$',w)]	#任何带小数点的符号数
print [w for w in wsj if re.search('^[A-Z]+\$$',w)]		#以$结尾，前面有1个或者多个大写字母
print [w for w in wsj if re.search('^[0-9]{4}$',w)]		#XXXX年
print [w for w in wsj if re.search('^[0-9]+-[a-z]{3,5}$',w)]	#['10-day', '10-lap', '10-year', '100-share', '12-point', '12-year', ...]
print [w for w in wsj if re.search('^[a-z]{5,}-[a-z]{2,3}-[a-z]{,6}$',w)]
#['black-and-white', 'bread-and-butter', 'father-in-law', 'machine-gun-toting','savings-and-loan']
print [w for w in wsj if re.search('(ed|ing)$',w)]		#以ed或者ing结尾的单词或者符号 
   
   “\.”：匹配一个句号。
 大括号表达：如{3,5}，表示前面的项目重复指定次数。
 管道字符：从其左边的内容和右边的内容中选择一个。
 圆括号：表示一个操作符的范围，它们可以与管道（或叫析取）符号一起使用，如：«w(i|e|ai|oo)t»，匹配wit、wet、wait 和woot。 
   
  表：正则表达式基本元字符，其中包括通配符，范围和闭包 
    
   
    
     
     
    
    
     
      操作符
  
      行为
  
     
     
      ·
  
      通配符，匹配所有字符
  
     
     
      ^abc
  
      匹配以abc 开始的字符串
  
     
     
      abc$
  
      匹配以abc 结尾的字符串
  
     
     
      [abc]
  
      匹配字符集合中的一个
  
     
     
      [A-Z0-9]
  
      匹配字符一个范围
  
     
     
      ed|ing|s
  
      匹配指定的一个字符串（析取）
  
     
     
      *
  
      前面的项目零个或多个，如a*, [a-z]* (也叫Kleene 闭包)
  
     
     
      +
  
      前面的项目1 个或多个，如a+, [a-z]+
  
     
     
      ?
  
      前面的项目零个或1 个（即：可选）如：a?, [a-z]?
  
     
     
      {n}
  
      重复n 次，n 为非负整数
  
     
     
      {n,}
  
      至少重复n 次
  
     
     
      {,n}
  
      重复不多于n 次
  
     
     
      {m,n}
  
      至少重复m 次不多于n 次
  
     
     
      a(b|c)+
  
      括号表示操作符的范围
  
     
    
   
   
   原始字符串：前缀"r";例如：原始字符串r'\band\b'包含两个“\b”符号会被re 库解释为匹配词的边界而不是解释为退格字符。 
   
  3.5 正则表达式的有益应用
 提取字符块

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
怎么起诉借钱不还的人？怎样起诉欠款不还的人？影子爱学习
怎么起诉借钱不还的人？怎样起诉欠款不还的人？如果遇到难以解决的法律问题，我们可以匹配专业律师。例如：婚姻家庭（离婚纠纷）、刑事辩护、合同纠纷、债权债务、房产（继承）纠纷、交通事故、劳动争议、人身损害、公司相关法律事务（法律顾问）等咨询推荐手机/微信:15633770876【全国案件皆可】借钱不还起诉对方需要哪些资料起诉欠钱不还的，一般需要的材料包括以下这些：借据、收据、欠条、付款凭证等证据，以及向
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
春季养肝正当时 dxn悟
重温快乐2023年2月4日立春。春天来了，春暖花开，小鸟欢唱，那在这样的季节我们如何养肝呢？自然界的春季对应中医五行的木，人体五脏肝属木，“木曰曲直”，是以树干曲曲直直地向上、向外伸长舒展的生发姿态，来形容具有生长、升发、条达、舒畅等特征的食物及现象。根据中医天人相应的理念，肝五行属木，喜条达，主疏泄，与春天相应，所以春天最适合养肝。养肝首先要少生气，因为肝喜条达恶抑郁。人体五志肝为怒，生气发怒最
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
CX8836：小体积大功率升降压方案推荐（附Demo设计指南）诚芯微科技社交电子
CX8836是一颗同步四开关单向升降压控制器，在4.5V-40V宽输入电压范围内稳定工作，持续负载电流10A，能够在输入高于或低于输出电压时稳定调节输出电压，可适用于USBPD快充、车载充电器、HUB、汽车启停系统、工业PC电源等多种升降压应用场合，为大功率TYPE-CPD车载充电器提供最优解决方案。提供CX8836Demo测试、CX8836样品申请及CX8836方案开发技术支持。CX8836同升
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Rust基础知识 GRKF15 rust 开发语言后端
1.Rust语言简介1.1基础语法变量声明：let关键字用于声明变量，可以指定或不指定类型，如leta=10;和letmutc=30i32;。函数定义：使用fn关键字定义函数，并指定参数类型及返回类型，如fnadd(i:i32,j:i32)->i32{i+j}。控制流：包括if、else等，控制语句后需要使用;来结束语句。1.2数据类型整数类型：i8、i16、i32、i64、i128，以及无符号的
2019-11-04复盘——飞来山上千寻塔，闻说鸡鸣见日升。那一叶秋
1、大盘篇先上老图，看习惯了，也就知道走势了图1上证指数日线图还是那张老图，自己可以在自己的相关软件上画出来，快变盘了。2、个股篇未加仓、未减仓。分析量能的时候，突然发现这么一个东西：“放量突破年线，缩量回调。”合众科技日线图其实，最近的N只个股，在技术分析上，都到了变盘的临界时候。结合这么久的走势，特别是ZJH不断放开IPO的申请，本质上说是融资难度变大，或者说是为企业的融资开创便利。但现在市场
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
简介Shell、zsh、bash zhaosuningsn Shell zsh bash shell linux bash
Shell是Linux和Unix的外壳，类似衣服，负责外界与Linux和Unix内核的交互联系。例如接收终端用户及各种应用程序的命令，把接收的命令翻译成内核能理解的语言，传递给内核，并把内核处理接收的命令的结果返回给外界，即Shell是外界和内核沟通的桥梁或大门。Linux和Unix提供了多种Shell，其中有种bash，当然还有其他好多种。Mac电脑中不但有bash，还有一个zsh，预装的，据说
舜公郑金锋书辛丑自剪扇面书法作品（四O六）舜公郑金锋
辛丑小阳春，新自剪扇面400品，大多为各色撒金、撒银、描金、描银、水印、彩绘、荧光等亚粉、色宣纸，以及域外包装填充纸等；王一品长锋羊毫秃笔；一得阁云头艳墨、宿墨、水等。书体有甲骨文，金文(商周金文、春秋战国金文、中山王厝器金文、汉金文……)，楚简帛书，侯马盟书，温县盟书，小篆，果蝙书等，隶书(秦简、汉简帛书、汉碑……)，草书(章草、小草、大草……)，行书(行楷、行草)，楷书(魏碑及北朝墓志、隋朝墓
在Ubuntu中编译含有JSON的文件出现报错芝麻糊76 Linux kill_bug linux ubuntu json
在ubuntu中进行JSON相关学习的时候，我发现了一些小问题，决定与大家进行分享，减少踩坑时候出现不必要的时间耗费截取部分含有JSON部分的代码进行展示char*str="{\"title\":\"JSONExample\",\"author\":{\"name\":\"JohnDoe\",\"age\":35,\"isVerified\":true},\"tags\":[\"json\",\"
4招写出高价值文章 zhiliner
文章写得泛泛是因为思考得不够深，思考得越深文章会越有价值。拿到一个主题一定要去深入挖掘事件背后的东西，比如人物困境以及趋势性的东西。写作过程中有几个深度思考的方法一、解剖，让旧素材焕发新意作为一个写作者，我们能够做的最大贡献，就是给出自己看世界的角度。解剖其实就是把这个话题相关的信息都列出来，详细的列出来，看清楚它的内部。我们看到一个老话题或者一段旧素材的时候，不要只看这个素材或者话题本身，一定要
【从浅识到熟知Linux】Linux发展史 Jammingpro 从浅学到熟知Linux linux 运维服务器
归属专栏：从浅学到熟知Linux个人主页：Jammingpro每日努力一点点，技术变化看得见文章前言：本篇文章记录Linux发展的历史，因在介绍Linux过程中涉及的其他操作系统及人物，本文对相关内容也有所介绍。文章目录Unix发展史Linux发展史开源Linux官网企业应用情况发行版本在学习Linux前，我们可能都会问Linux从哪里来？它是如何发展的。但在介绍Linux之前，需要先介绍一下Un
2023-08-08 2023梦启支教团张牧泽
学汉字历史，行传统书法——中国矿业大学梦启支教团梦启三班开展书法文化课7月20日上午8时，中国矿业大学梦启支教团在贵州省金沙县西洛街道彩虹小学开展了“书法文化”课程。该课程意在向孩子们传授汉字演变的相关知识，围绕书法发展历史讲解不同时期的字形字体特点。此课程由梦启支教团成员王耀民讲授，梦启三班全体成员参加。中国文字的发展有数千年的历史，从早期雏形的象形文字到殷商时期的甲骨文、金文，再到西周、秦朝的
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

方法	功能
s.find(t)	字符串s 中包含t 的第一个索引（没找到返回-1）
s.rfind(t)	字符串s 中包含t 的最后一个索引（没找到返回-1）
s.index(t)	与s.find(t)功能类似，但没找到时引起ValueError
s.rindex(t)	与s.rfind(t)功能类似，但没找到时引起ValueError
s.join(text)	连接字符串s 与text 中的词汇
s.split(t)	在所有找到t 的位置将s 分割成链表（默认为空白符）
s.splitlines()	将s 按行分割成字符串链表
s.lower()	将字符串s 小写
s.upper()	将字符串s 大写
s.titlecase()	将字符串s 首字母大写
s.strip()	返回一个没有首尾空白字符的s 的拷贝
s.replace(t, u)	用u 替换s 中的t

操作符	行为
·	通配符，匹配所有字符
^abc	匹配以abc 开始的字符串
abc$	匹配以abc 结尾的字符串
[abc]	匹配字符集合中的一个
[A-Z0-9]	匹配字符一个范围
ed\|ing\|s	匹配指定的一个字符串（析取）
*	前面的项目零个或多个，如a, [a-z] (也叫Kleene 闭包)
+	前面的项目1 个或多个，如a+, [a-z]+
?	前面的项目零个或1 个（即：可选）如：a?, [a-z]?
{n}	重复n 次，n 为非负整数
{n,}	至少重复n 次
{,n}	重复不多于n 次
{m,n}	至少重复m 次不多于n 次
a(b\|c)+	括号表示操作符的范围

《python自然语言处理》笔记---chap3加工原料文本

你可能感兴趣的:(python自然语言处理及相关)