u010454729

《python自然语言处理》笔记---chap3加工原料文本

chap3中关于，NLP中的关键概念，包括分词和词干提取。字符串、文件、正则表达式、去除HTML标签

以下所有程序，默认导入包

import nltk,re,pprint     #即，nltk包，正则表达式re包，输出pprint包

3.1 从网络和硬盘访问文本
电子书

http://www.gutenberg.org/files/2554/2554.txt，古腾堡项目编号2554的文本：《罪与罚》的英文翻译

#coding:utf-8
import nltk

from urllib import urlopen
url = "http://www.gutenberg.org/files/2554/2554.txt"
raw=urlopen(url).read()

print type(raw) #文本的类型
print len(raw)  #文本长度
print raw[:75]  #文本前75个字符，不要直接打印出raw,太长了

#使用代理访问：
#proxies={'http':'http://www.someproxy.com:3128'}
#raw=urlopen(url,proxies=proxies).read()

分词：将字符串分解为词和标点符号；经过分词，产生一个词汇和标点符号的链表

tokens=nltk.word_tokenize(raw)
print type(tokens)
print len(tokens)
print tokens[:10]
#从链表创建一个NLTK文本，对其进行操作
text=nltk.Text(tokens)
print type(text)
print text[:10]     #text似乎同tokens没什么区别？
#print text.collocations()

古腾堡项目的每个文本：包含一个首部，涵盖了文本的名称、作者、扫描和校对文本的人的名字、许可证等信息。手工检查文件以发现标记内容开始和结尾的独特的字
符串。

print raw.find("PART I")
print raw.rfind("End of Project Gutenberg's Crime")   #逆向查找
#重新复制，将从"PART I"到"End of Project Gutenberg's Crime"部分截下来，赋给raw
raw=raw[raw.find("PART I"):raw.rfind("End of Project Gutenberg's Crime")]

处理的HTML

HTML全部内容包括：meta元标签、图像标签、map标签、JavaScript、表单和表格。
提取文本：clean_html()将HTML字符串作为参数，返回原始文本，然后对原始文本进行分词，活得熟悉的文本结构

#coding:utf-8
import nltk

from urllib import urlopen
url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = urlopen(url).read()
print html[:60]
#'<!doctype html public "-//W3C//DTD HTML 4.0 Transitional//EN'
#html=html[:60]
raw = nltk.clean_html(html)
tokens = nltk.word_tokenize(raw)
tokens=tokens[96:399]
text=nltk.Text(tokens)
print text.concodance('gene')
'''
使用clean_html()函数出错:
raise NotImplementedError ("To remove HTML markup, use BeautifulSoup's get_text() function")
NotImplementedError: To remove HTML markup, use BeautifulSoup's get_text() function

根据官方网站：介绍http://www.nltk.org/_modules/nltk/util.html
def clean_html(html):
    raise NotImplementedError ("To remove HTML markup, use BeautifulSoup's get_text() function")
[docs]def clean_url(url):
    raise NotImplementedError ("To remove HTML markup, use BeautifulSoup's get_text() function")
网站：http://stackoverflow.com/questions/10524387/beautifulsoup-get-text-does-not-strip-all-tags-and-javascript介绍：
以后的版本，似乎不支持clean_html()和clean_url()这两个函数
Support for clean_html and clean_url will be dropped for future versions of nltk. Please use BeautifulSoup for now...it's very unfortunate.
'''

通过尝试，找到内容索引的开始和结尾，并选择你感兴趣的标识符，初始化一个文本。
更多更复杂的有关处理HTML 的内容，可以使用http://www.crummy.com/software/BeautifulSoup/上的Beautiful Soup 软件包。
处理搜索引擎的结果

搜索引擎的主要优势是规模

读取本地文件

open()函数：
f=open(r'D:\test.txt') #注意格式，文件路径前面用个r，或者对文件路径里面的符号进行转义
raw=f.read()

#按行读出
for line in f:
 print line.strip()#去掉换行符
#nltk语料库中的文件，使用nltk.data.find()函数
path = nltk.data.find('corpora/gutenberg/melville-moby_dick.txt')
raw = open(path, 'rU').read()

从 PDF、MS Word 及其他二进制格式中提取文本

打开PDF和MSWord，用第三方函数库如pypdf和pywin32,

捕获用户输入

输入函数：raw_input("")
输出函数：print

NLP 的流程

处理流程：打开一个URL，读里面HTML 格式的内容，去除标记，并选择字符的切
片，然后分词，是否转换为nltk.Text 对象是可选择的。我们也可以将所有词汇小写并提取词汇表。

一个对象的类型决定了它可以执行哪些操作，如可以追加元素到一个链表，但是不能追加元素到一个字符串

可以用加号，连接字符串与字符串，但是不能连接字符串与链表

3.2 字符串：最底层的文本处理

字符串的基本操作

1.字符串中包含单引号，需要用"\"转义
2.可用单引号，双引号，三重引号来指定字符串，其中的区别，见博客
3.字符串跨好几行，a:使用反斜杠"\"，解释器就知道第一行的表达式不完整;b:使用括号，将两个字符串括起来，中间换行即可，不用加逗号
4.对字符串操作，“+”加法：连接字符串；“*”乘法：多倍连接字符串；不能使用减法和除法

>>> a='first'\
   'second'		#使用反斜杠跨行
>>> a
'firstsecond'

'very' + 'very' + 'very'
'very' * 3

输出字符串

print '逗号隔开'，'能够连着一行输出去'“，”告诉python不要再行尾输出换行符

访问单个字符

1.从0开始，长度为1的字符串，用索引符号[]调用，
2.超出索引范围，出错
3.字符串的负数索引，-1为最后一个字符的索引，-2，-3，...对应着过去，
4.计数单个字符。将所有字符小写，忽略掉大小写，并过滤掉非字母字符

import nltk
from nltk.corpus import gutenberg
raw=gutenberg.raw('melville-moby_dick.txt')
fdist=nltk.FreqDist(ch.lower() for ch in raw if ch.isalpha())
print fdist.keys()	#出现频率最高排在最先的顺序显示出英文字母
print fdist.values()	#fdist如同key-value一般，调用keys和values方法，能够显示对应的字符情况
fdist.plot()		#可视化输出
'''运行结果：
[u'e', u't', u'a', u'o', u'n', u'i', u's', u'h', u'r', u'l', u'd', u'u', u'm', u'c', u'w', u'f', u'g', u'p', u'b', u'y', u'v', 

u'k', u'q', u'j', u'x', u'z']
[117092, 87996, 77916, 69326, 65617, 65434, 64231, 62896, 52134, 42793, 38219, 26697, 23277, 22507, 22222, 20833, 20820, 

17255, 16877, 16872, 8598, 8059, 1556, 1082, 1030, 632]
图略'''

访问子字符串

1.使用切片，开始于第一个索引，结束于最后一个索引的前一个。注意，最后索引的前一个
2.负数索引切片，-1为最后一个，-2，-3...推算过去
3.省略：第一个值，即从字符串开头开始；第二个值，切到字符结尾结束；
4.in操作符：测试一个字符串是否包含一个特定的子字符串
5.find()函数操作：子字符串在字符串内的位置；从开头到找到的第一个位置.（若是第二个怎么算？）
6.rfind()函数，从末尾开始查找，同findd().只是开始位置相反而已。

monty='Monty Python'
monty[6:10]
monty[-12:-7]
phrase = 'And now for something completely different'
if 'thing' in phrase:
    print '''find "thing"'''

更多的字符串操作

help(str)可以找到所有的有关函数

方法	功能
s.find(t)	字符串s 中包含t 的第一个索引（没找到返回-1）
s.rfind(t)	字符串s 中包含t 的最后一个索引（没找到返回-1）
s.index(t)	与s.find(t)功能类似，但没找到时引起ValueError
s.rindex(t)	与s.rfind(t)功能类似，但没找到时引起ValueError
s.join(text)	连接字符串s 与text 中的词汇
s.split(t)	在所有找到t 的位置将s 分割成链表（默认为空白符）
s.splitlines()	将s 按行分割成字符串链表
s.lower()	将字符串s 小写
s.upper()	将字符串s 大写
s.titlecase()	将字符串s 首字母大写
s.strip()	返回一个没有首尾空白字符的s 的拷贝
s.replace(t, u)	用u 替换s 中的t

链表与字符串的差异

1.字符串和链表之间不能连接
2.我们使用一个for 循环来处理读入文件（对应的文件内容对应一个字符串），所有我们可以挑选出的只是单个的字符——我们不选择粒度；链表中的元素可以很大也可以很小，它们可能是段落、句子、短语、单词、字符。链表的优势在于我们可以灵活的决定它包含的元素，相应的后续的处理也变得灵活
3.我们在一段NLP 代码中可能做的第一件事情就是将一个字符串分词放入一个字符；当我们要将结果写入到一个文件或终端，我们通常会将它们格式化为一个字符串
4.字符串是不可改变的：一旦你创建了一个字符串，就不能改变它。链表是可变的，内容可以随时修改

3.3 使用 Unicode 进行文字处理

什么是 Unicode？

编码点：每个字符分配一个编号；python中编码点写作\uXXXX 的形式，其中XXXX 是四位十六进制形式数。
字节流：
解码：将文本翻译成Unicode——翻译成Unicode
编码：将Unicode 转化为其它编码的过程
Unicode的角度看字符：，字符是可以实现一个或多个字形的抽象的实体。只有字形可以出现在屏幕上或被打印在纸上。一个字体是一个字符到字形映射。

Unicode 的解码和编码

从文件中提取已编码文本

nltk.data.find()函数：定位文件

import nltk
path = nltk.data.find('corpora/unicode_samples/polish-lat2.txt')

codecs模块：提供了将编码数据读入为Unicode 字符串和将Unicode 字符串以编码形式写出的函数。
codecs.open()函数：encoding 参数来指定被读取或写入的文件的编码。
unicode_escape编码：Python的一个虚拟的编码；把所有非ASCII 字符转换成它们的\uXXXX 形式。

path = nltk.data.find('corpora/unicode_samples/polish-lat2.txt')
f=codecs.open(path,encoding='latin2')
#print f
#似乎调用出错，还是说没有将f读出来以Unicode返回

#f2=codecs.open(path,'w',encoding='utf-8')
#print f2
#文件对象f 读出的文本将以Unicode 返回
for line in f.readlines():
    line=line.strip()
    print line.encode('unicode_escape')

Unicode 字符串常量：在字符串常量前面加一个u，
ord()函数：查找一个字符的整数序列。如ord('a')

>>> a=u'\u0062'		#对其进行转义
>>> a
u'b'
>>> print a
b

print 语句：假设Unicode 字符的默认编码是ASCII 码。
repr()函数：转化的字符串，输出utf-8转义序列（以\xXX的形式）

nacute = u'\u0144'
nacute_utf = nacute.encode('utf8')
print nacute
print repr(nacute_utf)

unicodedata模块：检查Unicode 字符的属性。

在 Python中使用本地编码

pass

3.4 使用正则表达式检测词组搭配

使用基本的元字符

美元符号$：用来匹配单词的末尾；
乘方符号^：用来匹配单词的开始；
符号“？”：表示前面的一个字符可选；
通配符“.”:匹配任何单个字符。

«^e-?mail $»将匹配email 和e-mail
例1：查找以ed结尾的词汇，《ed$》
例2：假设我们有一个8 个字母组成的词的字谜室，j 是其第三个字母，t 是其第六个字母。
例3：计数一个文本中出现email 或e-mail的次数，

import re,nltk
wordlist = [w for w in nltk.corpus.words.words('en') if w.islower()]

print [w for w in wordlist if re.search('ed$',w)]
print [w for w in wordlist if re.search('^..j..t..$',w)]
print sum(1 for w in text if re.search('^e-? mail$',w))
#用IDLE运行有点慢，直接用命令窗口的话，更快。。。

范围与闭包

手机输入法联想提示：例如，hole 和golf 都是通过输入序列4653。

T9：9 个键上的文字

闭包：+、*
“+”：前面的项目的一个或多个实例
“*”：前面的项目的零个或多个实例
“^”：出现在方括号内的第一个字符位置

查找非元音字母组成的词汇：«^[^aeiouAEIOU]+$»
例1：按键4653，产生哪些相同的序列单词？

[w for w in wordlist if re.search('^[ghi][mno][jlk][def]$',w)]	
#以g或者h或者i开头，以d或者e或者f结尾的，并且第二个字符是m,n,o中的一个，第三个字符是j,l,k中的一个

例2：“+”符号的使用

chat_words = sorted(set(w for w in nltk.corpus.nps_chat.words()))
print [w for w in chat_words if re.search('^m+i+n+e+$', w)]	#1个或者多个m,i,n,e，并且以m开头，e结尾
print [w for w in chat_words if re.search('^[ha]+$', w)]	#以ha开头，并且有1一个或者多个ha,
'''
[u'miiiiiiiiiiiiinnnnnnnnnnneeeeeeeeee', u'miiiiiinnnnnnnnnneeeeeeee', u'mine', u'mmmmmmmmiiiiiiiiinnnnnnnnneeeeeeee']
[u'a', u'aaaaaaaaaaaaaaaaa', u'aaahhhh', u'ah', u'ahah', u'ahahah', u'ahh', u'ahhahahaha', u'ahhh', u'ahhhh', u'ahhhhhh', 

u'ahhhhhhhhhhhhhh', u'h', u'ha', u'haaa', u'hah', u'haha', u'hahaaa', u'hahah', u'hahaha', u'hahahaa', u'hahahah', u'hahahaha', 

u'hahahahaaa', u'hahahahahaha', u'hahahahahahaha', u'hahahahahahahahahahahahahahahaha', u'hahahhahah', u'hahhahahaha']
'''
wsj = sorted(set(nltk.corpus.treebank.words()))
print [w for w in wsj if re.search('^[0-9]+\.[0-9]+$',w)]	#任何带小数点的符号数
print [w for w in wsj if re.search('^[A-Z]+\$$',w)]		#以$结尾，前面有1个或者多个大写字母
print [w for w in wsj if re.search('^[0-9]{4}$',w)]		#XXXX年
print [w for w in wsj if re.search('^[0-9]+-[a-z]{3,5}$',w)]	#['10-day', '10-lap', '10-year', '100-share', '12-point', '12-year', ...]
print [w for w in wsj if re.search('^[a-z]{5,}-[a-z]{2,3}-[a-z]{,6}$',w)]
#['black-and-white', 'bread-and-butter', 'father-in-law', 'machine-gun-toting','savings-and-loan']
print [w for w in wsj if re.search('(ed|ing)$',w)]		#以ed或者ing结尾的单词或者符号

“\.”：匹配一个句号。
大括号表达：如{3,5}，表示前面的项目重复指定次数。
管道字符：从其左边的内容和右边的内容中选择一个。
圆括号：表示一个操作符的范围，它们可以与管道（或叫析取）符号一起使用，如：«w(i|e|ai|oo)t»，匹配wit、wet、wait 和woot。

表：正则表达式基本元字符，其中包括通配符，范围和闭包

操作符	行为
·	通配符，匹配所有字符
^abc	匹配以abc 开始的字符串
abc$	匹配以abc 结尾的字符串
[abc]	匹配字符集合中的一个
[A-Z0-9]	匹配字符一个范围
ed\|ing\|s	匹配指定的一个字符串（析取）
*	前面的项目零个或多个，如a, [a-z] (也叫Kleene 闭包)
+	前面的项目1 个或多个，如a+, [a-z]+
?	前面的项目零个或1 个（即：可选）如：a?, [a-z]?
{n}	重复n 次，n 为非负整数
{n,}	至少重复n 次
{,n}	重复不多于n 次
{m,n}	至少重复m 次不多于n 次
a(b\|c)+	括号表示操作符的范围

原始字符串：前缀"r";例如：原始字符串r'\band\b'包含两个“\b”符号会被re 库解释为匹配词的边界而不是解释为退格字符。

3.5 正则表达式的有益应用
提取字符块

论文笔记-Contrastive Learning for Unpaired Image-to-Image Translation kingsleyluoxin 计算机视觉论文笔记深度学习 python 计算机视觉机器学习人工智能深度学习
论文信息标题：ContrastiveLearningforUnpairedImage-to-ImageTranslation作者：TaesungPark,AlexeiA.Efros,RichardZhang,Jun-YanZhu机构：UniversityofCalifornia,Berkeley;AdobeResearch代码链接https://github.com/taesungp/contra
React学习笔记20 充气大锤 React学习笔记学习笔记 javascript 前端算法开发语言 react.js
一、React.forward1.1、作用通过ref暴露子组件的DOM1.2、场景说明1.3、语法实现//子组件constInput=forwardRef((props,ref)=>{return})//父组件functionfather_component(){constinputRef=useRef(null)constfocus=(ref)=>{ref.current.focus()}ret
HTTPS通信（握手）过程 IT运维成长心得 https 网络协议
HTTPS通信（即超文本传输安全协议）的握手过程是确保通信双方安全交换数据的关键步骤。以下是HTTPS握手过程的详细步骤：客户端发起请求：客户端（通常是浏览器）向服务器发起HTTPS请求。服务器响应：服务器收到请求后，会回应一个数字证书。这个证书是由一个受信任的第三方（证书颁发机构，CA）签发的，包含了服务器的公钥、服务器信息以及CA的签名。客户端验证证书：客户端使用内置的CA证书库来验证服务器的
python反爬虫处理--处理验证码（Tesseract 库）的安装与使用范哥来了 python 爬虫开发语言
处理验证码是反爬虫策略中常见的挑战之一。在Python中，可以采用多种方法来解决这一问题，具体取决于验证码的类型（如文本、图像或滑块验证等）。以下是一些常用的解决方案：对于简单的文字或数字验证码：如果网站使用的是相对简单的验证码形式，您可以尝试使用OCR(OpticalCharacterRecognition,光学字符识别)技术来自动识别这些验证码。Python中有一个叫做Tesseract的库，
KV 缓存简介 dev.null AI 缓存
以下是关于KV缓存（Key-ValueCache）的简介，涵盖其定义、原理、作用及优化意义：1.什么是KV缓存？KV缓存是Transformer架构（如GPT、LLaMA等大模型）在自回归生成任务（如文本生成）中，用于加速推理过程的核心技术。其本质是：在生成序列时，缓存历史token的Key和Value矩阵，避免重复计算，从而显著减少计算量。2.为什么需要KV缓存？传统自注意力计算的问题在生成第t
Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结 dazhong2012 Hadoop hdfs hadoop
一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir#递归创建目录hadoopfs-mkdir-p删除操作#删除文件hadoopfs-rm#递归删除目录和文件hadoopfs-rm-R从本地加载文件到HDFS#二选一执行即可hadoopfs-p
程序员996写bug？这个AI工具让你头发越秃代码越香后端
凌晨三点的写字楼里，小王第18次按下F5刷新浏览器，控制台又跳出了新的报错信息。咖啡杯底的褐色痕迹在显示器蓝光下格外刺眼，他突然想起入职时主管说的"程序员越秃越强"，摸了摸发际线苦笑——原来这句话的潜台词是"用头发换代码"啊。直到上个月团建时，我发现隔壁工位的老张居然在团建现场掏出笔记本写代码。凑近一看，他正在用DeepSeek的智能提示功能自动补全单元测试。更气人的是，这厮今年居然还长出了新发茬
第十天-字符串：编程世界的文本基石大橙子房 ai python java
在编程的广阔领域中，字符串是极为重要的数据类型，它就像一座桥梁，连接着人类的自然语言和计算机能够理解与处理的数字信息。下面，让我们深入探索字符串的世界。一、字符串简介字符串是由零个或多个字符组成的有序序列，它在程序中用于表示文本信息。在Python语言环境下，创建字符串简洁直观，例如：str="HelloWorld"。这里，str作为字符串变量名，就如同给一个装着文本内容的盒子贴上了标签；Hell
使用LoRA微调LLaMA3 想胖的壮壮深度学习人工智能
使用LoRA微调LLaMA3的案例案例概述在这个案例中，我们将使用LoRA微调LLaMA3模型，进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。importtor
Ai斗地主智能出牌算法 zzzzzzzzzzzw___ ——灌水算法人工智能斗地主
去年有想写个斗地主的小游戏，自己玩玩。找了很多资料，后来好不容易在网上找到了一个AI算法。转过的的时候是贴在自己电脑的TXT文本上，再次感谢下原作者。现在借花献佛发给你参考下。我以前写过一个斗地主机器人。思路如下，希望对你有帮助。斗地主AI设计一、牌型1火箭：大小王在一起的牌型，即双王牌，此牌型最大，什么牌型都可以打。2炸弹：相同点数的四张牌在一起的牌型，比如四条A。除火箭外，它可以打任何牌型，炸
文件的输出与读写 2.0 大力水手偷吃菠菜变成米老鼠 c语言
一、文章内容概述（一）知识要点文件操作函数概述：介绍了C语言中用于文件操作的一系列函数，这些函数是实现文件读写功能的基础工具。文件流概念定义与分类：FILE*stream这种定义方式包含了各种各样的流。流是一种用于在程序和外部设备（如文件、控制台、网络等）之间进行数据传输的抽象概念。具体类型文件流：用于读取与写入在磁盘上的文件。例如，通过文件流可以从硬盘上的文本文件中读取数据，并将其显示在程序中，
大型语言模型：让Python更聪明的秘密武器 qq_39605374 语言模型 python 数据库 Python
Python是一种广泛使用的编程语言，而大型语言模型则为Python开发者提供了一个强大的工具。大型语言模型可以理解人类语言，并生成具有逻辑和连贯性的文本。它能够回答用户的问题、提供解决方案，并帮助开发者提高他们的编程技能。让我们来探索一下如何使用大型语言模型作为Python编程的秘密武器。大型语言模型可以通过使用Python编写的API进行访问。下面是一个简单的示例，演示了如何使用Python与
C++学习笔记:函数重载及函数模板 etp_ c++学习笔记
函数重载默认参数能让你使用不同数目的参数调用同一个函数，而函数多态（函数重载）能让你使用多个同名函数。----一般完成类似的工作，但一定使用不同的参数列表（函数特征标）。下面定义一组原型如下的print()函数voidprint(constchar*str,intwidth);voidprint(doubled,intwidth);voidprint(longl,intwidth);编译器根据参数
自动生成二维码（根据文本内容）——CAD c#二次开发山水CAD筑梦人 CAD C#二次开发 c#数据库服务器
用户输入文本内容，运行插件生成二维码（jpg图片格式），扫码即可显示文本内容。※※※也可根据excel文件内容批量一键生成上万个二维码。※※※效果如下：首先需要引用库usingZXing;部分代码如下：publicclass二维码{internalstaticListtempFiles=newList();privatestaticPoint3dcurrentInsertPoint=newPoin
GPT-4o mini小型模型具备卓越的文本智能和多模态推理能力 FlowUs息流使用宝典 GPT-4o mini
GPT-4omini是首个应用OpenAI指令层次结构方法的模型，这有助于增强模型抵抗越狱、提示注入和系统提示提取的能力。这使得模型的响应更加可靠，并有助于在大规模应用中更安全地使用。GPT-4omini在学术基准测试中，无论是在文本智能还是多模态推理方面，都超越了GPT-3.5Turbo和其他小型模型，并支持与GPT-4o相同的语言范围。它在函数调用方面也表现出色，这使开发者能够构建应用程序来从
Dify知识库构建流程及示例 cqbelt ai 笔记 AI应用
总体流程1.数据预处理清洗：去除噪声、特殊字符、标准化格式。分词/标记化：拆分文本为单词或子词单元（如使用Tokenizer）。元数据关联：附加来源、时间戳等信息，支持多维度检索。2.文本分块固定长度分块：按字符或Token数切分，简单高效。语义分块：基于句子边界或主题分割（如NLP模型识别段落主旨）。重叠策略：相邻块间部分重叠，避免上下文断裂。3.向量化（Embedding）嵌入模型：调用预训练
Uni-app 笔记二 (项目笔记) 天籁晴空 #vue3 #TS #小程序--uni-app uni-app 笔记
/***@authorwn*@date2023/07/2610:14:15*@description:uniapp笔记*//*1安全区域屏幕去掉状态栏+刘海剩余展示内容的区域--可通过uni.getSystemInfoSync()获取屏幕上边界到安全区顶部的距离。safeAreaInsets={top:59,left:0,right:0,bottom:34}"navigationStyle":"c
Gymnasium学习笔记 songyuc gymnasium
1.Customwrapper[doc]1.1reset()方法重写说明重写函数模板：defreset(self,**kwargs):obs=super().reset(**kwargs)...returnobs1.1.1签名解释Deepseek-r1-Cursor:reset()方法的定义如下：defreset(self,*,seed=None,options=None):...注意参数前的星号
24B参数模型碾压gpt4o-mini！推理速度超快！vLLM本地部署Mistral-Small 3.1+全方位测试多模态大模型！超越Gemma3.1，最适合企业项目的大模型！中文OCR能力也不弱 AI超元域 ocr 人工智能 ai AI编程 aigc
本篇笔记所对应的视频https://www.bilibili.com/video/BV1Q9XLYiEwD/MistralAI最新推出的MistralSmall3.1模型无疑是近期科技界的一大亮点。这款由法国AI实验室MistralAI开发的开源多模态模型，以其卓越的性能和灵活性，为开发者、企业和研究人员带来了全新的可能性。凭借24B参数、对文本与图像的处理能力，以及在多个关键指标上的突破，Mis
JG/T 331-2011建筑幕墙用氟碳铝单板制品检测 Tongyongtest88 建筑材料检测铝单板检测氟碳铝单板检测检测报告
幕墙氟碳铝单板制品是指以铝合金板为基材，经加工成型，装饰面为氟碳涂层，用于建筑幕墙的单层板，按照涂装工艺的不同，分为辊涂和液体喷涂。JG/T331-2011建筑幕墙用氟碳铝单板制品检测项目：测试项目测试方法涂层厚度GB/T4957光泽度偏差GB/T9754涂层附着力GB/T9286铅笔硬度GB/T6739耐盐酸JG/T331耐硝酸JG/T331耐砂浆JG/T331耐溶剂JG/T331耐磨GB/T2
PHP前置知识-HTML学习 freesec html 学习前端
HTML学习1、因特网和万维网1.1、Internet因特网：全球资源的总汇，连接网络的网络1.2、TCP/IP协议簇：传输层/网络层协议1.3、万维网：www（worldwideweb）HTTP超文本传输协议作用：接受和发布HTMl页面URL统一资源定位符协议://域名:端口号/文件路径/文件名.文件后缀http://www.QQ.com.cn:80/tq/index.html1.4、W3C组织
《Operating System Concepts》阅读笔记：p359-p388 操作系统
《OperatingSystemConcepts》学习第32天，p359-p388总结，总计30页。一、技术总结1.paging(1)定义Acommonmemorymanagementschemethatavoidsexternalfragmentationbysplittingphysicalmemoryintofixed-sizedframesandlogicalmemoryintoblock
c语言编写字母解密,用c语言实现文本的加密及解密傅南台 c语言编写字母解密
编写程序，实现对文本的加密及解密。加密程序代码：#include"stdio.h"main(){charc;FILE*fp1,*fp2;fp1=fopen("yuanwen.txt","r");fp2=fopen("miwen.txt","w");do{fscanf(fp1,"%c",&c);if(c>=32&&c=32&&c<=126){c=126-c;c=c+32;}fprintf(fp2,"
力扣刷题笔记_动态规划爬楼梯问题 yma16 csp算法题目学习
题目描述假设你正在爬楼梯。需要n阶你才能到达楼顶。每次你可以爬1或2个台阶。你有多少种不同的方法可以爬到楼顶呢？注意：给定n是一个正整数。示例一输入：2输出：2解释：有两种方法可以爬到楼顶。方法一：1阶+1阶方法二：2阶示例二输入：3输出：3解释：有三种方法可以爬到楼顶。方法一：1阶+1阶+1阶方法二：1阶+2阶方法三：2阶+1阶动态规划它的最优解可以从其子问题的最优解来有效地构建。第i阶可以由以
使用 jQuery 实现一键复制功能几度泥的菜花 jquery 前端 javascript
在现代Web应用中，一键复制功能是一个常见的交互设计，能够显著提升用户体验。例如，在订单页面中，用户可以通过点击按钮快速复制订单号，避免了手动选择文本的繁琐操作。本文将详细讲解如何实现一键复制功能，并通过代码优化和用户体验改进，确保功能的稳定性和易用性。1.一键复制功能的核心逻辑一键复制功能的实现主要包括以下步骤：获取要复制的内容：从DOM元素中提取需要复制的文本。创建临时输入框：将文本放入一个临
《Operating System Concepts》阅读笔记：p389-p407 操作系统
《OperatingSystemConcepts》学习第33天，p389-p407总结，总计19页。一、技术总结1.virtualmemeory(1)定义Atechniquethatallowstheexecutionofaprocessthatisnotcompletelyinmemory.Also,separationofcomputermemoryaddressspacefromphysic
RNN及其变体 EmbodiedTech 人工智能大模型自然语言处理
第三章RNN及其变体1认识RNN模型【根据RNN内部结构，可以分为哪几类】定义循环神经网络：一般接受的一序列进行输入，输出也是一个序列作用和应用场景RNN擅长处理连续语言文本，机器翻译、文本生成、文本分类、摘要生成RNN模型的分类根据输入与输出结构NVsN:输入和输出等长，应用场景：对联生成；词性标注；NERNVs1:输入N，输出为单值，应用场景：文本分类1VsN:输入是一个，输出为N，应用场景：
Pytest项目_day01（HTTP接口）丿罗小黑 Pytest pytest http 网络协议
HTTPHTTP是一个协议（服务器传输超文本到浏览器的传送协议），是基于TCP/IP通信协议来传输数据（HTML文件，图片文件，查询结果等）。访问域名例如www.baidu.com就是百度的域名，我们想要访问百度，就需要使用DNS，来将www.baidu.com域名解析为ip地址。随后客户端向服务端发起TCP请求，三次握手进行连接，三次握手如下：客户端向服务端说：你准备好了吗，我要发送请求了服务端
一文带大家了解RARR（Retrieve-Read-Rerank）和 RAG（Retrieval-Augmented Generation）的区别测试开发Kevin AI相关人工智能 ai
RARR（Retrieve-Read-Rerank）和RAG（Retrieval-AugmentedGeneration）是两种不同的检索增强生成技术，核心差异在于流程设计、优化目标及适用场景。以下从多个维度对比两者的区别：1.流程架构与核心步骤RAG（检索增强生成）流程：检索（Retrieve）：从外部知识库中检索与查询相关的文档或文本片段。生成（Generate）：将检索到的内容与原始查询拼接
文件及其应用场景烈焰猩猩 python
文件及其应用场景一,文件的定义文件的概念内存中存放的数据在计算机关机后就会消失.要长久保存数据，就要使用硬盘、光盘、U盘等设备.为了便于数据的管理和检索，引入了"文件"的概念.一篇文章、一段视频、一个可执行程序，都可以被保存为一个文件，并赋予一个文件名。操作系统以文件为单位管理磁盘中的数据。一般来说，文件可分为文本文件、视频文件、音频文件、图像文件、可执行文件等多种类别.文件操作的作用在日常操作中
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

《python自然语言处理》笔记---chap3加工原料文本

你可能感兴趣的:(《python自然语言处理》笔记---chap3加工原料文本)