文盲老顾

在学习爬虫的路上，有多少坑在前边

前言
采集成功了，但是没有数据？
- 数据就在采集到的页面，并有正确的格式
- 数据就在采集到的页面，但提取的时候没有信息
- - 补课：页面内到底有哪些信息
  - - html 部分
    - css 部分
    - script 部分
    - 其他通过脚本引进或请求的部分
- 数据就在页面的 js 片段里，但不知道怎么正确的拿出来
- - 补课：使用正则，将 unicode 或其他编码格式的字符转换成正常字符
- 查看源文件，里面没有我们需要的内容？
采集成功了，但是内容是乱码
我们该怎么提取抓取到的内容
- 使用 lxml 或 bs4 处理 html
- 使用 json 处理 json 数据
- 使用 execjs 来获取 js 中的数据
- 这里不再介绍的 selenium 执行 js
- 一种罕见的 xml 源文件的 html

前言

爬虫，采集，这些东西已经越来越耳熟能详了，越来越多的进入到初学者的学习范畴了，那么这些初学者到底有没有做好采集，爬虫的准备工作呢？一路上摔了多少跟斗，踩了多少坑，才真正理顺了采集的流程呢？

老顾虽然刚学python不久，但是采集这块用的时间还是不算短了，下面结合一些实际案例，讲一讲在采集的路上，容易踩中的有多少坑。

采集成功了，但是没有数据？

很多小伙伴，经常会遇到这种情况，最近混在问答里，也有很多这样的例子

那么，到底有没有采集成功呢？数据去哪里了？咱们先分情况来说明一下

数据就在采集到的页面，并有正确的格式

这种是最理想的状态，返回的页面代码，就是我们看到的内容

大家在采集的时候，非常喜欢做的一件事就是打开控制台，查看元素

比如，我们采集这么一个页面 https://www.ccgp.gov.cn/cggg/zygg/jzxcs/202303/t20230312_19542353.htm

我们通过查看元素的方式，很容易找到我们需要抓取的正文所在位置，就在样式类名为vF_detail_content_container的div里，我们尝试用 python 来实现这个抓取，并提取正文

from bs4 import BeautifulSoup
import requests
headers={
    "User-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.63"
}
response = requests.get("https://www.ccgp.gov.cn/cggg/zygg/jzxcs/202303/t20230312_19542353.htm",headers=headers)
html = response.content.decode('utf8')
soup = BeautifulSoup(html, "html.parser")
contents = soup.findAll('div',attrs={'class':'vF_detail_content_container'})
for content in contents:
    print(content)

这就是最理想的采集，非常简单的几句话，就把数据拿到手了

数据就在采集到的页面，但提取的时候没有信息

以问答区某个小伙伴的问题为例，https://ask.csdn.net/questions/7897149/54099048?spm=1001.2014.3001.5501，这次的采集目标是 https://pic.sogou.com/pics?query=橘子皮

我们还是通过查看元素的方式，找到了所有图片的节点信息，嗯，在样式 figure-result-list 下的所有 li 里，问答的小伙伴也是这么做的，来我们模拟实现一下

import requests
from lxml import etree
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'
}
url = 'https://pic.sogou.com/pics?query=橘子皮'
page_text = requests.get(url=url, headers=headers).text
tree = etree.HTML(page_text)
li_list = tree.xpath('//div[@class="figure-result"]/ul/li')
print(li_list)

吖？明明页面里有内容啊，为什么我抓取不到？

嗯。。。。。这里，咱们需要补充一点点的基础知识，就是浏览器显示的内容，到底来自哪里

小伙伴不禁就问了，难道不是来自页面吗？

这么说，其实是没什么错啦，但是不完整。先听听老顾的说法。

补课：页面内到底有哪些信息

html 部分

第一，浏览器首先加载的就是 html 页面，不管这个页面后缀是什么，用的什么语言开发的，到浏览器的时候，他一定是 html 格式的。这里是第一个要素，刚才我们采集 ccgp 页面的时候，就只针对了这个 html 格式的内容进行提取就可以了。

css 部分

在浏览器加载完了 html 内容后，他开始要对页面进行渲染，已达到友好的视觉效果，这个时候，他就开始解析 html 了，他会从里面找出所有的 style 定义，以及通过 link 标签引进的 css 文件，对页面内容进行渲染

script 部分

在渲染效果弄好了之后，浏览器又开始了下一个工作，对脚本进行解释并运行，也就是我们通常锁说的 js ，或者是 vbs（虽然现在用的人很少了），这个时候有些交互内容，或者一些后续补充的内容，也会通过脚本的操作陆续添加的当前渲染的页面里

其他通过脚本引进或请求的部分

还是这个橘子皮，我们可以通过网络（network）页发现，他的请求类型有很多，除了常见的图片，js，还有一个xhr，这个就是引进的请求部分

补课结束了，以上内容就是一个页面完整的数据了，那么我们就回到橘子皮这个页面的数据提取，他的数据到底在哪里？

在页面上，我们点击鼠标右键，他会弹出一个快捷菜单，最下边就是我们常用的查看元素（部分浏览器里是检查），他可以方便的查看DOM信息，但更重要的其实是查看源代码

这次，我们就来查看一下源代码，看看橘子皮这个页面到底有没有我们需要的东西

根据检查元素，我们可以看到，第一个图片的名字是“女性睡前把橘子皮贴在肚脐上,坚持一周,几大惊喜变化不请自来”，那么我们就在源文件里找这个内容

找到了，那么他就在采集到的页面里，但不在正确的位置上，他是通过脚本（js）后边渲染到我们看到的位置上的，那么我们该怎么拿到呢，那就是看到底出现的位置，我们发现是在一个 script 标签里，那么我们就来实现这个信息的提取吧

import requests
from lxml import etree
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'
}
url = 'https://pic.sogou.com/pics?query=橘子皮'
page_text = requests.get(url=url, headers=headers).text
tree = etree.HTML(page_text)
js_list = tree.xpath('//script')
for i,js in enumerate(js_list):
    print(' == > ')
    print(i,etree.tostring(js_list[i]))

通过遍历，我们看到第二个 script 片段里就是我们需要的数据，但是我们需要自己解析出来，但里面的文字全都是 unicode 格式的，需要转换出来

来，我们掐头去尾，只留下数据部分来看看


import requests
from lxml import etree
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'
}
url = 'https://pic.sogou.com/pics?query=橘子皮'
page_text = requests.get(url=url, headers=headers).text
tree = etree.HTML(page_text)
js_list = tree.xpath('//script')
#for i,js in enumerate(js_list):
#    print(' == > ')
#    print(i,etree.tostring(js_list[i]))
# 已知js_list第二项是数据了
def unicode(n): # 通过正则，将unicode转成字符
    return chr(int(n.group(1)))
import re
import json
jscode = re.sub('^.*?=|;\(function.*|;?','',etree.tostring(js_list[1]).decode('utf8'))
jscode = re.sub('&#(\d+);',unicode,jscode)
jsdata = json.loads(jscode)
print(jscode)

很好，我们通过 json 把数据加载成 json 格式，并通过变量查看，得到了 jsdata[‘searchList’][‘searchList’][0] 就是第一个图片的内容了，他的 title 就是我们刚才找的标题，什么女性睡前。。。

那么，这个小坑算是过去了

数据就在页面的 js 片段里，但不知道怎么正确的拿出来

刚才这个橘子皮的例子，我们就遇到了这个情况，我们已经知道了，他就在第二个js片段里，但是里面全是 &#数字; 这样的内容，在浏览器里，他会正确的显示对应的 unicode 字符，但是我们抓取的时候，这东西我们不认识啊，这是给人看的吗？

再来看另一个小伙伴的问答题目，https://ask.csdn.net/questions/7896060/54096521?spm=1001.2014.3001.5501

他要抓一个小说章节内容，也碰到这样的情况了，我们先把内容抓取出来，再一起分析

import requests
url = 'https://yc.ifeng.com/book/3303804/10/'
headers = {
    'host':'yc.ifeng.com',
    'referer':'https://yc.ifeng.com/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'
    }
res = requests.get(url=url,headers=headers)
res.encoding = 'UTF-8'
print(res.text)

啊。这次正文是十六进制unicode字符了。。。。而且，也在js里，别急，我们先来补课

补课：使用正则，将 unicode 或其他编码格式的字符转换成正常字符

在 python 中，正则所在的包就是 re 了，我们 import re 就可以使用正则了

而正则中，我们最常用的就是判断是否合法，比如手机，比如信箱之类的，还有就是根据正则提取出我们需要的内容了

但是，真正在采集中，还有一个正则替换，也是非常非常常用的，而且是非常非常好用的，关于正则的内容，这里不细说了，大家可以看我以前的文章文盲的正则入门，以及 python 的正则部分

这里直接讲 python 正则替换使用委托的方式

在橘子皮的例子里，我们已经有了这么一个自定义方法 unicode

import re
def unicode(n):
    return chr(int(n.group(1)))
print(re.sub('&#(\d+);',unicode,'女性睡前把橘子皮贴在肚脐上,坚持一周,几大惊喜变化不请自来'))

这里，用到的是 re.sub(匹配正则,替换的字符或方法,原始字符串)中替换的方法，通过委托这个方法来将特定的内容按照一定规则转换

那么，刚才这个小说，也是一样的

import re
def unicodeHex(n):
    return chr(int(n.group(1),16))
print(re.sub('%u([0-9a-fA-F]{4})',unicodeHex,'%u3000%u3000%u53F6%u660A%u770B%u4E86%u4E00%u773C%u8FD9%u4E2A%u7F8E%u5973%uFF0C%u5012%u662F%u60F3%u8D77%u6765%u4E86%uFF0C%u8FD9%u662F%u590F%u4E91%uFF0C%u4EE5%u524D%u8FD8%u5728%u53F6%u6C0F%u5BB6%u65CF%u7684%u65F6%u5019%uFF0C%u5979%u8DDF%u8FC7%u81EA%u5DF1%uFF0C%u60F3%u4E0D%u5230%u5979%u73B0%u5728%u5C45%u7136%u662F%u53F6%u6C0F%u6295%u8D44%u516C%u53F8%u7684%u603B%u88C1%u79D8%u4E66%u3002%3Cbr%2F%3E%3Cbr%2F%3E%u3000%u3000%u201C%u597D%u4E45%u4E0D%u89C1%u3002%u201D%u53F6%u660A%u70B9%u4E86%u70B9%u5934%u3002%3Cbr%2F%3E%3Cbr%2F%3E%u3000%u3000%u201C%u590F%u79D8%u4E66%uFF0C%u4F60%u4E0D%u4F1A%u662F%u7CCA%u6D82%u4E86%u5427%uFF1F'))

这里只举这两个例子，在实际工作中，还会碰到各种各样的需要解码的字符，比如 urldecode，unescape等等等等，总之，碰到这种就在页面内，但抓取到的信息不是给人看的东西的时候，记得转码哦

查看源文件，里面没有我们需要的内容？

这种情况也非常非常常见，这就是我们刚才补课所说的，其他通过脚本引进或请求的部分

还是用问答的小伙伴们的例子来说明，https://ask.csdn.net/questions/7900390/54106867?spm=1001.2014.3001.5501，这次的目标对准了B站

from bs4 import BeautifulSoup
import requests
headers={
    "User-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.63"
}
for page in range(1,10,1):
    response = requests.get(f"https://www.bilibili.com/anime/index/#season_version=-1&spoken_language_type=-1&area=-1&is_finish=-1©right=-1&season_status=-1&season_month=-1&year=-1&style_id=-1&order=3&st=1&sort=0&page={page}",headers=headers)
    html = response.text
    print(html)
    soup = BeautifulSoup(html, "html.parser")
    all_bangumi_titles = soup.findAll("a", attrs={"class":"bangumi-title"})
    all_pub_infos = soup.findAll("p", attrs={"class": "pub-info"})
for bangumi_title in all_bangumi_titles:
    bangumi_title_string=bangumi_title.string
    print(bangumi_title)

小伙伴的代码，其中一些语法错误咱们忽略，我帮他先修改正确

然后这个小伙伴很疑惑，吖，我都抓取成功了啊，为什么

但是运行结果没有对应的番剧名称和信息，并且我尝试打印了一下返回的response.text
结果是重复的一段不包含目标字段的代码

好吧，我们回到查看元素这里

哦吼，index这个页面的内容很少啊，就是一个架子，所有的内容基本上都是通过其他方式加载的，来我们设置一下 network 的过滤，看看有多少 xhr

在network（网络）页，点漏斗，然后选择 xhr，发现好多好多啊，这些都是一些异步请求的数据，因为是异步请求，所以有个单独的分类叫做xhr，同步的，就叫 js
那么，我们就需要找，数据到底在哪里了

对于 xhr 来说，他通常只有两种返回的内容，一种是需要立刻执行的指令，一般是防采集用的，另一种就是 json 格式的数据了，我们可以通过 preview（预览）方式来方便的查看他的数据内容，并记住这个xhr请求地址，这个才是我们需要抓取的内容，而不是说B站的这个index页面

采集成功了，但是内容是乱码

在网络上，由于各种历史原因，很多网站的编码不一定是utf8，都是一些ansi标准的本地编码，比如gbk，big5之类的，有的，甚至就是utf8，但抓到本地也是乱码

我们回到本文的第一个采集

from bs4 import BeautifulSoup
import requests
headers={
    "User-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.63"
}
response = requests.get("https://www.ccgp.gov.cn/cggg/zygg/jzxcs/202303/t20230312_19542353.htm",headers=headers)
html = response.content.decode('utf8')
soup = BeautifulSoup(html, "html.parser")
contents = soup.findAll('div',attrs={'class':'vF_detail_content_container'})
for content in contents:
    print(content)

小伙伴们有没有发现，我使用的是 response.content，而不是常用的 response.text，因为我们在发送请求的时候没有指定编码格式，而采集小说的那个小伙伴做的非常好，就指定了编码，虽然他最后也没能把小说拿出来。回到ccgp这个页面，由于我没有指定编码，所以 response.text 得到的就是一堆乱码内容了

这里就要说明一下，网站乱码的各种情况了

乱码的产生，基本上就是两边的编码不一致造成的，这种情况下，要么我们像那个采集小说的小伙伴一样，指定编码，要么像老顾这样，在采集到之后，使用 response.content.decode 来解码

这些还都好说，但是，很多站他的数据就不是正经的可读数据，至少不是给人看的，比如刚才我们遇到的小说站，搜狗图片站，就需要我们自己把编码后的内容解码出来

还有一些小伙伴会碰到一些更严重的问题，我这里暂时无法复现出这个情况了，但还是可以描述一下，那就是在对 resposne.content.decode 的时候，会碰到这样的错误

UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0x8b in position 1: invalid start byte

这是因为返回的数据，使用了 gzip 或者deflate压缩技术，我们需要通过同样的办法对这些数据进行解压解码

根据 response.header 里，content-encoding 的信息，来确定使用哪个方式来解压解码

# content-encoding : gzip
import gzip
html = gzip.decompress(response.content).decode('utf8')
# content-encoding : deflate
import zlib
try:
	html = zlib.decompress(response.content, -zlib.MAX_WBITS).decode('utf8')
except zlib.error:
	html = zlib.decompress(response.content).decode('utf8')

当然，还有一种已知的压缩算法 br，但老顾还没碰到过，暂时不知道需要什么包来解压解码

我们该怎么提取抓取到的内容

使用 lxml 或 bs4 处理 html

通常，我们对页面抓取，抓到的就是 html ，大家都已经很熟悉了，使用 BeautifulSoup 的 html.parser 也好，使用 lxml 的 xpath 也好，都可以对 html 内容进行分析

import requests
headers={
    "User-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.63"
    ,'accept-encoding':'gzip, deflate, br'
}
response = requests.get("https://www.ccgp.gov.cn/cggg/zygg/jzxcs/202303/t20230312_19542353.htm",headers=headers)
html = response.content.decode('utf8')
正文 = []
# 使用 BeautifulSoup
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
contents = soup.findAll('div',attrs={'class':'vF_detail_content_container'})
for content in contents:
    正文.append(str(content))
# 使用 lxml
from lxml import etree
tree = etree.HTML(html)
contents = tree.xpath('//div[@class="vF_detail_content_container"]')
for content in contents:
    正文.append(etree.tostring(content,encoding='utf8').decode('utf8'))

可以看到，两种方式都能正确的抓到信息，并提取出来，当然，小伙伴们用哪个熟就用哪个好了，老顾对这些都不熟。。。不知道有没有更简单的不乱码的情况

使用 json 处理 json 数据

还有的，就是本文中提到的，抓到的就是 json 数据了，这个时候就不要想那么多了，直接使用 json.loads 就好，还是用B站的这个吧

url = 'https://api.bilibili.com/pgc/season/index/result?season_version=-1&spoken_language_type=-1&area=-1&is_finish=-1%C2%A9right&season_status=-1&season_month=-1&year=-1&style_id=-1&order=3&st=1&sort=0&page=1©right=-1&season_type=1&pagesize=20&type=1'
import requests
headers={
    "User-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.63"
}
response = requests.get(url,headers=headers)
data = response.content.decode('utf8')
# 使用 json 直接加载数据
import json
json_data = json.loads(data)
for k in json_data:
    print(k,json_data[k])

加载之后，我们就需要找到我们需要的数据所在的深度和路径了

lst = json_data['data']['list']
for k in lst:
    print(k['title'],k['index_show'],k['link'])

使用 execjs 来获取 js 中的数据

在使用 execjs 之前，先安装 pyexecjs 包，注意安装的包名字和引用的名字不一样哦，由于老顾暂时没能解决 window 未定义，document 未定义的问题，所以还是辅助了一些其他手段，这里还是以采集小说的小伙伴为例子

import requests
url = 'https://yc.ifeng.com/book/3303804/10/'
headers = {
    'host':'yc.ifeng.com',
    'referer':'https://yc.ifeng.com/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'
    }
response = requests.get(url,headers=headers)
html = response.content.decode('utf8')
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
scripts = soup.findAll('script')
# 查到小说正文在第11个script里
#print(scripts[10].text)
# 替换掉 jquery 指令，并把后续的 jquery 指令删除
js = scripts[10].text.replace('$("#partContent").html','var content = ').split('$')[0]
import execjs
ctx = execjs.compile(js)
result = ctx.eval('content')
print(result)

这种方式好就好在他可以使用 js 内的解码，不用我们再去解码了

这里不再介绍的 selenium 执行 js

这里就不介绍了，老顾非常不喜欢可以在后台默默运行的东西蹦到前边来，老顾以前用 c# 做采集的时候，都不喜欢用webbrowser控件的，原谅老顾不够厚道，真不想用这个

一种罕见的 xml 源文件的 html

在老顾的采集生涯中，碰到这样的奇葩网站，看页面是html，查看元素也是 html ，查看源文件。。。他就变成 xml 了，还带有 xslt 样式。当然，如果 xml 没有 xslt 那就没办法变成 html 了，这里举个例子：https://www.govinfo.gov/content/pkg/BILLS-117hr3237ih/xml/BILLS-117hr3237ih.xml，有兴趣的小伙伴可以围观一下，当然这个例子其实还算是好的，比较规整的，有更复杂的，需要 xslt 执行计算的，老顾一时找不到例子了，就不举例了。另外，这里也不细说怎么处理了，可以参考老顾的 python 学习 xml 的文章

其他的一些常见的语法错误，下标越界之类的问题，本文就不再说了。。。这种错误和语言没关系，完全就是小伙伴们不细心没耐心了

学习Video.js 前端熊猫 Video Player 学习
查阅官方文档，学习video.js相关属性、回调与方法：播放器选项设置①标准的video标签属性②data-setup属性传递JSON③创建播放器实例以第二个参数配置videojs('my-player',{controls:true,autoplay:false,preload:'auto'});//修改选项varplayer=videojs('my-player');player.option
第二十一篇：伦理/道德Ethics flying_1314 NLP ethics 伦理/道德隐私偏见双重用途
目录什么是伦理/道德？我们为什么要关心？为什么道德很难？学习成果大纲反对NLP道德检查的论据我们应该审查科学吗？H5N1透明度不是更好吗？AIvs.Cybersecurity核心NLP伦理概念偏见词嵌入中的偏差双重用途OpenAIGPT-2隐私GDPRAOL搜索数据泄露小组讨论提示自动刑期预测自动简历处理语言社区分类打包带走~什么是伦理/道德？我们应该如何生活——苏格拉底•正确的做法是什么？•为什
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
【机器学习】算法分类 CH3_CH2_CHO 什么？！是机器学习！！机器学习算法有监督学习无监督学习半监督学习强化学习
1、有监督学习1.1定义使用带标签的数据训练模型。有监督学习是机器学习中最常见的一种类型，它利用已知的输入特征和对应的输出标签来训练模型，使模型能够学习到特征与标签之间的映射关系。在训练过程中，模型会不断地调整自身的参数，以最小化预测值与真实标签之间的误差，从而提高预测的准确性。1.2回归问题1.2.1目标预测连续值。回归问题的目标是预测一个连续的数值结果，模型的输出是一个实数值。1.2.2解释回
Python 单例模式的 5 种实现方式：深入解析与最佳实践做测试的小薄测试高阶 python 单例模式自动化测试测试框架
单例模式（SingletonPattern）是一种经典的设计模式，其核心思想是确保一个类在整个程序运行期间只有一个实例，并提供一个全局访问点。这种模式在许多场景中非常有用，例如全局配置管理、日志记录器、数据库连接池等。然而，Python的灵活性使得实现单例模式有多种方式，每种方法都有其特点和适用场景。本文将详细介绍Python中实现单例模式的5种常见方法，并深入分析它们的优缺点以及适用场景，帮助您
从零实现KV存储项目实战程序员老舅 C++Linux后端 c++c++存储 kv存储分布式存储后端项目 c++项目 cpp项目
本项目是从零实现一个完整的、兼容Redis协议的KV数据库项目。通过每一行代码的编写。你会对整个系统了如指拿，这样对自己基本功的锻炼、对编程能力的提升都是很大的项目提供完整的视频教程+代码下面是关于KV存储项目的技术大纲：如果你在学习的过程当中，遇到有任何问题，都可以在项目社群提出了，有专人给大家答疑的。适用人群这个KV存储项目对以下同学应该都非常的合适,包括但不限于:●想入门数据库的同学，存储对
图神经网络实战——分层自注意力网络盼小辉丶图神经网络从入门到项目实战神经网络人工智能深度学习
图神经网络实战——分层自注意力网络0.前言1.分层自注意力网络1.1模型架构1.2节点级注意力1.3语义级注意力1.4预测模块2.构建分层自注意力网络相关链接0.前言在异构图数据集上，异构图注意力网络的测试准确率为78.39%，比之同构版本有了较大提高，但我们还能进一步提高准确率。在本节中，我们将学习一种专门用于处理异构图的图神经网络架构，分层自注意力网络(hierarchicalself-att
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
Python 爬虫实战：舞台剧与演出信息获取西攻城狮北 python 爬虫开发语言
作为一名对文化艺术活动和数据获取感兴趣的内容创作者，我决定利用Python爬虫技术抓取舞台剧与演出信息。这对于文艺爱好者、文化活动组织者以及相关研究人员来说，是一个极具价值的探索。一、项目背景舞台剧和各类演出活动丰富了人们的精神文化生活。许多城市都有专业的演出场馆，如国家大剧院、上海大剧院等，它们会定期发布演出信息。通过爬虫技术，我们可以自动化地获取这些演出信息，方便用户查询和分析。二、技术选型在
LeetCode剑指offer题目记录4 t.y.Tang LeetCode记录 leetcode python 矩阵
leetcode刷题开始啦,每天记录几道题.目录剑指offer07.重建二叉树题目描述示例思路python改进剑指offer09.用两个栈实现队列题目描述示例思路python剑指offer10-1.斐波那契数列题目描述思路pythonC++剑指offer10-2.青蛙跳台阶问题问题描述思路C++剑指offer07.重建二叉树题目描述输入某二叉树的前序遍历和中序遍历的结果，请构建该二叉树并返回其根节
【技巧分享】开发环境配置Python、R、Stata A线上仓库 python 开发语言
自用，看心情更新~版本更新2024-03-131.0版本2024-09-25FIX:1.conda命令ADD：1.python调用r命令2.r系统配置2025-01-22更新VSCode调用Statado文件目录版本更新Python环境配置Cheatsheet基础配置可选：环境配置：conda命令包管理R环境配置基础配置R命令Python调用Method1:`rpy2`Stata环境配置基础配置P
微服务即时通信系统---（五）框架学习 YangZ123123 微服务即时通信系统学习微服务算法
目录ODB介绍安装build2安装odb-compiler安装ODB运行时库安装mysql和客户端开发包安装boostprofile库安装总体打包安装总体卸载总体升级头文件包含和编译时指明库ODB常见操作介绍类型映射ODB编程类与接口介绍mysql连接池对象类mysql客户端操作句柄类mysql事务操作类针对可能为空的字段封装的类似于智能指针的类型针对查询结果所封装的容器类和条件类mysql操作句
AsyncHttpClient使用说明书有梦想的攻城狮 netty学习专栏 Java asynchttpclient 异步处理 netty
[[toc]]AsyncHttpClient（AHC）是一个高性能、异步的HTTP客户端库，广泛用于Java和Scala应用中，特别适合处理高并发、非阻塞的HTTP请求。它基于Netty或Java原生的异步HTTP客户端实现，支持HTTP/1.1和HTTP/2协议，适用于微服务、API调用、爬虫等场景。1.核心特性特性说明异步非阻塞基于事件驱动模型，避免线程阻塞，支持高并发（如每秒数千请求）。HT
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
python实现成语接龙 Camellia 泡泡笔记 python
first_idiom='万事如意'end_str=first_idiom[-1]new_li=[first_idiom]li=['发愤图强','笑容满面','意气风发','强颜欢笑']forindexinrange(len(li)):foriinli:ifend_str==i[0]:new_li.append(i)li.remove(i)end_str=i[-1]breakprint(new_l
win32汇编环境,网络编程入门之九一品人家汇编
;在上一教程里，我们学习了在连接成功网站后，应该发送什么数据给网站;在前面的几个教程里，简单地运行了套接字机制连接网站的方式，这是字节级的网络连接，扩展几乎是无限的。;想了想，这个开个头就行了，暂时放下来，再讲下去越搞越复杂，还是把一些基础运用的方式讲一讲。以后回头再来研究它。;从这个教程开始，讲一下部分微软专用网络API的运用。;微软网络API有2个值得一提，1个是WinInet,还1个是Win
涛哥聊Python | borb，一个好用的 Python 库，处理 PDF 文件好帮手！双木的木 python拓展学习 python库 python 开发语言机器学习 pdf 人工智能深度学习
本文来源公众号“涛哥聊Python”，仅用于学术分享，侵权删，干货满满。原文链接：borb，一个好用的Python库！大家好，今天为大家分享一个好用的Python库-borb。Github地址：https://github.com/jorisschellekens/borbPythonBorb是一个用于处理PDF文件的Python库，它提供了丰富的功能和工具，使得PDF文件的创建、修改和解析变得更
python—计算学生成绩等级 2111339 彭传月 python
一、打开软件新建窗口输入代码#计算学生成绩等级is_continue='y'whileis_continue=='Y'oris_continue=='y':score=eval(input('请输入学生的成绩：'))ifscore>=90:print('A')elifscore>=80:print('B')elifscore>=70:print('C')elifscore>=60:print('D
CPU占用率飙升至100%：是攻击还是正常现象？群联云防护小杜安全问题汇总 ddos 安全 waf 服务器 cpu 占用被攻击
在运维和开发的日常工作中，CPU占用率突然飙升至100%往往是一个令人紧张的信号。这可能意味着服务器正在遭受攻击，但也可能是由于某些正常的、但资源密集型的任务或进程造成的。本文将探讨如何识别和应对服务器的异常CPU占用情况，并通过Python脚本示例，提供一种监控和诊断CPU占用率的方法。一、CPU占用率100%：攻击or正常？1.1攻击迹象持续性高占用：如果CPU占用率长时间保持在100%，且没
Python 成绩等级判定 Camellia 泡泡 python 笔记
score=int(input("请输入学生成绩:"))if90<=score<=100:grade="A"elif75<=score<=90:grade="B"elif60<=score<=75:grade="C"elifscore<60:grade="D"print("本次考试，等级为:",grade)运行结果：
【Python】PDFMiner.six：高效处理PDF文档的Python工具技术无疆 Python python pdf 开发语言 python3.11 人工智能数据挖掘机器学习
PDF是一种广泛使用的文件格式，特别适用于呈现固定布局的文档。然而，提取PDF文件中的文本和信息并不总是那么简单。幸好有许多Python库可以帮助我们，其中，PDFMiner.six是一个功能强大、专门用于PDF文档解析的库。⭕️宇宙起点什么是PDFMiner.six？主要功能安装PDFMiner.six♨️核心功能和代码示例1.提取PDF文档的纯文本2.从多个页面提取文本3.提取PDF中的表格内
25道Python练手题（附详细答案），赶紧收藏！_python题库字节全栈_rJF python 开发语言
importrandomasrdnumber=rd.randint(0,100)foriinrange(10):choice=int(input("请输入你要猜测的数字："))ifchoice>number:print("你猜大了")elifchoice0and5*x+3*y+z/3==100:count+=1print("="*60)print(f'第{count}种买法，公鸡买了{x}只，母鸡
python爱心代码高级 youyouxiong python 开发语言
在Python中，我们可以使用各种方法来绘制一个“爱心”形状。以下是一个使用turtle模块绘制爱心的高级示例。这个示例将使用更复杂的数学公式和图形操作来绘制一个更精致的爱心形状。importturtleimportmath#设置初始状态window=turtle.Screen()window.bgcolor("black")#设置背景色为黑色love=turtle.Turtle()love.sp
python画一个爱心戴子雯 python绘画 python
大家好这是我的地一篇博客，我要写一个关于python的文章我要用python写一个爱心。不说别的，先看效果效果如下：话不多说，上代码，在这之前要下载python下载这事咱们放在最后现在上代码！！！！！！！！！！！！！！importturtleastt.pensize(2)#笔大小2像素t.pencolor("red")#颜色为红色t.left
brew 安装pip_pip brew wget 安装 weixin_32612253 brew 安装pip
终端播放器安装教程从简书上看到一篇,终端实现网易云音乐的文章,并给出了一个github链接.心里有些痒痒,想看看是什么样子,于是尝试安装.安装过程中有些坎坷,记录以便以后查阅.程序实现是用Python写的.安装使用方式仅仅给了三行命令.安装$pipinstallnetease-musicbox$brewinstallmpg123使用$musicbox下载了源码后,不知道该如何安装.三行命令也是莫名
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
python实现绘制爱心函数（绘制过程） halo0416 python 开发语言
首先，确保已经安装了matplotlib库和numpy库。如果没有安装，可以通过pip来安装：pipinstallmatplotlibpipinstallnumpy了解心形函数公式：x(t)=y(t)=13cos⁡(t)−5cos⁡(2t)−2cos⁡(3t)−cos⁡(4t)定义函数：defheart_shape(t):x=16*np.sin(t)**3y=13*np.cos(t)-5*np.c
python 绘图（爱心） @小H python 开发语言
#-*-coding:utf-8-*-fromturtleimport*defcurvemove():foriinrange(200):right(1)forward(1)color('red','pink')begin_fill()left(140)forward(111.65)curvemove()left(120)curvemove()forward(111.65)end_fill()don
Mulvus向量库数据插入失败排查 Sirius Wu milvus
Mulvus是一个开源的向量数据库，要判断数据是否成功插入以及在插入失败时进行排查，可以参考以下方法：确认数据是否成功插入1.API返回结果在使用Mulvus提供的API插入数据时，API会返回相应的结果信息。以PythonSDK为例，插入数据的代码通常如下：frompymilvusimportconnections,Collection,FieldSchema,CollectionSchema,
使用 Python 绘制爱心图形（高级版）徐浪老师徐浪老师大讲堂 python 开发语言
以下是一段使用Python绘制高级“爱心”图案的代码，结合数学公式生成精美的爱心形状，并附加一些交互式的效果，比如渐变颜色或动态展示：动态渐变爱心importnumpyasnpimportmatplotlib.pyplotaspltimportmatplotlib.animationasanimation#设置爱心的数学公式defheart_shape(t):x=16*np.sin(t)**3y=
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

在学习爬虫的路上，有多少坑在前边