古城小栈

爬虫——网页蜘蛛

简介

网络爬虫（又被称为网页蜘蛛、网络机器人），是一种按照一定的规则，自动抓取互联网信息的程序或者脚本。

Robots协议

直译为机器人排除协议，又可称为爬虫协议、机器人协议，是指网站所有者通过一个置于网站根目录下的文本文件，即robots.txt，告知搜索引擎的网络机器人（或称网络爬虫、网络蜘蛛）哪些网页不应被抓取，哪些网页可以抓取。

curl https://www.aaa.com/rebots.txt

==================================================================
User-agent: *                          #所有爬虫，如百度、谷歌、必应
Disallow: /subject_search              #禁止访问 /subject_search
Disallow: /amazon_search              
Disallow: /search

Allow: /ads.txt                        #允许访问 /ads.txt


User-agent: Wandoujia Spider           #如果是豌豆荚爬虫
Disallow: /                            #禁止访问所有页面(完全屏蔽)
==================================================================

requests模块篇

Requests模块是第三方模块，需要pip安装，requests模块在python内置模块的基础上进行了高度的封装，
从而使得python进行网络请求时，变得更加简洁和人性化。

GET 请求

import requests

payload = {
    'aaa': 'AAA', 
    'bbb': ['ccc', 'ddd']
}

headers = {
    'Content-Type': 'text/html;charset=utf-8',
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
}

timeout = 5 # 超时时间的 单位为 秒

res = requests.get('http://www.baidu.com/', params=payload,headers=headers,timeout=timeout)

# 关闭请求
res.close()

# 返回的 res 为 Response对象：
'''
res.url                             #打印输出该 URL ==> http://www.baidu.com/?bbb=ccc&bbb=ddd&aaa=AAA
res.headers                         #以字典对象存储服务器响应头，但是这个字典比较特殊，字典键不区分大小写，若键不存在则返回None
res.status_code                     #返回连接状态，200正常。

res.text                            #默认以unicode形式返回网页内容，也就是网页源码的字符串。
res.content                         #以字节形式（二进制）返回。字节方式的响应体，会自动为你解码 gzip 和 deflate 压缩。
res.json()                          #把网页中的json数据转成字典并将其返回。

res.encoding                        #获取当前的编码
res.encoding = 'ISO-8859-1'         #指定编码,res.text返回的数据类型，写在r.text之前。
'''

POST 请求

HTTP 协议规定 POST 提交的数据必须放在请求体中，但协议并没有规定数据必须使用什么编码方式,
服务端通过是根据请求头中的Content-Type字段来获知请求中的消息主体是用何种方式进行编码，
再对消息主体进行解析。具体的编码方式包括：

最常见post提交数据的方式，以form表单形式提交数据

payload = {
    'key1': 'value1',
    'key2': 'value2'
}

res = requests.post("http://httpbin.org/post", data=payload)
print(res.text)

# 关闭请求
res.close()
'''
  "form": {
    "key1": "value1", 
    "key2": "value2"
  },
  
'''

以json形式发送post请求

payload = {
    'key1': 'value1',
    'key2': 'value2'
}

res = requests.post("http://httpbin.org/post", data=json.dumps(payload))
print(res.text)

# 关闭请求
res.close()

以multipart形式发送post请求

post 发送文件

with open('666.jpg', 'rb') as file:
    files = {'filess': file}
    r = R.post(gugulocal, files=files)
    print(r.text)

cookie 处理

姿势一

cookie 的处理主要分为两步，一、请求登录接口获取cookie 二、带着cookie进行后面的请求
此时就可以用到session了，session可以认为是进行一连串的请求，在这个过程中cookie不会丢失
所以我们称 session 会话。

import requests

session = requests.session()

# 1.登录
res = session.post(url, data={
  "loginName":"111111",
  "password":"111111",
})
print(res.cookies) # 查看cookies

# 2.获取数据 
res2 = session.get(url)

姿势二

先手动在网址进行登录，然后获取登录之后的浏览器中存储的Cookie值，
将该属性值加入到获取数据请求的代码中
这种方式一般用于登录的验证操作比较严格、验证码比较复杂的网站。

# 方式一
res = r.get("http://localhost:8888/ping", cookies={
  "name":"wtt",
  "age":"110",
})

# 方式二（方式一的本质实现）
res = requests.get("http://localhost:8888/ping", headers={
  "Cookie":"name=wtt;age=110",
})

解决数据隐藏

问题描述

右键选择网页源代码查看到的内容就是 requests请求的res.text内容，
而往往有些网站对于资源的处理是后加式处理，例如我们想获取一个视频连接，
而网页源代码中是没有 video 标签，而是通过js的二次请求将video追加到网页源代码中的，
这样即使我们通过 F12-Element 选项可以看到 video 标签，但是res.text内容中是没有的。
所以我们要找到二次资源请求的接口地址，通过 F12-Network-XHR，便可以检测到。

XHR全称XMLHttpRequest,是一组API函数集，可被JavaScript、JScript、VBScript以及其它web浏览器内嵌的脚本语言调用，
通过HTTP在浏览器和web服务器之间收发XML或其它数据。XMLHTTP最大的好处在于可以动态地更新网页，
它无需重新从服务器读取整个网页，也不需要安装额外的插件。该技术被许多网站使用，以实现快速响应的动态网页应用。

解决方法

先通过 F12-Element 找到video标签，进而获取到的真正的视频链接地址，
然后再通过 F12-Network-XHR 找到接口返回的视频链接地址。
然后进行比对，如果一致，则证明视频连接地址没有做加密处理，
如果不一致根据一定规则将接口返回的地址处理成真正需要的地址，
进而就可以用代码进行数据获取了。

使用正向代理

当本机的ip被目标服务器进行限制访问时，可以以肉机的形式使用一个正向代理进行访问。
搜索免费代理ip获取一个正向代理的ip地址


proxies = {
  "https":"https://11.22.33.44" # 代理ip 11.22.33.44，如果访问的是http开头的网址就把https改了
}

res = requests.get("https://www.baidu.com", proxies=proxies)

数据解析篇

re模块

import re

# findall: 匹配字符串中所有符合正则的内容,返回列表
lst = re.findall(r"\d+", "我的手机号是123，我的电话是456") # lst ==> [123, 456]

# finditer: 匹配字符串中所有符合正则的内容,返回迭代器, 从迭代器中拿内容需要group方法
it = re.finditer(r"\d+", "我的手机号是123，我的电话是456") 
for v in it:
  print(v.group())

# search: 将 第一个匹配的结果 放到match对象中返回，拿数据需要用 group方法
s = re.search(r"\d+", "我的手机号是123，我的电话是456")
print(s.group()) # 123


# 预加载正则表达式： 如果一个正则被反复用到，可以将该正则直接 放进 一个变量中，提高正则编译效率
regexp_obj = re.compile(r"\d+")
it = regexp_obj.finditer("我的手机号是123，我的电话是456") 
for v in it:
  print(v.group())

# 单独提取正则的子查询内容
s = '''
tom
'''
obj = re.compile(r"(?P\w+)
", re.S) # re.S 的作用是让 . 能匹配换行符号 
res = obj.search(s)
print(res.group()) # tom
print(res.group('wtt')) # 111
print(res.group('who')) # tom

bs4模块

import requests
from bs4 import BeautifulSoup

resp = requests.get(url)

# 解析数据
# 1、把页面源代码交给BeautifulSoup处理，生成bs对象
page = BeautifulSoup(resp.text, "html.parser") # 参数二 指定使用HTML解析器

# 2、从bs对象中查找数据
# find(标签, 属性) 返回第一个匹配
# 属性参数说明： 
# 1可以单独写：find('div', class_="wtt") class 是python的关键字，为了区分后加下划线
# 2可以组合写：find("div", attr={"class": "wtt"})
div = page.find("div", attr={"class": "wtt"})
# find_all(标签, 属性) 返回所有的匹配
span = div.find_all("span")
text = span.text
sty = span.get("style")

牛刀小试

import requests as r
from bs4 import BeautifulSoup

'''
step1：拿到主页面的源代码，然后提取到子页面的链接地址，href
step2：通过href拿到子页面的内容，从子页面中找到图片的下载地址，src
step3：下载图片
'''

# step1
url = "https://www.umeitu.com/bizhitupian/weimeibizhi/"
resp = r.get(url)
# 为了防止乱码，一定确保encoding的值 和 从获取网页的 
# 标签中的charset一直，
resp.encoding = 'utf-8' 

# 把网页源代码 交给bs
main_page = BeautifulSoup(resp.text, "html.parser")
alist = main_page.find("div", class_="TypeList").find_all("a") # 把范围第一次缩小
for a in alist:
    # print(a.get('href')) # /bizhitupian/weimeibizhi/220638.htm
    href = "https://www.umeitu.com" + a.get('href') # 拿到子页面的地址
    
    # step2
    child_page_resp = r.get(href)
    child_page_resp.encoding = 'utf-8' 
    child_page = BeautifulSoup(child_page_resp.text, "html.parser")
    p = child_page.find("p", align="center")
    img = p.find("img")
    src = img.get("src")
    # print(src) # http://kr.shanghai-jiuxin.com/file/2020/1031/6b72c57a1423c866d2b9dc10d0473f27.jpg
    
    # step3 
    img_resp = r.get(src)
    # img_resp.content 这里拿到的是图片文件的字节串
    img_name = src.split("/")[-1]
    with open(img_name, mode="wb") as f:
        f.write(img_resp.content)
    
    break # 测试的 break

xpath模块

xpath是在XML文档中搜索内容的一门语言，html是XML的子集。

from lxml import etree

xml = '''

  tom
  cat
  10.5

'''

tree = etree.XML(xml)
# 绝对查找
res = tree.xpath("/book") # / 表示层级关系，第一个/是根节点的意思
name_content = tree.xpath("/book/price/text()") # text() 拿文本
id_content = tree.xpath("/book/price/@id") # 获取id属性值

# 相对查找
book = tree.xpath("/book")
name_content = book.xpath("./name/text()")

# 查找子孙节点，类似于css选择器的空格
tree.xpath("/div//span") # div下的所有span标签
# 通过通配符查找指定代数的节点
tree.xpath("/div/*/*/span") # div下三代的所有span标签

tree.xpath("/div/name[1]/text()") # 通过索引 得到第一个name标签的文本内容
tree.xpath("/div/name[@alias='haha']/text()") # 通过属性 得到第二个name标签的文本内容

牛刀小试

import requests as r
from lxml import etree

'''
step1：拿到主页面的源代码
step2：提取和解析数据
'''

# step1
url = "https://beijing.zbj.com/search/f/?type=new&kw=sass"
resp = r.get(url)

html = etree.HTML(resp.text)

# xpath参数的获取获取：
'''
F12-Elements-选定指定元素标签-右键-Copy-Copy XPath
'''
divs = html.xpath("/html/body/div[6]/div/div/div[2]/div[5]/div/div[1]")
for div in divs:
    price = div.xpath("./div/div/a/div[2]/div[1]/span[1]/text()")
    print(price) # ['¥1500']
    title = div.xpath("./div/div/a/div[2]/div[2]/p/text()")
    
    break

多并发篇

都知道python是一个带着脚镣跳舞的语言，所以我们这里就不说多进程or多线程了，
这里我们就利用python的协程，实现多请求的并发，
所以介绍一下aiohttp(pip install aiohttp)包的基本使用

GET 请求

  import aiohttp  
  import asyncio  
    
  url = "http://*****"
  params = {'name': 'zhangsan', 'age': 10}
  headers = {"User-Agent": "my-user-agent"}
  cookies = {'cookies_name': 'test_cookies'} 
  async def wtt():  
      async with aiohttp.ClientSession() as session:  
          async with session.get(url, params=params, headers=headers) as response:  
              print(await response.text())  
    
    
    
  loop = asyncio.get_event_loop()  
  tasks = [wtt(), ]  
  loop.run_until_complete(asyncio.wait(tasks))

POST 请求

最常见post提交数据的方式，以form表单形式提交数据

import aiohttp  
import asyncio 

url = 'http://httpbin.org'
payload = {'username': 'zhang', 'password': '123456'}
async def fetch():
    async with aiohttp.ClientSession() as session:
        async with session.post(url, data=payload) as response:
            print(await response.text())

loop = asyncio.get_event_loop()
tasks = [fetch(), ]
loop.run_until_complete(asyncio.wait(tasks))

以json形式发送post请求

import aiohttp  
import asyncio

url = 'http://localhost:8086'
payload = {'Tel': 'zhang', 'password': '123456'}
async def fetch():
    async with aiohttp.ClientSession() as session:
        async with session.post(url, json=payload) as response:
            print(await response.text())

loop = asyncio.get_event_loop()
tasks = [fetch(), ]
loop.run_until_complete(asyncio.wait(tasks))

发送文件

url = 'http://httpbin.org'
files = {'file': open('test.txt', 'rb')}
async def fetch():
    async with aiohttp.ClientSession() as session:
        async with session.post(url, data=files) as response:
            print(await response.text())

loop = asyncio.get_event_loop()
tasks = [fetch(), ]
loop.run_until_complete(asyncio.wait(tasks))

牛刀小试

import asyncio
import aiohttp

urls = [
    "https://kr.zutuanla.com/file/2020/1031/191468637cab2f0206f7d1d9b175ac81.jpg",
    "https://kr.zutuanla.com/file/2020/1031/774218be86d832f359637ab120eba52d.jpg",
]

async def img_download(url):
    '''
        1、发送异步http请求
        2、得到http返回
        3、保存文件
    '''
    # aiohttp.ClientSession() ==等同于== requests
    img_name = url.split("/")[-1]
    
    async with aiohttp.ClientSession() as r:
        async with r.get(url) as resp:
            with open(img_name, mode="wb") as f:
                # 要用await 对异步代码的返回 进行等待 
                f.write(await resp.content.read())
                
    print(img_name, "下载完成")
    
async def main():
    tasks = []
    for url in urls:
        tasks.append(img_download(url))
        
    await asyncio.wait(tasks)


if __name__ == '__main__':
    asyncio.run(main())

selenium篇

Python 中的列表（List）和元组（Tuple） shangjg3 Python python 开发语言
1.定义与语法差异1.列表的定义列表使用方括号`[]`定义，元素之间用逗号分隔。列表的元素可以是不同数据类型，甚至嵌套其他列表或元组。my_list=[1,"hello",True,[2,3]]2.元组的定义元组使用圆括号`()`定义，同样支持混合数据类型。需要注意的是，定义单元素元组时必须在元素后加逗号，以区别于数学表达式中的括号。my_tuple=(1,"world",False,(4,5))
一文搞懂 Smali 与 Baksmali：Java 层逆向必备技能 CYRUS STUDIO java 开发语言逆向 android smali baksmali
版权归作者所有，如有转发，请注明文章出处：https://cyrus-studio.github.io/blog/smali与baksmalismali和baksmali是用于Android平台中DEX文件的汇编器和反汇编器，广泛应用于Android逆向分析与调试。smali和baksmali是一对工具，分别用于：smali：将smali代码（Java汇编语言）编译成DEX文件。baksmali：
Python 列表
列表是由一系列按特定顺序排列的元素组成。在python中用方括号（[]）来表示列表并用逗号来分隔其中的元素。例如：bicycles=['trek','cannondale','redline']。访问列表元素时，只需将该元素的索引值或位置告诉Python即可。（索引值由0开始）>>>names=['zhao','qian','sun','li']>>>print(names[0])zhao创建的大
列表简单数据类型天池小晨 python
整型浮点型布尔型容器数据类型列表元组字典集合字符串1.列表的定义列表是有序集合，没有固定大小，能够保存任意数量任意类型的Python对象，语法为[元素1,元素2,...,元素n]。关键点是「中括号[]」和「逗号,」中括号把所有元素绑在一起逗号将每个元素一一分开2.列表的创建创建一个普通列表【例子】1x=['Monday','Tuesday','Wednesday','Thursday','Frid
Python-难点-获取项目根目录
1需求2接口3示例4参考资料在Python中，“设置根目录”通常指指定项目的基准路径，以便统一管理文件路径。以下是几种常见方法，结合不同场景和兼容性需求：一、基于路径拼接（最常用）通过手动拼接路径来定义根目录，适用于结构固定的项目。importos#方法1：根据当前文件位置向上递归定义（推荐）defset_project_root():current_file=os.path.abspath(__
JSON和JSONL、python操作 weixin_668 json python
JSONJSON（JavaScriptObjectNotation）是一种轻量级的数据交换格式，基于文本、易于读写，并支持多种数据结构。以下是常见的JSON格式及示例：1.简单对象（键值对）{"name":"Alice","age":25,"isStudent":true}2.嵌套对象{"person":{"name":"Bob","address":{"city":"NewYork","zipc
python 抓取小红书小五咔咔咔 python 开发语言
python相关学习资料：https://edu.51cto.com/video/3832.htmlhttps://edu.51cto.com/video/4102.htmlhttps://edu.51cto.com/video/1158.htmlPython抓取小红书数据的科普文章小红书是一个流行的社交电商平台，用户可以分享购物心得、生活点滴等。本文将介绍如何使用Python语言抓取小红书的数据
https交互原理黑塞123 Modern c++https 网络协议
Https交互时序图：HTTPS通信中结合RSA和AES加密的流程，本质是利用RSA的安全特性交换AES密钥，再用高效的AES加密实际数据传输。HTTPS交互核心流程（TLS/SSL握手）1.建立TCP连接客户端通过TCP三次握手连接服务器的443端口。2.TLS/SSL握手（密钥协商阶段）ClientHello客户端发送支持的功能列表：TLS版本、支持的加密套件（如TLS_RSA_WITH_AE
利用 Python 爬取小红书热门笔记并进行标签关键词分析程序员威哥最新爬虫实战项目 python 笔记开发语言
一、背景与目标小红书（RED）作为中国最活跃的内容社区之一，拥有大量关于美妆、穿搭、美食、旅游等领域的用户生成内容（UGC）。对于产品、品牌方或研究人员来说，提取热门笔记的标签关键词，可以有效捕捉用户关注点、消费趋势及内容热词。本项目目标：使用Python爬取小红书某个话题下的热门笔记；分析每篇笔记中的标题、正文、标签等字段；利用NLP技术提取高频关键词；对关键词进行可视化与聚类分析。二、技术难点
Spring Cloud Gateway过滤器精确控制异常返回(实战，控制http返回码和message字段) 程序员欣宸
欢迎访问我的GitHub这里分类和汇总了欣宸的全部原创(含配套源码)：https://github.com/zq2599/blog_demos本篇概览前文《SpringCloudGateway过滤器精确控制异常返回(分析篇)》咱们阅读源码，了解到SpringCloudGateway是如何处理全局异常信息的，学了那么多理论，不免手痒想实战验证学习效果，今天咱们就来写代码，最终目标是改写下图两个红框中
微信扫描登录详解 introverter 微信扫描 java后台接口微信扫描登录
微信扫描登录第一步：准备工作在application.properties添加相关配置信息微信开放平台appidwx.open.app_id=你的appid微信开放平台appsecretwx.open.app_secret=你的appsecret微信开放平台重定向urlwx.open.redirect_url=http://你的服务器名称/api/ucenter/wx/callback创建util
python JSON Lines (JSONL)的保存和读取；jsonl的数据保存和读取，大模型prompt文件保存常用格式医学小达人常用算法 NLP prompt JSON Lines JSONL jsonl jsonl文件保存读取
1.JSONLines(JSONL)文件保存将一个包含多个字典的列表保存为JSONLines(JSONL)格式的文件，每个字典对应一个JSONL文件中的一行。以下是如何实现这一操作的Python代码importjson#定义包含字典的列表data=[{"id":1,"name":"Alice","age":30,"email":"[email protected]"},{"id":2,"name"
四十行Python代码，带你爬取热门音乐评论，制作评论词云图！
请求页面数据driver.get(‘https://music.163.com/#/song?id=569213220’)#selenium无法直接获取到嵌套页面里面的数据switch_to.frame()切换到嵌套网页driver.switch_to.frame(0)让浏览器加载的时候,等待渲染页面driver.implicitly_wait(10)driver.page_source获取请求页
《无声蛙鸣》韩剧全8集【1080p超清韩语中字】免费在线观看完整未删减版百度云/夸克资源网盘免费高清链接下载全集迅雷优惠攻略官
《无声蛙鸣》是一部由毛完日导演，孙浩英编剧的韩国悬疑惊悚剧，于2024年8月23日在Netflix平台首播。该剧共8集，主演包括金允石、尹启相、高旻示、李姃垠和朴灿烈。无声蛙鸣全集链接：https://pan.quark.cn/s/deddca1bc9d2提示（建议复制后浏览器搜索打开即可,手机用户长按复制打开）保存后下载速度很快资源完全免费，不会收取您任何费用，资源搜集于互联网公开分享资源。剧情
Python 处理图像并生成 JSONL 元数据文件 - 固定text版本
Python处理图像并生成JSONL元数据文件-固定text版本flyfishJSONL（JSONLines）简介JSONL（JSONLines，也称为newline-delimitedJSON）是一种轻量级的数据序列化格式，由一系列独立的JSON对象组成，每行一个有效的JSON对象，行与行之间通过换行符（\n）分隔。JSONL是传统JSON的“轻量化”变体，通过“每行一个JSON对象”的设计，解
jxORM--编程指南 jxandrew jxWebUI 数据库 python jxWebUI jxORM ORM
jxORM是jxWebUI配套的数据库操作库，可以简化python程序员操作数据库。声明数据类定义数据类之前，先导入ORM修饰符：fromjxORMimportORM,DBDataType,ColType然后就可以用ORM修饰符来修饰一个类，从而定义一个数据类：@ORMclassUser:ID:DBDataType.Long=ColType.PrimaryKeyCreateTime:DBDataT
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
Python中的enumerate()函数冉成未来 Service python 开发语言
文章目录基本用法参数说明特点实际应用与zip()的比较注意事项enumerate()是Python内置的一个非常有用的函数，它用于在遍历可迭代对象（如列表、元组、字符串等）时，同时获取元素的索引和值。基本用法fruits=['apple','banana','cherry']forindex,fruitinenumerate(fruits):print(index,fruit)输出：0apple1
open-falcon的agent部署 chinasl008 运维代码部署二开运维开发
open-falcon的agent部署agent用于采集机器负载监控指标，比如cpu.idle、load.1min、disk.io.util等等，每隔60秒push给Transfer。agent与Transfer建立了长连接，数据发送速度比较快，agent提供了一个http接口/v1/push用于接收用户手工push的一些数据，然后通过长连接迅速转发给Transfer。——————————————
《妈妈朋友的儿子》2024韩剧全集完整未删减版夸克网盘百度云如何获取？妈妈朋友的儿子16集最新汇总及在线观看播放步骤全网优惠分享君
《妈妈朋友的儿子》是一部集喜剧与爱情元素于一身的韩剧，自2024年8月17日播出以来，便以其独特的剧情设定和演员们的精湛演技赢得了观众的广泛关注和喜爱。该剧由知名导演柳济元执导，编剧申夏恩操刀，主演阵容包括丁海寅、庭沼玟（又译郑素敏）、金智恩、尹志温等实力派演员，共同为观众呈现了一段既爆笑又温馨的爱情故事。妈妈朋友的儿子全集资源链接：(尽快保存，随时失效)https://pan.quark.cn/
空间曲线正交投影及其距离计算的理论与实践老歌老听老掉牙 python 正交投影
引言：正交投影的几何本质在三维空间中，正交投影是一种基础而重要的几何变换，它将空间中的点沿特定方向映射到一个平面上。当我们考虑将空间曲线投影到由给定法向量n\mathbf{n}n定义的平面时，这一问题在计算机图形学、CAD/CAM系统和科学计算中具有广泛应用。本文将从数学原理、Python实现到距离计算的等价性问题，全面探讨这一几何操作的深层内涵。设空间曲线由参数方程r(t)=(x(t),y(t)
pip是如何卸载你安装的第三方库的酷python python python
使用pipuninstall命令可以卸载掉你所安装的第三方库，所有与其相关的文件都将被pip整理出来展示并询问是否真的要删除，类似下面的提示pipuninstallnoxFoundexistinginstallation:nox2020.8.22Uninstallingnox-2020.8.22:Wouldremove:d:\python\lib\site-packages\nox-2020.8.
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
Nginx IP授权页面实现步骤
目标：一、创建白名单文件sudomkdir-p/usr/local/nginx/conf/whitelistsudotouch/usr/local/nginx/conf/whitelist/temporary.conf二、创建Python认证服务文件路径：/opt/script/auth_server.pyimportosimporttimefromflaskimportFlask,request
高阶知识库搭建实战五、（向量数据库Milvus安装）伯牙碎琴大模型数据库 milvus 大模型 AI
以下是关于在Windows环境下直接搭建Milvus向量数据库的教程：本教程分两部分，第一部分是基于docker安装，在Windows环境下直接安装Milvus向量数据库，目前官方推荐的方式是通过Docker进行部署，因为Milvus的运行环境依赖于Linux系统。如果你希望在Windows上直接运行Milvus，可以考虑使用MilvusLite版本，这是一个轻量级的Python库，适用于快速原型
python分布式事务_分布式事务系列（2.1）分布式事务的概念
#1系列目录#2X/OpenDTPDTP全称是DistributedTransactionProcess，即分布式事务模型。之前我们接触的事务都是针对单个数据库的操作，如果涉及多个数据库的操作，还想保证原子性，这就需要使用分布式事务了。而X/OpenDTP就是一种分布式事务处理模型。##2.1X/OpenDTP模型X/Open是一个组织，维基百科上这样说明：X/Open是1984年由多个公司联合创
[微信域名检测]基于微信域名检测api的PHP随机跳转阿乐LeoChen
用户名和KEY请到www.xxweixin.com获取
LLM初识
从零到一：用Python和LLM构建你的专属本地知识库问答机器人摘要：随着大型语言模型（LLM）的兴起，构建智能问答系统变得前所未有的简单。本文将详细介绍如何使用Python，结合开源的LLM和向量数据库技术，一步步搭建一个基于你本地文档的知识库问答机器人。你将学习到从环境准备、文档加载、文本切分、向量化、索引构建到最终实现问答交互的完整流程。本文包含详细的流程图描述、代码片段思路和关键注意事项，
CCF-GESP 等级考试 2025年6月认证Python四级真题解析
1单选题（每题2分，共30分）第1题2025年4月19日在北京举行了一场颇为瞩目的人形机器人半程马拉松赛。比赛期间，跑动着的机器人会利用身上安装的多个传感器所反馈的数据来调整姿态、保持平衡等，那么这类传感器类似于计算机的()。A.处理器B.存储器C.输入设备D.输出设备解析：答案：C。所有传感器都用于采集数据，属于输入设备，故选C。第2题小杨购置的计算机使用一年后觉得内存不够用了，想购置一个容量更
推荐开源项目：Milvus Lite —— 轻量级向量数据库，助力AI应用快速起飞穆希静
推荐开源项目：MilvusLite——轻量级向量数据库，助力AI应用快速起飞项目介绍MilvusLite是知名开源向量数据库Milvus的轻量级版本，专为需要在小型环境中进行向量嵌入和相似性搜索的AI应用设计。通过将MilvusLite导入您的Python应用，您可以直接使用Milvus的核心向量搜索功能。MilvusLite已集成在PythonSDKofMilvus中，只需通过pipinstal
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

爬虫——网页蜘蛛

简介

Robots协议

requests模块篇

GET 请求

POST 请求

cookie 处理

解决 数据隐藏

问题描述

解决方法

使用 正向代理

数据解析篇

re模块

bs4模块

牛刀小试

xpath模块

牛刀小试

多并发篇

GET 请求

POST 请求

selenium篇

你可能感兴趣的:(爬虫,python,http)

解决数据隐藏

使用正向代理