怀心抱素

爬虫之requests模块的使用

requests模块

概念：基于网络请求的模块
作用：用来模拟浏览器发请求，从而实现爬虫
环境安装：pip install requests
编码流程：
- 指定url
- 发起请求
- 获取响应数据
- 持久化存储

示例:

1:爬取搜狗首页的页面源码数据

import requests
#1.指定url
url = 'https://www.sogou.com/'
#2.请求发送:get返回的是一个响应对象
response = requests.get(url=url)
#3.获取响应数据:text返回的是字符串形式的响应数据
page_text = response.text
#4.持久化存储
with open('sogou.html','w',encoding='utf-8') as fp:
    fp.write(page_text)

2:实现一个简易的网页采集器(请求参数的动态化)

url = 'https://www.sogou.com/web'
query = input('请输入参数:')
params = {
    'query': query
}
response = requests.get(url=url, params=params)
file_name = query + '.html'
page_text = response.text
with open(file_name, 'w', encoding='utf-8') as fp:
    fp.write(page_text)

上述代码问题:

乱码问题
- response.encoding = 'xxx'
数据丢失
- 反爬机制: UA(User-Agent)检测
- 反反爬策略: UA伪装

# 改进上述代码
url = 'https://www.sogou.com/web'
query = input('请输入参数:')
params = {
    'query': query
}
# UA伪装
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
}
response = requests.get(url=url, params=params, headers=headers)
# 指定编码格式
response.encoding = 'utf-8'
file_name = query + '.html'
page_text = response.text
with open(file_name, 'w', encoding='utf-8') as fp:
    fp.write(page_text)

3:动态加载的数据

通过另一个网络请求(例如ajax)请求到的数据
爬取豆瓣电影中动态加载出的电影详情数据

url = 'https://movie.douban.com/j/chart/top_list'
params = {
    'type': '5',
    'interval_id': '100:90',
    'action': '',
    'start': '0',
    'limit': '10'
}
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
}
response = requests.get(url=url, params=params, headers=headers)
# 在已知响应数据是json字符串时,可以使用json()直接获得反序列化的原数据
movie_list = response.json()
for movie in movie_list:
    print(movie['title'], movie['score'])

总结: 对一个陌生的网站进行数据爬取的时候,首先要确定的一点就是爬取的数据是否为动态加载出来的

是: 需要通过抓包工具捕获到动态加载数据对应的数据包,从中提取出url和请求参数
不是: 直接对浏览器地址栏的url发起请求即可

如何检测爬取的数据是不是动态加载出来的?

通过抓包工具进行局部搜索(response)就可以验证数据是否为动态加载
- 搜索到: 不是动态加载
- 搜索不到: 是动态加载

如何定位动态加载的数据在哪呢?

通过抓包工具进行全局搜索进行定位

4:爬取肯德基餐厅位置信息

url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
}
data = {
    'cname': '',
    'pid': '',
    'keyword': '北京',
    'pageIndex': '1',
    'pageSize': '10'
}
response = requests.post(url=url, data=data, headers=headers)
address_dic = response.json()
for address in address_dic['Table1']:
    print(address['cityName'], address['addressDetail'])

5: 需求 https://www.fjggfw.gov.cn/Website/JYXXNew.aspx 福建省公共资源交易中心,提取完整的html中标信息

实现思路

确认爬取的数据都是动态加载出来的
在首页中捕获到ajax请求对应的数据包，从该数据包中提取出请求的url和请求参数
对提取到的url进行请求发送，获取响应数据（json）
从json串中提取到每一个公告对应的id值
将id值和中标信息对应的url进行整合，进行请求发送捕获到每一个公告对应的中标信息数据

post_url = 'https://www.fjggfw.gov.cn/Website/AjaxHandler/BuilderHandler.ashx'
# 此处用到了cookie
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36',
    'Cookie': '_qddac=4-3-1.4euvh3.dolhcp.k1hv0g18; ASP.NET_SessionId=zlodpss0z5marc42xbwf3k1z; Hm_lvt_94bfa5b89a33cebfead2f88d38657023=1570540077; __root_domain_v=.fjggfw.gov.cn; _qddaz=QD.xezyl8.p60887.k1hv0fxc; _qdda=4-1.4euvh3; _qddab=4-dolhcp.k1hv0g18; _qddamta_2852155767=4-0; Hm_lpvt_94bfa5b89a33cebfead2f88d38657023=1570540248; _qddagsx_02095bad0b=01ea1a6c5d3a64853ca5827a992c7e8755a27bdf6483c4170cf2f7408bf5160b8be84faf079220f53eb77ffddb8e7a31bb676d8e2335aa55f11f4fd4ea8e3ae123c0a5f18a8ab6b832b0d1b4888af4bdd0787e3a2fbda9234cb86cd2b05adf3e56d7e29aafcb05c7edc7e73de6cb346d19449446dc77234a6fb176cd0c0e4df4'
}
for n in range(1, 6):
    data = {
        'OPtype': 'GetListNew',
        'pageNo': n,
        'pageSize': '10',
        'proArea': '-1',
        'category': 'GCJS',
        'announcementType': '-1',
        'ProType': '-1',
        'xmlx': '-1',
        'projectName': '',
        'TopTime': '2019-07-10 00:00:00',
        'EndTime': '2019-10-08 23:59:59',
        'rrr': '0.5270491290780797'
    }
    post_data = requests.post(url=post_url, data=data, headers=headers).json()
    for i in post_data['data']:
        mid = int(i['M_ID'])
        url = f'https://www.fjggfw.gov.cn/Website/AjaxHandler/BuilderHandler.ashx?OPtype=GetGGInfoPC&ID={mid}&GGTYPE=5&url=AjaxHandler%2FBuilderHandler.ashx'
        response = requests.get(url=url, headers=headers)
        response.encoding = 'utf-8'
        data_dic = response.json()
        with open('作业.text', 'a', encoding='utf-8') as f1:
            f1.write(''.join(data_dic['data']))
            f1.write('\n----------------------------')

6: 爬取图片

基于requests
基于urllib
区别: urllib中的urlretrieve不可以进行UA伪装

# 基于requests模块的图片爬取
import requests
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}
url = 'http://tva1.sinaimg.cn/mw600/007QUzsKgy1g7qzr59hk7j30cs0gxn82.jpg'
# content返回的是bytes类型的响应数据
img_data = requests.get(url, headers=headers).content
with open('ceshi.jpg', 'wb') as f1:
    f1.write(img_data)

# 基于urllib的图片爬取
from urllib import request
url = 'http://tva1.sinaimg.cn/mw600/007QUzsKgy1g7qzr59hk7j30cs0gxn82.jpg'
request.urlretrieve(url, 'ceshi2.jpg')

7: 反爬之图片懒加载

需求: 爬取http://sc.chinaz.com/tag_tupian/YaZhouMeiNv.html 网站的图片

import requests
import os
from lxml import etree

# http://sc.chinaz.com/tag_tupian/YaZhouMeiNv.html 网站中前5页的图片数据进行爬取和持久化存储

file_path = './作业/'
if not os.path.exists(file_path):
    os.mkdir(file_path)

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
}
url = 'http://sc.chinaz.com/tag_tupian/yazhoumeinv_%d.html'
for page in range(1, 6):
    if page == 1:
        new_url = 'http://sc.chinaz.com/tag_tupian/YaZhouMeiNv.html'
    else:
        new_url = url % page
    page_text = requests.get(new_url, headers=headers).text
    tree = etree.HTML(page_text)
    div_list = tree.xpath('//div[@id="container"]/div')
    for div in div_list:
        title = div.xpath('./p/a/text()')[0].encode('iso-8859-1').decode('utf-8')
        img_path = file_path + '/' + title + '.jpg'
        img_url = div.xpath('./div/a/img/@src2')[0]
        img_data = requests.get(img_url, headers=headers).content
        with open(img_path, 'wb') as f1:
            f1.write(img_data)
    print('第{}页爬取完毕~~'.format(page))

反爬机制之: 图片懒加载

使用伪属性记录图片地址
当图片进入浏览器可视窗口时,才通过JS使其加载出来(将伪属性修改为src

对应的反反爬策略:

爬取伪属性所对应的属性

8: 爬取梨视频(JS动态加载视频地址)

import requests
import os
import re
from lxml import etree

# 梨视频短视频的爬取

file_path = './作业3/'
if not os.path.exists(file_path):
    os.mkdir(file_path)

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
}
url = 'https://www.pearvideo.com/category_59'
page_text = requests.get(url, headers=headers).text
tree = etree.HTML(page_text)
li_list = tree.xpath('//li[@class="categoryem "]')
for li in li_list:
    title = li.xpath('./div/a/div[2]/text()')[0]
    movie_url = 'https://www.pearvideo.com/' + li.xpath('./div/a/@href')[0]
    movie_text = requests.get(movie_url, headers=headers).text
    src = re.findall('srcUrl="(.*?)",vdoUrl', movie_text, re.S)[0]
    movie_data = requests.get(src, headers=headers).content
    movie_path = file_path + title + '.' + src.split('.')[-1]
    with open(movie_path, 'wb') as f1:
        f1.write(movie_data)
    print('好了一个~')
print('全部爬取完毕~')

反爬机制之:

JS动态加载视频地址

对应的反反爬策略:

使用正则匹配到JS代码中的视频地址

9: 反爬之IP检测(代理)

出现HttpConnectionPool(host:XX) Max retries exceeded with url错误
- 产生原因:
    - 1.短时间内对服务器端发起了高频请求
        - 处理: headers中加入Connection: 'close'
    - 2.请求对应的ip被服务器端禁止
        - 使用代理
反爬机制之: 
    - IP异常检测
对应的反反爬策略: 
    - 使用代理

代理操作
    - 概念: 代理服务器
代理的作用?
    - 请求和响应的转发(拦截请求和响应)
代理和爬虫之间的关联是什么?
    - 可以基于代理实现更换爬虫程序请求的ip地址
代理ip的网站
    - 西刺
    - 快代理
    - www.goubanjia.com
    - 代理精灵: http://http.zhiliandaili.cn/
代理的匿名度
    - 高匿
    - 匿名
    - 透明
类型
    - http
    - https

示例1:

# 使用代理的示例
import requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36',
    'Connection': 'close'
}
url = 'https://www.baidu.com/s?ie=UTF-8&wd=ip'
page_text = requests.get(url, headers=headers, proxies={'https': '182.85.41.159:41729'}).text
with open('./代理测试.html', 'w', encoding='utf-8') as f1:
    f1.write(page_text)

示例2:

# 搭建一个免费的代理池
# 爬取西刺代理
url = 'https://www.xicidaili.com/nn/{}'
ip_list = []
for page in range(1, 51):
    new_url = url.format(page)
    page_text = requests.get(new_url, headers=headers).text
    tree = etree.HTML(page_text)
    # 注意,xpath中不能出现tbody标签
    tr_list = tree.xpath('//table//tr')[1:]
    for tr in tr_list:
        dic = {}
        dic['ip_port'] = tr.xpath('./td[2]/text()')
        dic['agreement'] = tr.xpath('./td[6]/text()')
        ip_list.append(dic)
print(len(ip_list))

# 多次爬取后发现,ip被服务器端封禁
# 使用代理进行反反爬

示例3:

# 构建一个付费的代理池
import random

url = 'http://ip.11jsq.com/index.php/api/entry?method=proxyServer.generate_api_url&packid=2&fa=0&fetch_key=&groupid=0&qty=50&time=1&pro=&city=&port=1&format=html&ss=5&css=&dt=1&specialTxt=3&specialJson=&usertype=15'
page_text = requests.get(url, headers=headers).text
tree = etree.HTML(page_text)
ip_list = tree.xpath('//body//text()')
ips_pool = []
for ip in ip_list:
    ips_pool.append({'https': ip})


url = 'https://www.xicidaili.com/nn/{}'
ip_list = []
for page in range(1, 51):
    new_url = url.format(page)
    try:
        page_text = requests.get(new_url, headers=headers, proxies=random.choice(ips_pool)).text
        tree = etree.HTML(page_text)
        # 注意,xpath表达式中不能出现tbody标签
        tr_list = tree.xpath('//table//tr')[1:]
        for tr in tr_list:
            dic = {}
            dic['ip_port'] = tr.xpath('./td[2]/text()')
            dic['agreement'] = tr.xpath('./td[6]/text()')
            ip_list.append(dic)
    except Exception:
        pass
print(len(ip_list))

10: 反爬之cookie

需求:
    - 爬取www.xueqiu.com 中的新闻数据
爬虫中处理cookie的操作
    - 手动处理: 将cookie写在headers中
    - 自动处理: session对象
        - 获取session对象: requests.Session()
        - 作用:
            - session对象和requests对象都可以对指定的url进行请求发送,只不过使用session对象进行请求发送如果产生了cookie,则cookie会被自动保存在session对象中.

url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=20352414&count=15&category=-1'
page_text = requests.get(url, headers=headers).json()
#  'error_description': '遇到错误，请刷新页面或者重新登录帐号后再试',

# 基于cookie操作的修正
session = requests.Session()
cookie_url = 'https://xueqiu.com'
# 首先使用session对象向https://xueqiu.com发送一次请求,记录产生的cookie
session.get(cookie_url, headers=headers)
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=20352414&count=15&category=-1'
# 保证该次请求携带对应的cookie才可以请求成功
page_text = session.get(url, headers=headers).json()
print(page_text)

11: 模拟登陆&验证码的识别&动态请求参数

使用线上的打码平台进行自动的识别验证码
    - 云打码
    - 超级鹰
        - 注册,登录
        - 创建一个软件
        - 下载示例代码(开发文档中)

开发文档:

import requests
from hashlib import md5

class Chaojiying_Client(object):

    def __init__(self, username, password, soft_id):
        self.username = username
        password =  password.encode('utf8')
        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    def PostPic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': codetype,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', im)}
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
        return r.json()

    def ReportError(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()

获取验证码:

# 获取验证码
def get_code(img_path, img_type):
    chaojiying = Chaojiying_Client('账号', '密码', '软件id')
    im = open(img_path, 'rb').read()
    return chaojiying.PostPic(im, img_type)['pic_str']

爬取代码:

from lxml import etree
login_url = 'https://so.gushiwen.org/user/login.aspx'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36',
    'Connection': 'close'
}
session = requests.Session()
login_text = session.get(login_url, headers=headers).text
tree = etree.HTML(login_text)
# 验证码的识别: 将验证码下载到本地然后提交给打码平台进行识别
# 事后发现: cookie是在获取验证码图片时产生的
code_img_url = 'https://so.gushiwen.org' + tree.xpath('//*[@id="imgCode"]/@src')[0]
code_img_data = session.get(code_img_url, headers=headers).content
with open('./验证码.jpg', 'wb') as f1:
    f1.write(code_img_data)
code = get_code('./验证码.jpg', 1004)
# 获取动态的请求参数
__VIEWSTATE = tree.xpath('//*[@id="__VIEWSTATE"]/@value')[0]
__VIEWSTATEGENERATOR = tree.xpath('//*[@id="__VIEWSTATEGENERATOR"]/@value')[0]
data = {
    '__VIEWSTATE': __VIEWSTATE,
    '__VIEWSTATEGENERATOR': __VIEWSTATEGENERATOR,
    'from': 'http://so.gushiwen.org/user/collect.aspx',
    'email': '账号',
    'pwd': '密码',
    'code': code,
    'denglu': '登录'
}
page_text = session.post(login_url, data=data, headers=headers).text
with open('./测试.html', 'w', encoding='utf-8') as f1:
    f1.write(page_text)

如何捕获动态变化的请求参数

通常情况下,动态变化的请求参数都会被隐藏在前台页面源码数据中

目前接触到的反爬机制及反反爬策略:
    - robots: 不管它
    - UA检测: UA伪装
    - 图片懒加载: 使用伪属性获取图片地址
    - IP检测(代理): 使用代理
    - cookie: 使用session对象
    - 验证码: 使用线上打码平台解析验证码
    - 动态变化的请求参数: 从页面源码中解析动态变化的请求参数
    - 动态加载的数据: 使用抓包工具,全局搜索,定位到动态加载的数据的位置

12: 使用线程池提升爬取数据的效率

同步操作的代码:

import time
# 同步操作的代码
def request(url):
    print('正在请求:', url)
    time.sleep(2)
    print('请求完毕:', url)
urls = [
    'www.1.com',
    'www.2.com',
    'www.3.com'
]

start = time.time()
for url in urls:
    request(url)
print('总耗时:', time.time() - start)
# 6秒

基于线程池的异步操作代码:

import time
from multiprocessing.dummy import Pool # 线程池

# 基于线程池的异步操作代码
pool = Pool(3)

def request(url):
    print('正在请求:', url)
    time.sleep(2)
    print('请求完毕:', url)
    
urls = [
    'www.1.com',
    'www.2.com',
    'www.3.com'
]

start = time.time()
pool.map(request, urls)
print('总耗时:', time.time() - start)
# 2秒

爬虫加线程池:

# 爬虫加线程池
import time
import requests
from multiprocessing.dummy import Pool # 线程池
from lxml import etree
urls = [
    'http://127.0.0.1:5000/hxbs',
    'http://127.0.0.1:5000/index'
]
# 发送请求
def get_request(url):
    page_text = requests.get(url).text
    return page_text
# 解析数据
def parse(page_text):
    tree = etree.HTML(page_text)
    print(tree.xpath('//div[1]//text()'))
pool = Pool(2)
start = time.time()
page_text_list = pool.map(get_request, urls)
print(len(page_text_list))
pool.map(parse, page_text_list)
print('总耗时:', time.time() - start)

使用 Resilience4j 实现重试树懒_Zz Spring spring cloud spring boot spring
在本文中，我们将首先简要介绍Resilience4j，然后深入研究其重试模块。我们将了解何时以及如何使用它，以及它提供哪些功能.什么是Resilience4j？应用程序通过网络通信时，许多事情都可能出错。由于连接中断、网络故障、上游服务不可用等原因，操作可能会超时或失败。应用程序可能会相互过载、无响应，甚至崩溃。Resilience4j是一个Java库，可帮助我们构建具有弹性和容错能力的应用程序。
Apache Tomcat 远程代码执行漏洞复现(CVE-2025-24813)（附脚本） iSee857 漏洞复现 apache tomcat java web安全安全
免责申明：本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。0x01产品描述：ApacheTomcat是一个开源的JavaServlet容器和Web服务器，支持运行JavaServlet、JavaServerP
MyBatis-plus 2.x -＞ 3.x 版本升级笔记三只松鼠@ 工作日常 spring java sql
参考链接：https://github.com/baomidou/mybatis-plus/issues/32621.官方更新日志升级JDK8+优化性能Wrapper支持lambda语法模块化MP合理的分配各个包结构移除com.baomidou.mybatisplus.extension.injector.methods.additional包下的过时类fix:初始化TableInfo中遇到多个字
RabbitMQ-死信交换机和死信队列 ui99tew1 rabbitmq 分布式
在RabbitMQ的使用过程中，死信交换机（DeadLetterExchange，简称DLX）和死信队列（DeadLetterQueue，简称DLQ）是解决消息处理失败的一种高效机制。这套机制不仅能帮助系统保证消息的可靠性，还能在消息处理出现问题时提供有效的错误处理和消息追踪方式。接下来，我将详细解释什么是死信队列和死信交换机，以及它们是如何工作的。死信队列和死信交换机的定义死信交换机是一种特殊的
人工智能革命：技术演进图谱与人类文明重构路径 A达峰绮人工智能重构经验分享图形绘制数据处理 AI
当GPT-4在2023年3月通过注册会计师考试时，其财务分析模块展现的推理能力已超越85%的人类考生。这个标志性事件背后，折射出人工智能正在突破认知型工作的最后防线。我们正在见证的，不仅是技术迭代，更是人类文明范式的根本性转变。一、算力奇点降临：AI基础设施的指数级进化量子计算与神经形态芯片的融合正在重塑算力边界。IBM最新数据显示，其量子体积（QuantumVolume）从2020年的64跃升至
Python实战：开发经典猜拳游戏（石头剪刀布）藍海琴泉游戏
目录引言：为什么选择猜拳游戏作为入门项目？第一部分：基础知识点与代码实现1.游戏逻辑与流程2.代码分步实现2.1导入必要模块2.2定义游戏规则函数2.3生成计算机选择2.4判断胜负逻辑2.5主循环与交互3.代码运行效果示例第二部分：功能扩展与优化1.添加计分系统2.支持多轮游戏与退出选择3.增加图形化界面（可选）第三部分：进一步学习方向1.深化游戏功能2.学习相关知识3.书籍与资源推荐适合人群：编
微软Data Formulator：用AI重塑数据可视化的未来几道之旅人工智能智能体及数字员工人工智能信息可视化
在数据驱动的时代，如何快速将复杂数据转化为直观的图表是每个分析师面临的挑战。微软研究院推出的开源工具DataFormulator，通过结合AI与交互式界面，重新定义了数据可视化的工作流。本文将深入解析这一工具的核心功能、安装方法及使用技巧，助你轻松驾驭数据之美。一、DataFormulator是什么？DataFormulator是一款基于大语言模型（LLM）的AI工具，旨在帮助用户通过自然语言和界
Matplotlib 柱形图 lly202406 开发语言
Matplotlib柱形图引言在数据可视化领域，柱形图是一种非常常见且强大的图表类型。它能够帮助我们直观地比较不同类别或组之间的数据大小。Matplotlib，作为Python中最受欢迎的数据可视化库之一，提供了丰富的绘图功能，其中包括创建柱形图。本文将详细介绍Matplotlib中的柱形图，包括其基本用法、高级特性以及如何进行优化。基本用法安装Matplotlib在开始使用Matplotlib之
如何评估一个RAG系统（RAGas评测框架）-下篇写程序的小火箭大语言模型人工智能语言模型 chatgpt langchain gpt
RAGas是一个用于评测RAG系统的评测框架，它支持与不同大语言模型的集成，并与langchain生态打通，能够很方便的构建评测系统。下面是RAGas的一些链接论文：https://arxiv.org/pdf/2309.15217官方文档：Ragashttps://github.com/explodinggradients/ragas官方文档及github对框架的使用介绍的比较详细，本文不会就该方
清晰架构之typescript实践：构建可扩展服务的利器吕曦耘George
清晰架构之typescript实践：构建可扩展服务的利器react-with-clean-architectureCleanarchitecturebasedreactprojectsamplecode.项目地址:https://gitcode.com/gh_mirrors/re/react-with-clean-architecture在软件开发的浩瀚宇宙中，找到一个既能维持代码的清晰度又能确保
大模型最新面试题系列：微调篇之微调基础知识人肉推土机大模型最新面试题集锦大全面试人工智能 AI编程大模型微调 LLM
一、全参数微调（Full-Finetune）vs参数高效微调（PEFT）对比1.显存使用差异全参数微调：需存储所有参数的梯度（如GPT-3175B模型全量微调需约2.3TB显存）PEFT：以LoRA为例，仅需存储低秩矩阵参数（7B模型使用r=16的LoRA时显存占用减少98%）实战经验：在A10080GB显存下，全量微调LLaMA-7B需DeepSpeedZero3优化，而LoRA可直接单卡运行2
对MCP工作流的一些个人认知持续学习的老赵人工智能
最近在学习MCP系统，虽尚未深入掌握，但已对其工作原理有了初步认识，在此分享下学习收获。MCP是一套能实现客户端、多种服务与大模型协同工作的系统，能处理任务请求并及时反馈。其工作流程如下：一、获取并更新服务使用方法（一）收集整理使用方法MCP正常运行依赖于对各类服务使用方法的了解，这要靠已在系统注册且可识别的功能模块。一旦有新模块注册或旧模块更新，系统会自动检测并获取其使用方法信息。MCP订阅服务
【入门初级篇】布局类组件的使用（4）：模板布局组件 #六脉神剑低代码 myBuilder 产品运营
【入门初级篇】布局类组件的使用（4）：模板布局组件视频要点（1）模板布局组件的使用介绍：定义静态数据源，定义模板，预览效果点击访问myBuilder产品运营平台CSDN站内资源下载myBuilder交流请加微信：MyBuilder88
【入门初级篇】报表基础操作与功能介绍 #六脉神剑低代码 myBuilder 产品运营
【入门初级篇】报表的基本操作与功能介绍视频要点（1）报表组件的创建（2）指标组件的使用：一级、二级指标操作演示（3）表格属性设置介绍（4）图表属性设置介绍（5）报表预览：绑定静态数据（6）介绍myBuilder内部模块：用报表低代码开发的示例介绍点击访问myBuilder产品运营平台CSDN站内资源下载myBuilder交流请加微信：MyBuilder88
【入门初级篇】布局类组件的使用（3）：单据详情布局 #六脉神剑低代码产品运营 myBuilder
【入门初级篇】布局类组件的使用（3）：单据详情布局视频要点（1）表单详情布局结束：行容器+表格增加布局边距（2）页签布局的使用点击访问myBuilder产品运营平台CSDN站内资源下载myBuilder交流请加微信：MyBuilder88
知汇云创myBuilder产品发布 #六脉神剑低代码
【入门初级篇】产品介绍v2·前言Hello，大家好，今天给大家介绍一下myBuilder渐进式低代码IDE软件。·产品定位与版本规划myBuilder是一款面向B端数字化领域的低代码开发工具、集成开发环境，具备高效、灵活的使用特点，设计的初心是让B端数字化变得更简单。myBuilder的主要开发套件以及基础功能，我们有专门的培训课程详细讲解，这里先不展开介绍，相信通过我们的教学视频讲解您会逐一发现
【入门初级篇】窗体的基本操作与功能介绍 #六脉神剑低代码
【入门初级篇】窗体的基本操作与功能介绍视频要点（1）窗体的使用场景介绍：模式对话框（2）窗体的创建与设计（3）窗体动态标题设置（4）向窗体添加组件以及相关操作介绍（5）窗体属性编辑介绍（6）窗体数据的使用：组件数据的绑定（7）窗体中3种预览效果介绍点击访问myBuilder产品运营平台CSDN站内资源下载myBuilder交流请加微信：MyBuilder88
JDBC:Apache DBUtils的使用恒奇恒毅 JavaSE
•commons-dbutils是Apache组织提供的一个开源JDBC工具类库，它是对JDBC的简单封装，学习成本极低，并且使用dbutils能极大简化jdbc编码的工作量，同时也不会影响程序的性能。•API介绍：–org.apache.commons.dbutils.QueryRunner–org.apache.commons.dbutils.ResultSetHandler以及一些实现类–工
SOFAStack-00-sofa 技术栈概览老马啸西风 sofa 架构监控阿里云系统架构
SOFAStack前言大家好，我是老马。sofastack其实出来很久了，第一次应该是在2022年左右开始关注，但是一直没有深入研究。最近想学习一下SOFA对于生态的设计和思考。核心项目⚙️SOFABootGitHub:sofastack/sofa-boot|★3.8k功能：企业级SpringBoot增强框架，支持模块化开发、类隔离、日志隔离，提供健康检查、异步初始化等特性。SOFARPCGitH
数据分析实战：Shopee虾皮网销售数据分析 harvensage 数据分析数据分析数据挖掘
一、背景目标Shopee（虾皮网）是东南亚电商平台，覆盖新加坡、马来西亚、菲律宾、泰国、越南、巴西、墨西哥、哥伦比亚、智利等十余个市场，触达超10亿消费者！2023年Shopee总订单量达82亿，23年Q4总订单数同比增长46%！分析数据样本来自某爬虫系统爬取的Shopee网从2023年4月至2023年5月期间特定产品的销售数据。任务要求任务要求：从数据中获取在2023年5月上市的产品。使用问题1
批量获取虾皮shopee商品详情信息爬虫 a6229203 爬虫数据库前端
每天100万详情联系736131417v:IpAnt_Proxy在当今的电子商务环境中，数据是至关重要的。对于电商平台的商家和开发者来说，获取商品详情信息是他们日常工作的关键部分。虾皮Shopee作为东南亚最大的电商平台，其商品信息对于商家和开发者来说具有极高的价值。本文将分享如何通过API批量获取虾皮Shopee的商品详情信息，并提供测试代码，让您轻松上手。一、了解虾皮ShopeeAPI虾皮Sh
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
如何使用PHP爬虫根据关键词获取Shopee商品列表？数据小爬虫@ php 爬虫 android
在跨境电商领域，Shopee作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，根据关键词获取Shopee商品列表都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写PHP爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用PHP爬虫根据关键词获取Shopee商品列表，并提供完整的代码示例。一
Qt窗口控件之消息对话框QMessageBox laimaxgg qt c++qt6.3 qt5 前端
消息对话框QMessageBoxQMessageBox是继承于QDialog类，用于表示Qt中的一个消息对话框。消息对话框是应用程序中最常用的界面元素，主要用于为用户提示重要信息，强制用户进行选择操作。1.QMessageBox方法方法说明setWindowTitle(QString)设置消息对话框标题文本。setText(QString)设置消息对话框内容文本。setStandardButton
如何使用PHP爬虫获取Shopee（虾皮）商品详情？数据小爬虫@ php 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写PHP爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用PHP爬虫获取Shopee商品详情，并提供完整的代码示例。一、为什么选择
html5 图像标签不负韶华ღ #html5 +css3 +js html5 javascript html
HTML网页中任何元素的实现都要依靠HTML标签，要想在网页中显示图像就需要使用图像标签。1、：图像嵌入HTML元素将一份图像嵌入文档。src属性用于指定图像文件的路径和文件名，是标签的必需属性。alt属性包含一条对图像的文本描述，这不是强制性的，但对无障碍而言，它难以置信地有用——屏幕阅读器会将这些描述读给需要使用阅读器的使用者听，让他们知道图像的含义。如果由于某种原因无法加载图像，普通浏览器也
Java File 类与文件操作代码先锋者 java开发 java 开发语言
一、引言在Java编程中，文件操作是一项非常常见且重要的任务。无论是读取配置文件、保存用户数据，还是进行日志记录，都离不开对文件的操作。Java提供了File类来表示文件和目录的抽象路径名，通过该类可以对文件和目录进行创建、删除、重命名等操作。同时，Java还提供了一系列的输入输出流类，用于对文件内容进行读写操作。本文将详细介绍Java中File类的使用以及相关的文件操作案例。二、File类概述2
Linux驱动开发实战之SRIO驱动（二）基于Tsi721驱动 niuTaylor SRIO驱动实战 linux 驱动开发运维 SRIO
常用驱动介绍在RapidIO系统中，TSI721是一款常用的RapidIO交换芯片，其驱动程序和相关模块负责管理和优化数据传输，包括DMA（直接内存访问）操作。以下是您提到的各个模块的作用概述：rapidio.ko:这是RapidIO核心模块，为RapidIO子系统提供基础支持。它负责管理RapidIO设备、维护RapidIO网络拓扑结构，以及处理RapidIO协议的底层细节。rio_cm.ko:
使用Aim追踪LangChain执行 bavDHAUO langchain python
在现代人工智能应用中，调试和可视化自动化工作流变得越来越重要，Aim正是为此而生。通过Aim，你可以轻松地追踪LangChain中语言模型(LLM)和工具的输入输出，以及代理的动作，从而在执行过程中快速定位和解决问题。此外，Aim还支持并排比较多个执行流程，使之成为调试中的得力助手。Aim是一个完全开源的项目，你可以在GitHub上找到更多关于Aim的信息。在本文中，我们将展示如何启用和配置Aim
Linux驱动开发实战之SRIO驱动（一） niuTaylor linux 驱动开发 c语言开发语言
活动发起人@小虚竹想对你说：这是一个以写作博客为目的的创作活动，旨在鼓励大学生博主们挖掘自己的创作潜能，展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴，那么，快来参加吧！我们一起发掘写作的魅力，书写出属于我们的故事。我们诚挚邀请你参加为期14天的创作挑战赛！提醒：在发布作品前，请将不需要的内容删除。LinuxSRIO驱动开发终极指南：从基础到实战一、SRIO协议基础SRI
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出