XWenXiang

爬虫从入门到入牢

文章目录

- 1. 爬虫简介
- 2. requests 模块介绍
- - 2.1 requests get 请求
  - - 基础使用
    - 添加 params 参数
    - 添加请求头
    - 添加 cookie
  - 2.2 post 请求
  - - 常见响应标头
    - 携带数据
    - 携带 json 数据
    - request.session
  - 2.3 response 属性
  - 2.4 编码问题
  - 2.5 获取二进制数据
  - 2.6 解析 json
  - 2.7 高级用法之 Cert Verification
  - 2.8 代理
  - 2.9 超时，认证，异常，上传文件
  - - 超时设置
    - 异常处理
    - 上传文件
- 3. 代理池
- - 3.1 搭建简易代理池
  - 3.2 django 后端获取客户端的 ip
- 4. 小案例
- - 4.1 爬取视频
  - 4.2 爬取新闻
  - 4.3 爬取哔站视频
- 5. BeautifulSoup4 介绍
- - 5.1 基本使用
  - 5.2 遍历文档树
  - 5.3 搜索文档树
  - - 5.3.1 五种过滤器
    - 5.3.2 find_all( name , attrs , recursive , text , **kwargs )
    - 5.3.3 find( name , attrs , recursive , text , **kwargs )
  - 5.4 CSS选择器
- 6. selenium
- - 6.1 selenium 介绍
  - 6.2 安装
  - 6.3 基本使用
  - 6.4 查找元素
  - - 通过ID查找元素
    - 通过Name查找元素
    - 通过XPath查找元素
    - 通过链接文本获取超链接
    - 通过标签名查找元素
    - 通过Class name 定位元素
    - 通过CSS选择器查找元素
  - 6.5 等待页面加载完成
  - - 显式等待
    - 隐式等待
  - 6.6 浏览器交互
  - - 点击
    - 执行 JS 代码
    - 获取位置、属性、大小和文本
    - 切换选项卡
    - 浏览器前进后退
    - 异常处理
    - 无界面浏览器
    - 模拟百度登录、搜索
    - 模拟博客园登录获取cookie
    - 抽屉新热榜点赞
    - 其他案例
- 7. 动作链
- - 7.1 基础使用
  - 7.2 12306 登录

1. 爬虫简介

爬虫一般指网络爬虫。网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

大部分的软件 cs 或 bs，主流都是用 http 协议通信，实际上爬虫就是模拟发送 http 请求，例如 Postman 也可以模拟发送，爬虫则是在 python 中使用代码进行模拟发送请求。服务端把数据返回( html,xml,json )，在进行数据的清洗（re，bs4），清洗完后再入库（文件，mysql，redis，es，mongo）

mysql： tcp自定定制的协议
redis： tcp自定定制的协议
docker：http协议，符合resful规范
es：    http协议，符合resful规范

python 中使用 requests 可以模拟浏览器的请求，比起之前用到的 urllib，requests 模块的 api 更加便捷（本质就是封装了urllib3）

注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的request请求

安装：pip3 install requests

各种请求方式：常用的就是 requests.get() 和 requests.post()

>>> import requests
>>> r = requests.get('https://api.github.com/events')
>>> r = requests.post('http://httpbin.org/post', data = {'key':'value'})
>>> r = requests.put('http://httpbin.org/put', data = {'key':'value'})
>>> r = requests.delete('http://httpbin.org/delete')
>>> r = requests.head('http://httpbin.org/get')
>>> r = requests.options('http://httpbin.org/get')

2. requests 模块介绍

在 python 中模拟发送请求使用 requests 模块，或者使用 urllib 内置模块，但是其 api 使用复杂。

该模块不仅可以用作爬虫，在后端跟另一个服务交互，也需要使用它

例如公司有一个长链转成短链的服务（把很长的url链接生成短的url链接），可以申请一个域名，将长链和自
己设置的短链进行绑定在库中，并加到自己的域名，当访问短链时会重定向到长链所在地址。

2.1 requests get 请求

HTTP默认的请求方法就是GET

没有请求体
数据必须在1K之内
GET请求数据会暴露在浏览器的地址栏中

GET请求常用的操作：

在浏览器的地址栏中直接给出 URL，那么就一定是 GET 请求
点击页面上的超链接也一定是 GET 请求
提交表单时，表单默认使用 GET 请求，但可以设置为 POST

基础使用

import requests

# res 中包含了响应体的内容
res = requests.get('https://www.1biqug.com/')

添加 params 参数

import requests

# 类似于 https://www.cnblogs.com?name=xwx&age=19
res = requests.get('https://www.cnblogs.com/', params={'name':'xwx','age':19})

注意点：如果地址中包含中文则涉及到 url 的编码和解码，需要使用 urllib.parse.quote 和 urllib.parse.unquote 处理

例如路由中含 ‘谢帅哥’ 中文，复制下来为：
https://blog.csdn.net/m0_58987515?type=blog&name=%E8%B0%A2%E5%B8%85%E5%93%A5

from urllib import parse

url = '哈哈哈'
res = parse.quote(url)
print(res)
res = parse.unquote(url)
print(res)

添加请求头

常见的请求头参数有

参数	说明
Host	指明了服务器的域名及服务器监听的TCP端口号。
Referer	告诉服务器该网页是从哪个页面链接过来。
Accept-Charset	规定服务器处理表单数据所接受的字符集。（常用字符集有 UTF-8-Unicode等）
Accept-Language	告知服务器用户代理能够处理的自然语言集。
Authorization	告知服务器客户端的Web认证信息。
User-Agent	告知服务器HTTP 客户端程序的信息。

解决简单的反扒需要获取 user-agent 添加到请求头中，如下示例

header = {
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
}
res = requests.get('https://dig.chouti.com/', headers=header)
print(res.text)

添加 cookie

添加了 cookie 后会有登录信息，才能操作登录后相关操作。

携带的方式一：放在请求头中

import requests
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
}
res = requests.post('https://dig.chouti.com/link/vote',
                    headers=header,
                    data={
                        'linkId': '35811284'
                    })

使用 cookies 参数

Cookie信息虽然包含在请求头里，但requests模块有单独的参数来处理他，headers={}内就不要放它了，cookie 是 CookieJar 的对象

import requests

Cookies={   
	'user_session':'wGMHFJKgDcmRIVvcA14_Wrt_3xaUyJNsBnPbYzEL6L0bHcfc',
}

# github对请求头没有什么限制，我们无需定制user-agent，对于其他网站可能还需要定制
response=requests.get('https://github.com/settings/emails', cookies=Cookies) 

print('[email protected]' in response.text) #True

2.2 post 请求

POST请求

数据不会出现在地址栏中
数据的大小没有上限
有请求体
请求体中如果存在中文，需要使用URL编码

requests.post() 用法与 requests.get() 完全一致，特殊的是 requests.post() 有一个data参数，用来存放请求体数据

常见响应标头

标头	说明
Keep-Alive	表示 Connection 非持续链接的存活时间。
Server	包含有关原始服务器用来处理请求的软件的信息。
Set-Cookie	用于服务器向客户端发送 sessionID。
Transfer-Encoding	规定了传输报文主题时采用的编码方式。
Location	令客户端重定向至指定的URI。
WWW-Authenticate	表示服务器对客户端的认证信息。

携带数据

请求的数据格式有：from-data、urlencoded(默认)、json

import requests

# 在 data 中取
res = requests.post('http://www.aa7a.cn/user.php', data={
    'username': '111111',
    'password': '111111',
    'captcha': '111111',
    'remember': 1,
    'ref': 'http://www.aa7a.cn',
    'act': ' act_login',
})

# 登录成功的 cookie，是 cookieJar对象，可以看作是字典。（登录失败也会有cookie，但是少了）
print(res.cookies)
res1 = requests.get('http://www.aa7a.cn/', cookies=res.cookies)
print('[email protected]' in res1.text)

携带 json 数据

携带 json 数据可以在 json 参数中，如下所示

res=requests.post('xxx', json={})

request.session

request.session 的作用是在整个过程中自动维护 cookie

session=requests.session()
# 使用session发送请求
session.post('http://www.aa7a.cn/user.php', data={
    'username': '[email protected]',
    'password': '123',
    'captcha': 'aaaa',
    'remember': 1,
    'ref': 'http://www.aa7a.cn/user.php?act=logout',
    'act': ' act_login',
})
res1=session.get('http://www.aa7a.cn/')		# 登录成功后不需要在 get 方法中添加 cookies
print('[email protected]' in res1.text)

2.3 response 属性

repsonse对象的属性和方法，是把 http 的响应封装成了 response

属性方法	说明
respone.text	响应体的字符串
respone.content	响应体二进制数据
respone.status_code	响应状态码
respone.headers	响应头
respone.cookies	响应的 cookie
respone.cookies.get_dict()	cookie 转成 dict
respone.cookies.items()	cookie 拿出 key 和 value
respone.url	请求的地址
respone.history	列表，有重定向，里面放了重定向之前的地址
respone.encoding	响应编码格式
respone.iter_content()	下载图片，视频，需要使用它，可以使用 chunk_size 指定字节大小

with open('致命诱惑3.mp4','wb') as f:
	f.write(res.content)
	for line in res.iter_content(chunk_size=1024):  # 按1024字节写
		f.write(line)

2.4 编码问题

若出现中文乱码，可以指定编码的格式。大部分网站都是 utf-8 编码，老网站中文编码使用 gbk，gb2312。

respone = requests.get('http://www.autohome.com/news')
respone.encoding='gbk'
print(respone.text)  # 默认使用utf-8可能会导致中文乱码

2.5 获取二进制数据

response.content
response.iter_content(chunk_size=1024)
res=requests.get('https://gd-hbimg.huaban.com/e1abf47cecfe5848afc2a4a8fd2e0df1c272637f2825b-e3lVMF_fw658')
with open('a.png','wb') as f:
	f.write(res.content)

2.6 解析 json

import requests
response=requests.get('http://httpbin.org/get')

import json
res1=json.loads(response.text) #太麻烦

res2=response.json() #直接获取json数据

print(res1 == res2) #True

2.7 高级用法之 Cert Verification

高级用法之证书

#证书验证(大部分网站都是https)
import requests
respone=requests.get('https://www.12306.cn') #如果是ssl请求,首先检查证书是否合法,不合法则报错,程序终端



#改进1:去掉报错,但是会报警告
import requests
respone=requests.get('https://www.12306.cn',verify=False) #不验证证书,报警告,返回200
print(respone.status_code)

#改进2:去掉报错,并且去掉警报信息
import requests
from requests.packages import urllib3
urllib3.disable_warnings() #关闭警告
respone=requests.get('https://www.12306.cn',verify=False)
print(respone.status_code)

#改进3:加上证书
#很多网站都是https,但是不用证书也可以访问,大多数情况都是可以携带也可以不携带证书
#知乎\百度等都是可带可不带
#有硬性要求的,则必须带，比如对于定向的用户,拿到证书后才有权限访问某个特定网站
import requests
respone=requests.get('https://www.12306.cn',
                     cert=('/path/server.crt',
                           '/path/key'))
print(respone.status_code)

2.8 代理

代理简单来说就是使用别人的 IP 来访问资源，并返回到自己这。

国内免费 HTTP 代理

import requests

proxies = {
    'http': '112.14.47.6:52024',
}
# 180.164.66.7
respone = requests.get('https://www.cnblogs.com/', proxies=proxies)
print(respone.status_code)

2.9 超时，认证，异常，上传文件

超时设置

import requests
respone = requests.get('https://www.baidu.com', timeout=0.0001)

异常处理

from requests.exceptions import *

try:
    r = requests.get('http://www.baidu.com', timeout=0.00001)
except ReadTimeout:
    print('===:')
except ConnectionError:  # 网络不通
    print('-----')
except Timeout:
    print('aaaaa')
except Exception:
    print('x')

上传文件

import requests

files = {'file': open('a.jpg', 'rb')}
respone = requests.post('http://httpbin.org/post', files=files)
print(respone.status_code)

3. 代理池

3.1 搭建简易代理池

可以使用 proxy_pool 来搭建简单的代理池，官网：proxy_pool

简易高效的代理池，提供如下功能：

定时抓取免费代理网站，简易可扩展。
使用 Redis 对代理进行存储并对代理可用性进行排序。
定时测试和筛选，剔除不可用代理，留下可用代理。
提供代理 API，随机取用测试通过的可用代理。

第一步：clone代码
	git clone git@github.com:jhao104/proxy_pool.git

第二步：安装依赖
	pip3 install -r requirements.txt

第三步：修改配置文件 settings.py
	DB_CONN = 'redis://127.0.0.1:6379/1'

第四步：启动项目
	# 启动爬虫程序
	python3 proxyPool.py schedule
	# web服务程序
	python3 proxyPool.py server

第五步：获取代理
	http://127.0.0.1:5010/get/

3.2 django 后端获取客户端的 ip

import requests

# 从代理池中取出一个IP
# 格式为
'''
{
    "anonymous":"",
    "check_count":1,
    "fail_count":0,
    "https":false,
    "last_status":true,
    last_time":"2022-08-01 17:47:29",
    "proxy":"183.250.163.175:9091",
    "region":"",
    "source":"freeProxy08/freeProxy06"
}
'''

res = requests.get('http://127.0.0.1:5010/get/').json()
print(res['proxy'])

# 拼接成完整代理地址
h = 'https' if res['https'] else h = 'http'

proxies = {
    h: res['proxy'],
}

# 通过代理地址访问个人服务器上的项目，显示IP地址
res1 = requests.get('http://121.4.75.248/gip/', proxies=proxies)
print(res1.text)

注意点：

服务器的sqlit3版本可能会出问题，可以提前配置好MySQL数据库去迁移文件。
部署端口的时候如果失败可以关闭nginx ** nginx -s stop**
部署的语句：python manage.py runserver 0.0.0.0:80

4. 小案例

4.1 爬取视频

以梨视频为例

import requests
import re

res = requests.get('https://www.pearvideo.com/category_loading.jsp?reqType=5&categoryId=5&start=0')
# print(res.text)

video_list = re.findall('', res.text)
print(video_list)
# https://www.pearvideo.com/video_1768482
for video in video_list:
    video_id = video.split('_')[-1]
    video_url = 'https://www.pearvideo.com/' + video
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
        'Referer': video_url
    }
    res1 = requests.get('https://www.pearvideo.com/videoStatus.jsp?contId=%s&mrd=0.5602821872545047' % video_id,
                        headers=header
                        ).json()
    # print(res1['videoInfo']['videos']['srcUrl'])
    mp4_url = res1['videoInfo']['videos']['srcUrl']
    real_mp4_url = mp4_url.replace(mp4_url.split('/')[-1].split('-')[0], 'cont-%s' % video_id)
    print(real_mp4_url)
    # 下载视频
    res2 = requests.get(real_mp4_url)
    with open('video/%s.mp4' % video_id, 'wb') as f:
        for line in res2.iter_content(1024):
            f.write(line)

# 直接发送请求，拿不到视频，它是发送了ajax请求获取了视频，但是需要携带referer
# res=requests.get('https://www.pearvideo.com/video_1768482')
# print(res.text)


# https://video.pearvideo.com/mp4/third/20220729/     1659324669265     -11320310-183708-hd.mp4   # 不能播
# https://video.pearvideo.com/mp4/third/20220729/     cont-1768482      -11320310-183708-hd.mp4    #能播

# url='https://video.pearvideo.com/mp4/third/20220729/   1659324669265    -11320310-183708-hd.mp4'

其他：

关于全站爬取：更换分类id和起始爬取的数字即可
同步爬取，速度一般，加入线程(线程池)，提高爬取速度
封 ip 问题（使用代理池）
视频处理（截取视频，拼接视频使用 ffmpeg 软件，通过命令调用软件
python操作软件：subprocess 模块执行 ffmpeg 的命令完成视频操作
python模块操作 opencv（c写的，编译后，使用python调用），实现非常高级的功能（文件操作给视频加头去尾部）

4.2 爬取新闻

以汽车之家为例。使用 bs4 解析

import requests
from bs4 import BeautifulSoup

res = requests.get('https://www.autohome.com.cn/news/1/#liststart')

# print(res.text)
# 之前使用re解析，解析这个比较麻烦，我们使用bs4解析
#  第一个参数是要解析的字符串（html，xml格式）
#  第二个参数是解析方式：html.parser
soup = BeautifulSoup(res.text, 'html.parser')

# 开始使用，查找内容
# 查找所有的类名为article的ul标签
ul_list = soup.find_all(name='ul', class_='article')
for ul in ul_list:
    li_list = ul.find_all(name='li')
    for li in li_list:
        h3 = li.find(name='h3')
        if h3:
            # 从h3中取出文本内容,新闻标题
            title = h3.text
            desc = li.find(name='p').text
            # url=li.find(name='a')['href']
            url = 'http:' + li.find(name='a').attrs['href']
            img = 'http:' + li.find(name='img')['src']

            print('''
            新闻标题：%s
            新闻摘要：%s
            新闻地址：%s
            新闻图片：%s
            ''' % (title, desc, url, img))
            # 1 把图片保存到本地
            # 2 把清洗过后的数据存到mysql中
            # 3 全站爬取变更页码数（https://www.autohome.com.cn/news/1/#liststart）

4.3 爬取哔站视频

'''

通过该程序下载的视频和音频是分成连个文件的，没有合成，
视频为：视频名_video.mp4
音频为：视频名_audio.mp4
修改url的值，换成自己想下载的页面节课
'''

# 导入requests模块，模拟发送请求
import requests
# 导入json
import json
# 导入re
import re

# 定义请求头
headers = {
    'Accept': '*/*',
    'Accept-Language': 'en-US,en;q=0.5',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'
}


# 正则表达式，根据条件匹配出值
def my_match(text, pattern):
    match = re.search(pattern, text)
    print(match.group(1))
    print()
    return json.loads(match.group(1))


def download_video(old_video_url, video_url, audio_url, video_name):
    headers.update({"Referer": old_video_url})
    print("开始下载视频：%s" % video_name)
    video_content = requests.get(video_url, headers=headers)
    print('%s视频大小：' % video_name, video_content.headers['content-length'])
    audio_content = requests.get(audio_url, headers=headers)
    print('%s音频大小：' % video_name, audio_content.headers['content-length'])
    # 下载视频开始
    received_video = 0
    with open('%s_video.mp4' % video_name, 'ab') as output:
        while int(video_content.headers['content-length']) > received_video:
            headers['Range'] = 'bytes=' + str(received_video) + '-'
            response = requests.get(video_url, headers=headers)
            output.write(response.content)
            received_video += len(response.content)
    # 下载视频结束
    # 下载音频开始
    audio_content = requests.get(audio_url, headers=headers)
    received_audio = 0
    with open('%s_audio.mp4' % video_name, 'ab') as output:
        while int(audio_content.headers['content-length']) > received_audio:
            # 视频分片下载
            headers['Range'] = 'bytes=' + str(received_audio) + '-'
            response = requests.get(audio_url, headers=headers)
            output.write(response.content)
            received_audio += len(response.content)
    # 下载音频结束
    return video_name


if __name__ == '__main__':
    # 换成你要爬取的视频地址
    url = 'https://www.bilibili.com/video/BV1QG41187tj?'
    # 发送请求，拿回数据
    res = requests.get(url, headers=headers)
    # 视频详情json
    playinfo = my_match(res.text, '__playinfo__=(.*?)


    
        你可能感兴趣的:(爬虫,爬虫,python,开发语言)
        
            
                
                    linux执行python脚本conda库_Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解）)...
                        weixin_39992462

                        Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解))1.首先在PycharmTools->Deployment->Configurations打开新建SFTP输入host:ip地址username密码然后点击TestConnection出现下图，则测试成功因为已经连接成功，这时候已经可以读取远程服务器的目录了：2.选择项目mapping(可以跳过3.在Set
                    
                    brew mysql client_Mac安装mysqlclient过程解析
                        weixin_39630440
brewmysqlclient
                        尝试在虚拟环境下通过pip安装：pipinstallmysqlclient然后报错：OSError:mysql_confignotfound找到官方文档https://github.com/PyMySQL/mysqlclient-python，解释说安装前需安装另一个模块：brewinstallmysql-connector-c但是报错：查看报错信息，在安装mysql-connector-c前先b
                    
                    macos安装python-nodejs_MAC平台基于Python Appium环境搭建过程图解
                        weixin_39612038

                        前言最近笔者要为python+appium课程做准备，mac在2019年重新安装了一次系统，这次重新在mac下搭建appium环境，刚好顺带写个文稿给大家分享分享搭建过程。一、环境和所需软件概述1.1目前环境：MacOS(10.15.3)1.2所需软件:jdk-8u91-macosx-x64.dmg(jdk1.8及以上版本应该都可以)android-sdk_r24.4.1-macosx.zip(m
                    
                    python接口自动化
                        全世界最帅的男人
python自动化开发语言
                        Python是一种非常流行的编程语言，也是许多接口自动化测试框架的首选语言。下面是一个简单的接口自动化测试框架的思路：1.安装必要的库和工具：在Python中，我们可以使用requests库来发送HTTP请求，使用unittest库来编写测试用例，使用HTMLTestRunner库来生成测试报告。此外，我们还需要安装一个代码编辑器，如PyCharm或VSCode。2.创建测试用例：编写测试用例是接
                    
                    Python接口自动化
                        花落同学
Python自动化从入门到放弃python自动化
                        4接口自动化4.1使用python实现接口自动化如果不了解接口测试可参考https://ke.qq.com/course/4092904使用Python的request库实现接口测试：importjsonimportrequests#使用session管理：#1.可以自动关联set-cookie里面的内容#2.可以加快与服务器的连接速度session=requests.session()#auth
                    
                    Python异步编程：从基础到高级
                        CarlowZJ
python网络数据库
                        前言在现代软件开发中，异步编程已经成为一种必不可少的技能。Python的异步编程模型（基于asyncio）为开发者提供了一种高效的方式来处理高并发任务，而无需依赖多线程或多进程。异步编程不仅可以提高程序的性能，还能简化并发代码的复杂性。本文将带你从异步编程的基础概念出发，逐步深入到高级应用，帮助你掌握Python异步编程的核心技能。一、异步编程的基础概念1.1什么是异步编程？异步编程是一种编程范式
                    
                    使用Java爬虫按关键字搜索1688商品
                        小爬虫程序猿
java爬虫开发语言
                        在电商领域，获取1688商品信息对于市场分析、选品上架、库存管理和价格策略制定等方面至关重要。1688作为国内领先的B2B电商平台，提供了丰富的商品数据。虽然1688开放平台提供了官方API来获取商品信息，但有时使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Java按关键字搜索1688商品，并提供详细的代码示例。一、准备工作1.Java开发环境确保你的Java开发环境已经安装了以下必
                    
                    python实现接口自动化
                        一只小H呀の
python自动化开发语言
                        代码实现自动化相关理论代码编写脚本和工具实现脚本区别是啥?代码：优点：代码灵活方便缺点：学习成本高工具：优点：易上手缺点：灵活度低，有局限性。总结：功能脚本：工具自动化脚本：代码代码接口自动化怎么做的？第一步：python+request+unittest;具体描述？第二步：封装、调用、数据驱动、日志、报告;详细举例:第三步：api\scripts\data\log\report\until…脚本
                    
                    探索Python中的集成方法：Stacking
                        Echo_Wish
Python笔记Python算法python开发语言
                        在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
                    
                    【Python】 Stacking: 强大的集成学习方法
                        音乐学家方大刚
Pythonpython集成学习开发语言
                        我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
                    
                    minimind2学习：（1）训练
                        溯源006
minimind学习学习深度学习生成模型
                        1、数据下载参考：https://github.com/jingyaogong/minimind/tree/master2、预训练训练6个epochspythontrain_pretrain.py--epochs6训练过程：LLM总参数量：25.830百万Epoch:[1/6](0/11040)loss:8.940lr:0.000550000000epoch_Time:106.0min:Epoch
                    
                    使用Seaborn库中的`violinplot`函数绘制水平小提琴图（Violin Plot）是一种常见的数据可视化方法
                        code_welike
信息可视化数据分析数据挖掘Python
                        使用Seaborn库中的violinplot函数绘制水平小提琴图（ViolinPlot）是一种常见的数据可视化方法。水平小提琴图可以展示数据的分布特征，并可以对比不同组别之间的差异。本文将介绍如何使用Python和Seaborn库绘制水平小提琴图，并提供相应的源代码示例。首先，我们需要确保已经安装了Seaborn库。可以使用以下命令在Python中安装Seaborn：pipinstallseabo
                    
                    【集成学习】：Stacking原理以及Python代码实现
                        Geeksongs
机器学习python机器学习深度学习人工智能算法
                        Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
                    
                    使用Seaborn绘制水平小提琴图
                        YOUFDJ
python开发语言Python
                        使用Seaborn绘制水平小提琴图水平小提琴图是一种常用的数据可视化工具，可以用于展示不同类别之间的分布情况。在Python中，我们可以使用Seaborn库的catplot函数来轻松地绘制水平小提琴图。本文将介绍如何使用Seaborn绘制水平小提琴图，并附带相应的源代码示例。首先，确保你已经安装了Seaborn库。如果没有安装，可以使用以下命令在命令行中安装：pipinstallseaborn安装
                    
                    Python文件与格式化：编程世界的“读写之道“（技术深挖版）
                        被窝妄想家
python进阶指南python数据库开发语言
                        一、文件操作：Python的"读写之眼"1.1文件基础哲学在计算机世界中，文件就像一本本等待翻阅的典籍。Python的open()函数如同手持放大镜，让我们能精确控制阅读和书写：#经典打开模式组合withopen("data.txt","r+",encoding="utf-8")asf:#r+模式：可读可写，文件指针初始位置在开头content=f.read(10)#读取前10个字节f.seek(
                    
                    使用Seaborn绘制小提琴图
                        CodeWG
python开发语言
                        使用Seaborn绘制小提琴图在数据分析与可视化中，小提琴图是一种常用的图表类型。它能够展示数据的分布情况，同时还能显示中位数、四分位数和异常值等统计指标。在Python中，我们可以使用Seaborn库来轻松地绘制小提琴图。下面就来详细介绍一下如何使用Seaborn来创建小提琴图。首先，我们需要导入必要的库和数据集。这里我们使用Seaborn自带的数据集tips作为例子。importseaborn
                    
                    python实际应用场景代码
                        yzx991013
python前端服务器
                        1.自动化文件整理importosimportshutildeforganize_downloads_folder():download_path="/Users/YourName/Downloads"#修改为你的下载路径file_types={"Images":[".jpg",".png",".gif"],"Documents":[".pdf",".docx",".txt"],"Videos":
                    
                    python大赛对名_用100行Python爬虫代码抓取公开的足球数据玩（一）
                        司马各
python大赛对名
                        在《用Python模拟2018世界杯夺冠之路》一文中，我选择从公开的足球网站用爬虫抓取数据，从而建模并模拟比赛，但是略过了爬虫的实施细节。虽然爬虫并不难做，但希望可以让更多感兴趣的朋友自己动手抓数据下来玩，提供便利，今天就把我抓取球探网的方法和Python源码拿出来分享给大家，不超过100行代码。希望球友们能快速get爬虫的技能。#-*-coding:utf-8-*-from__future__i
                    
                    从入门到进阶：Python数据可视化实战技巧
                        Blossom.118
分布式系统与高性能计算领域信息可视化python开发语言网络协议springbootjava后端
                        在数据分析和数据科学领域，数据可视化是将复杂数据以直观图形展示的重要手段。Python作为数据科学领域的首选语言之一，提供了强大的数据可视化库，如Matplotlib、Seaborn、Plotly等。本文将从入门到进阶，逐步介绍Python数据可视化的实战技巧，帮助读者快速提升数据可视化能力。一、入门：Matplotlib基础Matplotlib是Python中最基础、最强大的数据可视化库之一。它
                    
                    【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践
                        蒙娜丽宁
Python杂谈人工智能人工智能
                        《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
                    
                    wooyun知识库爬虫（自动整理保存为pdf）
                        大囚长
编程人生黑客帝国spiderpython
                        #!C:\Python27\python.exe#coding=utf8importosimportpdfkitimporturllib2frombs4importBeautifulSoupfrommultiprocessingimportPoolimportsocketsocket.setdefaulttimeout(60)importsysreload(sys)sys.setdefaulten
                    
                    HCIA-AI人工智能笔记3：数据预处理
                        噗老师
华为认证人工智能笔记wpf数据处理AI华为认证
                        统讲解数据预处理的核心技术体系，通过Python/Pandas与华为MindSpore双视角代码演示，结合特征工程优化实验，深入解析数据清洗、标准化、增强等关键环节。一、数据预处理技术全景图graphTDA[原始数据]-->B{数据清洗}B-->B1[缺失值处理]B-->B2[异常值检测]B-->B3[重复值删除]A-->C{特征工程}C-->C1[标准化/归一化]C-->C2[离散化分箱]C--
                    
                    python画画加粗_Matplotlib'粗体'字体 - python
                        weixin_39569747
python画画加粗
                        跟随thisexample：importnumpyasnpimportmatplotlib.pyplotaspltfig=plt.figure()fori,labelinenumerate(('A','B','C','D')):ax=fig.add_subplot(2,2,i+1)ax.text(0.05,0.95,label,transform=ax.transAxes,fontsize=16,
                    
                    matplotlib使用大字体，粗线
                        weixin_34254823
python
                        2019独角兽企业重金招聘Python工程师标准>>>matplotlib在绘图时缺省的字体和线条都有些细，所以需要加粗一下importmatplotlib.pyplotaspltdefuseLargeSize(axis,marker_lines=None,fontsize='xx-large',fontproperties=None):'''将X,Y坐标轴的标签、刻度以及legend都使用大字体
                    
                    六种方法教你将Python源代码打包成exe
                        xuefeng_210
python开发语言linux
                        将Python源代码打包成可执行文件（exe）是一种常见的需求，它可以使我们的程序在没有安装Python解释器的环境中运行。在本文中，我们将介绍六种常用的方法来实现这个目标，并详细说明每种方法的使用过程。cx_Freezecx_Freeze是一个用于将Python脚本打包成可执行文件的工具。它可以将Python代码和依赖的库文件一起打包，并生成一个独立的可执行文件。使用cx_Freeze的步骤如下
                    
                    Python Excel操作新玩法：从零到高手掌握openpyxl
                        xuefeng_210
python自动化java
                        openpyxl是Python中一个强大的第三方库，用于操作Excel文件，它可以读取、写入和修改Excel文件，并且支持Excel文件中的样式、图表等元素。openpyxl使得在Python中处理Excel文件变得非常简单和高效。本文将从入门到精通地介绍openpyxl的使用方法，带你掌握在Python中处理Excel文件的技巧。目录安装和导入创建和保存Excel文件读取Excel文件写入Exc
                    
                    CentOS7下安装python3.8
                        讓丄帝愛伱
Linux编程语言
                        查看系统版本#查看系统版本cat/etc/centos-release>CentOSLinuxrelease7.2.1511(Core)uname-a>Linuxlocalhost.localdomain3.10.0-327.el7.x86_64#1SMPThuNov1922:10:57UTC2015x86_64x86_64x86_64GNU/Linux#查看python版本python-V>Py
                    
                    Ubuntu18.04切换python3.8版本
                        波波维琦
pythonlinuxubuntu
                        安装python3.8sudoaptinstallpython3.8赋予python优先级sudoupdate-alternatives--install/usr/bin/pythonpython/usr/bin/python3.82切换python默认版本sudoupdate-alternatives--configpython选择python3.8的编号，回车赋予python3优先级sudou
                    
                    Python连接StarRocks全流程实践: SQL文件调用与Pandas混合优化
                        ToreanonyTang
pythonsqlpandas数据库开发语言
                        文章目录一环境准备与连接方法1.安装核心依赖库2.连接字符串配置3.多模式连接验证二SQL文件调用与动态执行1.外部SQL文件结构设计2.Python动态加载执行三Pandas混合使用技巧1.查询结果直接转DataFrame2.批量数据写入优化四深度性能优化策略1.StarRocks服务端优化2.Python客户端优化3.混合计算策略五完整业务场景示例1:用户转化漏斗业务场景实现代码公用表表达式(
                    
                    DJANGO 中间件的白名单配置
                        换个网名有点难
djangopython
                        在处理白名单内的多个Apps的URL链接时，可以采用以下几种方法来简化白名单的配置：1.使用reverse动态获取URL如果你在urls.py中为每个App的URL定义了名称（name参数），可以使用reverse函数动态获取这些URL，而不是硬编码路径。这样可以避免手动维护大量的路径字符串。Python复制fromdjango.urlsimportreverseclassLoginRequire
                    
                                java线程Thread和Runnable区别和联系
                                    zx_code
javajvmthread多线程Runnable
                                    我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。 
 
模拟窗口买票，第一例子继承thread，代码如下 
 
package thread;

public class ThreadTest {
	
	public static void main(String[] args) {
		
		Thread1 t1 = new Thread1(
                                
                                【转】JSON与XML的区别比较
                                    丁_新
jsonxml
                                    1.定义介绍 
(1).XML定义 
扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 
XML是标
                                
                                c++ 实现五种基础的排序算法
                                    CrazyMizzz
C++c算法
                                    #include<iostream>
using namespace std;


//辅助函数，交换两数之值
template<class T>
void mySwap(T &x, T &y){
	T temp = x;
	x = y;
	y = temp;
}

const int size = 10;

//一、用直接插入排
                                
                                我的软件
                                    麦田的设计者
我的软件音乐类娱乐放松
                                         这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
                                
                                linux awk命令详解
                                    被触发
linux awk
                                    awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 
awk处理过程: 依次对每一行进行处理，然后输出 
awk命令形式: 
awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file 
 [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
                                
                                各种语言比较
                                    _wy_
编程语言
                                                           Java Ruby PHP   擅长领域                      
                                
                                oracle 中数据类型为clob的编辑
                                    知了ing
oracle clob
                                    public void updateKpiStatus(String kpiStatus,String taskId){
	Connection dbc=null;
	Statement stmt=null;
	PreparedStatement ps=null;
	try {
		dbc = new DBConn().getNewConnection();
		//stmt = db
                                
                                分布式服务框架 Zookeeper -- 管理分布式环境中的数据
                                    矮蛋蛋
zookeeper
                                    原文地址： 
http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 
安装和配置详解 
本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
                                
                                tomcat数据源
                                    alafqq
tomcat
                                    数据库 
 
 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。 
 
 
 没有使用JNDI时我用要这样连接数据库： 
 
 
03.  Class.forName("com.mysql.jdbc.Driver");  
04.  conn
                                
                                遍历的方法
                                    百合不是茶
遍历
                                                                                          遍历 
在java的泛
                                
                                linux查看硬件信息的命令
                                    bijian1013
linux
                                    linux查看硬件信息的命令 
一.查看CPU： 
cat /proc/cpuinfo 
  
二.查看内存： 
free 
  
三.查看硬盘： 
df 
  
linux下查看硬件信息 
1、lspci 列出所有PCI 设备； 
lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
                                
                                java常见的ClassNotFoundException
                                    bijian1013
java
                                    1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory   添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization    
                                
                                【Gson五】日期对象的序列化和反序列化
                                    bit1129
反序列化
                                    对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 
  
1. 序列化时，Date对象序列化的字符串日期格式如何 
2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 
3. Date A -> str -> Date B,A和B对象是否equals 
  默认序列化和反序列化 
  
  
import com
                                
                                【Spark八十六】Spark Streaming之DStream vs. InputDStream
                                    bit1129
Stream
                                      1. DStream的类说明文档： 
  
/**
 * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous
 * sequence of RDDs (of the same type) representing a continuous st
                                
                                通过nginx获取header信息
                                    ronin47
nginx header
                                    1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， 
  if ( $http_cookie ~* "(.*)$") { 
          set $all_cookie $1; 
  } 
      变量$all_cookie就获得了cookie的值，可以用于运算了 
 

                                
                                java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999
                                    bylijinnan
java
                                    参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 
写了个java版的： 
 
 



public class Print_1_To_NDigit {

	/**
	 * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999
	 * 1.使用字符串
                                
                                Netty源码学习-ReplayingDecoder
                                    bylijinnan
javanetty
                                    ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 
 
http://bylijinnan.iteye.com/blog/1982618 
 
API说，ReplayingDecoder简化了操作，比如： 
 
FrameDecoder在decode时，需要判断数据是否接收完全： 
 
 

public class IntegerH
                                
                                js特殊字符过滤
                                    cngolon
js特殊字符js特殊字符过滤
                                    1.js中用正则表达式 过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) {    var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）&mdash;—|{}【】‘；：”“'。，、？]"
                                
                                hibernate使用sql查询
                                    ctrain
Hibernate
                                    
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import org.hibernate.Hibernate;
import org.hibernate.SQLQuery;
import org.hibernate.Session;
import org.hibernate.Transa
                                
                                linux shell脚本中切换用户执行命令方法
                                    daizj
linuxshell命令切换用户
                                    经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 
  
1、执行单个命令：su - user -c "command" 
如：下面命令是以test用户在/data目录下创建test123目录 
[root@slave19 /data]# su - test -c "mkdir /data/test123" 
                                
                                好的代码里只要一个 return 语句
                                    dcj3sjt126com
return
                                    别再这样写了：public boolean foo() {    if (true) {         return true;     } else {          return false;    
                                
                                Android动画效果学习
                                    dcj3sjt126com
android
                                    1、透明动画效果 
方法一：代码实现 
	public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState)
		{
			View rootView = inflater.inflate(R.layout.fragment_main, container, fals
                                
                                linux复习笔记之bash shell (4)管道命令
                                    eksliang
linux管道命令汇总linux管道命令linux常用管道命令
                                    转载请出自出处：
http://eksliang.iteye.com/blog/2105461   
  bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。 
    上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？ 
    答：非常的经典的一句话，记住了，何为管
                                
                                Android系统中自定义按键的短按、双击、长按事件
                                    gqdy365
android
                                    在项目中碰到这样的问题： 
由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 
1、单击事件：就是普通key的单击； 
2、双击事件：500ms内同一按键单击两次； 
3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 
4、组合按键：两个以上按键同时按住； 
                                
                                asp.net获取站点根目录下子目录的名称
                                    hvt
.netC#asp.nethovertreeWeb Forms
                                    使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： 
<asp:ListBox runat="server" ID="lbKeleyiFolder" /> 
  
那么在页面上显示根目录子文件夹的代码如下： 
string[] m_sub
                                
                                Eclipse程序员要掌握的常用快捷键
                                    justjavac
javaeclipse快捷键ide
                                       判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。       曾有人在豆瓣评
《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个
程序员图书列表，目的也就是通过读书，让程序员变懒。     写道   程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
                                
                                c++编程随记
                                    lx.asymmetric
C++笔记
                                     为了字体更好看，改变了格式…… 
  
&&运算符： 
  
#include<iostream> 
using namespace std; 
int main(){ 
     int a=-1,b=4,k; 
     k=(++a<0)&&!(b--
                                
                                linux标准IO缓冲机制研究
                                    音频数据
linux
                                    一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
                                
                                随想 生活
                                    暗黑小菠萝
生活
                                    其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。 
  
毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
                                
                                我认为POJO是一个错误的概念
                                    windshome
javaPOJO编程J2EE设计
                                      
            这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 
   &
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.