搬砖人NO17

Python爬虫--1

1、爬虫简介

【1】什么是爬虫：

通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

【2】爬虫的价值：

1、实际应用；

2、就业；

【3】合法性：

1、爬虫在法律是不被禁止的；

2、具有违法风险（公开的信息是可以的）；

3、干扰了被访问网站的正常运营（恶意爬虫）；爬取了收到法律保护的特定类型的数据或者信息；

4、优化自己程序，避免被访问网站的正常运营；审查抓取的内容；（避免进入局子的方法）

【4】爬虫在使用场景中的分类：

1、通用爬虫

百度、谷歌等常见的浏览器都有一个抓取系统，通用爬虫是抓取系统的重要组成部分，它抓取的是一整张页面数据。

2、聚焦爬虫

建立在通用爬虫的基础之上，抓取的是页面中特定的、指定的局部内容。

3、增量式爬虫

检测网站中数据更新的情况，只会抓取网站中最新更新出来的数据。

【5】爬虫的矛与盾：

1、反爬机制：

门户网站可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。

2、反反爬策略：

爬虫程序可以通过制定相应的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以爬取网站中相关的数据。

【6】robots.txt协议：

规定了网站中哪些数据可以爬取，哪些数据不可以爬取。假如看搜狐上的robots.txt规定，可以通过https://sohu.com/robots.txt访问，可以看到有些目录是可以被百度（Baiduspider）爬取（Allow），但是有些是不能被百度爬取的（Disallow）。

User-agent: Baiduspider
Disallow: /*?*
Allow: /a/*?*
Allow: /abroad_a/*?*
Allow: /picture/*?*
Allow: /*_a(/qihoo_a)/*?*
Allow: /collection/*?*
Allow: /ab_a/*?*
Allow: /classic*?*
Allow: /?*$
Allow: /new*?*
Allow: /business*?*
Allow: /it*?*
Allow: /fashion*?*
Allow: /leaening*?*
Allow: /health*?*
Allow: /yule*?*
Allow: /mt*?*
Allow: /travel*?*
Allow: /baobao*?*
Allow: /chihe*?*
Allow: /cul*?*
Allow: /history*?*
Allow: /gov*?*
Allow: /gongyi*?*
Allow: /police*?*
Allow: /mil*?*
Allow: /acg*?*
Allow: /astro*?*
Allow: /game*?*
Allow: /pets*?*
Allow: /sports*?*
Allow: /subject/*?*

User-agent: YisouSpider
Disallow: /*?*
Allow: /a/*?*
Allow: /abroad_a/*?*
Allow: /picture/*?*
Allow: /*_a(/qihoo_a)/*?*
Allow: /collection/*?*
Allow: /ab_a/*?*
Allow: /classic*?*
Allow: /?*$
Allow: /new*?*
Allow: /business*?*
Allow: /it*?*
Allow: /fashion*?*
Allow: /leaening*?*
Allow: /health*?*
Allow: /yule*?*
Allow: /mt*?*
Allow: /travel*?*
Allow: /baobao*?*
Allow: /chihe*?*
Allow: /cul*?*
Allow: /history*?*
Allow: /gov*?*
Allow: /gongyi*?*
Allow: /police*?*
Allow: /mil*?*
Allow: /acg*?*
Allow: /astro*?*
Allow: /game*?*
Allow: /pets*?*
Allow: /sports*?*
Allow: /subject/*?*

User-agent: Bytespider
Disallow: /*?*
Allow: /a/*?*
Allow: /abroad_a/*?*
Allow: /picture/*?*
Allow: /*_a(/qihoo_a)/*?*
Allow: /collection/*?*
Allow: /ab_a/*?*
Allow: /classic*?*
Allow: /?*$
Allow: /new*?*
Allow: /business*?*
Allow: /it*?*
Allow: /fashion*?*
Allow: /leaening*?*
Allow: /health*?*
Allow: /yule*?*
Allow: /mt*?*
Allow: /travel*?*
Allow: /baobao*?*
Allow: /chihe*?*
Allow: /cul*?*
Allow: /history*?*
Allow: /gov*?*
Allow: /gongyi*?*
Allow: /police*?*
Allow: /mil*?*
Allow: /acg*?*
Allow: /astro*?*
Allow: /game*?*
Allow: /pets*?*
Allow: /sports*?*
Allow: /subject/*?*
Allow: /integration-api/*?*
Allow: /public-api/*?*

想看网站xxxxx的robots协议的话，可以进去网址中xxxxx.com进行查看。

【7】http协议

服务器和客户端进行数据交互的一种形式。打开百度首页，在空白处单击右键出现“审查元素”，如下图，随便点开一个对象，如下图：

可以看到请求头信息和响应头信息。

常用请求头信息：

（1）User-Agent：指请求载体的身份标识。

在上图中，在请求头信息中可以看到“User-Agent”，内容是：Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.95 Safari/537.36

（2）Connection：请求完毕之后，是断开连接还是保持连接。

常用响应头信息：

（1）Content-Type：服务器响应回客户端的数据类型（可以是字符串\JSON等）。

【8】https协议

指安全的http（超文本传输）协议。进行了数据加密。

【9】加密方式

（1）对称秘钥加码；

（2）非对称秘钥加密；

（3）证书秘钥加密（https）。

【10】爬虫的重点步骤是什么？

网页分析；网页分析；网页分析。

2、python库

python中基于网络请求的模块有urllib模块和requests模块。

2.1、requests库

python中原生的一款基于网络请求的模块。作用：模拟浏览器发请求。浏览器发起请求过程：

（1）指定url；

（2）发起请求；

（3）获取响应数据；

（4）持久化存储。

使用requests模拟上面的流程即可。

实战：爬取百度首页的页面数据

# -*-coding = utf-8-*-
# 爬虫爬取百度首页内容，并保存称一个html文件。
import requests

if __name__ == '__main__' :
    # 第一步：指定url、指定认证header
    url = "https://www.baidu.com"

    header = {
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                       'Chrome/108.0.5359.95 Safari/537.36'
    }

    # 第二步：发起请求；get()会返回一个相应对象
    response = requests.get(url = url, headers=header)

    # 第三步：获取响应数据[.text是返回字符串形式的相应数据]
    page_text = response.text
    print(page_text)

    # 第四步：持久化存储
    with open("./temp/test-0-baiduwangye.html", 'w', encoding='utf-8') as fp :
        fp.write(page_text)
    print('保存成功！')

2.2、requests中的7中主要方法

requests.request(method, url, **kwagrs)	构造一个请求，支持其余的六种方法
requests.get(url, params = None, **kwargs)	获取html的主要方法
requests.head()	获取html头部信息的主要方法
requests.post()	向html网页提交post请求的方法
requests.put()	向html网页提交put请求的方法
requests.patch()	向html提交局部修改的请求
requests.delete()	向html提交删除请求
requests.options()

注：get，head是从服务器获取信息到本地；put，post，patch，delete是从本地向服务器提交信息。

2.3、requests.request()：构造一个请求，支持其余的六种方法

示例：

response = requests.request(method, url, **kwagrs)

参数：

（1）method：是请求方式，对应get、head、post、put、patch、delete、options等7种方法；

（2）url：是获取页面的url链接；

（3）**kwagrs：是控制访问的参数，有13个：

**kwagrs是控制访问的参数，均为可选项，有13种，详细解释如下：

（3.1）params：字典或字节序列，作为参数增加到url中，使用这个参数可以把一些键值对以?key1=value1&key2=value2的模式增加到url中。

import requests

def test() :
    url = "https://www.baidu.com"
    data = {"key1" : "data1", "key2" : "data2"}
    response = requests.get(url=url, params=data)
    print(response.url)
    # 结果为：https://www.baidu.com/?key1=data1&key2=data2

if __name__ == '__main__':
    test()

（2）data：字典，字节序列或文件对象，重点作为向服务器提供或提交资源，作为requests的内容，与params不同的是，data提交的数据并不放在url链接里，而是放在url链接对应位置的地方作为数据来存储，它也可以接受一个字符串对象。

import requests

def test() :
    url = "https://www.baidu.com"
    data = {"key1" : "data1", "key2" : "data2"}
    response = requests.put(url=url, data=data)
    print(response.url)

if __name__ == '__main__':
    test()

（3）json：json格式的数据，也是http最经常使用的数据格式，作为request的内容。

import requests

def test() :
    url = "https://www.baidu.com"
    data = {"key1" : "data1", "key2" : "data2"}
    response = requests.post(url=url, json=data)
    print(response.url)

if __name__ == '__main__':
    test()

（4）headers：字典，可以用这个字段来定义http的访问的http头，可以用来模拟任何我们想模拟的浏览器来对url发起访问。

import requests

def test() :
    url = "https://www.baidu.com"
    header = {
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                       'Chrome/108.0.5359.95 Safari/537.36'
    }
    response = requests.put(url=url, headers=header)
    print(response.headers)

if __name__ == '__main__':
    test()

（5）cookies：字典或CookieJar，指的是从http中解析cookie

import requests

def test() :
    url = "https://www.baidu.com"
    header = {
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                       'Chrome/108.0.5359.95 Safari/537.36'
    }
    response = requests.post(url=url, headers=header)
    cookies = response.cookies
    print(type(cookies))

if __name__ == '__main__':
    test()

（6）auth：元组，用来支持http认证功能

import requests
from requests.auth import HTTPBasicAuth

def test() :
    url = "https://www.baidu.com"
    header = {
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                       'Chrome/108.0.5359.95 Safari/537.36'
    }
    response = requests.get(url=url, headers=header, auth=HTTPBasicAuth('user', 'user'))
    print(response.status_code)

if __name__ == '__main__':
    test()

（7）files：字典，用来向服务器传输文件时使用的字段

import requests
from requests.auth import HTTPBasicAuth

def test() :
    url = "https://www.baidu.com"
    header = {
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                       'Chrome/108.0.5359.95 Safari/537.36'
    }
    fs = {"files" : open('xxx/xxx/xxx/cccc.txt', 'rb')}
    response = requests.put(url=url, headers=header, files=fs)
    print(response.status_code)

if __name__ == '__main__':
    test()

（8）timeout：设定超时时间，单位为秒，当发起一个get请求时可以设置一个timeout时间，如果在timeout时间内请求内容没有返回，将产生一个timeout的异常。

import requests
from requests.auth import HTTPBasicAuth
from requests.exceptions import ReadTimeout

def test() :
    try:
        url = "https://www.baidu.com"
        header = {
            'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                           'Chrome/108.0.5359.95 Safari/537.36'
        }
        response = requests.get(url=url, headers=header, timeout=0.5)
        print(response.status_code)
    except ReadTimeout :
        print('Time Out')

if __name__ == '__main__':
    test()

（9）proxies：字典，用来设置访问代理服务器，可以增加登录认证

import requests
from requests.auth import HTTPBasicAuth

def test() :
    url = "https://www.baidu.com"
    header = {
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                       'Chrome/108.0.5359.95 Safari/537.36'
    }
    response = requests.get(url=url, headers=header, proxies=True)
    print(response.status_code)

if __name__ == '__main__':
    test()

（10）allow_redirects：开关，表示是否允许对url进行重定向，默认为True

import requests
from requests.auth import HTTPBasicAuth

def test() :
    url = "https://www.baidu.com"
    header = {
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                       'Chrome/108.0.5359.95 Safari/537.36'
    }
    response = requests.get(url=url, headers=header, allow_redirects=True)
    print(response.status_code)

if __name__ == '__main__':
    test()

（11）stream：开关，指是否对获取内容进行立即下载，默认为True

import requests
from requests.auth import HTTPBasicAuth

def test() :
    url = "https://www.baidu.com"
    header = {
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                       'Chrome/108.0.5359.95 Safari/537.36'
    }
    response = requests.get(url=url, headers=header, stream=True)
    print(response.status_code)

if __name__ == '__main__':
    test()

（12）verify：开关，用于认证SSL整数，默认为True

import requests
from requests.auth import HTTPBasicAuth

def test() :
    url = "https://www.baidu.com"
    header = {
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                       'Chrome/108.0.5359.95 Safari/537.36'
    }
    response = requests.get(url=url, headers=header, verify=True)
    print(response.status_code)

if __name__ == '__main__':
    test()

（13）cert：用于设置保存本地SSL证书路径

import requests
from requests.auth import HTTPBasicAuth

def test() :
    url = "https://www.baidu.com"
    header = {
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                       'Chrome/108.0.5359.95 Safari/537.36'
    }
    response = requests.get(url=url, headers=header, cert=('../../*.crt', '../../.ssh/*.key'))
    print(response.status_code)

if __name__ == '__main__':
    test()

2.4、异常

requests.ConnectionError	网络连接异常，如DNS查询失败，拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.ToolManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常

2.5、Response对象

示例：

response = requests.get(url)

解读：

response：是一个Response对象，一个包含服务器资源的对象；

.get(url)：是一个Request对象，构造一个向服务器请求资源的Request。

获取response的类型：type(response)。

显示response具有的属性：dir(response)。

response具有如下几个属性：

属性	说明
response.status_code	HTTP请求返回状态码，200表示成功
response.text	HTTP响应的字符串形式，即url对应的页面内容
response.encoding	从HTTP header中猜测的响应内容的编码方式
response.apparent_encoding	从内容中分析响应内容的编码方式（备选编码方式）
response.content	HTTP响应内容的二进制形式
response.json	返回JSON格式，可能抛出异常
response.url	返回请求URL
response.headers	请求头
response.cookies	返回RequestsCookieJar对象
response.history	返回以列表存储的请求历史记录

3、示例

3.1、实现一个网页采集器

分析网页：在搜狗浏览器中搜索“波校长”得到的结果页面如下：

# -*-coding = utf-8-*-
# 爬取搜狗浏览器中任意词条的搜索结果。
import requests

'''
反爬策略：UA检测
反反爬机制：UA伪装（UA：User-Agent：请求载体的身份标识）
UA伪装：门户网站的服务器会检测对应请求的载体身份标识，
       如果检测到请求的载体身份标识为某一款浏览器，就说明该请求是一个正常的请求；
       如果检测到请求的载体身份标识不是某一款浏览器，则表明该请求为不正常的请求（爬虫）；
       服务器端就很有可能拒绝该请求。
UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器。
爬虫中一定要进行UA伪装。
'''

if __name__ == '__main__' :
    '''
    url = "https://www.sogou.com/web?query=%E6%B3%A2%E6%A0%A1%E9%95%BF"
    url = "https://www.sogou.com/web?query=波校长"
    上述这两个utl是一样的。
    '''
    # UA伪装：将对应的User-Agent封装到一个字典中
    header = {
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, '
                       'like Gecko) Chrome/108.0.5359.95 Safari/537.36'
    }

    # 处理url携带的参数，封装到字典中；动态参数
    kw = input('enter a word: ')
    param = {
        'query' : kw
    }
    url = "https://www.sogou.com/web"
    # 对指定的url发起的请求对应的url是携带参数的，并且请求过程中处理了参数
    response = requests.get(url = url, params = param, headers = header)

    # 得到结果
    page_text = response.text

    # 存储
    file_name =  './temp/test-1-网页采集器-' + kw + '.html'
    with open(file_name, 'w', encoding='utf-8') as fp :
        fp.write(page_text)
    print(file_name, '保存成功！')
    print(response.url)

3.2、爬取百度翻译内容

分析网页：在百度翻译中，依次输入“d” “o” “g”三个字符，查看网页Fetch/XHR的变化，出现三个“sug”的POST请求，如下：

# -*-coding = utf-8-*-
# 爬取百度翻译。
import requests
import json

if __name__ == '__main__' :
    # step1：指定url
    post_url = "https://fanyi.baidu.com/sug"

    # step2：UA伪装：将对应的User-Agent封装到一个字典中
    header = {
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.95 Safari/537.36'
    }

    # step3：处理post携带的参数，封装到字典中；动态参数
    fanyi_word = input('enter a word: ')
    data = {
        'kw' : fanyi_word
    }

    # step4：请求发送
    response = requests.post(url = post_url, data = data, headers = header)

    # step5：获得响应数据；json()方法返回的是obj（确认服务器响应数据是json的，才可以用json()）
    dict_obj = response.json()
    print(dict_obj)

    # step6：存储
    file_name = './temp/test-2-百度翻译-' + fanyi_word + '.json'
    fp = open(file_name, 'w', encoding='utf-8')
    json.dump(dict_obj, fp = fp, ensure_ascii = False)

    print('保存成功！')
    print(response.url)

3.3、爬取豆瓣电影分类排行榜（豆瓣电影中的电影详情数据）

分析网页，刚打开网页时，一共刷新了20个电影的信息，返回的是一个JSON文件，载荷中start=0，limit=20；

然后再网页面，往下滑动网页，又刷新出了20个电影的详细信息，载荷中start=20，limit=20；再往后可以一次类推。

# -*-coding = utf-8-*-
# 爬取豆瓣电影中电影详情数据。
import requests
import json

if __name__ == '__main__' :
    # step1：指定url
    url = "https://movie.douban.com/j/chart/top_list"

    # step2：UA伪装：将对应的User-Agent封装到一个字典中
    header = {
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.95 Safari/537.36'
    }

    # step3：处理get携带的参数，封装到字典中；动态参数
    data = {
        'type' : '24',
        'interval_id' : '100:90',
        'action' : '',
        'start' : '1',    # 从库中的第几部电影去取
        'limit' : '68'    # 一次取出个个数
    }

    # step4：请求发送
    response = requests.get(url = url, params = data, headers = header)

    # step5：获得响应数据；json()方法返回的是obj（确认服务器响应数据是json的，才可以用json()）
    list_data = response.json()
    print(list_data)

    # step6：存储
    file_name = './temp/test-3-douban-' + 'douban.json'
    fp = open(file_name, 'w', encoding='utf-8')
    json.dump(list_data, fp = fp, ensure_ascii = False)
    # ensure_ascii = False 中文不用ascii形式去写

    print('保存成功！')

3.4、爬取肯德基餐厅查询肯德基餐厅信息查询中指定的餐厅数

分析网页，在“餐厅关键字”输入“北京”，然后回车得到如下的数据。是一个post请求，返回的是一个text的数据类型。载荷携带的信息如下：

# -*-coding = utf-8-*-
# 爬取肯德基餐厅信息。
import requests
import json

if __name__ == '__main__' :
    # step1：指定url
    post_url = "http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx"

    # step2：UA伪装：将对应的User-Agent封装到一个字典中
    header = {
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.95 Safari/537.36'
    }

    # step3：处理post携带的参数，封装到字典中；动态参数
    data = {
        'op' : 'keyword',
        'cname' : '',
        'pid' : '',
        'keyword' : '北京',
        'pageIndex' : '1',  # 查询返回的页码
        'pageSize' : '10'   # 查询返回的每页的数据的个数
    }

    # step4：请求发送
    response = requests.post(url = post_url, data = data, headers = header)

    # step5：获得响应数据；json()方法返回的是obj（确认服务器响应数据是json的，才可以用json()）
    text = response.text
    print(text)

    # step6：存储

    print('保存成功！')

你可能感兴趣的:(python共同学习,python,爬虫,开发语言)

高阶开发基础——在WSL中快速部署一个极简的C++开发环境 charlie114514191 高阶开发公共基础部分 c++C语言环境配置 WSL 项目构建
前言笔者最近打算深入的整理一份基于ArchWSL的最简单纯粹的C++配置。使用的方案是使用GCC作为编译器，CMake作为项目构建脚本，VSCode作为代码编辑器，使用clangd作为强大的语言服务器和检查器，使用clang-format整理格式化我自己的代码。如果你愿意跟我一起，请跟随我的步伐一一配置。概念理解和澄清环境配置部分笔者在学习的时候，常常发现一些人根本不理解下面的这些概念。甚至到了上
人工智能第2章-知识点与学习笔记想拿高薪的韭菜人工智能学习笔记
结合教材2.1节，阐述什么是知识、知识的特性,以及知识的表示。人工智能最早应用的两种逻辑是什么？阐述你对这两种逻辑表示的内涵理解。什么谓词，什么是谓词逻辑，什么是谓词公式。谈谈你对谓词逻辑中的量词的理解。阐述谓词公式的解释的含义。介绍谓词公式表示知识的一般步骤，阐述谓词逻辑表示知识的优点与局限性。什么是知识表示的产生式，请详细阐释产生式和谓词逻辑蕴涵式的差异。什么是产生式系统，请详细阐述产生式系统
AUTOSAR从入门到精通专栏总目录昂辉科技汽车架构 AUTOSAR 科技安全架构基础软件工具链
AUTOSAR通过分层、模块化和封装的特性，革命性地改变了汽车电子软件开发。它简化了软硬件接口，提高了软件复用性，降低了开发成本和周期。随着AUTOSAR在汽车电子系统开发领域的广泛应用，对其深入理解和熟练掌握已成为汽车电子软件开发工程师的必备技能。尽管AUTOSAR带来了诸多优势，但对于初学者来说，学习及应用AUTOSAR仍然是一项挑战。其复杂性和深度要求学习者不仅要有扎实的汽车电子知识基础，还
java开发工程师面试问题，java面试题大汇总小山博客 A程序员导师 Java 经验分享架构 java
开头学习如逆水行舟，尤其是IT行业有着日新月异的节奏。而且现在这个浮躁而又拜金的社会，我相信很多人做技术并非出于热爱，只是被互联网的高薪吸引，毕竟技术岗位非常枯燥，不仅要面对奇奇怪怪的需求，还要不停的充实自己避免被淘汰。所以，我们更要抓紧每一次可以学习和进步的机会。没有撤退可言！即使是面试跳槽，那也是一个学习的过程。只有全面的复习，才能让我们更好的充实自己，武装自己，为自己的面试之路不再坎坷！今天
UE学习日志#18 C++笔记#4 基础复习4 指派初始化器和指针学游戏开发的 UE学习日志 C++学习 c++笔记
1指派初始化器C++20引入了指派初始化器，以使用他们的名称初始化所谓聚合的数据成员。聚合类型是满足以下限制的数组类型的对象或结构或类的对象：1.仅public数据成员，2.无用户声明或继承的构造函数，3.无虚函数和无虚基类、private或protected的基类指派初始化的顺序必须与声明顺序相同，不允许混合使用指派初始化器和非指派初始化器。未使用指派初始化器初始化的任何数据成员都将使用其默认值
面向对象编程是什么意思？ iMerryou 学习好奇心 python java 青少年编程
前言任何学习编程语言的人在初期应该都是听说过面向对象编程这个词的，基本上是一个绕不过去的坎，而这个坎也不是很好迈过去的。我接触这个词应该有四五次了才逐渐理解其含义，之前一直是在使用而没有明白其中的思想。如果你确实在点开这篇文章之前没听过面向对象编程，却又学过编程语言，我想那一定是C语言了，因为C语言并不是面向对象编程语言。不过也别立刻退出，我认为只要以后想从事跟计算机有关的职业，你一定不能只会C语
Anaconda使用教程如何conda配置多版本Python环境广药门徒 python conda 开发语言
配置anaconda参考anaconda的安装和使用（管理python环境看这一篇就够了）-CSDN博客Anaconda使用教程主要用的两个为AnacondaPrompt和AnacondaNavigator打开cmd第一次安装配置好conda的得先执行condainit才能用以后的创建环境和环境切换，和pip安装各种包全在这里，介绍几个常用的快捷键：1.condainfo查看当前环境的信息2.co
Python之上下文管理器 zhuxy604 Python Python
以下文章总结自《headfirstpython》读书笔记引子从python处理一个文件说起，在Python中打开一个文件时，一般的代码逻辑如下：file=open('test.txt')forlineinfile:print(line)file.close()以上代码主要做了3件事：1）打开一个文件；2）处理文件，读取每一行并打印出来；3)关闭文件但是对大多数程序员而言，处理文件常推荐使用的是一个
pip 命令安装若纷飞环境配置 pip 命令安装 liunx
转：https://pip.readthedocs.io/en/stable/installing/安装我需要安装pip吗？如果您使用从python.org下载的Python2>=2.7.9或Python3>=3.4，或者您正在使用virtualenv或pyvenv创建的虚拟环境中工作，则已经安装了pip。只需确保升级pip。用get-pip.py安装要安装pip，请安全下载get-pip.py。
python - 上下文管理器你是猴子请来的救兵吗！！ python杂记 python
一、什么是上下文管理器你是不是这样读过文件withopen("file","r")asf_reader:content=f_reader.readlines()为什么你要用"with"呢，因为在这段读取文件代码结束后，会自动执行close()with是一个神奇的关键字，它可以在代码中开辟一段由它管理的上下文，并控制程序在进入和退出这段上下文时的行为，即进入时打开文件，并返回文件对像，退出时关闭文件
Python进阶之-上下文管理器小佟 python上下文管理器 python 数据库服务器
本文介绍了Python中的上下文管理器，包括其基本概念、组成、标准库中的应用、自定义上下文管理器的实现以及contextlib模块的使用。重点强调了上下文管理器在资源管理、异常处理和代码整洁性方面的优势。✨前言：什么是上下文管理器？在Python中，上下文管理器是支持with语句的对象，用于为代码块提供设置及清理代码。上下文管理器广泛应用于资源管理场景，例如文件操作、网络连接、数据库会话等，其目的
动手学PyTorch建模与应用：从深度学习到大模型王国平 pytorch 人工智能数据分析 python 数据挖掘
在人工智能时代，机器学习技术日新月异，深度学习是机器学习领域中一个全新的研究方向和应用热点，它是机器学习的一种，也是实现人工智能的必由之路。深度学习的出现不仅推动了机器学习的发展，而且促进了人工智能技术的革新，已经被成功应用在语音识别、图像分类识别、地球物理、大语言模型等领域，具有巨大的发展潜力和价值。本书是一本带领读者快速学习PyTorch并将其运用于深度学习建模方向的入门指南，重点介绍了基于P
Web3 黑客松组队报名 — 30000 美金奖池，需要前后端，设计，产品，合约工程师 web3
MantleAPACHackathon基本信息ℹ️项目提交截至12月15日30,000美金奖池三大赛道：DeFi、Infra&AI、Gaming&Meme需要前端，后端，设计，产品，合约工程师黑客松要求✍️本次黑客松由MantleFoundation联合Hackguest和OpenBuild共同打造，面向亚太地区开发者和区块链爱好者的线上黑客马拉松不限制主题部署在Mantle测试网上谁适合参加UI
Python结合pyhdfs模块操作HDFS分布式文件系统唐僧不爱八戒 python hdfs 开发语言
使用python操作hdfs本身并不难，只不过是把对应的shell功能“翻译”成高级语言，我这里选用的是hdfs，下边的实例都是基于hdfs包进行的。1：安装由于我的是windows环境（linux其实也一样），只要有pip或者setup_install安装起来都是很方便的pipinstallhdfs2：Client——创建集群连接fromhdfsimport*client=Client("ht
python:函数提高 muxue178 python 开发语言
1.变量的作用域与变量修改局部变量：定义在函数内部，生存范围在函数内部。全局变量：在函数内部外部都可生效的变量。一.局部变量：deftest1():a=100print(a)test1()print(a)运行结果100Traceback(mostrecentcalllast):File"D:/pycharm项目/数值类型.py",line5,inprint(a)NameError:name'a'i
第六篇：事务与并发控制猿享天开数据库数据库
第六篇：事务与并发控制目标读者：本篇文章适合中级数据库学习者，特别是那些希望理解数据库事务管理与并发控制机制的开发者或数据库管理员。通过掌握事务的原理与控制方法，你将能够设计高效且可靠的数据库应用，确保在多用户并发访问时数据的一致性和完整性。内容概述：本文将深入讲解数据库事务及其管理，重点包括：数据库事务的概念与四大特性（ACID）事务的实现与管理（开始、提交、回滚）锁机制（共享锁、排他锁、行级锁
Solidity/Rust 实战 —— Web3 开发者免费训练营（第17期）智能合约区块链以太坊比特币
HackQuest第17期Solidity/Rust共学营即将开营！Solidity/Rust共学营信息清单6月18日-6月27日免费（成功结营的小伙伴还将获得专属周边）全程线上(会议具体时间入营后通知)️头部公链官方签发的学习证书关于HackQuestHackQuest是一个充满活力的Web3开发者教育社区，我们的目标是培养下一代Web3开发者。目前我们的产品仍处于内测阶段，我们计划招募小伙伴们
超详细！Python当中的pip常用命令大全！程序媛小本 python pip 开发语言
相信对于大多数熟悉Python的人来说，一定都听说并且使用过pip这个工具，但是对它的了解可能还不一定是非常的透彻，今天小编就来为大家介绍10个使用pip的小技巧，相信对大家以后管理和使用Python当中的标准库会有帮助。安装当然在Python3.4版本之后以及Python2.7.9版本之后，官网的安装包当中就已经自带了pip，用户直接在安装完Python之后就可以直接使用，要是使用由virtua
Python Requests 库基本命令一口牛肉夹馍 python
PythonRequests库基本命令1、发送请求2、请求参数3、属性3.1、常用属性3.2、其他属性4、异常5、主要方法解析6、SSL证书验证1、发送请求#发送get请求r=requests.get("http://httpbin.org/get")#发送post请求r=requests.post("http://httpbin.org/post",data={"key":"value"})2、
机器学习笔记——正则化好评笔记补档机器学习人工智能论文阅读 AIGC 计算机视觉深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本笔记介绍机器学习中常见的正则化方法。文章目录正则化L1正则化（Lasso）原理使用场景优缺点L2正则化（Ridge）原理使用场景优缺点ElasticNet正则化定义公式优点缺点应用场景Dropout原理使用场景优缺点早停法（EarlyStopping）原理使用场景优缺点BatchNormalization(BN)原理使用
机器学习笔记——特征工程、正则化、强化学习好评笔记机器学习笔记机器学习人工智能 AI AI编程算法工程师
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。文章目录特征工程（FzeatureEngineering）1.特征提取（FeatureExtraction）手工特征提取（ManualFeatureExtraction）：自动特征提取（AutomatedFeatureExtraction）：2.特征选择
我的创作纪念日所谓远行Misnearch 人工智能
机缘也是想和大家一起进步，记录下自己遇到的问题和学习进程收获发现好记性不如烂笔头，多记一点是没有坏处的憧憬当然新的一年希望自己可以多创作一些质量更好的文章出来和大家一起分享Tips您发布的文章将会展示至里程碑专区，您也可以在专区内查看其他创作者的纪念日文章优质的纪念文章将会获得神秘打赏哦
【LeetCode 刷题】回溯算法-棋盘问题 Bran_Liu LeetCode 算法 leetcode python
此博客为《代码随想录》二叉树章节的学习笔记，主要内容为回溯算法棋盘问题相关的题目解析。文章目录51.N皇后37.解数独332.重新安排行程51.N皇后题目链接classSolution:defsolveNQueens(self,n:int)->List[List[str]]:board=[['.'for_inrange(n)]for_inrange(n)]res=[]defcheck(x:int,
Lua语言的网络编程沈韶珺包罗万象 golang 开发语言后端
Lua语言的网络编程引言在现代软件开发中，网络编程是一个非常重要的领域。不同于其他编程语言，Lua语言以其简洁、灵活和高效著称，被广泛应用于游戏开发、嵌入式系统以及各种脚本环境中。尽管Lua在网络编程方面的库和框架并不如Java、Python等语言丰富，但其轻量级的特性和易于嵌入的特性使得Lua成为许多网络应用的理想选择。本篇文章将讨论Lua语言在网络编程中的应用，介绍如何使用Lua进行网络编程的
Visual Basic语言的物联网宓婉清包罗万象 golang 开发语言后端
物联网与VisualBasic的结合引言在信息技术迅速发展的今天，物联网（InternetofThings,IoT）作为一个新兴的技术概念，正逐渐改变着我们的生活方式。从智能家居到城市管理，物联网将各种设备连接到一起，使其能够相互交流和协作。而在众多开发语言中，VisualBasic（VB）因其易用性和强大功能，成为物联网应用开发的一个重要选择。本文将探讨物联网的基本概念、VisualBasic的
Python零基础入门：从入门到实战的10个必学知识点小尤笔记 python 数据库服务器
Python零基础入门到实战，需要掌握一系列基础且关键的知识点。以下是10个必学的知识点及其代码演示：CSDN大礼包：《2024年最新全套学习资料包》免费分享1.变量与数据类型变量：用于存储数据，可以随时修改其存储的值。数据类型：Python有丰富的数据类型，包括整数（int）、浮点数（float）、字符串（str）、布尔型（bool）等。#变量赋值a=10#整数b=3.14#浮点数c="Hell
第14篇：从入门到精通：掌握python上下文管理器猿享天开 python从入门到精通 python 开发语言
第14篇：上下文管理器内容简介本篇文章将深入探讨Python中的上下文管理器（ContextManager）。您将了解上下文管理器的概念与用途，学习如何实现自定义的上下文管理器，以及如何使用contextlib模块来简化上下文管理器的创建与使用。通过丰富的代码示例，您将能够灵活地使用上下文管理器来管理资源，提升代码的安全性和可维护性。目录上下文管理器概述什么是上下文管理器上下文管理器的用途使用wi
Python request库简介与操作唐僧不爱八戒 python
介绍首先让我们来看Requests官方的介绍：RequestsisanelegantandsimpleHTTPlibraryforPython,builtforhumanbeings.翻译过来就是：Requests是为人类写的一个优雅而简单的PythonHTTP库。这个介绍很直白了，让我们先来感受一下Requests的威力。importrequests#发送请求response=requests.
开源的基于Python的电脑自动化操作云博士的AI课堂操作技巧 AI工具应用实践 python 自动化 RPA 桌面自动化软件自动化开源自动化
开源的Python技术可以用于实现电脑自动化操作。这些技术可以执行从简单的桌面自动化到复杂的系统管理任务，以下是一些常用的开源Python库和工具：1.PyAutoGUI功能：PyAutoGUI是一个用于跨平台桌面自动化的Python库，支持鼠标点击、键盘输入、屏幕截图、图像识别等操作。应用场景：自动化重复性操作、点击按钮、填写表单、网页导航等。特点：跨平台支持（Windows、macOS、Lin
Python中的pip命令安装与使用小尤笔记 python pip windows 开发语言
Python中的pip命令简介pip是Python的包管理工具，用于安装和管理Python包。它允许你从Python包索引（PythonPackageIndex，简称PyPI）下载并安装第三方库和工具。pip是Python官方推荐的包管理工具，并且从Python2.7.9和Python3.4开始，pip已经与Python一起发行。安装pip对于大多数现代Python安装，pip已经默认安装。如果你
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分