知乎云烟

Python爬虫的解析（学习于b站尚硅谷）

一、xpath
- 1.xpath插件的安装
- 2. xpath的基本使用
- - （1）xpath的使用方法与基本语法（路径查询、谓词查询、内容查询（使用text查看标签内容）、属性查询、模糊查询、逻辑运算）
  - （2）安装lxml库
  - （3）代码的演示
- 3.获取百度网站的百度一下
- 4.站长素材（含懒加载、如何下载其中的高清图）
二、JsonPath
- 1.JsonPath的基本介绍
- - （1）引
  - （2）jsonpath的安装及使用方式
  - （3）代码演示
- 2.jsonpath解析淘票票
三、BeautifulSoup(即bs4)
- 1.bs4的基本使用
- - （1）基本简介（作用与优缺点）
  - （2）安装以及创建
  - （3）节点定位
  - （4）节点信息
  - （5）代码演示（详细语法请看代码，含注释，比如函数find、find_all、select、按属性class寻找标签时需要使用“class_”）
- 2.bs4爬取星巴克数据

说明：该文章是学习 尚硅谷在B站上分享的视频 Python爬虫教程小白零基础速通的 p51-104而记录的笔记，笔记来源于本人，关于python基础可以去CSDN上阅读本人学习黑马程序员的笔记。 若有侵权，请联系本人删除。笔记难免可能出现错误或笔误，若读者发现笔记有错误，欢迎在评论里批评指正。另外，本人完善了部分小内容，比如bs4爬取星巴克数据部分，本人把爬取图片的代码补充完整了。 请合法合理使用爬虫，不爬取任何涉密以及涉及隐私的内容，合理控制请求次数，爬取的内容未经授权请不要用于商用，保护自己，免受牢狱之灾。

之前在urlib的学习中，我们能将网页的网页源码爬取下来。但是我们我们仅仅需要其中的部分数据，此时就需要引入新的概念——解析。目前使用最多的解析方法包括xpath、JsonPath、BeautifulSoup等。

一、xpath

1.xpath插件的安装

使用xpath之前，需要安装xpath插件。在使用该插件时，会弹出一个小黑框，在里面写xpath的路径，并判断xpath路径是否正确。本次以Edge浏览器为例进行介绍，如下几张图所示(由于原始的xpath的快捷键与Edge冲突，故本次使用的插件是经过修改的，来源于在Edge中使用Xpath——更改快捷键，请到对应链接里去下载xpath插件)。

注意，安装完xpath插件后，需重新打开浏览器，进而进行使用。如下图，重新打开浏览器，随便点击一个网页，然后使用快捷键Ctr+Alt+X即可弹出一个小黑框，说明xpath安装成功。另外，关闭xpath也是使用快捷键Ctr+Alt+X。

2. xpath的基本使用

（1）xpath的使用方法与基本语法（路径查询、谓词查询、内容查询（使用text查看标签内容）、属性查询、模糊查询、逻辑运算）

xpath是用于获取网页源码部分数据的一种方式，它的使用方法如图所示，具体使用参考代码的演示。

（2）安装lxml库

使用xpath还需要到当前的项目文件里安装lxml库，具体方法如图所示（安装命令为“pip install lxml -i https://pypi.mirrors.ustc.edu.cn/simple/”）。

安装完成后，如下图所示，相应位置可看到对应的版本。

（3）代码的演示

如下图所示，创建两个文件夹，名为“爬虫的urlib”和“爬虫的解析”，然后按住Ctr不放，选中之前的文件，并利用快捷键Ctr+X与Ctr+V将它们移到文件夹“爬虫的urlib”中。

如下图，在文件夹“爬虫的解析”中创建文件“070_xpath的基本使用.py”。

由于本次需要演示xpath解析本地文件以及服务器响应的数据（其实本节没有涉及解析服务器响应的数据，是下一节的内容，不过序号都写上并且截图了，懒得改了），故如下图，创建一个名为“070_xpath的基本使用”的html文件。

在名为“070_xpath的基本使用”的html文件中输入如下代码，假设本次需要获“北京、上海、深圳、武汉”这几个城市。注意：xpath解析严格遵守html规范，meta也需要成对出现，故需要加上“/”表示结束。

DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8"/>
    <title>Titletitle>
head>
<body>
    <ul>
        <li>北京li>
        <li>上海li>
        <li>深圳li>
        <li>武汉li>
    ul>

    <ul>
        <li>大连li>
        <li>锦州li>
        <li>沈阳li>
    ul>
body>
html>

编辑代码并运行，学习路径查询的语法。

from lxml import etree

# xpath解析有两种解析文件
# （1）本地文件          即html文件和py文件在同一目录下，或者html文件在电脑上
# （2）服务器响应的数据   即解析response.read().decode(‘UTF-8’)所得到的数据

# 1.xpath解析本地文件      etree.parse('xx.html')
tree = etree.parse('070_xpath的基本使用.html')
# 1.1 路径查询   tree.xpath('xpath路径')
li_list = tree.xpath('//body//ul/li') # //body//ul/li:body的子孙中的ul的儿子li
print(li_list)
print(len(li_list))

如下图，在html文件中给两个城市各加一个id。

DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8"/>
    <title>Titletitle>
head>
<body>
    <ul>
        <li id="l1">北京li>
        <li id="l2">上海li>
        <li>深圳li>
        <li>武汉li>
    ul>

    <ul>
        <li>大连li>
        <li>锦州li>
        <li>沈阳li>
    ul>
body>
html>

编辑代码并运行，学习谓词查询的语法。

"""
xpath的基本使用的演示
- 演示xpath解析本地文件以及服务器响应的数据

"""
from lxml import etree

# xpath解析有两种解析文件
# （1）本地文件          即html文件和py文件在同一目录下，或者html文件在电脑上
# （2）服务器响应的数据   即解析response.read().decode(‘UTF-8’)所得到的数据

# 1.xpath解析本地文件      etree.parse('xx.html')
tree = etree.parse('070_xpath的基本使用.html')
# # 1.1 路径查询   tree.xpath('xpath路径')
# li_list = tree.xpath('//body//ul/li') # //body//ul/li:body的子孙中的ul的儿子li

# 1.2 谓词查询  查找所有有id属性的li标签
li_list = tree.xpath('//ul/li[@id]')
print(li_list)
print(len(li_list))

如果需要查看标签的内容，可加上“/text()”。

为了找到id为“l1”的li标签，继续使用谓词查询。

"""
xpath的基本使用的演示
- 演示xpath解析本地文件以及服务器响应的数据

"""
from lxml import etree

# xpath解析有两种解析文件
# （1）本地文件          即html文件和py文件在同一目录下，或者html文件在电脑上
# （2）服务器响应的数据   即解析response.read().decode(‘UTF-8’)所得到的数据

# 1.xpath解析本地文件      etree.parse('xx.html')
tree = etree.parse('070_xpath的基本使用.html')
# # 1.1 路径查询   tree.xpath('xpath路径')
# li_list = tree.xpath('//body//ul/li') # //body//ul/li:body的子孙中的ul的儿子li

# 1.2 谓词查询
# # 查找所有有id属性的li标签
# li_list = tree.xpath('//ul/li[@id]/text()')  # “/text()”:获取标签中的内容。
# 找到id为“l1”的li标签
li_list = tree.xpath('//ul/li[@id="l1"]/text()')
print(li_list)
print(len(li_list))

在html文件里添加一个li的class的属性值。

DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8"/>
    <title>Titletitle>
head>
<body>
    <ul>
        <li id="l1" class="c1">北京li>
        <li id="l2">上海li>
        <li>深圳li>
        <li>武汉li>
    ul>

    <ul>
        <li>大连li>
        <li>锦州li>
        <li>沈阳li>
    ul>
body>
html>

然后进行编程，使用属性查询，查找到id为“l1”的li标签的class的属性值。

"""
xpath的基本使用的演示
- 演示xpath解析本地文件以及服务器响应的数据

"""
from lxml import etree

# xpath解析有两种解析文件
# （1）本地文件          即html文件和py文件在同一目录下，或者html文件在电脑上
# （2）服务器响应的数据   即解析response.read().decode(‘UTF-8’)所得到的数据

# 1.xpath解析本地文件      etree.parse('xx.html')
tree = etree.parse('070_xpath的基本使用.html')
# # 1.1 路径查询   tree.xpath('xpath路径')
# li_list = tree.xpath('//body//ul/li') # //body//ul/li:body的子孙中的ul的儿子li

# 1.2 谓词查询
# # 查找所有有id属性的li标签
# li_list = tree.xpath('//ul/li[@id]/text()')  # “/text()”:获取标签中的内容。
# 找到id为“l1”的li标签    注意引号的问题
# li_list = tree.xpath('//ul/li[@id="l1"]/text()')

# 1.3 属性查询  查找到id为“l1”的li标签的class的属性值
li = tree.xpath('//ul/li[@id="l1"]/@class')
print(li)
print(len(li))

如下图，在html文件中给其他一些城市加一些id属性。

DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8"/>
    <title>Titletitle>
head>
<body>
    <ul>
        <li id="l1" class="c1">北京li>
        <li id="l2">上海li>
        <li id="c3">深圳li>
        <li id="c4">武汉li>
    ul>

    <ul>
        <li>大连li>
        <li>锦州li>
        <li>沈阳li>
    ul>
body>
html>

然后使用模糊查询查找id中包含“l”的li标签。

"""
xpath的基本使用的演示
- 演示xpath解析本地文件以及服务器响应的数据
"""
from lxml import etree

# xpath解析有两种解析文件
# （1）本地文件          即html文件和py文件在同一目录下，或者html文件在电脑上
# （2）服务器响应的数据   即解析response.read().decode(‘UTF-8’)所得到的数据

# 1.xpath解析本地文件      etree.parse('xx.html')
tree = etree.parse('070_xpath的基本使用.html')
# # 1.1 路径查询   tree.xpath('xpath路径')
# li_list = tree.xpath('//body//ul/li') # //body//ul/li:body的子孙中的ul的儿子li

# 1.2 谓词查询(含内容查询)
# # 查找所有有id属性的li标签
# li_list = tree.xpath('//ul/li[@id]/text()')  # “/text()”:获取标签中的内容。
# 找到id为“l1”的li标签    注意引号的问题
# li_list = tree.xpath('//ul/li[@id="l1"]/text()')

# 1.3 属性查询  查找到id为“l1”的li标签的class的属性值
# li = tree.xpath('//ul/li[@id="l1"]/@class')

# 1.4 模糊查询  查询id中包含“l”的li标签
li_list = tree.xpath('//ul/li[contains(@id,"l")]/text()')
print(li_list)
print(len(li_list))

然后再使用模糊查询查找id的属性值以“c”为开头的li标签。

"""
from lxml import etree

# xpath解析有两种解析文件
# （1）本地文件          即html文件和py文件在同一目录下，或者html文件在电脑上
# （2）服务器响应的数据   即解析response.read().decode(‘UTF-8’)所得到的数据

# 1.xpath解析本地文件      etree.parse('xx.html')
tree = etree.parse('070_xpath的基本使用.html')
# # 1.1 路径查询   tree.xpath('xpath路径')
# li_list = tree.xpath('//body//ul/li') # //body//ul/li:body的子孙中的ul的儿子li

# 1.2 谓词查询(含内容查询)
# # 查找所有有id属性的li标签
# li_list = tree.xpath('//ul/li[@id]/text()')  # “/text()”:获取标签中的内容。
# 找到id为“l1”的li标签    注意引号的问题
# li_list = tree.xpath('//ul/li[@id="l1"]/text()')

# 1.3 属性查询  查找到id为“l1”的li标签的class的属性值
# li = tree.xpath('//ul/li[@id="l1"]/@class')

# 1.4 模糊查询
# 查询id中包含“l”的li标签
# li_list = tree.xpath('//ul/li[contains(@id,"l")]/text()')
# 查找id的属性值以“c”为开头的li标签
li_list = tree.xpath('//ul/li[starts-with(@id,"c")]/text()')
print(li_list)
print(len(li_list))

如下进行编程，学会使用逻辑查询的语法。

"""
xpath的基本使用的演示
- 演示xpath解析本地文件以及服务器响应的数据
"""
from lxml import etree

# xpath解析有两种解析文件
# （1）本地文件          即html文件和py文件在同一目录下，或者html文件在电脑上
# （2）服务器响应的数据   即解析response.read().decode(‘UTF-8’)所得到的数据

# 1.xpath解析本地文件      etree.parse('xx.html')
tree = etree.parse('070_xpath的基本使用.html')
# # 1.1 路径查询   tree.xpath('xpath路径')
# li_list = tree.xpath('//body//ul/li') # //body//ul/li:body的子孙中的ul的儿子li

# 1.2 谓词查询(含内容查询)
# # 查找所有有id属性的li标签
# li_list = tree.xpath('//ul/li[@id]/text()')  # “/text()”:获取标签中的内容。
# 找到id为“l1”的li标签    注意引号的问题
# li_list = tree.xpath('//ul/li[@id="l1"]/text()')

# 1.3 属性查询  查找到id为“l1”的li标签的class的属性值
# li = tree.xpath('//ul/li[@id="l1"]/@class')

# 1.4 模糊查询
# 查询id中包含“l”的li标签
# li_list = tree.xpath('//ul/li[contains(@id,"l")]/text()')
# 查找id的属性值以“c”为开头的li标签
# li_list = tree.xpath('//ul/li[starts-with(@id,"c")]/text()')

# 1.5 逻辑运算
# 和运算   查询id为”l1“且class为”c1“的数据
li_list = tree.xpath('//ul/li[@id="l1" and @class="c1"]/text()')
print(li_list)
print(len(li_list))
# 或运算   查询id为”l1“或class为”c1“的数据,支持标签的或运算，不支持属性里面的或运算
li_list = tree.xpath('//ul/li[@id="l1"]/text() | //ul/li[@id="l2"]/text()')
print(li_list)
print(len(li_list))

3.获取百度网站的百度一下

如下图所示，本次将演示获取百度网站的“百度一下”四个字，主要包括三个步骤。

# 1.获取网页源码
# 2.解析      解析服务器响应的文件  etree.HTML
# 3.打印

首先，创建文件“071_获取百度网站的百度一下.py”。

先编写获取网页源码的代码，使用搜索快捷键Crt+F找到我们需要获取的“百度一下”。

"""
获取百度网站的百度一下的演示
"""
import urllib.request

# 1.获取网页源码
url = 'https://www.baidu.com/'
# 请求头
headers = {
    'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
}
# 请求对象定制
request = urllib.request.Request(url=url, headers=headers)
# 模拟浏览器访问服务器
response = urllib.request.urlopen(request)
# 获取网页源码
content = response.read().decode('UTF-8')
print(content)

# 2.解析      解析服务器响应的文件  etree.HTML

# 3.打印

当代码编写到如图所示的位置时，需填写“百度一下”在网页源码中的路径。

本次需要用到之前安装的xpath插件。在使用该插件时，会弹出一个小黑框，在里面写xpath路径，并判断xpath路径是否正确。
如下图，打开检查，使用快捷键Ctr+Alt+X打开插件xpath。

如下图，先定位到“百度一下”对应的位置。另外，由于id是唯一的，本次利用这个特性在插件xpath中填写相应路径，然后就会显示出我们需要的“百度一下”。

或者如下图所示，也能获取对应的xpath路径。

获取到xpath路径后，继续编写代码并运行。

"""
获取百度网站的百度一下的演示
"""
import urllib.request
from lxml import etree

# 1.获取网页源码
url = 'https://www.baidu.com/'
# 请求头
headers = {
    'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
}
# 请求对象定制
request = urllib.request.Request(url=url, headers=headers)
# 模拟浏览器访问服务器
response = urllib.request.urlopen(request)
# 获取网页源码
content = response.read().decode('UTF-8')
# print(content)  # 测试代码

# 2.解析网页源码，获取想要的数据
# 解析服务器响应的文件  etree.HTML
tree = etree.HTML(content)
# 获取想要的数据
result = tree.xpath('//input[@id="su"]/@value')

# 3.打印
# xpath的返回值是一个列表类型的数据
print(result[0])

4.站长素材（含懒加载、如何下载其中的高清图）

本次将通过xpath解析来获取“站长素材”的网站（“https://sc.chinaz.com/”）的高清图片里的前10页的风景图片。

首先，创建文件“072_站长素材.py”。

如下图所示，打开检查的网络。然后刷新一下，找到图片第一页对应的请求链接，在新的网页中打开验证一下。之后将该链接复制到PyCharm中。同理，将第2页、第3页的链接复制到PyCharm中，并观察这几个请求地址的区别。

接着去编程，其中有一步代码需要参考下图进行理解。然后需要使用xpath插件去寻找图片地址与文件名字。

如下图，使用快捷键Ctr+Alt+X打开xpath，然后寻找到图片的路径，将路径复制到PyCharm中。

同理，可获取图片名。

代码编写到此，可以验证有没有成功获取到对应路径。另外，如果想要下载高清图可以删掉地址里的“_s”。

"""
需求：下载前十页图片
"""

# 第一页
# https://sc.chinaz.com/tupian/fengjing.html
# 第二页
# https://sc.chinaz.com/tupian/fengjing_2.html
# 第三页
# https://sc.chinaz.com/tupian/fengjing_3.html

import urllib.request
from lxml import etree


def create_request(page: int):
    """
    请求对象定制
    :param page:页码
    :return:请求对象定制的结果
    """
    # 访问地址
    if page == 1:
        url = 'https://sc.chinaz.com/tupian/fengjing.html'
    else:
        url = f"https://sc.chinaz.com/tupian/fengjing_{page}.html"
    # 请求头
    headers = {
        'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
    }
    return urllib.request.Request(url=url, headers=headers)


def get_content(request):
    """
    获取网页源码
    :param request: 请求对象定制的结果
    :return: 获取的网页源码
    """
    response = urllib.request.urlopen(request)
    content = response.read().decode('UTF-8')
    return content


def down_load(content):
    """
    下载图片
    :param content:
    :return:
    """
    # urllib.request.urlretrieve('图片地址','文件名字')
    # print(content)  # 测试代码，用于验证获取到的网页源码有无使用xpath插件获取到的路径
    tree = etree.HTML(content)
    src_list = tree.xpath('/html/body/div[3]/div[2]/div/img/@data-original')  # 获取图片地址
    name_list = tree.xpath('/html/body/div[3]/div[2]/div/img/@alt')  # 获取图片名

    # 一般图片图片的网站可能会进行懒加载   下面打印的值可能为   0 40          解决办法：填写最初的元素对应的路径，不要填写加载后的路径
    # print(len(src_list), len(name_list))  # 本人使用1页打印为  40 40      不存在这个问题

    for i in range(len(name_list)):
        name = name_list[i]
        src = src_list[i]
        # print(name, src)  # 测试代码，用于验证图片的名字与地址是否获取正确

        # 注意，src少了“https:”，需加上
        url = 'https:' + src
        print(name, url)  # 测试代码，用于验证图片的名字与地址是否获取正确

        # urllib.request.urlretrieve(url=url, filename=name + '.jpg')

if __name__ == '__main__':
    start_page = int(input('请输入起始页码'))
    end_page = int(input("请输入结束页码"))

    for page in range(start_page, end_page + 1):
        # (1)请求对象定制
        request = create_request(page)
        # (2)获取网页源码
        content = get_content(request)
        # (3)下载
        down_load(content)

为了将下载的图片放到一个文件夹中，如下图所示，创建一个名为“风景图片”的文件夹。

如下进行编程，即可获取前10页图片。

"""
需求：下载前十页图片
"""

# 第一页
# https://sc.chinaz.com/tupian/fengjing.html
# 第二页
# https://sc.chinaz.com/tupian/fengjing_2.html
# 第三页
# https://sc.chinaz.com/tupian/fengjing_3.html

import urllib.request
from lxml import etree


def create_request(page: int):
    """
    请求对象定制
    :param page:页码
    :return:请求对象定制的结果
    """
    # 访问地址
    if page == 1:
        url = 'https://sc.chinaz.com/tupian/fengjing.html'
    else:
        url = f"https://sc.chinaz.com/tupian/fengjing_{page}.html"
    # 请求头
    headers = {
        'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
    }
    return urllib.request.Request(url=url, headers=headers)


def get_content(request):
    """
    获取网页源码
    :param request: 请求对象定制的结果
    :return: 获取的网页源码
    """
    response = urllib.request.urlopen(request)
    content = response.read().decode('UTF-8')
    return content


def down_load(content):
    """
    下载图片
    :param content:
    :return:
    """
    # urllib.request.urlretrieve('图片地址','文件名字')
    # print(content)  # 测试代码，用于验证获取到的网页源码有无使用xpath插件获取到的路径
    tree = etree.HTML(content)
    src_list = tree.xpath('/html/body/div[3]/div[2]/div/img/@data-original')  # 获取图片地址
    name_list = tree.xpath('/html/body/div[3]/div[2]/div/img/@alt')  # 获取图片名

    # 一般图片图片的网站可能会进行懒加载   下面打印的值可能为   0 40          解决办法：填写最初的元素对应的路径，不要填写加载后的路径
    # print(len(src_list), len(name_list))  # 本人使用1页打印为  40 40      不存在这个问题

    for i in range(len(name_list)):
        name = name_list[i]
        src = src_list[i]
        # print(name, src)  # 测试代码，用于验证图片的名字与地址是否获取正确

        # 注意，src少了“https:”，需加上
        url = 'https:' + src
        # print(name, url)  # 测试代码，用于验证图片的名字与地址是否获取正确

        urllib.request.urlretrieve(url=url, filename='./风景图片/' + name + '.jpg')


if __name__ == '__main__':
    start_page = int(input('请输入起始页码'))
    end_page = int(input("请输入结束页码"))

    for page in range(start_page, end_page + 1):
        # (1)请求对象定制
        request = create_request(page)
        # (2)获取网页源码
        content = get_content(request)
        # (3)下载
        down_load(content)

二、JsonPath

1.JsonPath的基本介绍

（1）引

JsonPath用于解析网页源码的返回值为Json数据的网站。比如打开“淘票票”（网址为“https://dianying.taobao.com/”），按F12打开检查，点到网络。然后点击“淘票票”中的城市，会得到一个网络包，发现它是一个Json数据。下一小节将爬取该数据包存储的淘票票支持的城市。

（2）jsonpath的安装及使用方式

下图来源于“https://blog.csdn.net/luxideyao/article/details/77802389”，里面介绍了xpath和JsonPath路径在语法上的区别。

Jsonpath的安装方法如下几张图所示，首先找到python安装路径里的文件夹Scripts，里面专门用于存放python包。然后打开命令提示符，将命令行控制到文件夹Scripts中，并输入命令“pip install jsonpath”。

（3）代码演示

首先，创建文件“073_jsonpath.json”，输入以下内容。

{
  "store": {
    "book": [
      {
        "category": "修真",
        "author": "六道",
        "title": "环蛋是怎样练成的",
        "price": 8.95
      },
      {
        "category": "修真",
        "author": "天蚕土豆",
        "title": "斗破苍穹",
        "price": 12.99
      },
      {
        "category": "修真",
        "author": "唐家三少",
        "title": "斗罗大陆",
        "isbn": "0-553-21311-3",
        "price": 8.99
      },
      {
        "category": "修真",
        "author": "南派三叔",
        "title": "星辰变",
        "isbn": "0-395-19395-8",
        "price": 22.99
      }
    ],
    "bicycle": {
      "color": "黑色",
      "price": 19.95
    }
  }
}

本次需要爬取下图圈出来的书名，类似地，获取书的作者等等来熟悉JsonPath的语法。

创建文件“073_jsonpath.py”。

编写代码，运行程序，学会jsonpath的基本使用。

"""
jsonpath使用的演示
"""
import json
import jsonpath

# 加载json数据
obj = json.load(open('073_jsonpath.json', 'r', encoding='UTF-8'))
'''
json.load:从文件中加载 JSON 数据
json.loads:将 JSON 字符串转换为 Python 对象
'''

# 书店所有书的作者      jsonpath.jsonpath(json数据,'json路径')
author_list = jsonpath.jsonpath(obj, '$.store.book[*].author')
print(f"书店所有书的作者:{author_list}")

# 书店第一本书的作者      jsonpath.jsonpath(json数据,'json路径')
author_first = jsonpath.jsonpath(obj, '$.store.book[0].author')
print(f"书店第一本书的作者:{author_first}")

# 所有的作者
author_list = jsonpath.jsonpath(obj, '$..author')
print(f"所有的作者:{author_list}")

# store下面的所有元素
tag_list = jsonpath.jsonpath(obj, '$.store.*')
print(f"store下面的所有元素:{tag_list}")

# store里面所有东西的price
price_list = jsonpath.jsonpath(obj, '$.store..price')
print(f"store里面所有东西的price:{price_list}")

# 第三本书
book = jsonpath.jsonpath(obj, '$..book[2]')
print(f"第三本书:{book}")

# 最后一本书
book = jsonpath.jsonpath(obj, '$..book[(@.length-1)]')
print(f"最后一本书:{book}")

# 前面的两本书
book_list = jsonpath.jsonpath(obj, '$..book[0,1]')
print(f"前面的两本书:{book_list}")

book_list = jsonpath.jsonpath(obj, '$..book[:2]')  # 切片的方式
print(f"前面的两本书:{book_list}")

# 过滤出所有的包含版本号isbn的书     条件过滤需要在()前添加一个“?”
book_list=jsonpath.jsonpath(obj,'$..book[?(@.isbn)]')
print(f"过滤出所有的包含版本号isbn的书:{book_list}")

# 超过10块钱的书
book_list=jsonpath.jsonpath(obj,'$..book[?(@.price>10)]')
print(f"超过10块钱的书:{book_list}")

2.jsonpath解析淘票票

如下图，打开“淘票票”（网址为“https://dianying.taobao.com/”），按F12打开检查，点到网络。然后点击“淘票票”中的城市，会得到一个网络包，发现它是一个Json数据。本节将爬取该数据包存储的淘票票支持的城市。

创建文件“074_jsonpath解析淘票票.py”。

将请求地址复制到PyCharm中，另外将该地址使用浏览器打开，发现没有数据返回，说明有反爬机制。故将请求标头放到PyCharm中，删除开头带“:”的项（这些项没用，还会导致报错），再注释掉“Accept-Encoding”那一项，然后不断尝试，尝试获取源码，发现仅需“Referer”项即可获取到相应的数据。

"""
jsonpath解析淘票票
"""
import urllib.request

url = 'https://dianying.taobao.com/cityAction.json?activityId&_ksTS=1691239690513_108&json-callback=jsonp109&action=cityAction&n_s=new&event_submit_doGetAllRegion=true'
# 请求头
headers = {
    'Referer': 'https://dianying.taobao.com/',
}
request = urllib.request.Request(url=url, headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode('UTF-8')
print(content)

但是获取到的数据并不完全符合json格式，开头多了“jsonp109(”，结尾多了“);”，需要进一步处理才能转变成json数据。

如下编程，获取到json数据并保存到文件中，然后点开产生的json文件，使用快捷键Ctr+Alt+L重新设置json数据的缩进，便能直观看到json数据。

"""
jsonpath解析淘票票
"""
import urllib.request

url = 'https://dianying.taobao.com/cityAction.json?activityId&_ksTS=1691239690513_108&json-callback=jsonp109&action=cityAction&n_s=new&event_submit_doGetAllRegion=true'
# 请求头
headers = {
    'Referer': 'https://dianying.taobao.com/',
}
request = urllib.request.Request(url=url, headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode('UTF-8')
# print(content)  # 测试代码，判断是否获取到相应的数据
content = content.split('(')[1].split(')')[0]  # 变成json数据    删去开头的“jsonp109(”，结尾的“);”
# print(content)  # 测试代码,验证是否转为json数据
with open('074_jsonpath解析淘票票.json','w',encoding='UTF-8') as fp:
    fp.write(content)

如下编程，即可获得城市。

"""
jsonpath解析淘票票
"""
import urllib.request
import json
import jsonpath

url = 'https://dianying.taobao.com/cityAction.json?activityId&_ksTS=1691239690513_108&json-callback=jsonp109&action=cityAction&n_s=new&event_submit_doGetAllRegion=true'
# 请求头
headers = {
    'Referer': 'https://dianying.taobao.com/',
}
request = urllib.request.Request(url=url, headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode('UTF-8')
# print(content)  # 测试代码，判断是否获取到相应的数据
content = content.split('(')[1].split(')')[0]  # 变成json数据    删去开头的“jsonp109(”，结尾的“);”
# print(content)  # 测试代码,验证是否转为json数据

obj = json.loads(content)
city_list = jsonpath.jsonpath(obj, '$..regionName')
print(city_list)

三、BeautifulSoup(即bs4)

1.bs4的基本使用

（1）基本简介（作用与优缺点）

（2）安装以及创建

具体安装步骤如下：首先找到python安装路径里的文件夹Scripts，里面专门用于存放python包。然后打开命令提示符，将命令行控制到文件夹Scripts中，并输入命令“pip install bs4 -i https://pypi.mirrors.ustc.edu.cn/simple/”。

（3）节点定位

具体如何使用请阅读代码演示。

（4）节点信息

具体如何使用请阅读代码演示。

（5）代码演示（详细语法请看代码，含注释，比如函数find、find_all、select、按属性class寻找标签时需要使用“class_”）

创建文件“075_bs4的基本使用.py”。

如下图所示，创建文件“075_bs4的基本使用.html”,然后编写html文件的代码并查看效果。

DOCTYPE html>
<html lang="en">
    <head>
        <meta charset="UTF-8">
        <title>Titletitle>
    head>
    <body>

        <div>
            <ul>
                <li id="l1">张三li>
                <li id="l2">李四li>
                <li>王五li>
                <a href="http://www.atguigu.com/" class="a1">尚硅谷a>
                <span>嘿嘿嘿span>
            ul>
        div>

        <a href="http://www.baidu.com/" title="a2">百度a>

        <div id="d1">
            <span>哈哈哈span>
        div>

        <p id="p1" class="p1">p>

    body>
html>

继续编写代码，熟悉语法并运行，查看结果。

"""
 bs4的基本使用
-本次将通过解析本地文件将bs4的基础语法进行讲解
"""
from bs4 import BeautifulSoup

# 默认打开的文件的编码格式是gbk  所以在打开文件的时候需要指定编码
soup = BeautifulSoup(open('075_bs4的基本使用.html', encoding='UTF-8'), 'lxml')
# print(soup)  # 测试代码，判断能否读取本地的html文件

# 根据标签名查找节点
# 找到的是第一个符合条件的数据        soup.a --> 在soup中找到第一个a标签
print(f"soup.a的内容：{soup.a}")

# .attrs  将属性作为字典返回
print(f"soup.a.attrs的内容：{soup.a.attrs}")

# bs4的一些函数  find、find_all、select
# （1）find  返回第一个符合条件的标签
print(f"soup.find('a')的内容：{soup.find('a')}")
print(f"soup.find('a',title='a2')的内容：{soup.find('a', title='a2')}")

# 根据class的值来找到对应的标签对象   class需要添加下划线
print(f"soup.find('a',class_='a1')的内容：{soup.find('a', class_='a1')}")

# （2）find_all   返回的是一个列表
# 返回所有的a标签
print(f"soup.find_all('a')的内容：{soup.find_all('a')}")

# 加果想获取的是多个标签的数据    那么需要在find_all的参数中添加的是列表的数据
print(f"soup.find_all(['a','span'])的内容：{soup.find_all(['a', 'span'])}")

# 返回所有的li标签
print(f"soup.find_all('li')的内容：{soup.find_all('li')}")

# 获取前两个li       limit的作用： 查找前几个数据
print(f"soup.find_all('li',limit=2){soup.find_all('li', limit=2)}")

# （3）select（推荐）
# select方法返回的是一个列表  并且会返回多个数据
print(f"soup.select('a')的内容：{soup.select('a')}")

# 根据类选择器class进行筛选       通过.代表class,称为类选择器
print(f"soup.select('.a1')的内容：{soup.select('.a1')}")  # 找到class为“a1”的标签

# #代表id
print(f"soup.select('#l1')的内容：{soup.select('#l1')}")  # 找到id为“l1”的标签

# 属性选择器 [attribute] -----  通过属性来寻找对应的标签
# 查找到li标签中有id的标签
print(f"soup.select('li[id]')的内容：{soup.select('li[id]')}")

# 查找到li标签中id为l2的标签
print(f'soup.select(\'li[id]\')的内容：{soup.select("li[id=l2]")}')

# 层级选择器     后代（即子孙）、子代（即儿子）、子代    后代用空格表示;子代用“>”表示；
# 找到div下的li      后代选择器（即子孙）
print(f"soup.select('div li')的内容：{soup.select('div li')}")

# 找到div下的li      子代选择器（即儿子）
# 注意：很多的计算机编程语言中，如果不加空格不会输出内容   但是在bs4中不会报错,也会显示内容
print(f"soup.select('div > ul > li')的内容：{soup.select('div > ul > li')}")

# 找到a标签和li标签的所有对象
print(f"soup.select('a,li')的内容：{soup.select('a,li')}")

# 节点信息
# （1）获取节点内容
obj = soup.select('#d1')[0]
# 如果标签对象中   只有内容    那么string和get_text()都可以使用
# 如果标签对象中   除了内容还有标签    那么string就获取不到数据 而get_text()是可以获取数据
# 我们一般情况下   推荐使用get_text()
print(f"obj.string的内容：{obj.string}")
print(f"obj.get_text()的内容：{obj.get_text()}")

# (2)节点的属性
obj = soup.select('#p1')[0]
# name用于获取标签的名字
print(f"obj.name的内容：{obj.name}")  # obj对应标签的名字

# .attrs  将属性作为字典返回
print(f"obj.attrs的内容：{obj.attrs}")

# (3)获取节点的具体某个属性
obj = soup.select('#p1')[0]  # select返回的是列表，需使用切片 “[0]” 获取到列表里的内容
print(f"obj.attrs.get('class')的内容:{obj.attrs.get('class')}")  # 推荐
print(f"obj.get('class')的内容:{obj.get('class')}")  # 不推荐
print(f"obj['class']的内容:{obj['class']}")  # 不推荐
print(f"obj.attrs['class']的内容:{obj.attrs['class']}")  # 使用切片

2.bs4爬取星巴克数据

打开星巴克官网（“https://www.starbucks.com.cn/”），然后点击菜单，本次需要爬取此页面的图片以及对应的产品名字，并保存到本地。

创建文件“076_bs4爬取星巴克数据.py”。

回到浏览器中，按F12打开检查，点到网络，刷新页面，慢慢寻找对应的接口（在响应中使用搜索快捷键Ctr+F,搜索对应的关键字）。然后，点击标头，将请求地址复制到PyCharm中。

在寻找图片的名字的路径时，一般是先找的xpath路径，然后改成bs4路径的，具体如下图（注：使用快捷键Ctr+Alt+X即可打开插件xpath）。第一张图展示了如何获取到图片的名字的xpath路径，至于如何改成select下的路径参考后面的代码（具体如何理解请结合上一节的笔记。另外，根据xpath写的路径可能获取不到结果，可以根据元素进行适当修改，路径不止一种写法。）。

至于图片的请求地址，经过网络和元素两个地方观察发现，它的url是由“https://www.starbucks.com.cn”和元素里的一部分参数组成，具体如图所示。将“https://www.starbucks.com.cn”复制到PyCharm中。

如下图所示，找到图片地址对应的参数的xpath路径，复制到PyCharm中。

创建名为“076_bs4爬取星巴克数据”的文件夹。

继续编写代码并运行，图片可能有点多，本次程序运行时间较长。

"""
bs4爬取星巴克数据的演示
"""
import urllib.request
from bs4 import BeautifulSoup

url = "https://www.starbucks.com.cn/menu/"
response = urllib.request.urlopen(url)
content = response.read().decode('UTF-8')
# print(content)  # 测试代码，验证是否获取到网页源码

soup = BeautifulSoup(content, 'lxml')
# 名字的xpath路径 /html/body/div[1]/section/div[2]/ul/li/a/strong
name_list = soup.select('ul[class="grid padded-3 product"] > li > a > strong')

# 图片地址   图片参数的xpath路径：/html/body/div[1]/section/div[2]/ul/li/a/div/@style
pic_base_url = 'https://www.starbucks.com.cn'
pic_url_element_list = soup.select('ul[class="grid padded-3 product"] > li > a > div')
pic_url = []  # 用于存放图片地址
pic_name = []  # 用于存放图片名字
for i in range(len(name_list)):
    pic_name.append(name_list[i].get_text().replace('/', '_'))  # 替换斜杠，避免文件命名问题
    # print(pic_name[i])  # 用于验证是否成功获取到名字
    # print(pic_url_element_list[i].attrs.get('style'))  # 用于验证是否成功获取到图片地址的参数
    pic_url.append(pic_base_url + pic_url_element_list[i].attrs.get('style').split('"')[1])

# 图片名和图片地址有了后，即可下载图片
for i in range(len(name_list)):
    urllib.request.urlretrieve(url=pic_url[i], filename='./076_bs4爬取星巴克数据/' + pic_name[i] + '.jpg')

好了，本章的笔记到此结束，谢谢大家阅读。

你可能感兴趣的:(未分类,python,爬虫,html,json)

vue打包编译【自动删除node_modules下的.cache缓存文件夹】 Eternitysy javascript 前端 vue.js
vue项目不断打包编译后，在node_modules目录下的.cache文件夹里的文件就越来越多，手动删除数量巨大，时间太长，下面是自动删除.cache这个文件夹的方法1.先安装依赖包rimraf：npminstallrimraf-g--save-dev2.在package.json文件的scripts部分添加一个脚本命令："scripts":{"clean":"rimrafnode_module
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
CSS入门指南：从零开始学习网页开发——（一）简介 GIS小白吃 css 学习前端
一、什么是CSS？CSS（CascadingStyleSheets，层叠样式表）是一种用于描述网页的外观和布局的样式表语言。它通过定义网页元素的样式（如颜色、字体、边距等）来与HTML内容分离，提升了网页的可维护性和设计的灵活性。CSS的核心目的是增强网页的表现力。早期的网页仅使用HTML来进行内容的展示，但由于HTML只能描述内容的结构，页面设计和内容变得难以管理。于是，CSS作为一种辅助技术应
关于Jquery基本内容一 gloria123_ jquery 前端 javascript
jQuery(jQ)html+css+js1jQ是一个js库,封装了大量的特定的集合(函数和方法)如animate()、css()、show()等2使用jQ大大提高开发效率,简化dom操作常见的js库jQueryYUIDojoExtJszeptojQuery选择器$(selector)筛选方法parent()$(“li”).parent()children(selector)$(“ul”).chi
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
H5基于Canvas实现电子签名并生成PDF文档 2401_85156853 程序员 pdf 前端 java
3.注册监听事件letbeginX:number,beginY:number;constcanvas:HTMLCanvasElement=canvasDom.current;constctx=canvas.getContext(‘2d’);ctx.fillStyle=‘#fff’;ctx.fillRect(0,0,canvas.width,canvas.height);canvas.addEven
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
BERT（Bidirectional Encoder Representations from Transformers）的序列分类模型，简单学习记录努力努力再努力呐 BERT bert 分类学习
一、代码#本地离线模型使用fromtransformersimportAutoModelForCausalLM,AutoTokenizer,pipeline,BertForSequenceClassification,BertTokenizer#设置具体包含config.json的目录，只支持绝对路径model_dir=r"models\bert-base-chinese"#model_dir=r
Python Flask 在网页应用程序中处理错误和异常 dowhileprogramming python flask 开发语言
PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常在我们所有的代码示例中，我们没有注意如何处理用户在浏览器中输入错误的URL或向我们的应用程序发送错误的参数集的情况。这不是设计意图，但目的是首先关注网页应用程序的关键组件。网页框架的美妙之处在于，它们通常默认支持错误处理。如果发生任何错误，将自
农业生产模拟和农业政策分析：WOFOST模型与PCSE模型安装、运行、数据准备；农田农作物生长模拟和产量预测等 WangYan2022 作物模型农业 WOFOST模型 PCSE模型农田生态系统作物模型农业生产模拟
WOFOST（WorldFoodStudies）和PCSE（PythonCropSimulationEnvironment）是两个用于农业生产模拟的模型：WOFOST是一个经过多年开发和验证的模型，被广泛用于全球的农业生产模拟和农业政策分析；采用了模块化的结构，可以对不同的农作物和环境条件进行参数化和适应；WOFOST可用于长期模拟，能够模拟整个作物生长周期，包括播种、生长、收获等各个阶段；WOF
【＜一＞炼丹初探：JavaWeb 的起源与基础】之 JavaWeb 项目的部署：从开发环境到生产环境 Foyo Designer firefox 前端改行学it 经验分享学习方法程序人生
点击此处查看合集https://blog.csdn.net/foyodesigner/category_12907601.html?fromshare=blogcolumn&sharetype=blogcolumn&sharerId=12907601&sharerefer=PC&sharesource=FoyoDesigner&sharefrom=from_link一、开发环境：写代码的“温床”在
基于Python+Vue开发的电影订票管理系统源码+运行步骤冷琴1996 Python系统设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的电影订票管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订票管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路主要功能影片管理：管理系统可以录入、修改和查询影片的基本信息，如
Python通过YOLO格式TXT标签文件在图像中画框 CHERISH_KDX python YOLO 人工智能
使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
基于llama_cpp 调用本地模型（llama）实现基本推理月光技术杂谈大模型初探 llama llama.cpp python LLM 集成显卡本地模型 AI
零基础实践本地推理模型基本应用：基于llama_cpp的本地模型调用。本文先安装llama_cpppython库，再编写程序，利用其调用llama-2-7b-chat.Q4_K_M.ggu模型。背景llama_cpp是一个基于C++的高性能库（llama.cpp）的Python绑定，支持在CPU或GPU上高效运行LLaMA及其衍生模型（如LLaMA2），并通过量化技术（如GGUF格式）优化内存使用
python实现查找满足条件的数字 qq_恰同学少年 python
问题：一个四位数，知道其前两位和后两位分别相等，并且这个数还是一个平方数，求出这个数。一个四位数，范围只能是1000~9999，前两位和后两位分别相等，也就是说，它的结构应该是aabb。最后，这个数是一个平方数。有的小伙伴可能不知道啥叫平方数，暂且解释下，所谓的平方数就是指该数等于一个整数的平方。比如3的平方是9，那么我们就说9是个平方数。第一步，这是个四位数，前两位和后两位分别相等，我们将满足条
python中常用的内置模块举例（入门级整理） qq_恰同学少年 python
python对于初学者可以说是十分友好的一门编程语言，不仅语法简单，而且它自身还包含了十分丰富的第三方模块，我仅就将我自己常用的一些内置模块（自带的，无需安装）做一下简单的总结和介绍：1.turtleturtle，是python中比较好玩一个模块，它有一个专有名称“海龟作图”，光看名字就应该能够猜到它是用来干嘛的，没错，就是来画图的，它可以通过某些语句来控制一个点在白板上的运动轨迹，它在白板上走过
QPython双核攻略：从零基础到AI开发，你的手机就是全栈训练营程之编 python 开发语言青少年编程人工智能
主题一：《编程小白必看！在手机上种下你的第一行代码》✨北京优趣天下信息技术有限公司重磅出品我们比谁都清楚：✔️86%的初学者因环境配置放弃编程✔️72%的上班族只有碎片化学习时间✔️95%的自学者需要即时答疑支持为什么QPython成为2025现象级学习工具？▸全栈开发环境：解释器+编辑器+控制台三合一▸AI导师常驻：集成DeepSeek代码助手（支持中英双语提问）▸极速学习路径：Q派课程7天完成
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
【Python代码练习（简单应用）】 9... python 汇编前端开发语言 dreamweaver
一、Python列表添加与删除元素：append()。在列表末尾添加新的格式元素添加格式：list.append(元素)删除格式：list.remove(元素)例如：#给出代码listA=['水煮千丝','平板豆腐','白烧饭','香菇青菜','西红柿鸡蛋汤']listA._________("红烧肉")listA._________("水煮千丝")print(listA)将“红烧肉”放入列表中，
统信uos20：利用docker部署python+jupyterlab开发环境阆遤 docker python jupyter github actions workflow 统信uos20
很多统信uos20计算机没有联网安装python开发环境的条件，但是工作中需要对数据进行分析处理，因而产生了离线部署python开发环境的想法。我首先下载了python3.11的源代码包，在uos中编译居然正常通过。但后续的麻烦来了：需要安装的库没法安装。尝试了一天，最终放弃。改用Docker方式部署，理由就不多解释了。一、在uos中安装docker。我的系统是uos20linux4.19.0-a
第五周作业——第十章动手试一试 hongsqi
10-1Python学习笔记学习笔记：在文本编辑器中新建一个文件，写几句话来总结一下你至此学到的Python知识，其中每一行都以“InPythonyoucan”打头。将这个文件命名为learning_python.txt，并将其存储到为完成本章练习而编写的程序所在的目录中。编写一个程序，它读取这个文件，并将你所写的内容打印三次：第一次打印时读取整个文件；第二次打印时遍历文件对象；第三次打印时将各行
.net WebAPI返回xml、json格式 dengqiu2187 json
WebAPI返回xml、json格式简单示例usingSystem.Net.Http.Formatting;publicclassTestController:ApiController{publicstaticListlist=newList{newStudent{Name="张三",Age=25,Weight=153.5M},newStudent{Name="李四",Age=18,Weight
统信UOS下达梦数据库启动图形界面应用工具monitor报JAVA相关错：An error has occurred. See the log file LaoYuanPython 老猿Python 国产信创之光 java 达梦数据库统信UOS操作系统 JDK 图形应用报错
☞░前往老猿Python博客░https://blog.csdn.net/LaoYuanPython一、前言在博文《基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库详解https://blog.csdn.net/LaoYuanPython/article/details/143258863》中介绍了基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库的详细过程，并且安装完毕之后通过
如何更新已经发布的 NPM 组件库校长2008 npm vue node.js
要更新已经发布的NPM组件库，可以按照以下步骤操作：更新版本号：每次发布新的版本，都需要更新package.json中的version字段。NPM使用语义化版本规则，即格式为major.minor.patch，例如1.0.1。版本号的更新规则为：major：主版本变更，通常是重大更新或不兼容变更。minor：次版本更新，一般是新增功能，并且向后兼容。patch：补丁版本更新，通常是小的修复和优化。
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，