Hi~晴天大圣

网络爬虫指南

一、定义

网络爬虫，是按照一定规则，自动抓取网页信息。爬虫的本质是模拟浏览器打开网页，从网页中获取我们想要的那部分数据。

二、Python为什么适合爬虫

Python相比与其他编程语言，如java，c#，C++，python抓取网页的接口更简洁；并且有丰富的网络抓取模块。

三、爬虫库beautifulsoup

1、Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。

2、Beautiful Soup抓取数据后得到一个文档对象(beautifulsoup对象)，其实也是一个复杂的树形结构文档，因此还需要解析器来解析这段文档。可以使用Python自带的html.parser进行解析，也可以使用lxml进行解析(相对于其他几种来说要强大一些)。

说明：选择使用lxml解析器解析，需要安装lxml模块，但是使用时候无需import lxml

3、模块安装

pip install bs4
pip install lxml

4、模块导入

from bs4 import BeautifulSoup

5、BeautifulSoup方法

 BeautifulSoup(markup, features)接受两个参数：

 第一个参数（markup）：文件对象或字符串对象

 第二个参数（features）：解析器，未指定则使用python自带的标准解析器（html.parser），但会产警告

6、 Beautiful Soup对象

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: BeautifulSoup 、Tag 、NavigableString 、Comment 。

6.1 BeautifulSoup对象

BeautifulSoup对象对象表示的是一个文档的全部内容。

例如：

from bs4 import BeautifulSoup  # 导入BeautifulSoup4库

f1 = open(r'D:\Document\Workspace\pywokrspace\test1\urllib_test_runoob_search.html','r',encoding='utf-8')
soup1 = BeautifulSoup(f1,'lxml')#使用lxml解析器解析
print(soup1)
f1.close()

返回的内容为Beautiful Soup对象文档，其实和html页面很类似。

<!DOCTYPE html>
<html>
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>Python 教程 的搜索結果</title>
<meta content="noindex, follow, max-image-preview:large" name="robots"/>
<link href="https://static.runoob.com/images/icon/mobile-icon.png" rel="apple-touch-icon"/>
<meta content="菜鸟教程" name="apple-mobile-web-app-title"/>
</head>
<body>
<!--  头部 -->
<div class="col search row-search-mobile">
<form action="index.php">
<input autocomplete="off" class="placeholder" name="s" placeholder="搜索……"/>
</form>
</div>
</body>
</html>

6.2 Tag对象

1、Tag即HTML或XML中的标签对：Tag对象与XML或HTML原生文档中的tag相同。

2、获取Tag对象

步骤一：从一个beautifulsoup对象中获取指定的Tag对象，可以使用：beautifulsoup对象.标签名，要获取哪个标签的Tag对象，就传入哪个标签的标签名，它返回的是一个标签。注：当存在多个标签名相同时，这种方法返回的Tag对象是所有内容中第一个符合要求的标签。

步骤二：获取tag对象的属性，返回属性内容字典

属性说明：

（1）、attrs属性：指的是一个标签的属性，一个标签的属性一般是由键值对组成，属性名=值

（2）、一个标签可能有很多个属性

（3）、获取一个Tag对象的attrs属性，可以使用：Tag对象.attrs

（4）、使用Tag对象的attrs属性可以把标签对的属性以字典形式返回Tag对象无属性时返回的是一个空字典

步骤三：获取到Tag对象属性后，可以继续使用使用字典方法获取标签对中的具体数据

举例说明：

from bs4 import BeautifulSoup  # 导入bs4库

html = """Tillie"""
soup = BeautifulSoup(html, "lxml")  # 指定解析器
a_tag = soup.a  # 获取a标签
print("a标签的tag对象为：", a_tag)
a_tag_attrs = soup.a.attrs # 获取a标签的属性，也可先获取a标签，再获取a属性，分2步
print("a标签的tag对象的属性为：", a_tag_attrs)
a_tag_attrs_href_dict = a_tag_attrs["href"]  # 使用字典的索引
print("通过字典索引获取到的tag对象的属性"+ a_tag_attrs_href_dict)

输出：

a标签的tag对象为： <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
a标签的tag对象的属性为： {'href': 'http://example.com/tillie', 'class': ['sister'], 'id': 'link3'}
通过字典索引获取到的tag对象的属性http://example.com/tillie

6.3、NavigableString对象

1、NavigableString对象：指的是标签对中的数据

2、获取一个Tag对象中的数据(NavigableString对象)，可以使用：Tag对象.string

from bs4 import BeautifulSoup  # 导入bs4库

html = """
The Dormouse's story

The Dormouse's story A
Once upon a time there were three little sisters; and their names were
Tillie,
Lacie and
;
and they lived at the bottom of a well.
...
"""

soup = BeautifulSoup(html, "lxml")  # 指定解析器，创建beautifulsoup对象
head_string = soup.head.string
p_string = soup.p.string
a_tag = soup.a
a_tag_string = a_tag.string
print("header标签中的数据为：", head_string)
print("p标签中的数据为：", p_string)
print("a标签中的数据为：",a_tag_string)

6.4 Comment对象

Comment 对象是一个特殊类型的NavigableString对象，其实输出的内容仍然不包括注释符号，但是如果不好好处理它，可能会对我们的文本处理造成意想不到的麻烦。

举例说明：

from bs4 import BeautifulSoup  # 导入bs4库

html = """
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""

soup = BeautifulSoup(html, "lxml")  # 指定解析器，创建beautifulsoup对象
print("a标签的tag对象为：", soup.a)
print("a标签内的数据为：", soup.a.string)  # a标签内的数据为一个注释

输出：

a标签的tag对象为： <a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>
a标签内的数据为：  Elsie

6.5 补充

获取Tag对象，上面提到：使用beautifulsoup对象.标签名获取标签的Tag对象，当存在多个标签名相同时，它返回的是所有内容中第一个符合要求的标签。

获取某个指定的tag有两种情况：一种是获取指定的第一个标签(这种实际中用得很少)，另一种是获取指定的全部标签对

场景一：获取指定的第一个标签

获取指定的第一个标签就是使用前面介绍的"soup对象.标签名"

这种方法总计如下：

1、获取某个标签对可以使用：soup对象.标签名

2、这种方法：只能获得整个文档中第一个符合要求的标签(存在多个一样的标签对时只会返回第一个)

3、如果想要的标签对中镶嵌了其他标签对，那么也会把里面镶嵌的标签对一起返回

4、这种方法在实际运用中发现：不能把标签名定义成变量，就是不能通过变量来批量获得一些标签对，所以这种方法有比较大的局限性

场景二：获取指定的全部标签对

1、要获取一个文档中某个指定的所有标签，就需要使用find_all()方法：BeautifulSoup对象或Tag对象都可以使用find_all()方法来找其下面的子标签

2、其参数可以是很多类型，最常用的是：传入需要获取的标签的标签名

3、find_all()方法返回的是一个由所有符合要求的标签组成的列表

举例如下：

from bs4 import BeautifulSoup

html = """
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""

soup = BeautifulSoup(html, "lxml")

tag_body = soup.find_all("p")  # 获取所有p标签的tag对象
print("p标签对为：", tag_body)

tag_a = soup.find_all("a")  # 获取所有a标签的tag对象
print("a标签对为：", tag_a)

输出：

p标签对为： [<p class="title" name="dromouse"><b>The Dormouse's story</b></p>, <p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>, <p class="story">...</p>]
a标签对为： [<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

4、上面是使用find_all()方法获取所有符合要求的tag对象组成的列表，然后可以遍历出每一个tag对象，最后获得每一个tag对象的name、attrs属性以及string

举例如下：

from bs4 import BeautifulSoup

html = """
The Dormouse's story

Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""

soup = BeautifulSoup(html, "lxml")


def parse_msg(tagName):
    tags = soup.find_all(tagName)  # find_all()返回的是一个由tag对象组成的列表，因此需要遍历
    for tag in tags:
        print("标签的tag对象为为：", tag)
        print("标签的属性为：", tag.attrs)
        print("标签的数据为：", tag.string)

parse_msg("a")
parse_msg("p")

输出：

标签的tag对象为为： <a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>
标签的属性为： {'href': 'http://example.com/elsie', 'class': ['sister'], 'id': 'link1'}
标签的数据为：  Elsie 
标签的tag对象为为： <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
标签的属性为： {'href': 'http://example.com/lacie', 'class': ['sister'], 'id': 'link2'}
标签的数据为： Lacie
标签的tag对象为为： <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
标签的属性为： {'href': 'http://example.com/tillie', 'class': ['sister'], 'id': 'link3'}
标签的数据为： Tillie

标签的tag对象为为： <p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
标签的属性为： {'class': ['story']}
标签的数据为： None
标签的tag对象为为： <p class="story">...</p>
标签的属性为： {'class': ['story']}
标签的数据为： ...

也可以看出：这种嵌套在里面的标签对，如果返回的是外层的tag对象，那也只能获得外层tag对象的name和attrs属性

NavigableString对象同理tag对象：

1、获取标签对中的NavigableString对象，可以使用：soup对象.标签名.string的方法来获取(跟前面name或attrs一样，只是说这里的字符串属于另一个对象)。且这种方法只会返回第一个符合要求的标签对中的字符串

2、也可以先试用find_all()的方法先找出全部符合要求的标签对，然后遍历得到每一个标签对内的字符串

另外还有

1、find()方法，find()与find_all() 用法一样，区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果（即找到了就不再找，只返第一个匹配的）,find_all() 方法没有找到目标是返回空列表, find() 方法找不到目标时,返回 None。

2、get_text()方法：只输出tag中的文本内容

from bs4 import BeautifulSoup

markup = 'I linked to example.com点我'
soup = BeautifulSoup(markup, "lxml")
print(soup)
print(soup.get_text())

3、select()方法：可以按标签查找，用的多是按标签逐层查找筛选元素

Beautiful Soup支持大部分的CSS选择器，在 Tag 或 BeautifulSoup 对象的 .select() 方法中传入字符串参数, 即可使用CSS选择器的语法找到tag。可以按标签逐层查找到我们需要的内容，这点特别方便，就是定位，避免了单一的标签无法定位到我们所需要的内容元素。

soup.select("html head title")  #标签层级查找
soup.select("td div a")         #标签路径 td-->div-->a
soup.select('td > div > a')        #note：推荐使用这种记法

选择谷歌浏览器，右键copy --copy selector，可以得到对应的CSS选择器。如下：

div > a > div > span (我运行的时候发现一个问题，> 前后一定要有空格，不然会报错的)

#coding=utf-8
from bs4 import BeautifulSoup
import requests
 
#使用requests抓取页面内容，并将响应赋值给page变量
html = requests.get('https://www.qiushibaike.com/text/')
 
#使用content属性获取页面的源页面
#使用BeautifulSoap解析，吧内容传递到BeautifulSoap类
soup = BeautifulSoup(html.content,'lxml')
#我是分隔符，下面就是select（）方法咯~
links = soup.select('div > a >div >span')
for link in links:
    print(link.get_text())

四、网络请求

在使用Python爬虫时，需要模拟发起网络请求访问html页面(上面案例为了方便查阅，直接赋值了一个页面)，主要用到的库有requests库和python内置的urllib库，一般建议使用requests，它是对urllib的再次封装。

requests的优势：Python爬虫时，更建议用requests库。因为requests比urllib更为便捷，requests可以直接构造get，post请求并发起，一步到位，而urllib.request只能先构造get，post请求，再发起，需要分2步完成。

requests模块的使用方法见文档《Python requests模块》

五、RE模块(标准库)

在html文档中获取到的内容，可能还不够细致，比如，我们取到的是不是我们想要的链接、不是我们需要提取的邮箱数据等等，为了提取细精确的数据，需要使用正则表达式。

RE模块的使用方法见文档《Python 正则表达式》

六、案例实践

#coding=utf-8
from bs4 import BeautifulSoup
import requests
 
#使用requests抓取页面内容，并将响应赋值给page变量
html = requests.get('https://www.qiushibaike.com/text/')
 
#使用content属性获取页面的源页面
#使用BeautifulSoap解析，吧内容传递到BeautifulSoap类
soup = BeautifulSoup(html.content,'lxml')
#我是分隔符，下面就是select（）方法咯~
links = soup.select('div > a >div >span')
for link in links:
    print(link.get_text())

Web 开发都需要学什么？ Duiz33237 前端 html5 css3 web
Web开发是指开发和构建用于互联网的网站和应用程序的过程。它涉及使用各种编程语言、框架和技术来创建功能丰富、用户友好的网站和应用程序。常见的web开发技术包括HTML、CSS和JavaScript。HTML用于创建网页的结构，CSS用于样式和布局，而JavaScript用于实现交互和动态效果。此外，还有许多其他的编程语言和框架，如Python、PHP、Ruby、React、Angular等，用于开
Python-自定义装饰器玉米丛里吃过亏 python 装饰器
什么是装饰器？装饰器本质是一个函数，它可以在不改变原来的函数的基础上额外的增加一些功能。如常见的@classmethod，@staticmethod等都是装饰器,接下来记录下如何自定义个装饰器:刚刚说过了，装饰器的本质就是一个函数，所有想要自定义一个装饰器，首先自定义一个函数defdecorate(func):defwrapper(*args,**kwargs):print("定义一个装饰器")f
Python+Peewee 中 Model 操作的常见方法爱搬砖的程序猿. python 数据库
Peewee是一个轻量级的PythonORM（对象关系映射）库，它允许开发者使用Python类和对象来与数据库进行交互。在Peewee中，Model是一个核心概念，代表数据库中的一张表，下面详细介绍Peewee中Model操作的常见方法。1.创建表（create_table）该方法用于在数据库中创建与Model类对应的物理表。frompeeweeimport*#连接SQLite数据库db=Sqli
Python 爬虫体验心得：使用 requests 与 Spider 开启数据探索之旅爱搬砖的程序猿. python 网络爬虫
一、引言在当今数字化信息爆炸的时代，互联网上蕴含着海量的数据资源。对于开发者、数据分析师等人群而言，如何高效地从网页中提取所需数据成为一项关键技能。Python凭借其丰富的第三方库和简洁易懂的语法，成为了开发网络爬虫的首选语言。其中，requests库为我们处理HTTP请求提供了便捷的方式，而Scrapy框架中的Spider则可以帮助我们构建复杂的爬虫逻辑。本文将带领大家逐步学习如何使用reque
Python接入支付宝支付 I am not people python 开发语言
Python接入支付宝支付简介支付宝是一家早已在中国非常流行的在线支付服务提供商，近年来发展速度越来越快。由于支付宝提供的安全性和便利性，越来越多的用户开始在网站、移动应用程序等服务上使用支付宝支付，因此接入支付宝支付已成为许多业务的必要选择。在此文中，我们将介绍如何使用Python接入支付宝支付的基础步骤，包括：设置支付宝开发者帐号集成支付宝SDK创建支付请求向支付宝发起支付1.设置支付宝开发者
python 自定义装饰器详解 Panda_Boy_yi python python 自定义装饰器
先看一个例子defdeco(func):print("beforemyfunc()called.")func()print("aftermyfunc()called.")returnfunc@decodefmyfunc():print("myfunc()called.")#myfunc=deco(myfunc)#与上面的@deco等价myfunc()print("***********")myfu
install gdal in python 拙云 python GIS python gdal build
1.Preparespython27vcforpython27http://download.microsoft.com/download/7/9/6/796EF2E4-801B-4FC4-AB28-B59FBF6D907B/VCForPython27.msigdal1111sourcecode2.pre-installs2.1numpyinVisualC++2008commandprompt,r
Alipay SDK for Python 常见问题解决方案丁璟耀Optimistic
AlipaySDKforPython常见问题解决方案alipay-sdk-python-all支付宝开放平台AlipaySDKforPython项目地址:https://gitcode.com/gh_mirrors/al/alipay-sdk-python-all1.项目基础介绍和主要编程语言AlipaySDKforPython是支付宝官方提供的Python语言版本的SDK，用于帮助开发者快速接入
支付宝Python SDK官方教程滕妙奇
支付宝PythonSDK官方教程alipay-sdk-python-all支付宝开放平台AlipaySDKforPython项目地址:https://gitcode.com/gh_mirrors/al/alipay-sdk-python-all1.项目介绍alipay-sdk-python-all是支付宝提供的Python版本SDK，用于帮助开发者方便地集成到自己的应用程序中，实现与支付宝开放平台
如何使用Jsoup提取商品信息：实战指南数据小爬虫@ python 爬虫 java
在使用Java进行Web爬虫开发时，Jsoup是一个非常强大的HTML解析库，可以帮助你轻松地提取网页中的数据。本文将详细介绍如何使用Jsoup提取商品信息，包括商品标题、价格、描述和图片链接等。一、环境准备（一）Java开发环境确保你的系统中已安装Java开发环境，推荐使用JDK11或更高版本。（二）安装所需库使用Maven管理项目依赖，主要包括以下库：Jsoup：用于解析HTML内容。在pom
利用Java爬虫根据关键词获取商品列表：实战指南数据小爬虫@ java 爬虫开发语言
在电商领域，通过关键词搜索商品并获取商品列表是常见的需求。本文将详细介绍如何使用Java编写爬虫程序，根据关键词获取商品列表，并确保爬虫行为符合平台规范。为了确保代码的准确性和实用性，我们将提供详细的代码示例和解释。一、环境准备（一）Java开发环境确保你的系统中已安装Java开发环境，推荐使用JDK11或更高版本。（二）安装所需库使用Maven管理项目依赖，主要包括以下库：Jsoup：用于解析H
一览无遗 python 自定义装饰器使用及原理详解 1_bit python flask python flask 开发语言装饰器
注意：先行知识python，本篇文章所有代码均为实际运行，为原理和逻辑讲解一、装饰器装饰器是python中的一种语法糖，虽然我不想用语法糖这个词来表达，但这句话写在了开头，我也不到用别的更准确的词来形容他了。如果你刚接触编程不久，不理解语法糖，也没关系；在这里我说语法糖并不会影响到你接下来的理解，我只是用它在赘述，作为了一种形容词。首先我们要搞懂装饰器是什么东西，其次搞懂装饰器的基础知识点，最后逐
新手村：混淆矩阵嘉羽很烦机器学习机器学习
新手村：混淆矩阵一、前置条件知识点要求学习资源分类模型基础理解分类任务（如二分类、多分类）和常见分类算法（如逻辑回归、决策树）。《Hands-OnMachineLearningwithScikit-Learn》Python基础熟悉变量、循环、函数、列表、字典等基本语法。《PythonCrashCourse》或在线教程（如Codecademy）scikit-learn基础掌握模型训练、预测、评估的基
计算机视觉入门 109702008 人工智能 #深度学习计算机视觉人工智能
计算机视觉（ComputerVision）是一门涉及使机器能够从图像或者多维数据中提取信息，解释、理解并对物体或场景进行处理的学科。以下是一个基本的计算机视觉入门学习路线，旨在为刚刚接触这一领域的学习者提供指导。1.基础知识储备数学基础：线性代数、概率论和数理统计、微积分、优化理论。编程语言：掌握至少一门编程语言，Python是目前在计算机视觉领域最流行的语言，其次是C++。2.计算机视觉基础数字
Android手机中各类安全相关知识总结数据知道 2025年爬虫和逆向教程 android 智能手机安全
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.Android安全威胁2.Android安全防护措施3.Android安全建议和最佳实践4.Android安全工具推荐5.Android安全常见问题5.1如何检测设备是否感染恶意软件？5.2如何防止应用滥用权限？5.3如何保护设备免受网络攻击？5.4设备丢失后如何保护数据？6.学习资源7.总结Android手机作为全球使用最广泛的移动操作系统
Python 3.12 新特性解析及对开发效率的提升叶间清风1998 python 开发语言
目录一、性能优化（一）FasterCPython（二）新的内存管理机制二、新语法和语言特性（一）Self-typeannotations（二）PatternMatchingEnhancements三、标准库更新（一）NewModulesandFunctions（二）ImprovementstoExistingModulesPython作为一种广泛应用于数据科学、人工智能、Web开发等众多领域的编程
Python Lambda 表达式简介咱家阿星 python python 开发语言
PythonLambda表达式Python的lambda表达式目录什么是Lambda表达式？Lambda的语法规则常见示范例子高阶函数中的Lambda应用Lambda与其他Python特性的结合使用Lambda的优势与限制1.什么是Lambda表达式？Lambda表达式是一种匿名函数，即没有函数名的函数。它通常用于临时场景，不需要像普通函数那样定义多行代码。常规函数与Lambda函数的对比#常规函
代码质量的基石：Python 单元测试实战 (unittest vs pytest) 清水白石008 python Python题库 python 单元测试 pytest
代码质量的基石：Python单元测试实战(unittestvspytest)引言在软件开发的浩瀚征程中，代码质量是决定项目成败的关键因素。如同建筑物的地基，稳固的代码质量能够支撑起复杂而庞大的系统，反之则可能导致系统崩溃、维护困难，甚至安全漏洞。单元测试，作为保障代码质量的第一道防线，扮演着至关重要的角色。Python，作为一门以简洁优雅著称的编程语言，拥有丰富的测试框架，其中unittest和p
1.1 网络爬虫简介 lwen.steven 从头开始学Java数据采集
随着互联网的迅速发展，网络数据资源呈爆发式增长，信息需求者如何从网络中提取信息变得更加重要。如今，有效地获取网络数据资源的方式，便是网络爬虫。网络爬虫又称为网络蜘蛛或者Web信息采集器，是一种按照指定规则，自动抓取或下载网络资源的计算机程序或自动化脚本。网络爬虫狭义上的理解:利用标准网络协议(如HTTP、HTTPS等)，根据网络超链接和信息检索方法(如深度优先)遍历网络数据的软件程序。网络爬虫功能
Python 文件操作基础咱家阿星 python python
Python文件操作基础在这篇将详细介绍如何打开文件、读写文件，以及如何处理文件操作中的异常。1.打开文件：open()open()函数用于打开文件，并返回一个文件对象，你可以通过这个对象操作文件内容。打开文件时，需要指定文件路径和操作模式。语法：file_object=open(file_path,mode)常见操作模式：模式描述'r'读取文件（默认模式），文件必须存在。'w'写入文件，如果文件
ubuntu部署ssl证书 QC七哥建站技能 ubuntu ssl linux https
证书安装在进行证书安装前，需要将域名的DNS指定到你的ubuntu服务器节点上，ubuntu安装Let’sEncrypt证书步骤如下安装certbot工具aptupdateaptinstallcertbotpython3-certbot-nginx运行certbot命令进行证书安装对于nginxcertbot--nginx-dmydomain.com-dwww.mydomain.com对于apac
使用 PEP 420 命名空间包构建统一目录风格及可选功能支持
背景在Python项目开发中，随着代码包数量和复杂度的增加，为了更好地管理多个代码包的命名空间及其依赖，推荐使用PEP420提供的命名空间包功能。通过这种方式，可以构建属于同一发行商（vendor）下的多个独立代码包，且这些包可以分别位于不同的代码仓库中。在此基础上，某些代码包可能需要进一步支持可选功能模块（例如optional1和optional2），用户可以根据需要选择安装这些功能模块。本文将
数据结构Python版---生成螺旋矩阵(Day5) 圆嘟嘟2019 数据结构Python版 python 算法开发语言 leetcode 数据结构
文章目录1.1⭐算法原理：1.2连续数组长度1.1⭐算法原理：生成螺旋矩阵原理：通过模拟矩阵填充来解决，像蜗牛的螺旋一样，从外往里旋。1.2连续数组长度给定一个正整数n，生成一个包含1到n^2所有元素，且元素按顺时针顺序螺旋排列的正方形矩阵。示例1：输入:3输出:[[1,2,3],[8,9,4],[7,6,5]]通过模拟矩阵填充的过程来解决，使用四个变量top、bottom、left、right来
Ubuntu 24 常用命令&方法 achi010 Linux ubuntu Ubuntu 24 常用命令 Ubuntu 24 Ubuntu Ubuntu vi 异常处理 linux 服务器
文章目录环境说明1、账号管理1.1、启用root2、包管理工具apt&dpkg2.1、apt简介&阿里源配置2.2、dpkg简介2.3、apt和dpkg两者之间的关系2.4、常用命令3、启用ssh服务4、防火墙5、开启远程登录6、关闭交换分区7、build-essential（编译和开发软件的工具和库）7.1、异常处理8、网络8.1、静态IP9、Python10、vi10.1、异常处理：方向键出现
Python基础学习（四）：字典代码死 python 学习 windows
1.字典简介字典是一种可变的容器，用于存储键值对。字典中的数据是无序的，键必须是唯一的且不可变。特点：使用大括号{}定义，键值对用冒号:分隔。数据是无序的。键必须是不可变类型（如字符串、数字、元组），值可以是任意类型。2.字典创建2.1使用字面值创建#创建空字典d1={}#创建包含键值对的字典d2={"name":"Alice","age":25,"city":"NewYork"}#键可以是数字d
Python基础学习（七）：运算符代码死 python 学习开发语言
Python提供了丰富的运算符，用于执行各种操作，包括算术运算、比较运算、逻辑运算、位运算等。本文将详细介绍Python中的各类运算符及其用法，并通过示例帮助你更好地理解和掌握。1.算术运算符算术运算符用于执行基本的数学运算。1.1常见运算符运算符描述示例+加法3+2→5-减法5-3→2*乘法2*3→6/除法10/2→5%取模（取余数）10%3→1**幂运算2**3→8//整除（取整数部分）10/
Python：项目相对路径一头大学牲程序--编程记录 python
项目层级结构：my_project/├──main.py├──module1/│├──__init__.py│└──my_module.py├──module2/│├──__init__.py│└──another_module.py1.包结构和__init__.py文件：Python将包含__init__.py文件的目录视为包，这允许文件夹内部的模块互相导入。无论包或模块位于项目结构的哪个级别，
Python--读取mat文件一头大学牲程序--编程记录 python 开发语言深度学习机器学习
最近在进行学习深度学习过程中，遇到了以MATLAB的.mat格式存储的数据，需要用python读取出来处理，于是就找到了以下比较方便的三种python读取mat文件的方法：使用hdf5库来读取mat文件1.使用scipy.io来读取1.5知识小插曲2.使用hdf5来读取3.使用mat73来读取1.使用scipy.io来读取-如果你的matlab的版本比较旧，保存的.mat格式为‘-v7.3’以前的
利用 OpenCV 库进行实时目标物体检测欣然～ opencv 人工智能计算机视觉
一、代码概述此代码利用OpenCV库实现了基于特征匹配的实时物体检测系统。通过摄像头捕获实时视频帧，将其与预先加载的参考图像进行特征匹配，从而识别出视频帧中是否存在与参考图像匹配的物体。二、环境依赖OpenCV：用于图像处理、特征提取和匹配等操作。NumPy：用于数值计算，OpenCV依赖于NumPy进行数组操作。可以使用以下命令安装所需库：bashpipinstallopencv-pythonn
使用python制作网站欣然～ python sqlite 数据库
新建一个名为pizzeria的项目，并在其中添加一个名为pizzas的应用程序。定义一个名为Pizza的模型，它包含字段name，用于存储比萨名称，如Hawaiian和MeatLovers。定义一个名为Topping的模型，它包含字段pizza和name，其中字段pizza是一个关联到Pizza的外键，而字段name用于存储配料，如pineapple、Canadianbacon和sausage。使
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

网络爬虫指南

你可能感兴趣的:(Python,爬虫,python,requests,bs4)