c406495762

Python3网络爬虫(七)：使用Beautiful Soup爬取小说

转载请注明作者和出处：http://blog.csdn.net/c406495762
运行平台： Windows
Python版本： Python3.x
IDE： Sublime text3

一、Beautiful Soup简介

简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

废话不多说，直接开始动手吧！

二、实战

1.背景介绍

小说网站-笔趣看：
URL：http://www.biqukan.com/

笔趣看是一个盗版小说网站，这里有很多起点中文网的小说，该网站小说的更新速度稍滞后于起点中文网正版小说的更新速度。并且该网站只支持在线浏览，不支持小说打包下载。因此，本次实战就是从该网站爬取并保存一本名为《一念永恒》的小说，该小说是耳根正在连载中的一部玄幻小说。PS：本实例仅为交流学习，支持耳根大大，请上起点中文网订阅。

2.Beautiful Soup安装

我们我可以使用pip3或者easy_install来安装，在cmd命令窗口中的安装命令分别如下：

a)pip3安装

pip3 install beautifulsoup4

b)easy_install安装

easy_install beautifulsoup4

3.预备知识

更为详细内容，可参考官方文档：
URL：http://beautifulsoup.readthedocs.io/zh_CN/latest/

a)创建Beautiful Soup对象

from bs4 import BeautifulSoup

#html为解析的页面获得html信息,为方便讲解，自己定义了一个html文件

html = """
<html>
<head>
<title>Jack_Cui</title>
</head>
<body>
<p class="title" name="blog"><b>My Blog</b></p>
<li><!--注释--></li>
<a href="http://blog.csdn.net/c406495762/article/details/58716886" class="sister" id="link1">Python3网络爬虫(一)：利用urllib进行简单的网页抓取</a><br/>
<a href="http://blog.csdn.net/c406495762/article/details/59095864" class="sister" id="link2">Python3网络爬虫(二)：利用urllib.urlopen发送数据</a><br/>
<a href="http://blog.csdn.net/c406495762/article/details/59488464" class="sister" id="link3">Python3网络爬虫(三)：urllib.error异常</a><br/>
</body>
</html>
"""

#创建Beautiful Soup对象
soup = BeautifulSoup(html,'lxml')

如果将上述的html的信息写入一个html文件，打开效果是这样的(<!–注释–>为注释内容，不会显示)：

同样，我们还可以使用本地HTML文件来创建对象，代码如下：

soup = BeautifulSoup(open(test.html),'lxml')

使用如下代码格式化输出：

print(soup.prettify())

b)Beautiful Soup四大对象

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag
NavigableString
BeautifulSoup
Comment

(1)Tag

Tag通俗点讲就是HTML中的一个个标签，例如

<title>Jack_Cui</title>

上面的title就是HTML标签，标签加入里面包括的内容就是Tag，下面我们来感受一下怎样用 Beautiful Soup 来方便地获取 Tags。

下面每一段代码中注释部分即为运行结果：

print(soup.title)
#<title>Jack_Cui</title>

print(soup.head)
#<head> <title>Jack_Cui</title></head>

print(soup.a)
#<a class="sister" href="http://blog.csdn.net/c406495762/article/details/58716886" id="link1">Python3网络爬虫(一)：利用urllib进行简单的网页抓取</a>

print(soup.p)
#<p class="title" name="blog"><b>My Blog</b></p>

我们可以利用 soup加标签名轻松地获取这些标签的内容，是不是感觉比正则表达式方便多了？不过有一点是，它查找的是在所有内容中的第一个符合要求的标签，如果要查询所有的标签，我们在后面进行介绍。

我们也可验证一下这些对象的类型：

print(type(soup.title))
#<class 'bs4.element.Tag'>

对于Tag，有两个重要的属性：name和attrs

name：

print(soup.name)
print(soup.title.name)
#[document]
#title

soup 对象本身比较特殊，它的 name 即为 [document]，对于其他内部标签，输出的值便为标签本身的名称。

attrs：

print(soup.a.attrs)
#{'class': ['sister'], 'href': 'http://blog.csdn.net/c406495762/article/details/58716886', 'id': 'link1'}

在这里，我们把 a 标签的所有属性打印输出了出来，得到的类型是一个字典。

如果我们想要单独获取某个属性，可以这样，例如我们获取a标签的class叫什么，两个等价的方法如下：

print(soup.a['class'])
print(soup.a.get('class'))
#['sister']
#['sister']

(2)NavigableString

既然我们已经得到了标签的内容，那么问题来了，我们要想获取标签内部的文字怎么办呢？很简单，用 .string 即可，例如

print(soup.title.string)
#Jack_Cui

(3)BeautifulSoup

BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象，是一个特殊的 Tag，我们可以分别获取它的类型，名称，以及属性：

print(type(soup.name))
print(soup.name)
print(soup.attrs)
#<class 'str'>
#[document]
#{}

(4)Comment

Comment对象是一个特殊类型的NavigableString对象，其实输出的内容仍然不包括注释符号，但是如果不好好处理它，可能会对我们的文本处理造成意想不到的麻烦。

print(soup.li)
print(soup.li.string)
print(type(soup.li.string))
#<li><!--注释--></li>
#注释
#<class 'bs4.element.Comment'>

li标签里的内容实际上是注释，但是如果我们利用 .string 来输出它的内容，我们发现它已经把注释符号去掉了，所以这可能会给我们带来不必要的麻烦。

我们打印输出下它的类型，发现它是一个 Comment 类型，所以，我们在使用前最好做一下判断，判断代码如下：

from bs4 import element

if type(soup.li.string) == element.Comment:
     print(soup.li.string)

上面的代码中，我们首先判断了它的类型，是否为 Comment 类型，然后再进行其他操作，如打印输出。

c)遍历文档数

(1)直接子节点(不包含孙节点)

contents：

tag的content属性可以将tag的子节点以列表的方式输出：

print(soup.body.contents)

#['\n', <p class="title" name="blog"><b>My Blog</b></p>, '\n', <li><!--注释--></li>, '\n', <a class="sister" href="http://blog.csdn.net/c406495762/article/details/58716886" id="link1">Python3网络爬虫(一)：利用urllib进行简单的网页抓取</a>, <br/>, '\n', <a class="sister" href="http://blog.csdn.net/c406495762/article/details/59095864" id="link2">Python3网络爬虫(二)：利#用urllib.urlopen发送数据</a>, <br/>, '\n', <a class="sister" href="http://blog.csdn.net/c406495762/article/details/59488464" id="link3">Python3网络爬虫(三)：urllib.error异常</a>, <br/>, '\n']

输出方式为列表，我们可以用列表索引来获取它的某一个元素：

print(soup.body.contents[1])
<p class="title" name="blog"><b>My Blog</b></p>

children：

它返回的不是一个 list，不过我们可以通过遍历获取所有子节点，它是一个 list 生成器对象：

for child in soup.body.children:
     print(child)

结果如下图所示：

(2)搜索文档树

find_all(name, attrs, recursive, text, limit, **kwargs)：

find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件。

1) name参数：

name 参数可以查找所有名字为 name 的tag,字符串对象会被自动忽略掉。

传递字符：

最简单的过滤器是字符串，在搜索方法中传入一个字符串参数,Beautiful Soup会查找与字符串完整匹配的内容,下面的例子用于查找文档中所有的<a>标签：

print(soup.find_all('a'))

#['\n', <p class="title" name="blog"><b>My Blog</b></p>, '\n', <li><!--注释--></li>, '\n', <a class="sister" href="http://blog.csdn.net/c406495762/article/details/58716886" id="link1">Python3网络爬虫(一)：利用urllib进行简单的网页抓取</a>, <br/>, '\n', <a class="sister" href="http://blog.csdn.net/c406495762/article/details/59095864" id="link2">Python3网络爬虫(二)：利用urllib.urlopen发送数据</a>, <br/>, '\n', <a class="sister" href="http://blog.csdn.net/c406495762/article/details/59488464" id="link3">Python3网络爬虫(三)：urllib.error异常</a>, <br/>, '\n']

传递正则表达式：

如果传入正则表达式作为参数,Beautiful Soup会通过正则表达式的 match() 来匹配内容.下面例子中找出所有以b开头的标签,这表示<body>和<b>标签都应该被找到

import re
for tag in soup.find_all(re.compile("^b")):
     print(tag.name)
#body
#b
#br
#br
#br

传递列表：

如果传入列表参数，Beautiful Soup会将与列表中任一元素匹配的内容返回，下面代码找到文档中所有<title>标签和<b>标签：

print(soup.find_all(['title','b']))
#[<title>Jack_Cui</title>, <b>My Blog</b>]

传递True：

True 可以匹配任何值,下面代码查找到所有的tag,但是不会返回字符串节点：

for tag in soup.find_all(True):
     print(tag.name)

运行结果：

2)attrs参数

我们可以通过 find_all() 方法的 attrs 参数定义一个字典参数来搜索包含特殊属性的tag。

print(soup.find_all(attrs={"class":"title"}))
#[<p class="title" name="blog"><b>My Blog</b></p>]

3)recursive参数

调用tag的 find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False。

4)text参数

通过 text 参数可以搜搜文档中的字符串内容，与 name 参数的可选值一样, text 参数接受字符串 , 正则表达式 , 列表, True。

print(soup.find_all(text="Python3网络爬虫(三)：urllib.error异常"))
#['Python3网络爬虫(三)：urllib.error异常']

5)limit参数

find_all() 方法返回全部的搜索结构,如果文档树很大那么搜索会很慢.如果我们不需要全部结果,可以使用 limit 参数限制返回结果的数量.效果与SQL中的limit关键字类似,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果。

文档树中有3个tag符合搜索条件,但结果只返回了2个,因为我们限制了返回数量：

print(soup.find_all("a", limit=2))

#[<a class="sister" href="http://blog.csdn.net/c406495762/article/details/58716886" id="link1">Python3网络爬虫(一)：利用urllib进行简单的网页抓取</a>, <a class="sister" href="http://blog.csdn.net/c406495762/article/details/59095864" id="link2">Python3网络爬虫(二)：利用urllib.urlopen发送数据</a>]

6)kwargs参数

如果传入 class 参数,Beautiful Soup 会搜索每个 class 属性为 title 的 tag 。kwargs 接收字符串，正则表达式

print(soup.find_all(class_="title"))
#[<p class="title" name="blog"><b>My Blog</b></p>]

4.小说内容爬取

掌握以上内容就可以进行本次实战练习了

a)单章小说内容爬取

打开《一念永恒》小说的第一章，进行审查元素分析。

URL：http://www.biqukan.com/1_1094/5403177.html

由审查结果可知，文章的内容存放在id为content，class为showtxt的div标签中：

局部放大：

因此我们，可以使用如下方法将本章小说内容爬取下来：

# -*- coding:UTF-8 -*-
from urllib import request
from bs4 import BeautifulSoup

if __name__ == "__main__":
    download_url = 'http://www.biqukan.com/1_1094/5403177.html'
    head = {}
    head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19'
    download_req = request.Request(url = download_url, headers = head)
    download_response = request.urlopen(download_req)
    download_html = download_response.read().decode('gbk','ignore')
    soup_texts = BeautifulSoup(download_html, 'lxml')
    texts = soup_texts.find_all(id = 'content', class_ = 'showtxt')
    soup_text = BeautifulSoup(str(texts), 'lxml')
    #将\xa0无法解码的字符删除
    print(soup_text.div.text.replace('\xa0',''))

运行结果：

可以看到，我们已经顺利爬取第一章内容，接下来就是如何爬取所有章的内容，爬取之前需要知道每个章节的地址。因此，我们需要审查《一念永恒》小说目录页的内容。

b)各章小说链接爬取

URL：http://www.biqukan.com/1_1094/

由审查结果可知，小说每章的链接放在了class为listmain的div标签中。链接具体位置放在html->body->div->dd->dl->a的href属性中，例如下图的第759章的href属性为/1_1094/14235101.html，那么该章节的地址为：http://www.biqukan.com/1_1094/14235101.html

局部放大：

因此，我们可以使用如下方法获取正文所有章节的地址：

# -*- coding:UTF-8 -*-
from urllib import request
from bs4 import BeautifulSoup

if __name__ == "__main__":
    target_url = 'http://www.biqukan.com/1_1094/'
    head = {}
    head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19'
    target_req = request.Request(url = target_url, headers = head)
    target_response = request.urlopen(target_req)
    target_html = target_response.read().decode('gbk','ignore')
    #创建BeautifulSoup对象
    listmain_soup = BeautifulSoup(target_html,'lxml')
    #搜索文档树,找出div标签中class为listmain的所有子标签
    chapters = listmain_soup.find_all('div',class_ = 'listmain')
    #使用查询结果再创建一个BeautifulSoup对象,对其继续进行解析
    download_soup = BeautifulSoup(str(chapters), 'lxml')
    #开始记录内容标志位,只要正文卷下面的链接,最新章节列表链接剔除
    begin_flag = False
    #遍历dl标签下所有子节点
    for child in download_soup.dl.children:
        #滤除回车
        if child != '\n':
            #找到《一念永恒》正文卷,使能标志位
            if child.string == u"《一念永恒》正文卷":
                begin_flag = True
            #爬取链接
            if begin_flag == True and child.a != None:
                download_url = "http://www.biqukan.com" + child.a.get('href')
                download_name = child.string
                print(download_name + " : " + download_url)

运行结果：

c)爬取所有章节内容，并保存到文件中

整合以上代码，并进行相应处理，编写如下代码：

# -*- coding:UTF-8 -*-
from urllib import request
from bs4 import BeautifulSoup
import re
import sys

if __name__ == "__main__":
    #创建txt文件
    file = open('一念永恒.txt', 'w', encoding='utf-8')
    #一念永恒小说目录地址
    target_url = 'http://www.biqukan.com/1_1094/'
    #User-Agent
    head = {}
    head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19'
    target_req = request.Request(url = target_url, headers = head)
    target_response = request.urlopen(target_req)
    target_html = target_response.read().decode('gbk','ignore')
    #创建BeautifulSoup对象
    listmain_soup = BeautifulSoup(target_html,'lxml')
    #搜索文档树,找出div标签中class为listmain的所有子标签
    chapters = listmain_soup.find_all('div',class_ = 'listmain')
    #使用查询结果再创建一个BeautifulSoup对象,对其继续进行解析
    download_soup = BeautifulSoup(str(chapters), 'lxml')
    #计算章节个数
    numbers = (len(download_soup.dl.contents) - 1) / 2 - 8
    index = 1
    #开始记录内容标志位,只要正文卷下面的链接,最新章节列表链接剔除
    begin_flag = False
    #遍历dl标签下所有子节点
    for child in download_soup.dl.children:
        #滤除回车
        if child != '\n':
            #找到《一念永恒》正文卷,使能标志位
            if child.string == u"《一念永恒》正文卷":
                begin_flag = True
            #爬取链接并下载链接内容
            if begin_flag == True and child.a != None:
                download_url = "http://www.biqukan.com" + child.a.get('href')
                download_req = request.Request(url = download_url, headers = head)
                download_response = request.urlopen(download_req)
                download_html = download_response.read().decode('gbk','ignore')
                download_name = child.string
                soup_texts = BeautifulSoup(download_html, 'lxml')
                texts = soup_texts.find_all(id = 'content', class_ = 'showtxt')
                soup_text = BeautifulSoup(str(texts), 'lxml')
                write_flag = True
                file.write(download_name + '\n\n')
                #将爬取内容写入文件
                for each in soup_text.div.text.replace('\xa0',''):
                    if each == 'h':
                        write_flag = False
                    if write_flag == True and each != ' ':
                        file.write(each)
                    if write_flag == True and each == '\r':
                        file.write('\n')
                file.write('\n\n')
                #打印爬取进度
                sys.stdout.write("已下载:%.3f%%" % float(index/numbers) + '\r')
                sys.stdout.flush()
                index += 1
    file.close()

代码略显粗糙，运行效率不高，还有很多可以改进的地方，运行效果如下图所示：

最终生成的txt文件，如下图所示：

生成的txt文件，可以直接拷贝到手机中进行阅读，手机阅读软件可以解析这样排版的txt文件。

PS：如果觉得本篇本章对您有所帮助，欢迎关注、评论、点赞，谢谢！

参考文章：
URL：http://cuiqingcai.com/1319.html

2017年5月6日更新：

对代码进行了更改：添加了对错误章节的处理，并剔除了不是正文的部分。支持《笔趣看》网站大部分的小说下载。

代码查看：
Github代码连接

你可能感兴趣的:(python,网络爬虫,bs4,小说爬取)

Python 实现各个基础算法模板 daoyang1024 算法刷题数据结构算法
Python实现各个基础算法模板包括题目，思路，模板，应用一、二分模板题目地址题目：给你一个m*n的矩阵grid，矩阵中的元素无论是按行还是按列，都以非递增顺序排列。请你统计并返回grid中负数的数目。思路：找到每排的第一个负数，后面就都是负数了，最后累计负数数目模板：defbinary_search(nums,target):low=0high=len(nums)-1whilelowtarget
【质因数分解算法详解】C/Java/Go/Python/JS/Dart/Swift/Rust等不同语言实现刀法如飞 Web开发编程开发算法 python java c++javascript
关于质因数分解算法的不同语言实现，通过实例来看不同语言的差异什么是质因数算法？即任意一个合数可以分解为多个质数相乘。例如：20=2*2*545=3*3*5210=2*3*5*7520=2*2*2*5*13按数学运算：列竖式或左右分解，拿能被整除的最小的素数做除数，不断整除得到新的得数，最后把所有的除数和最后的得数连起来就是。算法基本思路除数的平方小于等于被分解数时，说明可以分解。除数从最小的质数2
Django数据库迁移报错解决方案 hzw0510 Django 数据库 django sqlite
Django数据库迁移报错解决方案问题描述当Django数据库迁移出现错误时，可以按照以下步骤解决，特别是当迁移文件与数据库状态不一致的情况。解决方案步骤第一步：伪造迁移伪造迁移不会实际修改数据库表结构，但会修改Django的迁移记录。在确保数据库状态与迁移文件描述完全一致时，建议删除迁移记录表django_migrations的记录，重新做一次完全的伪造迁移pythonmanage.pymigr
Django 迁移中会删除数据的危险命令 hzw0510 Django django sqlite 数据库
Django迁移中会删除数据的危险命令及操作在Django迁移系统中，以下命令和操作会直接或间接删除数据库表数据，属于高风险操作，在生产环境中必须谨慎使用：1.会删除数据的迁移命令直接删除数据的命令migratezero(回滚所有迁移)pythonmanage.pymigrateapp_namezero→会删除指定应用的所有表及其数据（按迁移反向操作）flush(清空数据库)pythonmanag
[附源码]Python计算机毕业设计超市账单管理系统 Django计算机程序 python django 开发语言
项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+Vue等等组成，B/S模式+pychram管理等等。环境需要1.运行环境：最好是python3.7.7，我们在这个版本上开发的。其他版本理论上也可以。2.pycharm环境：pycharm都可以。
赵小楼《天道》《遥远的救世主》深度解析（93）究竟真理真Xiang的踪迹赵小楼天道（遥远的救世主）解读赵小楼天道解读天道电视剧遥远的救世主五台山论道丁元英
本文是按《遥远的救世主》小说情节深度解析的第93集，也是“五台山论道”系列解读的第5集【本系列共20集左右，会全部以付费形式发出】，按小说解读完后会按《天道》电视剧不同于小说的情节解读，按情节全部解读完，会出专题解读系列。关注赵小楼，与10000+人一起重读天道，学习强势文化思维！前文我们说了“空”和智玄大师的对应境界的绝妙反问。今天继续解读下面丁元英特别经典的一段话：“所谓真经，就是能够达到寂空
TensorFlow 深度学习框架详解奶油话梅糖深度学习 tensorflow 人工智能
TensorFlow深度学习框架详解1.框架概述TensorFlow是由GoogleBrain团队开发的开源机器学习框架，其名称源于处理多维数据数组（张量）的数据流图（Flow）的运行方式。核心特点：跨平台支持：可在CPU/GPU/TPU上运行多语言接口：原生支持Python，通过API支持JS/Java/C++生态丰富：集成Keras、TF-Lite、TFX等工具链2.核心概念解析2.1张量（T
python 写一个超市结账界面 laocooon523857886 Python python 开发语言
product_name1='白菜'product_name2='冬瓜'product_name3='椰黄包'product_name4='橙汁'product_name5='营养麦片'quantity1=0.8quantity2=1.6quantity3=1quantity4=2quantity5=1price1=6.8price2=5.2price3=6.5price4=4.0price5=1
用 Python 构建简单聊天室：Socket 与 Websockets 实战全解析清水白石008 python Python题库 python 网络开发语言
用Python构建简单聊天室：Socket与Websockets实战全解析在这个万物互联、信息瞬息万变的时代，聊天已成为人们沟通的重要方式。无论是企业内部协作、技术讨论，还是兴趣爱好者之间的交流，一个高效、稳定的聊天室系统总能拉近彼此间的距离。Python作为一门简洁优雅、易于上手的编程语言，无论是在Web开发、数据科学，还是在网络编程领域，都展现出无与伦比的魅力。本文将带领大家从基础到进阶，讲解
2025宠物智能喂养设备全栈开发方案：Python驱动的高效实现路径智享食事宠物 python 开发语言
一、核心系统架构设计1.1硬件架构拓扑图硬件架构图采用树莓派CM4+ESP32双核架构：主控单元：RaspberryPiComputeModule4（Python3.10+）传感器阵列：TOF激光测距模块（饲料余量监测）六轴IMU（设备倾倒检测）环境传感器组（DHT22+BME680）1.2软件技术栈#典型依赖库配置requirements={"edge_compute":["tensorflow
Python第六章06：列表的循环练习苹果.Python.八宝粥 python 开发语言
#遍历列表课后题"""定义一个列表，内容是：[1,2,3,4,5,6,7,8,9,10]1.遍历列表，取出列表内的偶数，并存入一个新的列表对象中2.使用while循环和for循环各操作一次提示：1.通过if判断来确认偶数：ifx%2==02.通过列表的appdend方法，来增加元素"""#while循环遍历my_list=[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,1
python第六章14：集合的课后练习题苹果.Python.八宝粥 python
#集合的课后练习题"""有如下列表对象：my_list=['葫芦娃','奥特曼','臭八十的','love','邋遢大王''臭八十的','狗八蛋','臭八十的','海尔兄弟','狗八蛋']1.定义一个空集合2.通过for循环遍历列表3.在for循环中将列表的元素添加至集合最终得到元素去重后的集合对象，并打印输出"""my_list=['葫芦娃','奥特曼','臭八十的','love','邋遢大王'
Python, C ++开发商品包装设计APP Geeker-2025 python c++
---###**Python&C++开发商品包装设计APP技术方案**以下方案融合AI生成设计、3D建模与物理渲染技术，结合Python的算法生态与C++的高性能图形处理能力，实现从创意到生产的全流程包装设计工具：---###**一、技术架构设计**|模块|技术栈|核心能力说明||---------------------|---------------------------|---------
Python第六章16：字典（dict）的常用操作苹果.Python.八宝粥 python
#字典的常用操作"""1字典[key]获取指定key的value2字典[key]添加或更新键值对3字典.pop(key)取出key对应的value并在字典内删除此key的键值对4字典.clear()清空字典5字典.keys()获取字典的全部key，可用for循环遍历字典6len(字典)计算字典内的元素数量"""#新增元素#语法：字典[Key]=Value，结果：字典被修改了，如果key不存在则新增
Vue + Vite + Element Plus 与 Django 进行前后端对接 ivwdcwso 开发与AI vue.js django 前端开发
在现代Web开发中,前后端分离架构越来越受欢迎。这种架构允许前端和后端独立开发和部署,提高了开发效率和灵活性。在本文中,我们将介绍如何使用流行的JavaScript框架Vue和UI库ElementPlus构建前端应用程序,并与PythonWeb框架Django进行对接。©ivwdcwso(ID:u012172506)前端实现初始化Vue+Vite项目npmcreatevite@latestfron
全网最新爬取某团民宿（酒店）数据 qq_44902227 笔记爬虫 python
记录一下学习笔记这里我们查看北京市的，如下示例图：通过分析，页数很容易找到规律，重点是_token参数通过构造_token,请求3页数据，如下：注：文章涉及到的所有仅用于研究学习，出现任何问题与本人无关！！！
DeepSeek超长文本处理的分块策略瑾书2021 数据结构
难点：处理10万token以上文本时内存溢出，且语义连贯性下降。技术方案：递归分块算法pythondefrecursive_chunking(text,chunk_size=4096):iflen(text)<=chunk_size:return[text]mid=len(text)//2returnrecursive_chunking(text[:mid],chunk_size)+recursi
【Python】入门练习——学校网页登陆三歪爱三玖 python 入门 python java 开发语言
importhashlibdefget_int():#获取用户指令print("##欢迎来到xxxx大学##")print("=====================")print("1、注册")print("2、登录")print("3、退出")yao=input("请输入密钥：")whilenot(yao=='1'oryao=='2'oryao=='3'):yao=input("错误！请输入
【Python】一个温度转换带你轻松快速入门python 三歪爱三玖 python 入门温度转换 python
#TempConvert.pyTempSter=input("请输入带有符号的温度值：")ifTempSter[-1]in['F','f']:C=(eval(Tempstr[0:-1])-32)/1.8print("转换后的温度是{：.2f}C".format(C))elifTempSter[-1]in['C','c']:F=1.8*eval(Tempstr[0:-1])+32print("转换后
Python 爬虫实战：于美团民宿抓取房源信息，规划旅行住宿选择西攻城狮北 python 爬虫实战案例美团
目录一、前言二、准备篇2.1确定目标2.2工具与库2.3法律与道德声明三、实战篇3.1分析美团民宿页面3.2模拟登录3.3获取房源列表3.4爬取更多房源数据3.5数据存储3.6数据分析3.6.1数据清洗3.6.2房源分析3.6.3设施分析四、总结与展望五、注意事项一、前言美团民宿作为国内知名的短租民宿平台，提供了丰富的房源信息。了解这些房源信息，对于旅行者规划住宿、民宿经营者优化房源以及相关市场分
Python运算符大全怪力乌龟 python专栏 python 开发语言
Python的运算符较多，以下假设a=10,b=20运算符描述实例算术运算符+加-两个对象相加a+b输出结果30-减-得到负数或是一个数减去另一个数a-b输出结果-10*乘-两个数相乘或是返回一个被重复若干次的字符串a*b输出结果200/除-x除以yb/a输出结果2%取模-返回除法的余数b%a输出结果0**幂-返回x的y次幂a**b为10的20次方，输出结果10000000000000000000
Python中操作mysql的pymysql模块详解程序员老华 mysql 数据库 java python 开发语言
前言pymsql是Python中操作MySQL的模块，其使用方法和MySQLdb几乎相同。但目前pymysql支持python3.x而后者不支持3.x版本。本文测试python版本：2.7.11。mysql版本：5.6.24一、安装1pip3installpymysql二、使用操作1、执行SQL1234567891011121314151617181920212223242526#!/usr/bi
接口自动化测试，使用Python的pymysql模块连接数据库，实现增删改查操作 luoluoxx0115 自动化测试 python 数据库软件测试
文章目录1、需求场景2、需求实现1、需求场景接口自动化测试中，需要测试A接口，该接口是获取当前图片的相关图片数据，匹配规则是：相关图片至少有4个指定标签组下的标签，需与主图片（当前图片）的标签相同。手工测试的步骤是：1、先到数据库resources_attrs表查询主图片关联的标签属性是哪些：结果12、请求相关图片接口，获取到该接口返回的相关图片ID3、拿相关图片ID，去数据库resources_
第三十九：Python接口自动化-python操作mysql数据库卢卡平头哥数据库 mysql python
一.简介1.基本思路是先连接数据库，然后执行SQL语句对数据库进行操作，最后打印结果并断开连接二.Python操作MySQL数据库的基本流程1.首先检查是否依次创建Connection对象（数据库连接对象）用于打开数据库连接1.1.创建Cursor对象（游标对象）用于执行查询和获取结果1.2.然后执行SQL语句对数据库进行增删改查等操作并提交事务1.3.此过程如果出现异常则使用回滚技术使数据库恢复
Python金融新闻爬虫：自动化抓取最新动态与公司财报的完整指南 Python爬虫项目 python 金融爬虫开发语言无人机自动化 android
金融行业的信息更新速度极快，获取最新的新闻动态、市场趋势和公司财报对于投资者、分析师和研究人员至关重要。然而，手动访问各大财经网站收集数据既费时又低效。因此，本文将介绍如何使用Python爬虫自动化抓取金融新闻网站的数据，并进行存储和分析，帮助用户高效获取金融信息。1.目标数据源我们爬取以下金融数据：金融新闻（如新浪财经、华尔街见闻、财新网）公司财报（如SEC官网、东方财富、同花顺）股票市场数据（
Python爬虫教程：抓取财经网站的实时财经新闻与股市动态 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能数据分析信息可视化
Python爬虫教程：抓取财经网站的实时财经新闻与股市动态在现代金融和投资领域，财经新闻和股市动态对投资者决策、市场分析以及预测经济走势至关重要。随着信息技术的发展，实时获取和分析财经数据成为了投资分析、市场监控和研究的重要工具之一。通过Python爬虫技术，我们可以自动化地抓取财经网站上的新闻和股市动态，帮助我们更快速、准确地获取最新的财经信息。本篇博客将详细讲解如何利用Python爬虫抓取财经
交通流量预测：抓取城市交通流量数据并进行未来流量预测 Python爬虫项目 2025年爬虫实战项目数据分析人工智能数据挖掘开发语言自动化爬虫 python
交通流量预测是智能交通管理的一个关键任务。随着城市化进程的不断推进，交通管理变得愈加复杂，交通流量的预测不仅有助于缓解交通拥堵问题，还可以提高道路资源的利用率。通过分析城市交通流量数据，我们可以预测未来一段时间的流量变化，从而为交通管理部门提供决策支持，避免交通事故并提高道路通行效率。本文将介绍如何使用Python爬虫技术抓取城市交通流量数据，并结合时间序列分析与机器学习技术对未来的交通流量进行预
Python爬虫教程：抓取不同商品和品牌的购物清单和价格 Python爬虫项目 2025年爬虫实战项目 python 爬虫 chrome 开发语言美食网络爬虫
随着电商的快速发展，许多人需要分析商品价格、优惠活动等信息。使用Python编写爬虫抓取不同商品和品牌的购物清单和价格，是进行市场分析、价格比较等任务的常见方法。本文将详细介绍如何利用Python编写高效、功能强大的爬虫，抓取不同商品和品牌的价格信息，并分析如何利用最新的技术进行爬取和数据处理。目录一、爬虫概述与准备1.1安装必要的库1.2确定目标网站1.3用户代理与反爬虫机制二、静态网页爬取2.
Chapter 3: Programming Paradigms_《clean architecture》notes lianghu666 架构师开发语言笔记 java c++
ProgrammingParadigms1.StructuredProgrammingExample:FactorialCalculation(C)2.Object-OrientedProgramming(OOP)Example:ShapeHierarchy(Java)3.FunctionalProgrammingExample:ImmutableData(Python)KeyTakeawaysT
Python 爬虫教程：抓取交通流量和道路信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫人工智能开发语言网络爬虫信息可视化
前言随着城市化进程的不断推进，交通流量和道路状况的实时数据变得越来越重要。尤其是在交通管理、公共安全、物流运输、智能交通系统等领域，准确且实时的交通信息能为决策者提供关键支持。为了有效获取交通流量、路况等数据，爬虫技术应运而生。通过爬虫，我们可以自动化抓取交通相关网站的数据，进行交通流量分析、拥堵预测等任务。在本文中，我们将重点介绍如何使用Python爬虫技术抓取交通流量和道路信息。我们将会使用现
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 fred@myhost.com # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla