@comefly

记录使用python网络爬虫下载小说

在学习python的过程中，不可避免在互联网上看到各种各样的关于pytho网络爬虫的文章，视频，某站某微上不少打着卖课的幌子过度夸大了python爬虫，总的来说，python爬虫是一种更省时省力的获取信息的途径，可能对我而言，因为某些事确实懒得动手去做，但是爬虫也没有那么无所不能。希望大家擦亮眼睛，不要上当受骗！

这次想尝试记录一下使用python爬取网络小说的一次经历，不喜勿喷！

1、背景介绍
小说网站，“新笔趣阁”：（仅做测试）
https://www.quge9.cc/

2、爬虫步骤
要想把大象装冰箱，总共分几步？

要想爬取数据，总共分几步？

爬虫其实很简单，可以大致分为三个步骤：

发起请求：我们需要先明确如何发起 HTTP 请求，获取到数据。
解析数据：获取到的数据乱七八糟的，我们需要提取出我们想要的数据。
保存数据：将我们想要的数据，保存下载。

发起请求，我们用requests 就行
解析数据工具有很多，比如xpath、Beautiful Soup、正则表达式等。我们这次使用Beautiful Soup来解析数据进行爬取。
保存数据，就是常规的文本保存。

3、小试牛刀
我们先看下《在数据世界搞基建》小说的第一章内容。

URL：https://www.quge9.cc/book/32493/

我们使用右键，点击检查或者使用F12就可以轻松地获取了 HTML 信息，里面有我们想要的小说正文内容，但是也包含了一些其他内容，我们并不关心 div 、br 这些 HTML 标签。

或者是我们写一个request请求来查看一下页面的html信息；

from urllib import request
from bs4 import BeautifulSoup

response = request.urlopen('https://www.quge9.cc/book/32493/1.html')
print(response.read().decode('utf-8'))

和我们直接F12的效果是一样的

<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no">
<meta http-equiv="mobile-agent" content="format=html5; url=https://m.quge9.cc/book/32493/1.html"/>
<meta http-equiv="mobile-agent" content="format=xhtml; url=https://m.quge9.cc/book/32493/1.html"/>
<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"/>
<meta name="renderer" content="webkit|ie-comp|ie-stand"/>
<meta name="format-detection" content="telephone=no"/>
<title>在数据化世界搞基建_第1章 1.健康的活下去_新笔趣阁</title>
<meta name="keywords" content="在数据化世界搞基建,第1章 1.健康的活下去"/>
<meta name="description" content="新笔趣阁提供了随风叶落最新创作的科幻小说《在数据化世界搞基建》干净清爽无错字的文字章节：第1章 1.健康的活下去 在线阅读。"/>
<link rel="stylesheet" href="/css/style.css"/>
<script type="text/javascript" src="https://apps.bdimg.com/libs/jquery/1.8.3/jquery.min.js"></script>
<script type="text/javascript" src="/js/compc.js?v=1.23"></script>
<script type="text/javascript" src="/js/read.js?v=1.23"></script>
</head>
<body id="read" class="read">
<div class="header_wap pc_none">
	<a class="home" href="javascript:history.go(-1);"><svg class="lnr lnr-chevron-left-circle"><use xlink:href="#lnr-chevron-left-circle"></use></svg></a>
	<span class="title">第1章 1.健康的活下去_在数据化世界搞基建</span>
	<a class="user" href="/"><svg class="lnr lnr-home"><use xlink:href="#lnr-home"></use></svg></a>
</div>
<div class="header_top"></div>
...
</div>
<script>tj();</script>
</body>
</html>

如何把正文内容从这些众多的 HTML 标签中提取出来呢？

这就需要爬虫的第二步“解析数据”，也就是使用 Beautiful Soup 进行解析。

现在，我们使用一下审查元素方法，查看一下我们的目标页面，你会看到如下内容

不难发现，文章的所有内容都放在了一个名为div的“东西下面”，这个"东西"就是 HTML 标签。HTML 标签是 HTML 语言中最基本的单位。

HTML 标签就像一个个“口袋”，每个“口袋”都有自己的特定功能，负责存放不同的内容。显然，上述例子中的 div 标签下存放了我们关心的正文内容。这个 div 标签是这样的：

 <div id="chaptercontent" class="Readarea ReadAjax_content" style="font-size: 20px;">

id 就是 div 标签的属性，content是属性值，一个属性对应一个属性值。

属性是用来区分不同的 div 标签的，因为 div 标签可以有很多，id 可以理解为这个 div 的身份。

这个 id 属性为 content 的 div 标签里，存放的就是我们想要的内容，我们可以利用这一点，使用Beautiful Soup 提取我们想要的正文内容，编写代码如下：

from urllib import request
from bs4 import BeautifulSoup

response = request.urlopen('https://www.quge9.cc/book/32493/1.html')
html = response.read().decode('utf-8')
bs = BeautifulSoup(html,'lxml')
texts = bs.find('div',id='chaptercontent')
print(texts.get_text())

第1章1.健康的活下去　　“正在加载数据……加载成功，请选择身份。”　　苏柚以为这只是自己在梦中听见的声音，可当她醒来后才发现，整个世界都发生了翻天覆地的变化。　　不仅自己居住的房屋消失不见，随处可见的车水马龙，高楼大厦，也全部都变成了一片片长满不知名杂草的荒地。　　苏柚低头看了看自己，原本的浅蓝色的睡衣也变成了一套朴实无华的麻布材质的长袖长裤。　　此时她的脑海中只有一个想法——她穿越了？　　还没等她反应过来发生了什么，耳边突然响起一道熟悉的声音——　　“编号C6023号星球的居民你们好，我是本次世界数据化的执行系统。”　　“你们之前所生活的原星球已被取代，欢迎来到数据化世界，人类将在这里继续生存去，请不要因此有任何消极的情绪，因为居住在星球上的你们也已经被数据化，在这里死亡并不会回到原本的世界，而是会真正的死亡。”　　“我在此祝福各位居民可以在数据化世界中……健康的活下去。”　　苏柚：……健康的活下去？这是什么鬼祝福！　　苏柚才刚吐槽完，结果突然收到了一个提示。　　【恭喜获得光环状态‘不知名的祝福’、‘健康的活下去’，持续时间72小时。】　　[不知名的祝福]：持续时间内遇到生物，会降低生物的对祝福拥有者的攻击欲望。　　[健康的活下去]：全属性恢复速度翻倍。　　苏柚：来真的？？？　　看完这两个光环状态，苏柚脑海中闪过几个字——‘新手光环’。　　如果再详细一些，那就是‘新手保护光环’。　　但凡玩过游戏的都知道，处于新手期，系统总是会给你的角色套上一些buff（光环、状态），来保证新手玩家的游戏体验。　　而这个所谓的执行系统给祝福的行为，简直和那些游戏给新手套光环是一模一样的。　　所以所谓的‘数据化世界’她是不是可以理解为是将真实世界给变成了一个‘游戏世界’？　　为了验证自己的想法，苏柚尝试性的准备呼出游戏面板……结果是既惊讶，又在意料之中的成功了。　　确认了这个世界真的被数据化了之后，苏柚还意外的发现了这个数据化世界所参考，或者说是直接套用的游戏原型。　　一切都是因为她看见了一个熟悉的logo。　　而这个logo和她以前玩过的一款名为‘落日大陆’的全息游戏一模一样。　　苏柚其实还不仅仅只是玩过而已，她还是《落日大陆》这款游戏第一个通关的玩家……准确的说，是第一个以‘城主’的身份通关的玩家。　　《落日大陆》是这个游戏所在背景的大陆的名字，游戏最初，每个玩家都有很多的身份可以选择，不同的身份有不同的游戏过程和结局。　　作为偏爱生存经营基建游戏的苏柚，她自然是果断的选择了与之相关的‘城主’身份开始了游戏，因为城主这个身份的特点就是可以通过收集物资，修筑建筑，招募居民和勇士，建立属于自己的都城。　　当然，这都是很久之前的事情了。　　这个游戏早在两年前就已经完全消失了，连带着苏柚那个首通城主角色的满级都城的账号也完完全全的消失了。　　如果这真的是当时那个游戏，那么苏柚倒也不介意以生命为代价再玩一把。　　因为就像是这个执行系统所说的一样，都已经数据化了，与其消极游戏不如想着如何好好的活下去。　　正好她当时为了‘一命通关’，一直都只使用了一个存档进行游戏，这导致她做出了许多错误的选择，留下了许多的遗憾。　　本来她想弥补这些遗憾，但在她通关游戏后，因为现实生活的事情，将这个游戏放置了一段时间。　　等她终于有空闲的时间可以重来时，便得知了游戏公司跑路，游戏永久关服的消息。　　……　　……　　“……让我想想，现在要先准备什么。”既然是老玩家，苏柚自然是对这个游戏十分了解的。　　如果她没有记错，自己在睡梦中听见执行系统让自己选择身份，她还以为是自己梦到跑路的游戏公司良心发现，重新回来开游戏，所以她选择的身份还是之前一样的‘城主’身份。　　而这个也在她查看自己的个人信息时，得到了确认。　　【苏柚】　　等级：无　　所属：无　　身份：建造者　　体力：　　饥饿：　　血量：　　状态：正常　　技能：无　　装备：无　　光环：健康的活下去（剩余时间：71小时57分钟49秒）　　不知名的祝福（剩余时间：71小时57分钟49秒）　　……　　“这简直和当初的界面一模一样啊……”虽然身份显示的是建造者而不是她所选择的城主，但这不是因为还没建城嘛！　　没有城，哪儿来的城主？　　等第一个城池建立后，她的身份便会发生改变。　　看完个人信息面板，苏柚顺带看了看其他游戏界面，在看到【背包】面板时，她突然愣住了。　　这个游戏虽然有新手光环，但并没有新手礼包，可她却在本该空空如也的背包中看见了一个类似令牌的图标。　　这个图标很陌生，至少她曾经玩这个游戏时并没有见过这个道具。　　不知为何，看着这个图标，苏柚的内心莫名有了一种不太好的预感，伴随着这种不好的预感，她点开图标开始查看这个物品的信息。　　【领主令牌】（该物品将在71小时56分钟51秒后消失）　　分类：特殊　　品质：无　　介绍：领主令牌是建立领地的必须道具，对选中区域使用领主令牌并点燃城心火可建立领地。　　就在苏柚看完领主令牌的全部信息的同时，一道机械音自她脑海中响起——　　【请在规定时间内建立领地加入数据化世界，超出时间未加入世界，则会被视为游离数据。】　　像是仅仅只让苏柚听到这段话话还不够，苏柚眼前出现了一个巨大的窗口，窗口上的文字正是这段内容。　　游离数据？　　这是什么？　　苏柚看着这段话，一下就抓住了重点。　　希望没认真看简介的读者请注意，本文无cp。　　请收藏本站：https://www.quge9.cc。新笔趣阁手机版：https://m.quge9.cc 
『点此报错』『加入书签』

小说正文，已经顺利获取到了。要想下载整本小说，我们就要获取每个章节的链接。我们先分析下小说目录：

URL : https://www.quge9.cc/book/32493/

审查元素后，我们不难发现，所有的章节信息，都存放到了 id 属性为 list 的 div 标签下的 a 标签内，编写如下代码：

from urllib import request
from bs4 import BeautifulSoup

response = request.urlopen('https://www.quge9.cc/book/32493/')
html = response.read().decode('utf-8')
bs = BeautifulSoup(html,'lxml')
#
list = bs.find('div',class_='listmain')
list = list.find_all('a')
print(list)

[<a href="/book/32493/1.html">第1章 1.健康的活下去</a>, <a href="/book/32493/2.html">第2章 2游离数据</a>, <a href="/book/32493/3.html">第3章 3轻微疲惫</a>, <a href="/book/32493/4.html">第4章 4梅开二度</a>, <a href="/book/32493/5.html">第5章 5.红色浆果</a>, <a href="/book/32493/6.html">第6章 6.砍树从扒皮开始</a>, <a href="/book/32493/7.html">第7章 7.夕阳花</a>, <a href="/book/32493/8.html">第8章 8.浆果食谱</a>, <a href="/book/32493/9.html">第9章 9石头怪</a>, <a href="/book/32493/10.html">第10章 10.神秘生物</a>, <a href="javascript:dd_show()" rel="nofollow">&lt;&lt;---展开全部章节---&gt;&gt;</a>, <a href="/book/32493/11.html">第11章 11.交易</a>, <a href="/book/32493/12.html">第12章 12初级箭塔

可以看到章节链接和章节名我们已经提取出来，但是还需要进一步解析，编写如下代码：

from urllib import request
from bs4 import BeautifulSoup

server = 'https://www.quge9.cc'
target = 'https://www.quge9.cc/book/32493/'
response = request.urlopen(target)
html = response.read().decode('utf-8')
books_bs = BeautifulSoup(html,'lxml')
books = books_bs.find('div',class_ = 'listmain')
books = books.find_all('a')   
for book in books:
    url =book.get('herf')
    print(book.string)
    print(server + target)

第1章 1.健康的活下去
https://www.quge9.cchttps://www.quge9.cc/book/32493/
第2章 2游离数据
https://www.quge9.cchttps://www.quge9.cc/book/32493/
第3章 3轻微疲惫
https://www.quge9.cchttps://www.quge9.cc/book/32493/
第4章 4梅开二度
https://www.quge9.cchttps://www.quge9.cc/book/32493/
第5章 5.红色浆果
https://www.quge9.cchttps://www.quge9.cc/book/32493/
第6章 6.砍树从扒皮开始
https://www.quge9.cchttps://www.quge9.cc/book/32493/
第7章 7.夕阳花
https://www.quge9.cchttps://www.quge9.cc/book/32493/
第8章 8.浆果食谱
https://www.quge9.cchttps://www.quge9.cc/book/32493/
第9章 9石头怪
https://www.quge9.cchttps://www.quge9.cc/book/32493/
第10章 10.神秘生物
https://www.quge9.cchttps://www.quge9.cc/book/32493/
<<---展开全部章节--->>
https://www.quge9.cchttps://www.quge9.cc/book/32493/
第11章 11.交易
https://www.quge9.cchttps://www.quge9.cc/book/32493/
第12章 12初级箭塔
...
第657章 657摧毁碎片

可以看到，book.get('href') 方法提取了 href 属性，并拼接出章节的 url，使用 book.string 方法提取了章节名。

每个章节的链接、章节名、章节内容都有了。接下来就是整合代码，将内容保存到txt中即可。编写代码如下：

from urllib import request
from bs4 import BeautifulSoup
import time
from tqdm import tqdm

def get_content(target):
    response = request.urlopen(target)
    html =response.read().decode('utf-8')
    bs = BeautifulSoup(html,'lxml')
    texts = bs.find('div',id='chaptercontent')
    content = texts.text
    return content

if __name__ == "__main__":
    server = 'https://www.quge9.cc'
    target = 'https://www.quge9.cc/book/148830/'
    book_name = 'book.docx'
    response = request.urlopen(target)
    html = response.read().decode('utf-8')
    books_bs = BeautifulSoup(html,'lxml')
    books = books_bs.find('div',class_='listmain')
    books =books.find_all('a')
    for book in tqdm(books):
        book_name = book.string
        url = server + book.get('href') 
        content = get_content(url)
        with open(book_name,'a',encoding='utf-8') as f:
            f.write(book_name)
            f.write('\n')
            f.write('\n'.join(content))
            f.write('\n')

但是上面的爬取速度实在感人，还是创建多线程爬取吧，需要使用Python的multiprocessing模块来并行处理多个任务。代码如下

from urllib import request
from bs4 import BeautifulSoup
from multiprocessing import Pool
import sys

server = 'https://www.quge9.cc'  # 将server定义在前面

def get_content(target):
    response = request.urlopen(target)
    html = response.read().decode('utf-8')
    bs = BeautifulSoup(html, 'lxml')
    texts = bs.find('div', id='chaptercontent')

    if texts:
        content = texts.text
        return content
    else:
        print(f"Couldn't find 'div' with id 'chaptercontent' in {target}")
        return None

def process_book(book):
    book_name = book.string
    url = server + book.get('href')
    print(f"Processing {book_name}: {url}")  # 观察进度和异常
    content = get_content(url)
    if content:
        with open(book_name + '.docx', 'a', encoding='utf-8') as f:
            f.write(book_name)
            f.write('\n')
            f.write(content)
            f.write('\n')

def main():
    sys.setrecursionlimit(10**5) 
    target = 'https://www.quge9.cc/book/148830/'
    response = request.urlopen(target)
    html = response.read().decode('utf-8')
    books_bs = BeautifulSoup(html, 'lxml')
    books = books_bs.find('div', class_='listmain').find_all('a')

    # 使用多进程来并行处理书籍
    with Pool() as pool:
        pool.map(process_book, books)

if __name__ == "__main__":
    main()

最终效果如下：

余下的就不截图了，这次是来使用python演示的，总体来说，用python爬取一些资料或内容还是比较方便的。

Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
python-flask复习(一) 胖虎是只mao python-web python函数 python python flask
一、Python现阶段三大主流Web框架Django、Tornado、Flask对比Django主要特点是大而全，集成了很多组件（例如Models、Admin、Form等等）,不管你用得到用不到，反正它全都有，属于全能型框架，通常用于大型Web应用，由于内置组件足够强大所以使用Django开发可以一气呵成，优点是大而全，缺点也就暴露出来了，这么多的资源一次性全部加载，肯定会造成一部分的资源浪费；T
python pip报错：Preparing metadata (pyproject.toml) ... error 我有一个魔盒其他 python pip 开发语言
环境：win11（Python3.9.13）原因：想安装低版本python，结果安装成了32位的，但是依赖包基本都是64位的。解决办法：重装64位python（可能还需要VisualStudio内安装“使用C++的桌面开发”）异常报错：Collectingmatplotlib~=3.0(fromgradio)Usingcachedhttps://pypi.tuna.tsinghua.edu.cn/
python安装scipy库出错_解决scipy安装（pip install scipy）失败,以及其他问题 weixin_39663933
解决scipy安装(pipinstallscipy)失败,以及其他问题解决：1.在scipy官方库中并没有适合Windows的python3.6相关版本，故需要在网址http://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy下载适合的版本，下载如：scipy‑0.19.1‑cp36‑cp36m‑win32.whl2.Windows中scipy安装成功后，还会存
Python 安装scipy失败 _不二_ python python
在使用pip安装scipy时会报错OSError:[Errno13]Permissiondenied:'/usr/local/lib/python2.7/dist-packages/scipy'网上查了，说是由于墙的原因，但我已经翻了墙的，任然报这个错误，下载速度特别慢，到11%或者27%就挂啦，最后很无赖，直接手动安装吧。先去官网搜索scipy选择合适的版本如下图下载完成后pipinstalls
win7下python3.6通过pip安装scipy报错的解决办法青松一夏 python
一、问题描述通过pip方式安装了numpy和sklearn，但是sklearn需要依赖于scipy，但当通过pip方式安装scipy时，报错：numpy.distutils.system_info.NotFoundError:nolapack/blasresourcesfound按照网上的教程，并没有找到真正的解决办法，后来我是通过如下方式解决的。二、我的解决方案（1）首先卸载numpypipun
聊聊关于Python与人工智能那些事小G-biu- python 人工智能 tensorflow
Python与人工智能：介绍Python在人工智能方面的应用Python是一种广泛使用的编程语言，也是人工智能领域中最受欢迎的语言之一。Python提供了许多用于构建和训练人工智能模型的库和框架。本文将介绍一些常见的人工智能技术以及Python在这些技术中的应用。OpenAIOpenAI是一个非营利组织，旨在推动人工智能的发展并促进其对人类的利益。OpenAI通过开发人工智能技术、研究人工智能的影
numpy学习笔记10：arr *= 2向量化操作性能优化宁宁可可 #机器学习 #Python基础与进阶 numpy 学习笔记
numpy学习笔记10：arr*=2向量化操作性能优化在NumPy中，直接对整个数组进行向量化操作（如arr*=2）的效率远高于显式循环（如foriinrange(len(arr)):arr[i]*=2）。以下是详细的解释：1.性能差异的原理(1)底层实现不同显式循环（错误示范）：Python的for循环是解释执行的，每次迭代需要动态解析变量类型、执行函数调用等操作。对每个元素的操作会触发多次Py
Python前端开发 PITSU 正则表达式 html css3 mysql
Python前端开发1.前端三剑客（HTML，CSS和JavaScript）1.1HTML1.1.1HTML简介HyperTextMark-upLanguage,指的是超文本标记语言；html是开发网页的语言；html中的标签大多数都是成对出现的,格式:1.1.2HTML结构第一行是文档声明部分HTML：分为页头，页身和页脚。标签大部分是成对出现1.1.3第一行文档声明部分HTML在vscode中
AIGC与教育行业的邂逅--其在数学领域的应用与实现想成为高手499 AIGC
引言在数学教学中，教师往往需要大量的时间准备练习题和答案解析，而学生则需要定制化的练习来满足不同的学习需求。AIGC技术可以通过自动生成数学题目、定制化学习内容、即时反馈等方式，极大地提升数学学习的效率与质量。本文将深入探讨AIGC在数学领域的几种应用场景，并通过Python代码展示具体实现方式。1.自动生成数学题目与解析数学题目生成是AIGC在数学教学中的主要应用之一。通过生成不同难度和类型的题
Python在人工智能与机器人开发中的应用与实践一键难忘 python 人工智能机器人
Python在人工智能与机器人开发中的应用与实践Python已经成为人工智能和机器人开发的主要编程语言之一，凭借其简洁的语法、强大的库支持和广泛的社区资源，Python为开发者提供了一个高效且易于学习的平台。在这篇文章中，我们将深入探讨如何使用Python进行人工智能（AI）和机器人开发，并通过实际代码示例展示核心技术和应用。1.Python在人工智能中的应用人工智能（AI）领域的核心任务包括机器
python中strip()，lstrip()，rstrip()函数的讲解使用方法高质量海王哦 python python
在Python中，strip()、lstrip()和rstrip()是用于处理字符串的三个常用方法，它们的作用都是去除字符串两端的空白字符或指定字符，但它们的去除位置有所不同。下面是它们的详细讲解：1.strip()方法strip()方法用于去除字符串两端的空白字符（默认情况下，包括空格、换行符、制表符等），或者去除指定的字符序列。语法：string.strip([chars])chars：可选参
疯狂python讲义学习日志06——异常处理静笃归心方得平和心气 Python学习日志异常处理 python学习 python笔记 python速成
疯狂python讲义学习日志06——异常处理引言1异常处理机制1.1使用try...except处理异常1.2异常类的继承体系1.3多异常捕获1.4访问异常信息1.5else块1.6使用finally回收资源2使用raise处理异常2.1引发异常2.2自定义异常类2.3except和raise同时使用3.python的异常传播轨迹4.异常处理规则4.1不要过度使用异常4.2不要忽略异常引言异常机制
Python 生成数据(使用Pygal模拟掷骰子) 钢铁男儿 Python 从入门到精通 python 开发语言
数据可视化指的是通过可视化表示来探索数据，它与数据挖掘紧密相关，而数据挖掘指的是使用代码来探索数据集的规律和关联。数据集可以是用一行代码就能表示的小型数字列表，也可以是数以吉字节的数据。使用Pygal模拟掷骰子在本节中，我们将使用Python可视化包Pygal来生成可缩放的矢量图形文件。对于需要在尺寸不同的屏幕上显示的图表，这很有用，因为它们将自动缩放，以适合观看者的屏幕。如果你打算以在线方式使用
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Python中 rstrip()、 lstrip（）、 strip() 的用法和区别一只小小的土拨鼠深度学习面试前端 java python 深度学习
目录：题目一：Python中rstrip()、lstrip（）、strip()的用法和区别题目二：python中append（）、expend（）函数的用法和区别题目三：Python中zip()、zip(*zipped)、*zip()函数的用法和区别题目一：Python中rstrip()、lstrip（）、strip()的用法和区别考点这三个函数都是去除头尾字符、空白符的函数strip：用来去除头
Python个人学习笔记（17）：模块（sys、pickle&json） NEET_LH 樵夫老师Python零基础课程个人学习笔记 python 学习笔记
五、sys模块sys.exit()：退出while1:print(123)sys.exit(0)#程序退出，0是正常退出，1是非正常退出，记录在日志中sys.version：得到当前解释器的运行环境sys.platform：运行平台，win32=windows代码：print(sys.version)print(sys.platform)结果：3.13.0(tags/v3.13.0:60403a5
python学习笔记之异常（内置标准异常总结） Molly_DD Python学习笔记 python 软件测试
python异常处理机制异常处理是python的一种高级工具，当异常发生时，程序会停止当前的所有工作，跳转到异常处理部分去执行。异常既可以是程序错误引发的，也可以由代码主动触发。异常处理基本结构try:可能引发异常的代码except异常类型名称：异常处理代码else：没有发生异常时执行的代码异常报错：try：classtest:defgetdata(self):returnself.datay=t
python strip/rstrip/lstrip详细讲解（涵盖许多例子、作用以及复杂行为处理） zilan23 Python python
pythonstrip/rstrip/lstrip详细讲解：在Python中，strip、lstrip、rstrip是用于字符串处理的常用方法，主要功能是去除字符串首尾的指定字符。它们的区别如下：1.strip([chars])作用：删除字符串开头和结尾处所有属于chars的字符，直到遇到不属于chars的字符为止。默认行为：若未提供chars参数，默认去除空白符（空格、换行\n、制表符\t等）。
Python逆向爬取Tik Tok，MsToken,X-Bogus以及signature 才华是浅浅的耐心 python javascript 前端
自5月起，抖音正式开放Web接口，并不断升级风控机制。从最初的_signature参数，到增加滑块验证，再到如今的JSVM混淆处理，以及mstoken和x-bougs等参数的引入。分析发现，部分国内接口仅需提供Cookie即可访问，无需额外验签，而获取Cookie的方式多种多样，其中利用OpenCV识别滑块验证码是一种简单可行的方法。相比之下，TikTok的接口无需Cookie，但对签名的校验更加
Browser-Use WebUI项目启动指南思考在马桶上人工智能 chatgpt 经验分享 python
摘要此前发布《Browser-UseWebUI使用体验》博文后，鉴于部分朋友运行时出现问题，重新运行并整理相关内容。本文详细记录WebUI项目启动全过程，涵盖Python3.11+、Chrome浏览器及APIKeys等环境要求，Python环境检查、依赖安装等环境配置步骤，.env文件中环境变量的设置方法。同时，针对启动中如lxml.html.clean依赖缺失、连接被拒等问题给出解决方案，介绍启
Linux篇1-初识Linux 逃跑的机械工 Linux linux
1.Linux能干什么Linux能够进行各种语言的开发工作，基本主要以后端语言为主C++，JAVA,python;Linux能进行各种指令操作，从而完成各种的文件相关的管理工作2.Linux基本指令2.1ls指令在Linux中，以.开头的文件，叫做隐藏文件；ls-a显示隐藏文件隐藏文件：Linux配置文件，可以隐藏起来，防止误操作，起到保护作用；ls-l列出文件的详细信息-d将目录象文件一样显示，
Python获取tiktok视频数据信息 api 爬虫程序媛了了 python 开发语言
Tiktok通过ID爬取视频信息api采集页面如图：https://www.tiktok.com/@basketwithball2.0/video/7273119444522650912?q=irving&t=1706683319923请求APIhttp://api.xxxx.com/tt/video/info?video_id=7273119444522650912&token=test请求参数
【初学者】用Python语言来解释指针的用例与应用场景 lisw05 python python 开发语言
李升伟整理Python本身并不直接支持指针的概念，因为Python是一种高级语言，内存管理由解释器自动处理。不过，Python提供了一些机制（如引用、可变对象等）来实现类似指针的功能。以下是Python中“指针”的用例和应用场景。1.引用机制（类似指针）在Python中，变量是对对象的引用，而不是直接存储对象的值。这种引用机制类似于指针的概念。示例：a=10#a是对整数对象10的引用b=a#b也引
python、JavaScript 、JAVA等实例代码演示教你如何免费获取股票数据（实时数据、历史数据、CDMA、KDJ等指标数据）配有股票数据API接口说明文档详解参数说明蝶澈乐乐 python javascript java 股票数据接口 api 开发语言
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
31天Python入门——第7天:集合·字典你真的懂了吗? 安然无虞 Python手把手教程 python 开发语言后端
你好，我是安然无虞。文章目录1.集合1.1集合的定义1.2集合的常用操作1.3集合练习2.字典2.1字典的定义2.2嵌套字典和字典的取值2.3字典的常用操作补充知识:字典的优势是查找值效率高2.4字典推导式2.5字典练习很重要的补充练习:希望你能掌握练习一练习二1.集合在之前的章节中,我们学习了列表,元组,字符串.已经可以覆盖七成的使用场景了.那么为什么还要学习集合类型呢.列表:有序可变,元素可重
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归 OverlordDuke 聚类算法数据可视化爬虫线性回归算法
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归利用数据实现全面分析数据分析与可视化功能创新的聚类分析功能结语在如今房地产市场日益复杂的背景下，对于投资者、购房者和市场分析师来说，了解市场动态并做出明智的决策至关重要。基于此，我们开发了一款基于Python的城市二手房分析与可视化系统，为用户提供了强大的工具，帮助他们深入了解当地房地产市场。利用数据实现全面分析我们的系统利用爬取的58同
centos7输入python -m bitsandbytes报错CUDA Setup failed despite GPU being available. Please run the follo 小太阳，乐向上 python 开发语言
在centos7.9系统中安装gpu驱动及cuda，跑大模型会报错，提示让输入python-mbitsandbytes依然报错：CUDASETUP:Loadingbinary/usr/local/python3/lib/python3.9/site-packages/bitsandbytes/libbitsandbytes_cuda117.so.../lib64/libstdc++.so.6:ve
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
python-56-基于Vue和Flask进行前后端分离的项目开发示例实战皮皮冰燃 python3 python vue.js flask
文章目录1创建Vue前端项目1.1运行demo1.2实现需求2flask部署上述dist(前后端未分离)2.1代码app.py2.2运行访问3nginx部署(前后端分离)3.1nginx前端服务3.3.1windows安装nginx3.3.2修改nginx.conf配置文件3.3.3启动nginx3.3.3停止nginx3.2启动后端服务3.2.1app.py(去除前端渲染)3.2.2启动flas
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

记录使用python网络爬虫下载小说

记录使用python网络爬虫下载小说

你可能感兴趣的:(python学习,爬虫,开发语言,python)