使用简单Python爬虫获取一个干净整洁的小说文件

打开小说所在界面，右击选择查看网页源代码

1.在头部能够看到'charset=utf-8'得知文件的编码为'uft-8'!，url=http://www.17k.com/list/2921315.html

头部.png

import urllib.request as req                            #导入urllib库,用于对url进行操作
webpage=req.urlopen(url)                        #打开网页并将网页源代码临时存储
file=webpage.read().decode('utf-8')             #将网页源代码转码为网页使用的编码并读取

2.查看网页源代码的规律，标题是在'
'之间，章节信息是存在'
'之间,其他的信息同样是这样的规律

代码如下：

#根据网页源代码的特征，使用re库的正则表达式获取需要的数据，获取到的数据是一个列表
    import re                                    #导入re库
    title=re.findall(r'(.*?)',file,re.S)

4、对
中进行数据清洗,代码如下

其余部分操作方法一致

#通re.findall()获取到的是一个列表,由网页源代码可知标题信息在第一个中
lines=title[0]
#数据清洗
lines=lines.strip().split('\n')

thing=[]                        #作品以及作者信息用列表thing存储
    for line in lines:
        index=line.find('',0,index)                  #查找在'>'之前出现的最后一个'<'
        thing.append(line[index_left+1:index])
print(lines)
print(thing)
#

效果如下

image.png

5、将数据写入文件

b,d=read_cata(url)                                #用b,d,c分别存储函数自定义函数read_cata()返回的作品信息，章节标题，章节超链接
outfile=open('nongyi.txt','w')                  #打开一个文件'nongyi.txt',如人文件不存在就会自动生成文件，'w'代表文件为写模式，其会将文件中的数据清除全部重新写入
for i in b:                                     
    outfile.write('%s\n'%i)                         #将作品信息写入文件
for i in d:                 
    outfile.write('%s\n'%i)                         #将每张章节标题写入文件        
for i in c:
    cata_thing_url(i,outfile)                       #调用cata_thing_url函数，将正文写入文件
outfile.close()

整本小说的完整代码：

import urllib.request as  req
import re
#获取小说的相关信息
url='http://www.17k.com/list/2921315.html'

def read_cata(url):
    webpage=req.urlopen(url)             #打开网页并将网页源代码临时存储
    file=webpage.read().decode('utf-8')             #将网页源代码转码为网页使用的编码并读取
   #根据网页源代码的特征获取需要的数据
    title=re.findall(r'(.*?)',file,re.S)
    lines=title[0]                                       #通过re.findall（）获取到的是一个列表
    lines=lines.strip().split('\n')
    thing=[]                        #作品以及作者信息用列表thing存储
    for line in lines:
        index=line.find('',0,index)                  #查找在'>'之前出现的最后一个'<'
        thing.append(line[index_left+1:index])
#获取存在''之间的章节信息
    cata=re.findall(r'(.*?)',file,re.S)        
    lines_cata=cata[1].strip()
    lines_cata=lines_cata.replace('\n','').split('')
    cata_thing=[]
    cata_thing_href=[]
    for line in lines_cata:             #获取每章章节的标题和超链接
        index=line.find('')
        index_left=line.rfind('>',0,index)                  
        cata_thing.append(line[index_left+1:index].replace(' ',''))
        thing_href=re.findall('href="(.*?)"',line)              
        cata_thing_href.append(thing_href)
    return thing,cata_thing,cata_thing_href[:-1]
    
 #获取每一章的正文内容   
def cata_thing_url(href,filename):              
    website='http://www.17k.com'     
    url=website+href[0]                                   #将网站域名加上组成一个完整的链接
    webpage=req.urlopen(url)
    file=webpage.read().decode('utf-8')
    title=re.findall(r'(.*?)',file,re.S)[0].strip()       #获取章节标题，在第一个</title标记中
    filename.write('\t\t\t\t%s'%title)                          #将标题写入文件
    lines=re.findall(r'<div class="p">(.*?)<div class="author-say">',file,re.S)
    lines=lines[0].replace('<br /><br />','>').split('>')
    for line in lines:                                  #将每一行进行数据清洗后写入文件
        line=line.replace('　　','')
        line=line.replace('\n','\t')
        filename.write('\t%s\n'%line)    
    return
b,d,c=read_cata(url)                        #对获取章节的标题和衔接的read_cata函数进行调用

#将爬取到底数据写入当前目录文件'nongyi.txt'
outfile=open('nongyi.txt','w')
for i in b:                                     
    outfile.write('%s\n'%i)                         #将作品信息写入文件
for i in d:                 
    outfile.write('%s\n'%i)                         #将每张章节标题写入文件        
for i in c:
    cata_thing_url(i,outfile)                       #调用cata_thing_url函数，将正文写入文件
outfile.close()
</code></pre> 
 <h5>3.打开nongyi.txt能够看到以下效果</h5> 
 <div class="image-package"> 
  <div class="image-container" style="max-width: 700px; max-height: 375px;"> 
   <div class="image-view">  
   </div> 
  </div> 
  <div class="image-caption">
    效果图.png 
  </div> 
 </div> 
 <h1>此方法仅供参考，勿做商业操作</h1> 
</article>
                            </div>
                        </div>
                    </div>
                    <!--PC和WAP自适应版-->
                    <div id="SOHUCS" sid="1621038082130214912"></div>
                    <script type="text/javascript" src="/views/front/js/chanyan.js"></script>
                    <!-- 文章页-底部 动态广告位 -->
                    <div class="youdao-fixed-ad" id="detail_ad_bottom"></div>
                </div>
                <div class="col-md-3">
                    <div class="row" id="ad">
                        <!-- 文章页-右侧1 动态广告位 -->
                        <div id="right-1" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad">
                            <div class="youdao-fixed-ad" id="detail_ad_1"> </div>
                        </div>
                        <!-- 文章页-右侧2 动态广告位 -->
                        <div id="right-2" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad">
                            <div class="youdao-fixed-ad" id="detail_ad_2"></div>
                        </div>
                        <!-- 文章页-右侧3 动态广告位 -->
                        <div id="right-3" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad">
                            <div class="youdao-fixed-ad" id="detail_ad_3"></div>
                        </div>
                    </div>
                </div>
            </div>
        </div>
    </div>
    <div class="container">
        <h4 class="pt20 mb15 mt0 border-top">你可能感兴趣的:(使用简单Python爬虫获取一个干净整洁的小说文件)</h4>
        <div id="paradigm-article-related">
            <div class="recommend-post mb30">
                <ul class="widget-links">
                    <li><a href="/article/1938859372566343680.htm"
                           title="如何在FastAPI中打造坚不可摧的Web安全防线？" target="_blank">如何在FastAPI中打造坚不可摧的Web安全防线？</a>
                        <span class="text-muted"></span>

                        <div>url:/posts/9d6200ae7ce0a1a1a523591e3d65a82e/title:如何在FastAPI中打造坚不可摧的Web安全防线？date:2025-06-28T08:37:03+08:00lastmod:2025-06-28T08:37:03+08:00author:cmdragonsummary:Web安全三要素包括机密性、完整性和可用性。机密性通过加密算法保护数据传输和</div>
                    </li>
                    <li><a href="/article/1938859245273411584.htm"
                           title="PCDN如何提升网络流量的传输效率" target="_blank">PCDN如何提升网络流量的传输效率</a>
                        <span class="text-muted"></span>
<a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a>
                        <div>PCDN如何提升网络流量的传输效率在当今数字化时代，网络流量的快速增长对传统的CDN（内容分发网络）提出了更高要求。PCDN（P2PCDN）作为一种创新的内容分发技术，通过利用边缘节点的带宽资源，显著提升了宽带流量的传输效率，为用户带来更流畅的网络体验。分布式节点优化宽带流量传输传统CDN依赖中心化服务器分发内容，当用户请求激增时，容易导致服务器负载过高，影响宽带流量的传输速度。PCDN则采用分布</div>
                    </li>
                    <li><a href="/article/1938858862463479808.htm"
                           title="算法竞赛备考冲刺必刷题（C++） | 洛谷 P8814 解密" target="_blank">算法竞赛备考冲刺必刷题（C++） | 洛谷 P8814 解密</a>
                        <span class="text-muted">热爱编程的通信人</span>
<a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a><a class="tag" taget="_blank" href="/search/c%2B%2B/1.htm">c++</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a>
                        <div>本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P8814[CSP-J2022]解密-洛</div>
                    </li>
                    <li><a href="/article/1938858863277174784.htm"
                           title="HarmonyOS从入门到精通：WebView开发" target="_blank">HarmonyOS从入门到精通：WebView开发</a>
                        <span class="text-muted">逻极</span>
<a class="tag" taget="_blank" href="/search/harmonyos/1.htm">harmonyos</a><a class="tag" taget="_blank" href="/search/%E5%8D%8E%E4%B8%BA/1.htm">华为</a><a class="tag" taget="_blank" href="/search/%E9%B8%BF%E8%92%99/1.htm">鸿蒙</a><a class="tag" taget="_blank" href="/search/webview/1.htm">webview</a><a class="tag" taget="_blank" href="/search/UI/1.htm">UI</a><a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF/1.htm">前端</a><a class="tag" taget="_blank" href="/search/%E5%AE%9E%E6%88%98/1.htm">实战</a>
                        <div>引言WebView是现代移动应用中不可或缺的组件，它使应用能够显示Web内容，实现混合开发。本文将详细介绍鸿蒙系统中WebView的开发技术，包括基本使用、性能优化和最佳实践。WebView基础知识1.WebView类型鸿蒙系统支持多种WebView实现：系统WebView自定义WebViewWeb组件2.WebView权限配置在开发WebView应用前，需要在配置文件中添加相关权限：{"modu</div>
                    </li>
                    <li><a href="/article/1938858107035774976.htm"
                           title="Java Fork/Join 框架详解" target="_blank">Java Fork/Join 框架详解</a>
                        <span class="text-muted">empti_</span>
<a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84%E4%B8%8E%E7%AE%97%E6%B3%95/1.htm">数据结构与算法</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a>
                        <div>JavaFork/Join框架详解Fork/Join框架是Java7引入的一个并行编程框架，专门设计用来高效地实现分治算法（Divide-and-Conquer）。它通过工作窃取（Work-Stealing）算法来最大化多核处理器的利用率。一、核心概念1.基本组成ForkJoinPool：特殊的线程池，管理工作线程ForkJoinTask：表示任务的抽象类，有两个重要子类：RecursiveAct</div>
                    </li>
                    <li><a href="/article/1938857980791418880.htm"
                           title="Java注解的实现原理" target="_blank">Java注解的实现原理</a>
                        <span class="text-muted">empti_</span>
<a class="tag" taget="_blank" href="/search/Java%E5%9F%BA%E7%A1%80/1.htm">Java基础</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a>
                        <div>Java注解的实现原理Java注解的实现涉及Java语言规范、编译器处理和JVM支持等多个层面。下面我将详细解释注解在Java中的实现机制。一、注解的本质注解本质上是一种特殊的接口，所有注解类型都隐式继承自java.lang.annotation.Annotation接口。当你定义一个注解时：public@interfaceMyAnnotation{Stringvalue();}编译器实际上会生成</div>
                    </li>
                    <li><a href="/article/1938857599847952384.htm"
                           title="程序化交易系统中如何精准获取MACD、KDJ、BOLL等基础指标的值？" target="_blank">程序化交易系统中如何精准获取MACD、KDJ、BOLL等基础指标的值？</a>
                        <span class="text-muted">股票程序化交易接口</span>
<a class="tag" taget="_blank" href="/search/%E9%87%8F%E5%8C%96%E4%BA%A4%E6%98%93/1.htm">量化交易</a><a class="tag" taget="_blank" href="/search/%E8%82%A1%E7%A5%A8API%E6%8E%A5%E5%8F%A3/1.htm">股票API接口</a><a class="tag" taget="_blank" href="/search/Python%E8%82%A1%E7%A5%A8%E9%87%8F%E5%8C%96%E4%BA%A4%E6%98%93/1.htm">Python股票量化交易</a><a class="tag" taget="_blank" href="/search/%E7%A8%8B%E5%BA%8F%E5%8C%96%E4%BA%A4%E6%98%93%E7%B3%BB%E7%BB%9F/1.htm">程序化交易系统</a><a class="tag" taget="_blank" href="/search/macd%E6%8C%87%E6%A0%87/1.htm">macd指标</a><a class="tag" taget="_blank" href="/search/kdj%E6%8C%87%E6%A0%87/1.htm">kdj指标</a><a class="tag" taget="_blank" href="/search/boll%E6%8C%87%E6%A0%87/1.htm">boll指标</a><a class="tag" taget="_blank" href="/search/%E8%82%A1%E7%A5%A8%E9%87%8F%E5%8C%96%E6%8E%A5%E5%8F%A3/1.htm">股票量化接口</a><a class="tag" taget="_blank" href="/search/%E8%82%A1%E7%A5%A8API%E6%8E%A5%E5%8F%A3/1.htm">股票API接口</a>
                        <div>Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>基础指标在程序化交易系统中的重要性基础指标对交易决策的指导意义MACD、KDJ、BOLL等基础指标在程序化交易系统中扮演着重要角色。MACD可以帮助判断市场的趋势和买卖信号，通过分析其快线和慢线的交叉情况，能为投资者提供入场和出场的参</div>
                    </li>
                    <li><a href="/article/1938857601018163200.htm"
                           title="股票程序化交易软件如何选择？这些要点你知道吗" target="_blank">股票程序化交易软件如何选择？这些要点你知道吗</a>
                        <span class="text-muted">股票程序化交易接口</span>
<a class="tag" taget="_blank" href="/search/%E9%87%8F%E5%8C%96%E4%BA%A4%E6%98%93/1.htm">量化交易</a><a class="tag" taget="_blank" href="/search/%E8%82%A1%E7%A5%A8API%E6%8E%A5%E5%8F%A3/1.htm">股票API接口</a><a class="tag" taget="_blank" href="/search/Python%E8%82%A1%E7%A5%A8%E9%87%8F%E5%8C%96%E4%BA%A4%E6%98%93/1.htm">Python股票量化交易</a><a class="tag" taget="_blank" href="/search/%E5%8C%BA%E5%9D%97%E9%93%BE/1.htm">区块链</a><a class="tag" taget="_blank" href="/search/%E8%82%A1%E7%A5%A8%E7%A8%8B%E5%BA%8F%E5%8C%96%E4%BA%A4%E6%98%93%E8%BD%AF%E4%BB%B6/1.htm">股票程序化交易软件</a><a class="tag" taget="_blank" href="/search/%E5%8A%9F%E8%83%BD%E7%89%B9%E6%80%A7/1.htm">功能特性</a><a class="tag" taget="_blank" href="/search/%E7%A8%B3%E5%AE%9A%E6%80%A7/1.htm">稳定性</a><a class="tag" taget="_blank" href="/search/%E6%88%90%E6%9C%AC/1.htm">成本</a><a class="tag" taget="_blank" href="/search/%E8%82%A1%E7%A5%A8%E9%87%8F%E5%8C%96%E6%8E%A5%E5%8F%A3/1.htm">股票量化接口</a><a class="tag" taget="_blank" href="/search/%E8%82%A1%E7%A5%A8API%E6%8E%A5%E5%8F%A3/1.htm">股票API接口</a>
                        <div>Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>了解软件功能特性基础交易功能基础交易功能是股票程序化交易软件的核心。它应具备快速下单、撤单等基础操作能力。比如在行情快速变化时，能让投资者迅速抓住机会下单，或者及时撤单避免损失。软件的交易界面要简洁明了，方便投资者操作。还应支持多种交</div>
                    </li>
                    <li><a href="/article/1938857602666524672.htm"
                           title="【网络】Linux 内核优化实战 - net.core.rmem_max" target="_blank">【网络】Linux 内核优化实战 - net.core.rmem_max</a>
                        <span class="text-muted">锅锅来了</span>
<a class="tag" taget="_blank" href="/search/Linux%E6%80%A7%E8%83%BD%E4%BC%98%E5%8C%96%E5%8E%9F%E7%90%86%E5%92%8C%E5%AE%9E%E6%88%98/1.htm">Linux性能优化原理和实战</a><a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C/1.htm">网络</a><a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a><a class="tag" taget="_blank" href="/search/%E8%BF%90%E7%BB%B4/1.htm">运维</a>
                        <div>目录参数作用与原理默认值与查看方法调整场景与方法适用场景调整方法与其他参数的协同性能影响与注意事项典型案例总结net.core.rmem_max是Linux内核中控制套接字接收缓冲区（ReceiveBuffer）最大允许值的参数。它与net.core.rmem_default（默认值）共同决定了网络数据接收的性能上限和内存使用策略。以下是详细解析：参数作用与原理核心功能：限制单个套接字接收缓冲区的</div>
                    </li>
                    <li><a href="/article/1938856717974564864.htm"
                           title="RK3566系统移植 | 基于rk-linux-sdk移植uboot（2017.09）" target="_blank">RK3566系统移植 | 基于rk-linux-sdk移植uboot（2017.09）</a>
                        <span class="text-muted">Mculover666</span>
<a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a>
                        <div>文章目录一、测试已有的配置二、移植到fireflyROC-RK3566开发板1.新建单板2.新建设备树3.编译4.测试一、测试已有的配置查看rksdk中提供的uboot中对于rk3566的配置：rk3566.config内容如下：CONFIG_BASE_DEFCONFIG="rk3568_defconfig"CONFIG_LOADER_INI="RK3566MINIALL.ini"因为rk3566</div>
                    </li>
                    <li><a href="/article/1938856465695567872.htm"
                           title="MCP-Proxy：开发多LLM & 多MCP 支持并安全访问MCP Server的秘密" target="_blank">MCP-Proxy：开发多LLM & 多MCP 支持并安全访问MCP Server的秘密</a>
                        <span class="text-muted">IT古董</span>
<a class="tag" taget="_blank" href="/search/%E6%8A%80%E6%9C%AF%E6%9D%82%E8%B0%88/1.htm">技术杂谈</a><a class="tag" taget="_blank" href="/search/%E5%AE%89%E5%85%A8/1.htm">安全</a><a class="tag" taget="_blank" href="/search/MCP/1.htm">MCP</a><a class="tag" taget="_blank" href="/search/MCP-Proxy/1.htm">MCP-Proxy</a>
                        <div>在构建多模型、多协议、可控可信的大模型接入平台时，MCP-Proxy扮演着关键中枢。它不仅要支持多个LLM接入，还要保障对后端MCPServer的安全访问、请求审计、能力切换与资源隔离。什么是MCP/MCP-Proxy？MCP（ModelCapabilityProtocol）是新一代模型能力调用协议，类似于OpenAI的API，但可支持：多厂商大模型（OpenAI、DeepSeek、Yi、Chat</div>
                    </li>
                    <li><a href="/article/1938856213508845568.htm"
                           title="Linux I/O 文件操作详解：从系统调用到实际工程应用" target="_blank">Linux I/O 文件操作详解：从系统调用到实际工程应用</a>
                        <span class="text-muted">平凡灵感码头</span>
<a class="tag" taget="_blank" href="/search/linux%E5%AD%A6%E4%B9%A0/1.htm">linux学习</a><a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a><a class="tag" taget="_blank" href="/search/%E8%BF%90%E7%BB%B4/1.htm">运维</a><a class="tag" taget="_blank" href="/search/%E6%9C%8D%E5%8A%A1%E5%99%A8/1.htm">服务器</a>
                        <div>一、写在前面在Linux或任何类Unix操作系统中，文件是一切的核心——无论是硬盘上的文本文件，还是串口设备、GPIO寄存器、甚至网络接口，几乎都被抽象为“文件”。理解Linux下的I/O文件操作机制，不仅是嵌入式开发的基础，也是进行系统编程与底层控制的关键。二、I/O的本质：一切皆文件Linux将外设抽象成文件的方式，统一了对各种资源的操作模型。你可以用open打开串口设备/dev/ttyS0，</div>
                    </li>
                    <li><a href="/article/1938856087155437568.htm"
                           title="英国留学生顺利拿到offer！博士学历+微软MOS国际认证加buff！" target="_blank">英国留学生顺利拿到offer！博士学历+微软MOS国际认证加buff！</a>
                        <span class="text-muted">全球认证考试中心</span>
<a class="tag" taget="_blank" href="/search/microsoft/1.htm">microsoft</a>
                        <div>在全球化职场竞争日益激烈的当下，英国留学生若想提升自身竞争力，考取高含金量的国际证书是一条有效途径。MicrosoftOfficeSpecialist（MOS）国际认证作为微软官方推出的办公软件专业认证，在全球168个国家和地区得到认可，每年吸引近百万人次报考，已成为众多外企筛选人才的重要标准。正值暑假，不少同学计划利用这段时间备考MOS，本文将结合实际经验，为大家提供一套系统的备考方案。一、为何</div>
                    </li>
                    <li><a href="/article/1938855709118623744.htm"
                           title="构建医学文献智能助手：基于 LangChain 的专业领域 RAG 系统实践" target="_blank">构建医学文献智能助手：基于 LangChain 的专业领域 RAG 系统实践</a>
                        <span class="text-muted"></span>

                        <div>前言在当今医疗科技快速发展的时代，每天都有数以千计的医学研究成果在全球范围内发表。从临床试验报告到基础研究论文，从流行病学调查到药物研发数据，这些专业文献承载着推动医学进步的重要知识。然而，面对如此海量且专业性极强的文献资料，医疗从业者往往感到力不从心。如何在有限的时间内，准确把握文献核心价值，并将其转化为临床实践的指导？这个问题一直困扰着整个医疗行业。1.项目背景与业务价值1.1医学文献阅读的困</div>
                    </li>
                    <li><a href="/article/1938855582761021440.htm"
                           title="JVM(9)——详解Serial垃圾回收器" target="_blank">JVM(9)——详解Serial垃圾回收器</a>
                        <span class="text-muted">十六点五</span>
<a class="tag" taget="_blank" href="/search/jvm/1.htm">jvm</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E5%90%8E%E7%AB%AF/1.htm">后端</a>
                        <div>Serial垃圾回收器是JVM最古老、最基础、最简单的垃圾回收器，也是理解其他更复杂回收器的基础。一、Serial回收器的定位与设计目标核心特点：单线程(Single-Threaded)这是Serial回收器最根本的特征。无论是进行垃圾标记(Marking)、清除(Sweeping)、复制(Copying)还是整理(Compacting)，它都只使用一个单独的线程来执行所有垃圾回收工作。工作模式：</div>
                    </li>
                    <li><a href="/article/1938855453471600640.htm"
                           title="Python爬虫实战：全方位爬取知乎学习板块问答数据" target="_blank">Python爬虫实战：全方位爬取知乎学习板块问答数据</a>
                        <span class="text-muted">Python爬虫项目</span>
<a class="tag" taget="_blank" href="/search/2025%E5%B9%B4%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">2025年爬虫实战项目</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0/1.htm">学习</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a><a class="tag" taget="_blank" href="/search/%E6%B8%B8%E6%88%8F/1.htm">游戏</a>
                        <div>1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“</div>
                    </li>
                    <li><a href="/article/1938855454511788032.htm"
                           title="Python实战：自动在知乎回答点赞并采集内容的高阶爬虫教程" target="_blank">Python实战：自动在知乎回答点赞并采集内容的高阶爬虫教程</a>
                        <span class="text-muted">Python爬虫项目</span>
<a class="tag" taget="_blank" href="/search/2025%E5%B9%B4%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">2025年爬虫实战项目</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/okhttp/1.htm">okhttp</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0/1.htm">学习</a>
                        <div>✨写在前面：为什么做知乎自动化操作？知乎作为中国领先的知识问答平台，拥有大量结构化内容。对于研究舆情分析、情绪识别、用户画像，甚至产品舆情反馈采集的用户来说，如何自动获取知乎内容并进行交互行为（如点赞、回答），是一个非常实用的能力。本文将手把手带你用Python完成以下目标：✅自动登录知乎✅自动搜索某个关键词下的热门问题✅自动点赞高质量回答✅自动采集回答内容（文本、点赞数、评论数等）✅自动保存为本</div>
                    </li>
                    <li><a href="/article/1938855201297461248.htm"
                           title="Python爬虫实战：爬取知乎问答与用户信息" target="_blank">Python爬虫实战：爬取知乎问答与用户信息</a>
                        <span class="text-muted">Python爬虫项目</span>
<a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/php/1.htm">php</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/1.htm">数据分析</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E6%BA%90/1.htm">开源</a>
                        <div>简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的</div>
                    </li>
                    <li><a href="/article/1938854571623378944.htm"
                           title="【机器学习&深度学习】反向传播机制" target="_blank">【机器学习&深度学习】反向传播机制</a>
                        <span class="text-muted"></span>

                        <div>目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“</div>
                    </li>
                    <li><a href="/article/1938854445399994368.htm"
                           title="【C++】atoi和std::stoi" target="_blank">【C++】atoi和std::stoi</a>
                        <span class="text-muted">bluebonnet27</span>
<a class="tag" taget="_blank" href="/search/%E7%BC%96%E7%A8%8B%E8%AF%AD%E8%A8%80/1.htm">编程语言</a><a class="tag" taget="_blank" href="/search/%23/1.htm">#</a><a class="tag" taget="_blank" href="/search/C%2B%2B/1.htm">C++</a><a class="tag" taget="_blank" href="/search/c%2B%2B/1.htm">c++</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a>
                        <div>两个将字符串转为int的方法atoi（C语言）atoi是C库中的一个函数，它定义在头文件里。其作用是把一个字符串转换为对应的整数。/*Convertastringtoaninteger.*/externintatoi(constchar*__nptr)__THROW__attribute_pure____nonnull((1))__wur;转换的原则如下：此函数接收一个以空字符'\0'结尾的字符串</div>
                    </li>
                    <li><a href="/article/1938854192080809984.htm"
                           title="并行归并排序的 Java 实现" target="_blank">并行归并排序的 Java 实现</a>
                        <span class="text-muted">empti_</span>
<a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84%E4%B8%8E%E7%AE%97%E6%B3%95/1.htm">数据结构与算法</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a><a class="tag" taget="_blank" href="/search/%E6%8E%92%E5%BA%8F%E7%AE%97%E6%B3%95/1.htm">排序算法</a>
                        <div>并行归并排序Java实现importjava.util.concurrent.RecursiveAction;importjava.util.concurrent.ForkJoinPool;publicclassParallelMergeSort{//主方法，供外部调用publicstaticvoidparallelMergeSort(int[]array){ForkJoinPoolpool=ne</div>
                    </li>
                    <li><a href="/article/1938854193129385984.htm"
                           title="python实战项目79：采集知乎话题下的所有回答" target="_blank">python实战项目79：采集知乎话题下的所有回答</a>
                        <span class="text-muted">wp_tao</span>
<a class="tag" taget="_blank" href="/search/Python%E5%89%AF%E4%B8%9A%E6%8E%A5%E5%8D%95%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">Python副业接单实战项目</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a>
                        <div>python实战项目79：采集知乎话题下的所有回答一、项目介绍二、代码使用方法三、drissionpage的优缺点四、完整代码五、注意事项一、项目介绍需求是采集知乎某话题下的所有回答，这里以话题“大学宿舍相处之间遇到莫名其妙的冷落怎么办呢？”为例，网页链接为https://www.zhihu.com/question/1898156781215146265，其中189815678121514626</div>
                    </li>
                    <li><a href="/article/1938854065765150720.htm"
                           title="【网络】Linux 内核优化实战 - net.ipv4.tcp_rmem 和 net.core.rmem_default 关系" target="_blank">【网络】Linux 内核优化实战 - net.ipv4.tcp_rmem 和 net.core.rmem_default 关系</a>
                        <span class="text-muted">锅锅来了</span>
<a class="tag" taget="_blank" href="/search/Linux%E6%80%A7%E8%83%BD%E4%BC%98%E5%8C%96%E5%8E%9F%E7%90%86%E5%92%8C%E5%AE%9E%E6%88%98/1.htm">Linux性能优化原理和实战</a><a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C/1.htm">网络</a><a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a><a class="tag" taget="_blank" href="/search/tcp%2Fip/1.htm">tcp/ip</a>
                        <div>net.ipv4.tcp_rmem和net.core.rmem_default都是Linux内核中控制网络接收缓冲区的参数，但它们的作用范围、优先级和使用场景存在明显区别。以下是详细对比：核心区别参数net.ipv4.tcp_rmemnet.core.rmem_default作用协议仅针对TCP协议针对所有网络协议（TCP、UDP等）参数类型三元组：mindefaultmax单个值：默认缓冲区大小</div>
                    </li>
                    <li><a href="/article/1938853435931684864.htm"
                           title="使用 pip 命令下载 whl离线安装包、安装" target="_blank">使用 pip 命令下载 whl离线安装包、安装</a>
                        <span class="text-muted">三希</span>
<a class="tag" taget="_blank" href="/search/pip/1.htm">pip</a>
                        <div>使用pip命令直接从线上下载whl离线安装包并转存到离线环境的过程实际上是分两步进行的：第一步：在线环境下载whl包bash#在具有网络连接的环境中pipdownload--only-binary=:all:--wheel--platform--python-version这里的参数说明：：需要下载的Python包名称。--only-binary=:all:：只下载二进制包（即whl文件）。--w</div>
                    </li>
                    <li><a href="/article/1938853183862403072.htm"
                           title="人脸识别算法赋能园区无人超市安防升级" target="_blank">人脸识别算法赋能园区无人超市安防升级</a>
                        <span class="text-muted">智驱力人工智能</span>
<a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E8%BE%B9%E7%BC%98%E8%AE%A1%E7%AE%97/1.htm">边缘计算</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E8%84%B8%E8%AF%86%E5%88%AB/1.htm">人脸识别</a><a class="tag" taget="_blank" href="/search/%E6%99%BA%E6%85%A7%E5%9B%AD%E5%8C%BA/1.htm">智慧园区</a><a class="tag" taget="_blank" href="/search/%E6%99%BA%E6%85%A7%E5%B7%A5%E5%9C%B0/1.htm">智慧工地</a><a class="tag" taget="_blank" href="/search/%E6%99%BA%E6%85%A7%E7%85%A4%E7%9F%BF/1.htm">智慧煤矿</a>
                        <div>人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面</div>
                    </li>
                    <li><a href="/article/1938853057458663424.htm"
                           title=".NET C# async/定时任务的异步线程池调度方案最大线程数‌ = 处理器核心数 × 250" target="_blank">.NET C# async/定时任务的异步线程池调度方案最大线程数‌ = 处理器核心数 × 250</a>
                        <span class="text-muted">专注VB编程开发20年</span>
<a class="tag" taget="_blank" href="/search/.net/1.htm">.net</a><a class="tag" taget="_blank" href="/search/c%23/1.htm">c#</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a>
                        <div>关于.NET中Threading.Timer的线程机制，结合线程池特性和异步协作原理分析如下：一、线程复用机制‌共享进程级线程池‌Threading.Timer的回调任务‌不会每次新建线程‌，而是提交到.NET进程全局线程池统一调度，该线程池与async/await任务共享同一资源池。线程池维护可复用工作线程队列，避免频繁创建/销毁开销任务优先由空闲线程执行，无空闲线程则进入全局队列等待‌线程池扩</div>
                    </li>
                    <li><a href="/article/1938852679438626816.htm"
                           title="世赛背景下，中职物联网应用与服务赛项实训解决方案" target="_blank">世赛背景下，中职物联网应用与服务赛项实训解决方案</a>
                        <span class="text-muted">武汉唯众智创</span>
<a class="tag" taget="_blank" href="/search/%E7%89%A9%E8%81%94%E7%BD%91/1.htm">物联网</a><a class="tag" taget="_blank" href="/search/%E4%B8%96%E8%B5%9B/1.htm">世赛</a><a class="tag" taget="_blank" href="/search/%E7%89%A9%E8%81%94%E7%BD%91%E5%BA%94%E7%94%A8%E4%B8%8E%E6%9C%8D%E5%8A%A1/1.htm">物联网应用与服务</a><a class="tag" taget="_blank" href="/search/%E4%B8%96%E7%95%8C%E8%81%8C%E4%B8%9A%E9%99%A2%E6%A0%A1%E6%8A%80%E8%83%BD%E5%A4%A7%E8%B5%9B/1.htm">世界职业院校技能大赛</a><a class="tag" taget="_blank" href="/search/%E6%8A%80%E8%83%BD%E5%A4%A7%E8%B5%9B/1.htm">技能大赛</a><a class="tag" taget="_blank" href="/search/%E7%89%A9%E8%81%94%E7%BD%91%E5%BA%94%E7%94%A8/1.htm">物联网应用</a>
                        <div>一、世赛背景与物联网应用赛项概述1.1世赛发展历程及对中职教育的影响世界技能大赛（WorldSkillsCompetition，简称世赛）自1950年创立以来，已经成为全球范围内展示职业技能水平的重要赛事。截至2024年，世赛已成功举办46届，参赛国家和地区数量不断增加，从最初的20多个发展到如今的80多个，参赛选手超过1000名。世赛涵盖了从传统制造业到现代信息技术等众多领域，其中物联网应用与服</div>
                    </li>
                    <li><a href="/article/1938852301515059200.htm"
                           title="企业级知识库私有化部署：腾讯混元+云容器服务TKE实战" target="_blank">企业级知识库私有化部署：腾讯混元+云容器服务TKE实战</a>
                        <span class="text-muted">大熊计算机</span>
<a class="tag" taget="_blank" href="/search/%23/1.htm">#</a><a class="tag" taget="_blank" href="/search/%E8%85%BE%E8%AE%AF%E4%BA%91/1.htm">腾讯云</a><a class="tag" taget="_blank" href="/search/%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B/1.htm">语言模型</a>
                        <div>1.背景需求分析在金融、医疗等数据敏感行业，企业需要构建完全自主可控的知识库系统。本文以某证券机构智能投研系统为原型，演示如何基于腾讯混元大模型与TKE容器服务实现：千亿级参数模型的私有化部署金融领域垂直场景微调高并发低延迟推理服务全链路安全合规方案1.1典型技术挑战#性能基准测试数据（单位：QPS）|场景|裸机部署|容器化部署|优化后||--------------------|--------</div>
                    </li>
                    <li><a href="/article/1938852049307365376.htm"
                           title="MySQL表达式之公用表表达式(CTE)的使用示例" target="_blank">MySQL表达式之公用表表达式(CTE)的使用示例</a>
                        <span class="text-muted">@Corgi</span>
<a class="tag" taget="_blank" href="/search/%E5%90%8E%E7%AB%AF%E5%BC%80%E5%8F%91/1.htm">后端开发</a><a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a><a class="tag" taget="_blank" href="/search/CTE/1.htm">CTE</a>
                        <div>示例一数据表中有每个企业每年每月并且每月的产值是累加的数据的数据记录需求：统计企业产值能力，找出所有家企业中产值最高的企业，其产值记为P。对于第i家企业，其产值为Pi则该企业的产值能力评分=Pi/P×100。SQL：--使用ROW_NUMBER()为每个企业每年每个月的产值排名，筛选出每个企业每年最大月份的产值。WITHMaxMonthlyOutputAS(SELECTcompany_id,dec</div>
                    </li>
                    <li><a href="/article/1938851545382711296.htm"
                           title="Memfault 简介及在Nordic nRF91 系列 DK的应用" target="_blank">Memfault 简介及在Nordic nRF91 系列 DK的应用</a>
                        <span class="text-muted"></span>

                        <div>1：Memfault是一个云平台，它允许您和您的团队持续监控设备、调试固件问题，并将OTA更新部署到您的设备群，从而以软件的速度交付硬件产品。Memfault以嵌入式优先：支持运行在任何实时操作系统（RTOS）或Android、Linux等操作系统上的嵌入式系统和设备它适用于任何设备：从功能强大的SoC一直到功能受限的MCU，Memfault都能适配您设备的可用闪存、RAM和带宽我们的SDK是专为</div>
                    </li>
                                <li><a href="/article/117.htm"
                                       title="Algorithm" target="_blank">Algorithm</a>
                                    <span class="text-muted">香水浓</span>
<a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/Algorithm/1.htm">Algorithm</a>
                                    <div>冒泡排序 
 

	public static void sort(Integer[] param) {
		for (int i = param.length - 1; i > 0; i--) {
			for (int j = 0; j < i; j++) {
				int current = param[j];
				int next = param[j + 1];</div>
                                </li>
                                <li><a href="/article/244.htm"
                                       title="mongoDB 复杂查询表达式" target="_blank">mongoDB 复杂查询表达式</a>
                                    <span class="text-muted">开窍的石头</span>
<a class="tag" taget="_blank" href="/search/mongodb/1.htm">mongodb</a>
                                    <div>1:count 
   Pg: db.user.find().count(); 
   统计多少条数据 
2:不等于$ne 
   Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 
   查询id不等于3的数据。 
3：大于$gt $gte(大于等于) 
&n</div>
                                </li>
                                <li><a href="/article/371.htm"
                                       title="Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space" target="_blank">Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space</a>
                                    <span class="text-muted">0624chenhong</span>
<a class="tag" taget="_blank" href="/search/jvm/1.htm">jvm</a><a class="tag" taget="_blank" href="/search/jboss/1.htm">jboss</a>
                                    <div>转自 
http://blog.csdn.net/zou274/article/details/5552630 
 
解决办法： 
 
window->preferences->java->installed jres->edit jre 
把default vm arguments 的参数设为-Xms64m -Xmx512m 
 
 
 
----------------</div>
                                </li>
                                <li><a href="/article/498.htm"
                                       title="文件上传 下载 解析 相对路径" target="_blank">文件上传 下载 解析 相对路径</a>
                                    <span class="text-muted">不懂事的小屁孩</span>
<a class="tag" taget="_blank" href="/search/%E6%96%87%E4%BB%B6%E4%B8%8A%E4%BC%A0/1.htm">文件上传</a>
                                    <div>有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。 
下面总结一下遇到的问题： 
 
文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。 
在上传图片，或者文件时，使用form表单来操作。 
前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: 
 

<form action=&</div>
                                </li>
                                <li><a href="/article/625.htm"
                                       title="怎么实现qq空间批量点赞" target="_blank">怎么实现qq空间批量点赞</a>
                                    <span class="text-muted">换个号韩国红果果</span>
<a class="tag" taget="_blank" href="/search/qq/1.htm">qq</a>
                                    <div>纯粹为了好玩！！ 
逻辑很简单 
1 打开浏览器console；输入以下代码。 
先上添加赞的代码 
 

var tools={};
		//添加所有赞
		function  init(){
			document.body.scrollTop=10000;
				setTimeout(function(){document.body.scrollTop=0;},2000);//加</div>
                                </li>
                                <li><a href="/article/752.htm"
                                       title="判断是否为中文" target="_blank">判断是否为中文</a>
                                    <span class="text-muted">灵静志远</span>
<a class="tag" taget="_blank" href="/search/%E4%B8%AD%E6%96%87/1.htm">中文</a>
                                    <div>方法一： 
public class Zhidao { 
 public static void main(String args[]) { 
 String s = "sdf灭礌 kjl d{';\fdsjlk是"; 
 int n=0; 
 for(int i=0; i<s.length(); i++) { 
 n = (int)s.charAt(i); 
 if((</div>
                                </li>
                                <li><a href="/article/879.htm"
                                       title="一个电话面试后总结" target="_blank">一个电话面试后总结</a>
                                    <span class="text-muted">a-john</span>
<a class="tag" taget="_blank" href="/search/%E9%9D%A2%E8%AF%95/1.htm">面试</a>
                                    <div>今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。 
面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结： 
  
在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。 
  
然后对list和map分别举几个类型： 
  
list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了</div>
                                </li>
                                <li><a href="/article/1006.htm"
                                       title="MSSQL中Escape转义的使用" target="_blank">MSSQL中Escape转义的使用</a>
                                    <span class="text-muted">aijuans</span>
<a class="tag" taget="_blank" href="/search/MSSQL/1.htm">MSSQL</a>
                                    <div>IF OBJECT_ID('tempdb..#ABC') is not null
drop table tempdb..#ABC


create table #ABC
(
PATHNAME NVARCHAR(50)
)


insert into #ABC
SELECT N'/ABCDEFGHI' 
UNION ALL SELECT N'/ABCDGAFGASASSDFA' 
UNION ALL</div>
                                </li>
                                <li><a href="/article/1133.htm"
                                       title="一个简单的存储过程" target="_blank">一个简单的存储过程</a>
                                    <span class="text-muted">asialee</span>
<a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a><a class="tag" taget="_blank" href="/search/%E5%AD%98%E5%82%A8%E8%BF%87%E7%A8%8B/1.htm">存储过程</a><a class="tag" taget="_blank" href="/search/%E6%9E%84%E9%80%A0%E6%95%B0%E6%8D%AE/1.htm">构造数据</a><a class="tag" taget="_blank" href="/search/%E6%89%B9%E9%87%8F%E6%8F%92%E5%85%A5/1.htm">批量插入</a>
                                    <div>           今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： 
  
         
DELIMITER $$  
DROP PROCEDURE IF EXISTS inse</div>
                                </li>
                                <li><a href="/article/1260.htm"
                                       title="annot convert from HomeFragment_1 to Fragment" target="_blank">annot convert from HomeFragment_1 to Fragment</a>
                                    <span class="text-muted">百合不是茶</span>
<a class="tag" taget="_blank" href="/search/android/1.htm">android</a><a class="tag" taget="_blank" href="/search/%E5%AF%BC%E5%8C%85%E9%94%99%E8%AF%AF/1.htm">导包错误</a>
                                    <div>创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 
    创建类时引入包是:import android.app.Fragment; 
  
   创建队列和对象时使用的包是:import android.support.v4.ap</div>
                                </li>
                                <li><a href="/article/1387.htm"
                                       title="Weblogic10两种修改端口的方法" target="_blank">Weblogic10两种修改端口的方法</a>
                                    <span class="text-muted">bijian1013</span>
<a class="tag" taget="_blank" href="/search/weblogic/1.htm">weblogic</a><a class="tag" taget="_blank" href="/search/%E7%AB%AF%E5%8F%A3%E5%8F%B7/1.htm">端口号</a><a class="tag" taget="_blank" href="/search/%E9%85%8D%E7%BD%AE%E7%AE%A1%E7%90%86/1.htm">配置管理</a><a class="tag" taget="_blank" href="/search/config.xml/1.htm">config.xml</a>
                                    <div>一.进入控制台进行修改    1.进入控制台:  http://127.0.0.1:7001/console     2.展开左边树菜单         域结构->环境->服务器-->点击AdminServer(管理) &</div>
                                </li>
                                <li><a href="/article/1514.htm"
                                       title="mysql 操作指令" target="_blank">mysql 操作指令</a>
                                    <span class="text-muted">征客丶</span>
<a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a>
                                    <div>一、连接mysql 
进入 mysql 的安装目录； 
$ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 
输入密码，回车，接连； 
 
二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 
1、赋权 
mys</div>
                                </li>
                                <li><a href="/article/1641.htm"
                                       title="【Hive一】Hive入门" target="_blank">【Hive一】Hive入门</a>
                                    <span class="text-muted">bit1129</span>
<a class="tag" taget="_blank" href="/search/hive/1.htm">hive</a>
                                    <div>Hive安装与配置 
Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 
  Hive安装和配置的步骤 
  
1. 从如下地址下载Hive0.14.0 
  
http://mirror.bit.edu.cn/apache/hive/ 
  
 2.解压hive，在系统变</div>
                                </li>
                                <li><a href="/article/1768.htm"
                                       title="ajax 三种提交请求的方法" target="_blank">ajax 三种提交请求的方法</a>
                                    <span class="text-muted">BlueSkator</span>
<a class="tag" taget="_blank" href="/search/Ajax/1.htm">Ajax</a><a class="tag" taget="_blank" href="/search/jqery/1.htm">jqery</a>
                                    <div>1、ajax 提交请求 
$.ajax({
			type:"post",
			url : "${ctx}/front/Hotel/getAllHotelByAjax.do",
			dataType : "json",
			success : function(result) {
				try {
					for(v</div>
                                </li>
                                <li><a href="/article/1895.htm"
                                       title="mongodb开发环境下的搭建入门" target="_blank">mongodb开发环境下的搭建入门</a>
                                    <span class="text-muted">braveCS</span>
<a class="tag" taget="_blank" href="/search/%E8%BF%90%E7%BB%B4/1.htm">运维</a>
                                    <div>  
linux下安装mongodb 
1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 
2）linux 解压   
gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; 
mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-</div>
                                </li>
                                <li><a href="/article/2022.htm"
                                       title="编程之美-最短摘要的生成" target="_blank">编程之美-最短摘要的生成</a>
                                    <span class="text-muted">bylijinnan</span>
<a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84/1.htm">数据结构</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a><a class="tag" taget="_blank" href="/search/%E7%BC%96%E7%A8%8B%E4%B9%8B%E7%BE%8E/1.htm">编程之美</a>
                                    <div>

import java.util.HashMap;
import java.util.Map;
import java.util.Map.Entry;

public class ShortestAbstract {

	/**
	 * 编程之美 最短摘要的生成
	 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran</div>
                                </li>
                                <li><a href="/article/2149.htm"
                                       title="json数据解析及typeof" target="_blank">json数据解析及typeof</a>
                                    <span class="text-muted">chengxuyuancsdn</span>
<a class="tag" taget="_blank" href="/search/js/1.htm">js</a><a class="tag" taget="_blank" href="/search/typeof/1.htm">typeof</a><a class="tag" taget="_blank" href="/search/json%E8%A7%A3%E6%9E%90/1.htm">json解析</a>
                                    <div>   
       // json格式
	var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},'
		                    +' {"firstName": "CCC&</div>
                                </li>
                                <li><a href="/article/2276.htm"
                                       title="流程系统设计的层次和目标" target="_blank">流程系统设计的层次和目标</a>
                                    <span class="text-muted">comsci</span>
<a class="tag" taget="_blank" href="/search/%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F/1.htm">设计模式</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84/1.htm">数据结构</a><a class="tag" taget="_blank" href="/search/sql/1.htm">sql</a><a class="tag" taget="_blank" href="/search/%E6%A1%86%E6%9E%B6/1.htm">框架</a><a class="tag" taget="_blank" href="/search/%E8%84%9A%E6%9C%AC/1.htm">脚本</a>
                                    <div> 
                              流程系统设计的层次和目标 
 
 
 </div>
                                </li>
                                <li><a href="/article/2403.htm"
                                       title="RMAN List和report 命令" target="_blank">RMAN List和report 命令</a>
                                    <span class="text-muted">daizj</span>
<a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a><a class="tag" taget="_blank" href="/search/list/1.htm">list</a><a class="tag" taget="_blank" href="/search/report/1.htm">report</a><a class="tag" taget="_blank" href="/search/rman/1.htm">rman</a>
                                    <div>LIST 命令 
使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的 
信息。使用此命令可列出： 
• RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 
• 可用的且可以用于还原操作的数据文件备份和副本 
• 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 
• 包含指定名称或范围的所有归档日志备份的备份集和副本 
• 由标记、完成时间、可</div>
                                </li>
                                <li><a href="/article/2530.htm"
                                       title="二叉树:红黑树" target="_blank">二叉树:红黑树</a>
                                    <span class="text-muted">dieslrae</span>
<a class="tag" taget="_blank" href="/search/%E4%BA%8C%E5%8F%89%E6%A0%91/1.htm">二叉树</a>
                                    <div>    红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 
    红黑树必须遵循红黑规则,规则如下 
    
1、每个节点不是红就是黑。     2、根总是黑的  &</div>
                                </li>
                                <li><a href="/article/2657.htm"
                                       title="C语言homework3，7个小题目的代码" target="_blank">C语言homework3，7个小题目的代码</a>
                                    <span class="text-muted">dcj3sjt126com</span>
<a class="tag" taget="_blank" href="/search/c/1.htm">c</a>
                                    <div>1、打印100以内的所有奇数。 
# include <stdio.h>

int main(void)
{
	int i;

	for (i=1; i<=100; i++)
	{
		if (i%2 != 0)
			printf("%d ", i);
	}

	return 0;
}
 
 2、从键盘上输入10个整数，</div>
                                </li>
                                <li><a href="/article/2784.htm"
                                       title="自定义按钮, 图片在上, 文字在下, 居中显示" target="_blank">自定义按钮, 图片在上, 文字在下, 居中显示</a>
                                    <span class="text-muted">dcj3sjt126com</span>
<a class="tag" taget="_blank" href="/search/%E8%87%AA%E5%AE%9A%E4%B9%89/1.htm">自定义</a>
                                    <div>#import <UIKit/UIKit.h>

@interface MyButton : UIButton

-(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa</div>
                                </li>
                                <li><a href="/article/2911.htm"
                                       title="MySQL查询语句练习题，测试足够用了" target="_blank">MySQL查询语句练习题，测试足够用了</a>
                                    <span class="text-muted">flyvszhb</span>
<a class="tag" taget="_blank" href="/search/sql/1.htm">sql</a><a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a>
                                    <div>http://blog.sina.com.cn/s/blog_767d65530101861c.html 
1.创建student和score表 
CREATE  TABLE  student ( 
id  INT(10)  NOT NULL  UNIQUE  PRIMARY KEY  , 
name  VARCHAR</div>
                                </li>
                                <li><a href="/article/3038.htm"
                                       title="转：MyBatis Generator 详解" target="_blank">转：MyBatis Generator 详解</a>
                                    <span class="text-muted">happyqing</span>
<a class="tag" taget="_blank" href="/search/mybatis/1.htm">mybatis</a>
                                    <div>  
MyBatis Generator 详解 
http://blog.csdn.net/isea533/article/details/42102297 
  
MyBatis Generator详解 
http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.</div>
                                </li>
                                <li><a href="/article/3165.htm"
                                       title="让程序员少走弯路的14个忠告" target="_blank">让程序员少走弯路的14个忠告</a>
                                    <span class="text-muted">jingjing0907</span>
<a class="tag" taget="_blank" href="/search/%E5%B7%A5%E4%BD%9C/1.htm">工作</a><a class="tag" taget="_blank" href="/search/%E8%AE%A1%E5%88%92/1.htm">计划</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0/1.htm">学习</a>
                                    <div>  
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 
  
1.不要害怕在工作中学习。  
只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放</div>
                                </li>
                                <li><a href="/article/3292.htm"
                                       title="nginx和NetScaler区别" target="_blank">nginx和NetScaler区别</a>
                                    <span class="text-muted">流浪鱼</span>
<a class="tag" taget="_blank" href="/search/nginx/1.htm">nginx</a>
                                    <div>NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 
2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 
3.策略灵活度方</div>
                                </li>
                                <li><a href="/article/3419.htm"
                                       title="第11章 动画效果（下）" target="_blank">第11章 动画效果（下）</a>
                                    <span class="text-muted">onestopweb</span>
<a class="tag" taget="_blank" href="/search/%E5%8A%A8%E7%94%BB/1.htm">动画</a>
                                    <div>index.html 
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/</div>
                                </li>
                                <li><a href="/article/3546.htm"
                                       title="FAQ - SAP BW BO roadmap" target="_blank">FAQ - SAP BW BO roadmap</a>
                                    <span class="text-muted">blueoxygen</span>
<a class="tag" taget="_blank" href="/search/BO/1.htm">BO</a><a class="tag" taget="_blank" href="/search/BW/1.htm">BW</a>
                                    <div>http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq 
  
Besides, I care that how to integrate tightly. 
  
By the way, for BW consultants, please just focus on Query Designer which i</div>
                                </li>
                                <li><a href="/article/3673.htm"
                                       title="关于java堆内存溢出的几种情况" target="_blank">关于java堆内存溢出的几种情况</a>
                                    <span class="text-muted">tomcat_oracle</span>
<a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/jvm/1.htm">jvm</a><a class="tag" taget="_blank" href="/search/jdk/1.htm">jdk</a><a class="tag" taget="_blank" href="/search/thread/1.htm">thread</a>
                                    <div>【情况一】：   　　 
java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；   　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：   　　<jvm-arg>-Xms3062m</jvm-arg>   　　<jvm-arg>-Xmx</div>
                                </li>
                                <li><a href="/article/3800.htm"
                                       title="Manifest.permission_group权限组" target="_blank">Manifest.permission_group权限组</a>
                                    <span class="text-muted">阿尔萨斯</span>
<a class="tag" taget="_blank" href="/search/Permission/1.htm">Permission</a>
                                    <div>结构 
继承关系 
public static final class Manifest.permission_group extends Object 
java.lang.Object 
android. Manifest.permission_group 常量 
ACCOUNTS 直接通过统计管理器访问管理的统计 
COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 
D</div>
                                </li>
                </ul>
            </div>
        </div>
    </div>

<div>
    <div class="container">
        <div class="indexes">
            <strong>按字母分类：</strong>
            <a href="/tags/A/1.htm" target="_blank">A</a><a href="/tags/B/1.htm" target="_blank">B</a><a href="/tags/C/1.htm" target="_blank">C</a><a
                href="/tags/D/1.htm" target="_blank">D</a><a href="/tags/E/1.htm" target="_blank">E</a><a href="/tags/F/1.htm" target="_blank">F</a><a
                href="/tags/G/1.htm" target="_blank">G</a><a href="/tags/H/1.htm" target="_blank">H</a><a href="/tags/I/1.htm" target="_blank">I</a><a
                href="/tags/J/1.htm" target="_blank">J</a><a href="/tags/K/1.htm" target="_blank">K</a><a href="/tags/L/1.htm" target="_blank">L</a><a
                href="/tags/M/1.htm" target="_blank">M</a><a href="/tags/N/1.htm" target="_blank">N</a><a href="/tags/O/1.htm" target="_blank">O</a><a
                href="/tags/P/1.htm" target="_blank">P</a><a href="/tags/Q/1.htm" target="_blank">Q</a><a href="/tags/R/1.htm" target="_blank">R</a><a
                href="/tags/S/1.htm" target="_blank">S</a><a href="/tags/T/1.htm" target="_blank">T</a><a href="/tags/U/1.htm" target="_blank">U</a><a
                href="/tags/V/1.htm" target="_blank">V</a><a href="/tags/W/1.htm" target="_blank">W</a><a href="/tags/X/1.htm" target="_blank">X</a><a
                href="/tags/Y/1.htm" target="_blank">Y</a><a href="/tags/Z/1.htm" target="_blank">Z</a><a href="/tags/0/1.htm" target="_blank">其他</a>
        </div>
    </div>
</div>
<footer id="footer" class="mb30 mt30">
    <div class="container">
        <div class="footBglm">
            <a target="_blank" href="/">首页</a> -
            <a target="_blank" href="/custom/about.htm">关于我们</a> -
            <a target="_blank" href="/search/Java/1.htm">站内搜索</a> -
            <a target="_blank" href="/sitemap.txt">Sitemap</a> -
            <a target="_blank" href="/custom/delete.htm">侵权投诉</a>
        </div>
        <div class="copyright">版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.
<!--            <a href="https://beian.miit.gov.cn/" rel="nofollow" target="_blank">京ICP备09083238号</a><br>-->
        </div>
    </div>
</footer>
<!-- 代码高亮 -->
<script type="text/javascript" src="/static/syntaxhighlighter/scripts/shCore.js"></script>
<script type="text/javascript" src="/static/syntaxhighlighter/scripts/shLegacy.js"></script>
<script type="text/javascript" src="/static/syntaxhighlighter/scripts/shAutoloader.js"></script>
<link type="text/css" rel="stylesheet" href="/static/syntaxhighlighter/styles/shCoreDefault.css"/>
<script type="text/javascript" src="/static/syntaxhighlighter/src/my_start_1.js"></script>





</body>

</html>

使用简单Python爬虫获取一个干净整洁的小说文件

打开小说所在界面，右击选择查看网页源代码

1.在头部能够看到'charset=utf-8'得知文件的编码为'uft-8'!，url=http://www.17k.com/list/2921315.html

2.查看网页源代码的规律，标题是在''之间，章节信息是存在''之间,其他的信息同样是这样的规律

4、对中进行数据清洗,代码如下

其余部分操作方法一致

效果如下

5、将数据写入文件

2.查看网页源代码的规律，标题是在'
'之间，章节信息是存在'
'之间,其他的信息同样是这样的规律

4、对
中进行数据清洗,代码如下