SameWorld

Python爬虫系列：爬取小说并写入txt文件

Python爬虫系列

——爬取小说并写入txt文件

本教程使用的单线程单本下载小说代码会不定期维护，最新源码及相关教程以CSDN博客为主，教程所说的多线程多本由于博主时间有限，暂时不做维护，仅作为一个教程供大家参考，感兴趣的朋友可以在此基础上做一个UI，便于下载；单线程单本代码见文末或码云>>get_one_txt.py文件，以下是维护日志：

2019.02.14：单线程单本源码可用，修改爬取规则已解决部分小说无法下载。

文章介绍了如何从网站中爬取小说并写入txt文件中，实现了单章节写取，整本写取，多线程多本写取。爬虫使用的python版本为python3，有些系统使用python指令运行本脚本，可能出现错误，此时可以试一试使用python3运行本脚本。
本文是一个教程，一步步介绍了如何爬取批量小说内容以及存储这是txt文件中，以下是项目源码地址。

爬虫源码地址：https://git.oschina.net/XPSWorld/get_txt.git

博客文章地址：https://blog.csdn.net/baidu_26678247/article/details/75086587

C#版带界面爬虫说明：https://blog.csdn.net/baidu_26678247/article/details/100174059

C#版带界面爬虫源码：https://gitee.com/XPSWorld/sworld_reading

1.使用到库文件

requests：用于get请求
threading：多线程
bs4：网页解析
re：正则表达式
os：系统相关操作
time：获取时间

以下是整个爬虫所用的库文件，如若没有对应库文件，可以使用pip获取，例如获取threading库文件：pip install threading

import  requests
import threading
from bs4 import BeautifulSoup
import re
import os
import time

2.对网页文件结构进行分析（PS：浏览器使用的是谷歌浏览器）

通过对 http://www.qu.la/ 的文件结构进行分析，知道了每一本小说的目录地址为该地址加上book/,再加上对应的小说编号，如编号为1的小说地址为http://www.qu.la/book/1/，在浏览器打开该网址，就可以看到如下类似的界面

以此类推就可以知道每一本的小说地址。

3.获取网页的请求头文件

我们以编号为1的小说地址为例（http://www.qu.la/book/1/），打开谷歌的开发者工具，选择Network，会出现如下界面，如果没有对应的列表信息，刷新一下网页即可。

然后点击1/,出现以下信息：

我们需要的是第二个方框中的内容（Request Headers），将该目录下的信息取出，存放到字典中，其中每一个项所代表的意义如果感兴趣可自行网上搜索（HTTP Header 详解）。

#请求头字典
req_header={
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Accept-Encoding':'gzip, deflate',
'Accept-Language':'zh-CN,zh;q=0.8',
'Cookie':'__cfduid=d577ccecf4016421b5e2375c5b446d74c1499765327; UM_distinctid=15d30fac6beb80-0bdcc291c89c17-9383666-13c680-15d30fac6bfa28; CNZZDATA1261736110=1277741675-1499763139-null%7C1499763139; tanwanhf_9821=1; Hm_lvt_5ee23c2731c7127c7ad800272fdd85ba=1499612614,1499672399,1499761334,1499765328; Hm_lpvt_5ee23c2731c7127c7ad800272fdd85ba=1499765328; tanwanpf_9817=1; bdshare_firstime=1499765328088',
'Host':'www.qu.la',
'Proxy-Connection':'keep-alive',
'Referer':'http://www.qu.la/book/1265/765108.html',
'Upgrade-Insecure-Requests':'1',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36'
}

4.分析每章小说网页结构

每一本小说多有对应的章节网页，也就说每一张都有对应的网页，我们以编号为1的小说中任意章节为例，其地址信息为http://www.qu.la/book/1/260824.html，其中“260824.html”就是该章节的网页名称，点击开发者工具中的 Element 选项，以下是对应的截图信息，通过分析，小说章节信息的路径为：#wrapper .content_read .box_con （PS：其中“#wrapper”号表示id为wrapper的项，“.content_read”表示class为content_read的项，按照此顺序放在一起就表示id为wrapper的项中的class为content_read的项中的class为con_box的相关信息，三者为树形关系。）
在该路径下，我们需要的信息主要有三项，以下是对应的class内容以及对应的说明：

bookname：可获取章节名称
content：可获取章节内容
bottom2：可获取下一章节地址

5.获取单独一章内容

对于BeautifulSoup不是特别了解的，可以先阅读以下几篇文章：

Beautiful Soup 的用法
Beautiful Soup 4.2.0 文档
Beautiful Soup 中文文档

以下是获取单章章节内容的部分代码，需将文章上所述的库文件以及请求头文件粘贴方可运行以下代码（PS【重要】：python想要使用汉字，需要在脚本最前面添加 #coding:utf-8，汉字使用的编码为utf-8，否则会出现错误）：

req_url_base='http://www.qu.la/book/'           #小说主地址
req_url=req_url_base+"1/"                       #单独一本小说地址
txt_section='260824.html'                       #某一章页面地址

#请求当前章节页面  params为请求参数
r=requests.get(req_url+str(txt_section),params=req_header) 
#soup转换
soup=BeautifulSoup(r.text,"html.parser")    
#获取章节名称                                    
section_name=soup.select('#wrapper .content_read .box_con .bookname h1')[0]        
#获取章节文本
section_text=soup.select('#wrapper .content_read .box_con #content')[0].text             
for ss in section_text.select("script"):                #删除无用项
    ss.decompose()
#按照指定格式替换章节内容，运用正则表达式
section_text=re.sub( '\s+', '\r\n\t', section_text.text).strip('\r\n')          

print('章节名:'+section_name)
print("章节内容：\n"+section_text)

运行效果截图：

6.将获取的文本信息写入txt文件中

在实际操作之前，如果大家对于文件操作以及编码转换不是很了解的，可以先看看以下两篇文章：

python encode和decode函数说明
Python 文件I/O

以下是相关源码以及注释（PS：在原有代码的基础上添加即可）：

fo = open('1.txt', "ab+")         #打开小说文件
# 以二进制写入章节题目 需要转换为utf-8编码，否则会出现乱码
fo.write(('\r' + section_name + '\r\n').encode('UTF-8'))  
# 以二进制写入章节内容
fo.write((section_text).encode('UTF-8'))  
fo.close()        #关闭小说文件

7.获取整本小说

通过前面几个步骤，我们知道了如何获取单章小说相关信息写入txt中，接下来获取整本小说内容就是在其基础上进行改进的，我们将通过一个函数来实现获取整本内容，以下是函数代码：

#小说下载函数
#id：小说编号
#txt字典项介绍
# title：小说题目
# first_page：第一章页面
# txt_section：章节地址
# section_name：章节名称
# section_text：章节正文
# section_ct：章节页数
def get_txt(txt_id):
    txt={}
    txt['title']=''
    txt['id']=str(txt_id)
    try:
        print("请输入需要下载的小说编号：")
        txt['id']=input()
        req_url=req_url_base+ txt['id']+'/'                        #根据小说编号获取小说URL
        print("小说编号："+txt['id'])
        res=requests.get(req_url,params=req_header)             #获取小说目录界面
        soups=BeautifulSoup(res.text,"html.parser")           #soup转化
        #获取小说题目
        txt['title']=soups.select('#wrapper .box_con #maininfo #info h1')[0].text     
        txt['author']=soups.select('#wrapper .box_con #maininfo #info p')
        #获取小说最近更新时间
        txt['update']=txt['author'][2].text                                                       
        #获取最近更新章节名称
        txt['lately'] = txt['author'][3].text                                                     
        #获取小说作者
        txt['author']=txt['author'][0].text                                                       
        #获取小说简介
        txt['intro']=soups.select('#wrapper .box_con #maininfo #intro')[0].text.strip()            
        print("编号："+'{0:0>8}   '.format(txt['id'])+  "小说名：《"+txt['title']+"》  开始下载。")
        print("正在寻找第一章页面。。。")
        #获取小说所有章节信息
        first_page=soups.select('#wrapper .box_con #list dl dd a')                          
        #获取小说总章页面数
        section_ct=len(first_page)                                                                  
        #获取小说第一章页面地址
        first_page = first_page[0]['href'].split('/')[3]                                        
        print("小说章节页数："+str(section_ct))
        print("第一章地址寻找成功："+ first_page)
        #设置现在下载小说章节页面
        txt_section=first_page                                                                  
        #打开小说文件写入小说相关信息
        fo = open('{0:0>8}-{1}.txt.download'.format(txt['id'],txt['title']), "ab+")         
        fo.write((txt['title']+"\r\n").encode('UTF-8'))
        fo.write((txt['author'] + "\r\n").encode('UTF-8'))
        fo.write((txt['update'] + "\r\n").encode('UTF-8'))
        fo.write((txt['lately'] + "\r\n").encode('UTF-8'))
        fo.write(("*******简介*******\r\n").encode('UTF-8'))
        fo.write(("\t"+txt['intro'] + "\r\n").encode('UTF-8'))
        fo.write(("******************\r\n").encode('UTF-8'))
        #进入循环，写入每章内容
        while(1):
            try:
	            #请求当前章节页面
                r=requests.get(req_url+str(txt_section),params=req_header)                      
                #soup转换
                soup=BeautifulSoup(r.text,"html.parser")       
                #获取章节名称                                 
                section_name=soup.select('#wrapper .content_read .box_con .bookname h1')[0]
                section_text=soup.select('#wrapper .content_read .box_con #content')[0]
                for ss in section_text.select("script"):   #删除无用项
                    ss.decompose()
                #获取章节文本
                section_text=re.sub( '\s+', '\r\n\t', section_text.text).strip('\r\n')#
                #获取下一章地址
                txt_section=soup.select('#wrapper .content_read .box_con .bottem2 #A3')[0]['href']       
                #判断是否最后一章，当为最后一章时，会跳转至目录地址，最后一章则跳出循环               
                if(txt_section=='./'):                                                          
                    print("编号："+'{0:0>8}   '.format(txt['id'])+  "小说名：《"+txt['title']+"》 下载完成")
                    break
                #以二进制写入章节题目
                fo.write(('\r'+section_name.text+'\r\n').encode('UTF-8'))                                
                #以二进制写入章节内容
                fo.write((section_text).encode('UTF-8'))                        
                print(txt['title']+' 章节：'+section_name.text+'     已下载')
                #print(section_text.text.encode('UTF-8'))
            except:
                print("编号："+'{0:0>8}   '.format(txt['id'])+  "小说名：《"+txt['title']+"》 章节下载失败，正在重新下载。")
        fo.close()
        os.rename('{0:0>8}-{1}.txt.download'.format(txt['id'],txt['title']), '{0:0>8}-{1}.txt'.format(txt['id'],txt['title']))
    except:     #出现错误会将错误信息写入dowload.log文件，同时答应出来
        fo_err = open('dowload.log', "ab+")
        try:
            fo_err.write(('['+time.strftime('%Y-%m-%d %X', time.localtime())+"]：编号：" + '{0:0>8}   '.format(txt['id']) + "小说名：《" + txt['title'] + "》 下载失败。\r\n").encode('UTF-8'))
            print('['+time.strftime('%Y-%m-%d %X', time.localtime())+"]：编号："+'{0:0>8}   '.format(txt['id'])+  "小说名：《"+txt['title']+"》 下载失败。")
            os.rename('{0:0>8}'.format(txt['id']) + '-' + txt['title'] + '.txt.download',
                  '{0:0>8}'.format(txt['id']) + '-' + txt['title'] + '.txt.error')
        except:     
            fo_err.write(('['+time.strftime('%Y-%m-%d %X', time.localtime())+"]：编号："+'{0:0>8}   '.format(txt['id'])+"下载失败。\r\n").encode('UTF-8'))
            print('['+time.strftime('%Y-%m-%d %X', time.localtime())+"]：编号："+'{0:0>8}   '.format(txt['id'])+"下载失败。")
        finally: #关闭文件
            fo_err.close()

如果有需要爬取的相关小说，只需要在该网站找到小说编号，然后调用该函数就可以将小说下载至本电脑，如需下载编号为6666的小说，则调用get_txt(6666)即可，在下载过程中，文件后缀为“.txt.download”，下载完成后会将文件后缀变为“.txt”。
运行效果

8.多线程爬取多本小说

同样的，在此之前如果对于python线程不了解的可以阅读以下文章：

Python 多线程

关于多线程的代码就不过多介绍了，在项目源码中会有相关的使用方法。（PS：通过实验，每次同步下载100本小说最好，太多的话进程可能会被杀死）

9.最终效果

最终的源码实现如下效果：

每次同步爬取100本小说
会生成一个关于小说的介绍文档，文档介绍了每次爬取的100本小说
显示对应进度信息
小说还未下载完文件后缀为“.txt.download”，下载完成后会将文件后缀变为“.txt”

以下是运行效果图：

在运行结果图中，标号为1的部分是已经爬取完成的小说；编号为2的为还在下载的小说；编号为3的文件是下载错误日志，当不存在相关编号小说，则会记录在该文件中，下图为文件内容；编号为4的为每100本小说的简介，在我们通过该脚本，就可以知道所爬取的小说有哪些，通过然后通过编号就可以找到对应小说，下图同样展示其相关内容。

download.log文件内容：

小说简介文件内容：

10.其他（教程源码）

鉴于有朋友说提供的项目源码（多线程多本）与教程（单线程单本）不符，所将以上教程中单本小说下载的源码贴上，大家可以直接复制运行。

#coding:utf-8
import  requests
import threading
from bs4 import BeautifulSoup
import re
import os
import time
import sys
req_header={
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Accept-Encoding':'gzip, deflate',
'Accept-Language':'zh-CN,zh;q=0.8',
'Cookie':'__cfduid=d577ccecf4016421b5e2375c5b446d74c1499765327; UM_distinctid=15d30fac6beb80-0bdcc291c89c17-9383666-13c680-15d30fac6bfa28; CNZZDATA1261736110=1277741675-1499763139-null%7C1499763139; tanwanhf_9821=1; Hm_lvt_5ee23c2731c7127c7ad800272fdd85ba=1499612614,1499672399,1499761334,1499765328; Hm_lpvt_5ee23c2731c7127c7ad800272fdd85ba=1499765328; tanwanpf_9817=1; bdshare_firstime=1499765328088',
'Host':'www.qu.la',
'Proxy-Connection':'keep-alive',
'Referer':'http://www.qu.la/book/',
'Upgrade-Insecure-Requests':'1',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36'
}


req_url_base='http://www.qu.la/book/'           #小说主地址

#小说下载函数
#txt_id：小说编号
#txt字典项介绍
#id：小说编号
# title：小说题目
# first_page：第一章页面
# txt_section：章节地址
# section_name：章节名称
# section_text：章节正文
# section_ct：章节页数
def get_txt(txt_id):
    txt={}
    txt['title']=''
    txt['id']=str(txt_id)
    try:
        #print("请输入需要下载的小说编号：")
        #txt['id']=input()
        req_url=req_url_base+ txt['id']+'/'                        #根据小说编号获取小说URL
        print("小说编号："+txt['id'])
        res=requests.get(req_url,params=req_header)             #获取小说目录界面
        soups=BeautifulSoup(res.text,"html.parser")           #soup转化
        #获取小说题目
        txt['title']=soups.select('#wrapper .box_con #maininfo #info h1')[0].text
        txt['author']=soups.select('#wrapper .box_con #maininfo #info p')
        #获取小说最近更新时间
        txt['update']=txt['author'][2].text
        #获取最近更新章节名称
        txt['lately'] = txt['author'][3].text
        #获取小说作者
        txt['author']=txt['author'][0].text
        #获取小说简介
        txt['intro']=soups.select('#wrapper .box_con #maininfo #intro')[0].text.strip()
        print("编号："+'{0:0>8}   '.format(txt['id'])+  "小说名：《"+txt['title']+"》  开始下载。")
        print("正在获取所有章节地址。。。")
        #获取小说所有章节信息
        all_page_address=soups.select('#wrapper .box_con #list dl dd a')
        #获取小说总章页面数
        section_ct=len(all_page_address)
        print("小说章节页数："+str(section_ct))
        #打开小说文件写入小说相关信息
        fo = open('{0:0>8}-{1}.txt.download'.format(txt['id'],txt['title']), "ab+")
        fo.write((txt['title']+"\r\n").encode('UTF-8'))
        fo.write((txt['author'] + "\r\n").encode('UTF-8'))
        fo.write((txt['update'] + "\r\n").encode('UTF-8'))
        fo.write((txt['lately'] + "\r\n").encode('UTF-8'))
        fo.write(("*******简介*******\r\n").encode('UTF-8'))
        fo.write(("\t"+txt['intro'] + "\r\n").encode('UTF-8'))
        fo.write(("******************\r\n").encode('UTF-8'))
        #获取每一章节信息
        for one_page_info in all_page_address:
            try:
                #请求当前章节页面
                r=requests.get(req_url+str(one_page_info['href']),params=req_header)
                #soup转换
                soup=BeautifulSoup(r.text,"html.parser")
                #获取章节名称
                section_name=soup.select('#wrapper .content_read .box_con .bookname h1')[0]
                section_text=soup.select('#wrapper .content_read .box_con #content')[0]
                for ss in section_text.select("script"):   #删除无用项
                    ss.decompose()
                #获取章节文本
                section_text=re.sub( '\s+', '\r\n\t', section_text.text).strip('\r\n')#
                #以二进制写入章节题目
                fo.write(('\r'+section_name.text+'\r\n').encode('UTF-8'))
                #以二进制写入章节内容
                fo.write((section_text).encode('UTF-8'))
                print(txt['title']+' 章节：'+section_name.text+'     已下载')
                #print(section_text.text.encode('UTF-8'))
            except:
                print("编号："+'{0:0>8}   '.format(txt['id'])+  "小说名：《"+txt['title']+"》 章节下载失败，正在重新下载。")
        fo.close()
        os.rename('{0:0>8}-{1}.txt.download'.format(txt['id'],txt['title']), '{0:0>8}-{1}.txt'.format(txt['id'],txt['title']))
    except:     #出现错误会将错误信息写入dowload.log文件，同时答应出来
        fo_err = open('dowload.log', "ab+")
        try:
            fo_err.write(('['+time.strftime('%Y-%m-%d %X', time.localtime())+"]：编号：" + '{0:0>8}   '.format(txt['id']) + "小说名：《" + txt['title'] + "》 下载失败。\r\n").encode('UTF-8'))
            print('['+time.strftime('%Y-%m-%d %X', time.localtime())+"]：编号："+'{0:0>8}   '.format(txt['id'])+  "小说名：《"+txt['title']+"》 下载失败。")
            os.rename('{0:0>8}'.format(txt['id']) + '-' + txt['title'] + '.txt.download',
                  '{0:0>8}'.format(txt['id']) + '-' + txt['title'] + '.txt.error')
        except:
            fo_err.write(('['+time.strftime('%Y-%m-%d %X', time.localtime())+"]：编号："+'{0:0>8}   '.format(txt['id'])+"下载失败。\r\n").encode('UTF-8'))
            print('['+time.strftime('%Y-%m-%d %X', time.localtime())+"]：编号："+'{0:0>8}   '.format(txt['id'])+"下载失败。")
        finally: #关闭文件
            fo_err.close()

#此处为需要下载小说的编号，编号获取方法在上文中已经讲过。
get_txt(87176)

文章有那块不对的地方，希望大家帮忙指正改进。

Python学习笔记-Day05 snape00
Python学习笔记Day_05-构造程序逻辑作者的话学完前面的几个章节后，我觉得有必要在这里带大家做一些练习来巩固之前所学的知识，虽然迄今为止我们学习的内容只是Python的冰山一角，但是这些内容已经足够我们来构建程序中的逻辑。对于编程语言的初学者来说，在学习了Python的核心语言元素（变量、类型、运算符、表达式、分支结构、循环结构等）之后，必须做的一件事情就是尝试用所学知识去解决现实中的问题
python学习笔记第5节-类和函数梁鋐俐
我们在前面的学习中学会了一个叫type（）的函数，用它来判断变量的类型，变量和它当下存储的数据绑定在一起。例如a=[4,5,6,7]print(type(a)）输出a=range（10，20，2）print（type（a））输出a=Trueprint（type（a））输出a={‘a54’：56}print（type（a））输出a={‘a54’，56}print（type（a））输出a=‘tyuio
Python学习笔记--列表、字典、集合、元组小黄酥 Python python 学习笔记
Python学习笔记43-列表#列表主要是用来存储多个数据.列表是有序的集合list_1=[]#创建一个空的列表list_2=[12,34,56,True,'abc']#创建一个列表#列表的访问，通过下标访问列表中的元素，下标默认从0开始，0表示第一个元素，-1表示最后一个元素list_3=[1,2,3,False,True,'abc']print(list_3[0])#1print(list_3
python学习笔记08_赋值运算、逻辑运算、表达式、短路原则 flamingocc
python笔记081.赋值运算符num+=1等价于num=num+1num-=1等价于num=num-1num*=1等价于num=num*1num/=1等价于num=num/1num//2等价于num=num//2num%=2等价于num/2的余数num**2等价于num=num*num2.逻辑运算符逻辑运算符包含：not、and、or2.1and的用法：(且、并且)写法：条件1and条件2eg
Python学习笔记（三）：列表的定义、访问及修改 RANDY_Sw Python入门 python
今天学习了有关列表的定义、访问及修改的方法，在此整理一下。列表的定义与访问name_list=['zhangsan','lisi','wangwu']#创建一个列表name_list[0]='xiaobai'#修改列表中的单个元素print(name_list)#遍历的方式打印列表1foriteminname_list:print(item)#遍历的方式打印列表2i=0foriinrange(le
Python学习笔记36：进阶篇(二十五)pygame的使用之事件监听控制切歌和暂停，继续播放明月望秋思学习 python pygame python 学习
前言基础模块的知识通过这么长时间的学习已经有所了解，更加深入的话需要通过完成各种项目，在这个过程中逐渐学习，成长。我们的下一步目标是完成pythoncrashcourse中的外星人入侵项目，这是一个2D游戏项目。在这之前，我们先简单学习一下pygame模块。私信我发送消息python资料，领取pythoncrashcourse中文版PDF。pygamePygame是一个开源的Python多媒体开发
python工资条教程_python学习笔记--工资条发放软件 weixin_39873191 python工资条教程
1#!/usr/bin/envpython2#-*-coding:UTF-8-*-3importsmtplib4fromemail.mime.textimportMIMEText5mailto_list=['[email protected]']#收件人(列表)6mail_host="smtp.163.com"#使用的邮箱的smtp服务器地址，这里是163的smtp地址7mail_user="[email protected]
Python学习笔记二(布尔值及类型检查) StaticKing Python入门 Python
字符串赋值与布尔值及类型检查布尔值(bool)假：False真：Truea1='a'a2='a'print(a1==a2)print(a1!=a2)TrueFalse布尔值也属于整型，True相当于1False相当于0print(True+
Python学习笔记_第八章：异常雨住多一横
什么是异常Python用异常对象来表示异常情况，遇到错误后会引发异常。如果异常对象未被处理或捕捉，程序就会用所谓的回溯终止执行按自己的方式出错raise语句使用一个类(Exception及其子类)或者类实例调用raise语句可以引发异常。Python内建异常可以在exceptions模块中找到，可以使用dir列出模块内容>>>dir(exceptions)['ArithmeticError','A
Python学习笔记之：本地文件的读取你怎么这么奇怪 Python学习笔记
读取文件#桌面上的第一个txtf=open(r"C:\Users\Administrator\Desktop\test.txt")print(f.read())以test.txt文件为例，该文件存储路径为桌面打印读取文件内容f.read()print(f.readline())读
python学习笔记五（面向对象实战版）小满胜万全 Python学习学习笔记
传送门：python及pycharm安装配置_pycharm和python配置-CSDN博客Python学习笔记（一）-CSDN博客Python学习笔记（二）-CSDN博客Python学习笔记三（面向对象）-CSDN博客Python学习笔记四（面向对象）-CSDN博客前言：在前面两章，我们学习了python的基本概念和一些重要的知识点，由于这个部分非常重要，而代码学习之道最重要的就是自己要动手写代
Python学习笔记一（基础知识）小满胜万全 Python学习学习 python
PS：这篇文章是以一个学习者的角度来汇总知识点以及教程，对于想学习Python的入门者也会比较友好，想学习python可以先收藏，我会慢慢持续更新。学艺不精，如有纰漏，敬请指正。需要安装配置python和Pycharm软件可以移步这篇文章，有详细的教程。传送门：python及pycharm安装配置-CSDN博客Python学习笔记（二）-CSDN博客Python学习笔记三（面向对象）-CSDN博客
Python学习笔记07 正文01 python 学习笔记
第十三章，面向对象初识对象生活中数据的组织学校开学，要求学生填写自己的基础信息，一人发一张白纸，让学生自己填我叫林军杰，今年31岁.来自山东省，我是男的，中国人内容混乱改为登记表，打印出来让学生自行填写：姓名林军杰姓别男国籍中国籍贯山东省年龄31整洁明了程序中数据的组织在程序中简单使用变量来记录学生信息student_1={"姓名"："周杰轮"，"性别"："男"，"国籍"："中国"，"籍贯"："台
Python学习笔记03 正文01 python 学习笔记
第五章、Python函数函数介绍函数函数：是组织好的，可重复使用的，用来实现特定功能的代码段name="itheima"length=len(name)print(length)输出结果：7为什么随时都可以使用len()统计长度？因为，len()是Python内置的函数：是提前写好的可以重复使用实现统计长度这一特定功能的代码段我们使用过的：input()、print()、str()、int()等都
Python学习笔记 —— 文件处理模块 miles-zh python python
Excel文件openpyxl读/写Excel文件，https://pypi.org/project/openpyxlxlwt创建Excel文件，设置单元格样式，https://pypi.org/project/xlwtxlrd读取Excel文件，https://pypi.org/project/xlrdxlutils修改Excel文件，https://pypi.org/project/xluti
【Python学习笔记】Python logging模块的学习 Augenstern K Python python 学习笔记
Pythonlogging模块基础介绍作用与功能基本用法引入模块创建并配置记录器的基本步骤代码演示日志级别日志消息格式用法介绍代码示例日志的输出位置代码示例日志记录的高级功能对日志记录进行过滤和处理在多个模块中使用同一个日志记录器总结当谈到日志记录时，logging库是Python中最常用的工具之一。它提供了许多功能和选项，使开发人员能够灵活地记录和管理应用程序的日志信息。引入logging作为P
Python学习笔记(1)——环境安装与变量 ThinkerChenYi python学习笔记 Python 学习笔记
python环境安装-python2还是python3python2只支持到2020年，并且python2和3有不少用法差异。要是刚学完python2不久就发现过时了这就很尴尬了，所以推荐使用python3-安装环境推荐：Anaconda+pychamAnaconda是一个python的科学计算包，python环境，常用模块以及工具都包含在里面，省心省力官网：https://www.anacond
2.25python笔记高阶编程 13351
@[TOC](2.25学堂在线python学习笔记高阶编程)#高阶编程1.利用二分法查找一个字符是否在某个字符串当中基线条件：当s=''时，返回False当len(s)=1且s==char时返回True当len(s)>1且s[mid]>char时，返回isIn(char,s[:mid])否则当s[mid]1:ifs[mid]>char:print(s)returnisIn(char,s[:mid]
Python学习笔记——逻辑运算符not,and,or phoebe’ python
运算优先级：not>and>or三个都从左往右解析，区别如下not：返回布尔型(TrueorFalse)>>>not7False>>>not0Trueand:有0(False)则返回0(False)，否则返回后一个变量(常数)>>>3and0and10>>>1and2and33>>>Falseand1Falseor:返回第一个不为0(False)的变量(常数)>>>FalseorTrueTrue>
python学习笔记——三目运算符与逻辑运算符 phily123 python学习笔记 python
一、三目运算符python中用ifelse来替代其他编程语言的？：三目运算符，并且用法不同。ifa>b:c=aelse:c=bpython中：c=aifa>belsebc语言中：c=a>b?a:b二、逻辑运算符python中逻辑运算符用andornot:20and10#结果是1020or10#结果是200or10#结果是10not10#结果是Falsenot0#结果是Truec语言中逻辑运算符用&
Python课后习题第十章水中小船
'''10-1Python学习笔记：在文本编辑器中新建一个文件，写几句话来总结一下你至此学到的Python知识，其中每一行都以“InPythonyoucan”打头。将这个文件命名为learning_python.txt，并将其存储到为完成本章练习而编写的程序所在的目录中。编写一个程序，它读取这个文件，并将你所写的内容打印三次：第一次打印时读取整个文件；第二次打印时遍历文件对象；第三次打印时将各行存
python表示乘方的运算符_Python学习笔记Day3 - Python运算符 weixin_39684454 python表示乘方的运算符
1.Python类型转换常用数据类型转换2.Python算术运算符Python算术运算符2.1加法(+)运算符m=10n=97sum1=m+nx=7.2y=15.3sum2=x+yprint("sum1=%d,sum2=%.2f"%(sum1,sum2))运行结果：sum1=107,sum2=22.50拼接字符串当+用于数字时表示加法，但是当+用于字符串时，它还有拼接字符串(将两个字符串连接为一个
Python学习笔记之os.path.join() 爱叫啥叫啥去
路径拼接os.path.join()函数os.path.join()函数用于路径拼接文件路径os.path.join()函数中可以传入多个路径：a、会从第一个以"/"开头的参数开始拼接，之前的参数全部丢弃b、在上一种情况确保情况下，若出现"./"开头的参数，会从"./"开头的参数的上一个参数开始拼接join()函数语法：‘sep’.join(seq)参数说明：sep:分隔符。可以为空seq：要连接
python学习笔记--ifelse分支和循环结构用法,实现python猜数字游戏和冒泡排序大佬Sam
前言分支（if-else）和循环是每种编程语言必定存在的用法，这里记录下python中的分支结构和结构。结合之前学习的变量，类型，运算符，表达式，和分支，循环结构，练习写个猜数字游戏和冒泡排序。正文分支结构if语句的使用分支结构可以使用if、elif和else关键字。所谓关键字就是有特殊含义的单词，像if和else就是专门用于构造分支结构的关键字，很显然你不能够使用它作为变量名（事实上，用作其他的
【python学习笔记】：亚马逊的反爬虫机制姜子牙大侠 python python 爬虫开发语言
今天，来学习越过亚马逊的反爬虫机制，爬取想要的商品、评论等等有用信息。反爬虫机制但是，我们想用爬虫来爬取相关的数据信息时像亚马逊、TBao、JD这些大型的购物商城他们为了保护自己的数据信息，都是有一套完善的反爬虫机制的先试试亚马逊的反爬机制我们用不同的几个python爬虫模块，来一步步试探最终，成功越过反爬机制。一、urllib模块代码如下：#-*-coding:utf-8-*-importurl
python学习笔记之---三种引号的使用没有用户的名字 python学习笔记 python 学习笔记
三种引号，单引号’‘，双引号""，三引号’‘’‘’'（三个单引号组合）或者"“”“”"（三个双引号组合）一、一般情况下，三种引号等价print('这个单引号测试')print("这是双引号测试")print("""这是三引号测试""")二、特殊情况1、单引号：字符串中含有单引号时不能使用，需要转义2、双引号：字符串含有双引号的情况不能使用，需要转义错误写法：print("这是"双引号"测试")`正
python小结张叁疯_
本周整理了python学习笔记复习旧的，顺便整理新的，笔记分享在了有道云链接如下阿龙的python笔记都是基础知识，希望在今后能成体系，根据案例学python
python学习笔记------函数烟雨织轻愁学习笔记
函数介绍是组织好的，可重复使用的，用来实现特定功能的代码段函数定义def函数名（传入参数）：函数体return返回值参数不需要可省略，返回值不需要也可以省略先定义后调用函数的传入参数例如：defadd（x，y）：result=x+yprint（f"{x}+{y}的结果是：{result}"）在函数定义中，x、y为形参，表示函数声明将要使用两个参数，参数之间使用逗号进行分隔函数调用时，提供的数属于实
python学习笔记烟雨织轻愁学习笔记
字面量整数、浮点数和·现实中写法一致字符串加上双引号即可，例如："python代码"变量定义方式：变量名=变量的值（无需分号）数据类型print（type（"python代码"））即可输出类型名string_type=type（"python代码")接收类型名数据类型转换：int（x）、float（x）、str（x）标识符标识符：变量名字、方法的名字、类的名字等等标识符命名只允许数字、英文、中文、
Python学习笔记 -一到五赵唯一 Python编程秘籍 python 开发语言
第一阶段第一章python入门小技巧：上注释使用（ctrl+/）print("")输出的时候是，输出的就是“”内的内容如果是使用变量的话，不加””双引号，才可以输出变量的内容。eg：num=111而使用print("num")所输出的也就是num，调用变量不要加“”而且print是没有结果输出的，只是打印的功能；print("我","是")print可以多个输出内容中间用逗号隔开!!!（需要全部是
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

Python爬虫系列：爬取小说并写入txt文件