烟雨风渡

python中用BeautifulSoup和urllib模块爬取小说网站中的网络小说

最近几个月花时间学习了网络爬虫的基本原理及其python实现，大致了解了网络爬虫中的一些基本概念，以后有机会会陆续和大家分享我的学习过程和体会。

网络爬虫就是一个从url找到对应的页面，并从页面中解析出所需数据或新的url的过程，流程图如下：

学习网络爬虫，首先要通过系统性地读爬虫类书籍和大量阅读别人的程序了解爬虫的基本概念、基本流程及其实现、防爬策略的应对以及数据的存储和分布式爬取等问题。这些以后会逐一介绍。

最近从CSDN上看到别人写的爬取盗版小说网站上的小说的例子，个人认为这是一个比较有代表性的网络爬虫的例子，这个例子包含了编写网络爬虫的一些基本思路：发送请求获取网页、网页编码、解析网页、超时重连、数据存储、字符替换等，借此机会，自己用python实现一下，帮大家熟悉一下爬虫。

选择的网站是去看看小说网，爬取其中的小说《剑来》，就是“天不生我李淳罡，剑道万古如长夜”的那个《剑来》，从小说主页：http://www.7kankan.la/book/1/点进去即可看到小说的基本信息，我们先来分析一下网页的结构：

在这个页面中可以看到小说的全部章节目录，我们的思路是获取所有章节对应的url，然后在每个url对应的页面中找到小说正文，用到的数据结构是列表。首先，获取所有章节对应的url，并将其存入列表中：谷歌浏览器按F12后按F5，查看网页源代码，截图如下：

这里我们可以看到每个章节对应的url存放在dd标签下a标签中的href属性下，以“第一章惊蛰”为例，我们点击第一章对应的href标签中的超链接就可以进入第一章的阅读页面，在这里我们看到第一章的真实请求地址为：

注意到每一章节被分为两个页面展示，页面的命名很规范，我们可以直接在某章节第一页url中的".html"前加上"_2"获取第二页的url，也可以通过解析网页获取第二页的url，这里我们采用第二种方式：解析“下一页”按钮获取下一页的url。

获取所有的章节名称以及每一章节中第一页和第二页对应的url并将其存入列表中，具体代码和效果如下：

#-*-coding:utf-8-*-
"""
@author:taoshouzheng
@time:2018/7/11 19:37
@email:[email protected]
"""

from urllib import request
from bs4 import BeautifulSoup
import socket


# 定义获取下一个页面的url的函数
def get_next_page_url(url):
	# 定义网络状态
	net_status = False
	# 如果为成功获取，则一直访问，直至获取成功
	while not net_status:
		# 异常处理
		try:
			# 打开网页
			response = request.urlopen(url=url, timeout=5)
			# 读取网页内容，对网页进行重新编码
			html = response.read().decode('gbk')
			# 创建BeautifulSoup对象，用于解析网页获取所需内容
			html_soup = BeautifulSoup(html, 'html.parser')
			# 找到指定的标签列表
			a_list = html_soup.find_all('a', id='linkNext', class_='btn btn-default')
			# 创建BeautifulSoup对象，用于解析网页获取所需内容
			a_soup = BeautifulSoup(str(a_list[0]), 'html.parser')
			# 获取所需url
			target_url = a_soup.a['href']
			# 返回目标url
			return target_url
		except socket.timeout:
			print('网络不稳定！')
			net_status = False


# 定义获取所有url和章节名称的函数
def get_all_page_url(url):
	# 定义章节列表用于存储章节
	chapters_list = []
	# 定义url列表用于存储url
	urls_list = []
	# 定义网络状态
	net_status = False
	# 如果为成功获取，则一直访问，直至获取成功
	while not net_status:
		# 异常处理
		try:
			# 打开网页
			response = request.urlopen(url=url, timeout=5)
			# 读取网页内容,对网页进行重新编码
			html = response.read().decode('gbk')
			# 创建BeautifulSoup对象，用于解析网页获取所需内容
			html_soup = BeautifulSoup(html, 'html.parser')
			# 找到指定的标签列表
			dd_list = html_soup.find_all('dd', class_='col-md-3')
			# 遍历列表中的标签内容，去掉“新书感言”部分
			for i in dd_list[1:]:
				# 过滤掉最后两个标签
				if '.html' in str(i):
					# 创建BeautifulSoup对象
					i_soup = BeautifulSoup(str(i), 'html.parser')
					# 当前页面的url
					this_url = url + str(i_soup.a['href'])
					# 调用函数，获取下一个页面的url
					next_url = get_next_page_url(this_url)
					# 将本章节名称加入章节名称列表
					chapters_list.append(i_soup.dd.a['title'] + ' 1/2')
					chapters_list.append(i_soup.dd.a['title'] + ' 2/2')
					# 将两个url都加入url列表
					# 打印
					print('成功获取url！')
					urls_list.append(this_url)
					urls_list.append(next_url)
			# 返回章节名称列表和章节地址列表
			return chapters_list, urls_list
		except socket.timeout:
			print('网络不稳定！')
			net_status = False


# 主模块
if __name__ == "__main__":
	# 目录所在的url
	url = 'http://www.7kankan.la/book/1/'
	# 调用函数，获取所有的章节名称和url
	chapters, urls = get_all_page_url(url)

python中用BeautifulSoup和urllib模块爬取小说网站中的网络小说_第7张图片

成功获取到所有页面对应的url之后，接下来就要针对每一个url获取对应页面的正文内容。用到的网页解析工具是BeautifulSoup，可以通过这篇博客了解一下BeautifulSoup模块的基本内容：点击打开链接，（这个专栏挺不错的，想认真学python爬虫的可以研究一下）。

python中用BeautifulSoup和urllib模块爬取小说网站中的网络小说_第8张图片

可以看到每个页面中小说的正文内容都是存放在"

"标签下，直接用BeautifulSoup解析出来即可，代码如下：

# 获取每一章节的正文内容
def parse_page(url):
	# 定义网络状态
	net_status = False
	# 如果为成功获取，则一直访问，直至获取成功
	while not net_status:
		# 异常处理
		try:
			# 打开网页
			response = request.urlopen(url=url, timeout=5)
			# 读取网页内容，对网页进行重新编码
			html = response.read().decode('gbk')
			# 创建BeautifulSoup对象，用于解析网页获取所需内容
			html_soup = BeautifulSoup(html, 'html.parser')
			# 获取第一页的正文内容列表
			div_list = html_soup.find_all('div', class_='panel-body', id='htmlContent')
			# 创建BeautifulSoup对象，用于解析网页获取所需内容
			div_soup = BeautifulSoup(str(div_list[0]), 'html.parser')
			# 找到小说正文
			current_text = div_soup.div.text
			# 简单地将某些字符替换为空格
			current_text = current_text.replace('一秒记住【去看看小说网 WWW.7KANKAN.LA】，更新快，无弹窗，免费读！', '')
			if '-->>本章未完，点击下一页继续阅读' in current_text:
				current_text = current_text.replace('                -->>本章未完，点击下一页继续阅读', '')
				current_text = current_text.replace('\n', '')
			# 返回网页内容
			return current_text
		except socket.timeout:
			print('网络不稳定！')
			net_status = False

可以看到在程序中我们对文本中的内容进行了简单的处理，总的代码和运行效果如下：

#-*-coding:utf-8-*-
"""
@author:taoshouzheng
@time:2018/7/11 19:37
@email:[email protected]
"""

from urllib import request
from bs4 import BeautifulSoup
import socket


# 定义获取下一个页面的url的函数
def get_next_page_url(url):
	# 定义网络状态
	net_status = False
	# 如果为成功获取，则一直访问，直至获取成功
	while not net_status:
		# 异常处理
		try:
			# 打开网页
			response = request.urlopen(url=url, timeout=5)
			# 读取网页内容，对网页进行重新编码
			html = response.read().decode('gbk')
			# 创建BeautifulSoup对象，用于解析网页获取所需内容
			html_soup = BeautifulSoup(html, 'html.parser')
			# 找到指定的标签列表
			a_list = html_soup.find_all('a', id='linkNext', class_='btn btn-default')
			# 创建BeautifulSoup对象，用于解析网页获取所需内容
			a_soup = BeautifulSoup(str(a_list[0]), 'html.parser')
			# 获取所需url
			target_url = a_soup.a['href']
			# 返回目标url
			return target_url
		except socket.timeout:
			print('网络不稳定！')
			net_status = False


# 定义获取所有url和章节名称的函数
def get_all_page_url(url):
	# 定义章节列表用于存储章节
	chapters_list = []
	# 定义url列表用于存储url
	urls_list = []
	# 定义网络状态
	net_status = False
	# 如果为成功获取，则一直访问，直至获取成功
	while not net_status:
		# 异常处理
		try:
			# 打开网页
			response = request.urlopen(url=url, timeout=5)
			# 读取网页内容,对网页进行重新编码
			html = response.read().decode('gbk')
			# 创建BeautifulSoup对象，用于解析网页获取所需内容
			html_soup = BeautifulSoup(html, 'html.parser')
			# 找到指定的标签列表
			dd_list = html_soup.find_all('dd', class_='col-md-3')
			# 遍历列表中的标签内容，去掉“新书感言”部分
			for i in dd_list[1:]:
				# 过滤掉最后两个标签
				if '.html' in str(i):
					# 创建BeautifulSoup对象
					i_soup = BeautifulSoup(str(i), 'html.parser')
					# 当前页面的url
					this_url = url + str(i_soup.a['href'])
					# 调用函数，获取下一个页面的url
					next_url = get_next_page_url(this_url)
					# 将本章节名称加入章节名称列表
					chapters_list.append(i_soup.dd.a['title'] + ' 1/2')
					chapters_list.append(i_soup.dd.a['title'] + ' 2/2')
					# 将两个url都加入url列表
					# 打印
					print('成功获取url！')
					urls_list.append(this_url)
					urls_list.append(next_url)
			# 返回章节名称列表和章节地址列表
			return chapters_list, urls_list
		except socket.timeout:
			print('网络不稳定！')
			net_status = False


# 获取每一章节的正文内容
def parse_page(url):
	# 定义网络状态
	net_status = False
	# 如果为成功获取，则一直访问，直至获取成功
	while not net_status:
		# 异常处理
		try:
			# 打开网页
			response = request.urlopen(url=url, timeout=5)
			# 读取网页内容，对网页进行重新编码
			html = response.read().decode('gbk')
			# 创建BeautifulSoup对象，用于解析网页获取所需内容
			html_soup = BeautifulSoup(html, 'html.parser')
			# 获取第一页的正文内容列表
			div_list = html_soup.find_all('div', class_='panel-body', id='htmlContent')
			# 创建BeautifulSoup对象，用于解析网页获取所需内容
			div_soup = BeautifulSoup(str(div_list[0]), 'html.parser')
			# 找到小说正文
			current_text = div_soup.div.text
			# 简单地将某些字符替换为空格
			current_text = current_text.replace('一秒记住【去看看小说网 WWW.7KANKAN.LA】，更新快，无弹窗，免费读！', '')
			if '-->>本章未完，点击下一页继续阅读' in current_text:
				current_text = current_text.replace('                -->>本章未完，点击下一页继续阅读', '')
				current_text = current_text.replace('\n', '')
			# 返回网页内容
			return current_text
		except socket.timeout:
			print('网络不稳定！')
			net_status = False


# 主模块
if __name__ == "__main__":
	# 目录所在的url
	url = 'http://www.7kankan.la/book/1/'
	# 调用函数，获取所有的章节名称和url
	chapters, urls = get_all_page_url(url)
	# 遍历
	for ul in urls:
		# ur的索引
		ul_index = urls.index(ul)
		# ul的章节名
		title = chapters[ul_index]
		# 本url所对应的正文内容
		cu_text = parse_page(ul)
		print('开始写入：' + str(chapters[ul_index]))
		with open('剑来.txt', 'a', encoding='utf-8') as f_obj:
			f_obj.write(str(title) + '\n')
			f_obj.write(str(cu_text) + '\n\n')
		print('写入完毕！')
	print('小说爬取完成！')

python中用BeautifulSoup和urllib模块爬取小说网站中的网络小说_第9张图片

python中用BeautifulSoup和urllib模块爬取小说网站中的网络小说_第10张图片

python中用BeautifulSoup和urllib模块爬取小说网站中的网络小说_第11张图片

python中用BeautifulSoup和urllib模块爬取小说网站中的网络小说_第12张图片

爬虫的效率还可以，思路很简单，代码也已经注释地很详细了，，希望读者可以从中找到对自己有用的信息。

欢迎交流，QQ：3408649893

你可能感兴趣的:(网络爬虫,网络爬虫,python,BeautifulSoup,urllib,文本操作)

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他