GitChat技术杂谈

如何用 Python 爬取网页制作电子书

本文来自作者孙亖在 GitChat 上分享「如何用 Python 爬取网页制作电子书」，「阅读原文」查看交流实录。

「文末高能」

编辑 | 哈比

0 前言

有人爬取数据分析黄金周旅游景点，有人爬取数据分析相亲，有人大数据分析双十一，连小学生写论文都用上了大数据。

我们每个人每天都在往网上通过微信、微博、淘宝等上传我们的个人信息，现在就连我们的钱都是放在网上，以后到强人工智能，我们连决策都要依靠网络。网上的数据就是资源和宝藏，我们需要一把铲子来挖掘它。

最近，AI 的兴起让 Python 火了一把。实际上 Python 拥有庞大的第三方支持，生态系统非常完整，可以适用各种场景和行业。

这次，我们准备通过 Python 学习爬虫的开发，既简单有趣，而且是数据采集重要一环。同时脱离应用谈技术就是耍流氓，通过制作电子书学习数据的收集与整理，即能学到东西又有实用价值。

我们将通过爬取网页信息这个很小的应用场景来体会数据预处理的思想，并从中学习了解数据处理中抓取、处理、分组、存储等过程的实现。

我这次分享主要分为以下几个部分：

Python 语法：通过分享掌握简单的 Python 开发语法和思路，侧重于后面爬虫开发的需要用的内容；Scrapy 爬虫开发：通过分享了解基本的 Scrapy 开发，并实现从网络爬取数据，使用 Sigil 制作 epub 电子书。

最后，我希望通过分享，让更多人能够入门并喜欢上 Python 开发，掌握 Scrapy 爬虫开发的思路和方法。

1 Python 开发

1.1 Windows 下环境安装

熟悉 Windows 的安装 Python 不难，首先官网下载：https://www.python.org/downloads/。

有两个版本，根据需要选择自己的版本，现在越来越多的库开始支持 3，所以建议下载 3，这里我们以 2 为例。

双击下载的安装文件，一路 Next 即可，但是要注意勾选 __pip__ 和 Add python.exe to Path

pip 是 Python 生态体系里面的包管理工具，很多第三方库可以通过它方便的管理。

安装 Finish 之后，打开命令行窗口，输入 Python：

如果出现这个界面说明安装成功了，如果出现下面的情况：

‘python’ 不是内部或外部命令，也不是可运行的程序或批处理文件。

需要把 python.exe 的目录添加到 path 中，一般是 C:/Python27。

1.2 Python 之 HelloWorld

目前我所接触过的所有编程语言都只要掌握三个内容就可以了：就是输入、处理、输出。我们已经安装好了 Python，可以来一个最俗套的程序。

首先我们打开 windows 的控制台，然后输入 python 回车，然后输入如下代码：

print 'Hello world!'

我就问你俗不俗，好了，看结果：

根据我上面的说法，这个程序的输入就是 Hello World 字符串，处理使系统内部的输出处理，输出结果就是 ‘Hello World’。

我们还可以把代码写在文件里面：

#!/usr/bin/env python # -*- coding: utf-8 -*- print 'Hello World!'

执行效果：

我们说这个不是单纯的秀一下，以前没有用户界面的时候 print 可以作为人机交互用途，现在多数是用于调试，可以在程序运行的时候快速的输出程序结果或者过程结果。

1.3 做菜与编程

现在有个很有意思的说法：生数据（原始数据）就是没有处理过的数据，熟数据（Cooked Data）是指原始数据经过加工处理后的数据，处理包括解压缩、组织，或者是分析和提出，以备将来使用。

这就像做菜生菜是输入，菜谱是程序，洗、切、烹饪等处理是程序执行过程，最后输出的熟菜。但不管生菜、熟菜都是菜，或者都是物质。

准备食材

在程序世界里的物质组成就是数据，就像有萝卜白菜等不同的品种一样，数据也有不同的类型。我目前所接触到的数据类型主要有以下几种：

物理类：数据在物理内存中的表达存储方式；
- 位
- 字
- 字节
数据类：数据类中的具体类型代表了不同精度和内存中不同的存储结构；
- 整数
- 浮点数
- 长整型
- 双精度
字符类：就是文本字符相关的数据类型；
- 字符
- 字符串
逻辑类：就是逻辑真与逻辑假；
- 布尔值
复合类：由各基本的数据类型按照一定的结构组合而成的数据；
- 结构体
- 类
- 集合
- 字典
- 列表
- 序列
- Hash 表
- ……

这里我强调几点：

首先，这个分类不是某种语言特有，目前大多数编程语言都差不多，你理解这个思想就把自己的编程能力扩展了。
其次，它不需要专门记忆，编程是程序性的知识，运用的知识，是一种技能，你要做什么菜，你来这个分类查查需要什么原材料，再去具体研究，慢慢就会了，不做你记住了也没用。
用多深，研究多深，不用就别研究浪费时间。比如说，我们一般性应用不会去考虑数据的内存模型，但是涉及到精度、性能或者边界值时我们就需要小心，研究得深一些。

器皿

食材已准备好了，可以下锅，可锅在哪里，你不能放在手里加工。程序里我们用变量、常量来盛各种数据，还有个作用域的问题，严格的厨房红案和白案是分开的，有时候砧板是不能互用的。

空值：四大皆空，什么也不是，不是 0，不是长度为 0 的字符串，不是 false，什么都不是；
变量：学过数学的人都应该有这个概念，反正差不多；
常量：固定不变的量，比如说 π。

烹饪手法

刚查了下，我大天朝常用的烹饪手法多达 20 多种，我归纳了一下，编程大概就那么几种：

数值计算——加减乘除、位移等；
逻辑计算——逻辑真假判断；
过程计算——循环、嵌套、递归等；
数据处理——字符串、对象的操作。

菜谱与炒菜

菜都准备好了，下锅怎么炒，全靠菜谱，它就是程序，而我们按照菜谱炒菜这个过程就是程序的执行。

Python 或任何一种编程语言都是博大精深，同时又是一种技能，不可能在使用之前完全掌握，也没必要。

我们需要知道的是我们想吃什么（程序要输出什么），然后再去菜市场买时才找菜谱（搜索引擎查资料），最后按照我们的需求加工（编程）。

1.4 Python 简单实践

首先我们来写三个 Python 文件：

hello.py
——事情的处理有落点，程序执行有入口，例如：main，这个文件可以看作程序的入口。

#!/usr/bin/env python # -*- coding: utf-8 -*- import pkg print 'Hello World!' pkg.test() p = pkg.Person("Mike", 23) p.showInfo()

pkg.py
——程序可以分块编写，这样层次更分明，易于理解和维护，我们在 pkg.py 中编写一部分功能，作为演示模块。

#!/usr/bin/env python # -*- coding: utf-8 -*- def test(): print "Here is pkg's test" class Person(object): def __init__(self, name, age): self.name = name self.age = age pass def showInfo(self): print self.name print self.age

init.py
——这是一个空文件，也可以写代码，表明当前路径是包。

接下来，我们来运行一下：

python hello.py

显示结果如下：

Hello World!

Here is pkg’s test

Mike

23

我们运行了 hello.py 文件，然后 hello.py 导入了包 pkg；包 pkg 定义了一个方法和一个类，我们在 hello.py 文件里面调用了外部的方法和类。

2 使用 Scrapy 抓取电子书

2.1 写在爬取数据之前

虽然我们这里的数据都是从公开的网络获取，但也不能确定其版权问题，因此获取的数据仅用于编程练习，严禁分享或用于其他用途。

好了，现在我们找一个在线看书的网站，找一本书把它下载到本地。首先，我们准备下载工具，就是 Python 的爬虫框架 Scrapy。

2.2 Scrapy 安装

安装完 Python 后可以用以下的命令按照 Scrapy，有些版本的 Python 没有带 pip 需要手动安装。

pip install scrapy

pip 是 Python 的包管理器，大量的第三方包或者说功能可以通过这个工具来管理，所谓包就是模块化的功能集合，基本的技术参考实践里面的包。

我安装成功显示如下信息：

> Collecting scrapy Downloading Scrapy-1.5.0-py2.py3-none-any.whl (251kB) 100% |████████████████████████████████| 256kB 181kB/s Collecting service-identity (from scrapy) Downloading service_identity-17.0.0-py2.py3-none-any.whl Collecting parsel>=1.1 (from scrapy) Downloading parsel-1.3.1-py2.py3-none-any.whl Collecting six>=1.5.2 (from scrapy) Downloading six-1.11.0-py2.py3-none-any.whl Collecting w3lib>=1.17.0 (from scrapy) Downloading w3lib-1.18.0-py2.py3-none-any.whl Collecting lxml (from scrapy) Downloading lxml-4.1.1-cp27-cp27m-win_amd64.whl (3.6MB) 100% |████████████████████████████████| 3.6MB 142kB/s Collecting Twisted>=13.1.0 (from scrapy) Downloading Twisted-17.9.0-cp27-cp27m-win_amd64.whl (3.2MB) 100% |████████████████████████████████| 3.2MB 169kB/s Collecting pyOpenSSL (from scrapy) Downloading pyOpenSSL-17.5.0-py2.py3-none-any.whl (53kB) 100% |████████████████████████████████| 61kB 313kB/s Collecting PyDispatcher>=2.0.5 (from scrapy) Downloading PyDispatcher-2.0.5.tar.gz Collecting queuelib (from scrapy) Downloading queuelib-1.4.2-py2.py3-none-any.whl Collecting cssselect>=0.9 (from scrapy) Downloading cssselect-1.0.3-py2.py3-none-any.whl Collecting pyasn1 (from service-identity->scrapy) Downloading pyasn1-0.4.2-py2.py3-none-any.whl (71kB) 100% |████████████████████████████████| 71kB 328kB/s Collecting attrs (from service-identity->scrapy) Downloading attrs-17.4.0-py2.py3-none-any.whl Collecting pyasn1-modules (from service-identity->scrapy) Downloading pyasn1_modules-0.2.1-py2.py3-none-any.whl (60kB) 100% |████████████████████████████████| 61kB 347kB/s Collecting hyperlink>=17.1.1 (from Twisted>=13.1.0->scrapy) Downloading hyperlink-17.3.1-py2.py3-none-any.whl (73kB) 100% |████████████████████████████████| 81kB 407kB/s Collecting Automat>=0.3.0 (from Twisted>=13.1.0->scrapy) Downloading Automat-0.6.0-py2.py3-none-any.whl Collecting constantly>=15.1 (from Twisted>=13.1.0->scrapy) Downloading constantly-15.1.0-py2.py3-none-any.whl Collecting zope.interface>=3.6.0 (from Twisted>=13.1.0->scrapy) Downloading zope.interface-4.4.3-cp27-cp27m-win_amd64.whl (137kB) 100% |████████████████████████████████| 143kB 279kB/s Collecting incremental>=16.10.1 (from Twisted>=13.1.0->scrapy) Downloading incremental-17.5.0-py2.py3-none-any.whl Collecting cryptography>=2.1.4 (from pyOpenSSL->scrapy) Downloading cryptography-2.1.4-cp27-cp27m-win_amd64.whl (1.3MB) 100% |████████████████████████████████| 1.3MB 220kB/s Requirement already satisfied: setuptools in c:\python27\lib\site-packages (from zope.interface>=3.6.0->Twisted>=13.1.0->scrapy) Collecting idna>=2.1 (from cryptography>=2.1.4->pyOpenSSL->scrapy) Downloading idna-2.6-py2.py3-none-any.whl (56kB) 100% |████████████████████████████████| 61kB 311kB/s Collecting cffi>=1.7; platform_python_implementation != "PyPy" (from cryptography>=2.1.4->pyOpenSSL->scrapy) Downloading cffi-1.11.2-cp27-cp27m-win_amd64.whl (163kB) 100% |████████████████████████████████| 163kB 183kB/s Collecting enum34; python_version < "3" (from cryptography>=2.1.4->pyOpenSSL->scrapy) Downloading enum34-1.1.6-py2-none-any.whl Collecting asn1crypto>=0.21.0 (from cryptography>=2.1.4->pyOpenSSL->scrapy) Downloading asn1crypto-0.24.0-py2.py3-none-any.whl (101kB) 100% |████████████████████████████████| 102kB 194kB/s Collecting ipaddress; python_version < "3" (from cryptography>=2.1.4->pyOpenSSL->scrapy) Downloading ipaddress-1.0.19.tar.gz Collecting pycparser (from cffi>=1.7; platform_python_implementation != "PyPy"->cryptography>=2.1.4->pyOpenSSL->scrapy) Downloading pycparser-2.18.tar.gz (245kB) 100% |████████████████████████████████| 256kB 264kB/s Installing collected packages: pyasn1, six, idna, pycparser, cffi, enum34, asn1crypto, ipaddress, cryptography, pyOpenSSL, attrs, pyasn1-modules, service-identity, w3lib, cssselect, lxml, parsel, hyperlink, Automat, constantly, zope.interface, incremental, Twisted, PyDispatcher, queuelib, scrapy Running setup.py install for pycparser ... done Running setup.py install for ipaddress ... done Running setup.py install for PyDispatcher ... done Successfully installed Automat-0.6.0 PyDispatcher-2.0.5 Twisted-17.9.0 asn1crypto-0.24.0 attrs-17.4.0 cffi-1.11.2 constantly-15.1.0 cryptography-2.1.4 cssselect-1.0.3 enum34-1.1.6 hyperlink-17.3.1 idna-2.6 incremental-17.5.0 ipaddress-1.0.19 lxml-4.1.1 parsel-1.3.1 pyOpenSSL-17.5.0 pyasn1-0.4.2 pyasn1-modules-0.2.1 pycparser-2.18 queuelib-1.4.2 scrapy-1.5.0 service-identity-17.0.0 six-1.11.0 w3lib-1.18.0 zope.interface-4.4.3

2.3 新建 Scrapy 爬虫项目

Scrapy 是 Python 程序，同时也是一套框架，提供了一系列工具来简化开发，因此我们按照 Scrapy 的模式来开发，先新建一个 Scrapy 项目，如下：

scrapy startproject ebook

Scrapy 项目包含一些基础框架代码，我们在此基础上开发，目录结构类似下图：

2.4 新建 Scrapy 爬虫

这时，Scrapy 还不知道我们要爬取什么数据，所以我们要用 Scrapy 工具新建一个爬虫，命令如下：

scrapy genspider example example.com

下面实操，我们在起点中文网找一篇免费小说的完本，这里选择是《修真小主播》。

我们就在前面建立的 Scrapy 项目 ebook 下新建一个爬虫，命令如下：

cd ebook scrapy genspider xzxzb qidian.com

执行成功之后，在项目的 spider 目录下就多了一个 xzxzb.py 的文件。

2.5 爬虫思路

怎么抓取数据，首先我们要看从哪里取，打开《修真小主播》的页面，如下：

有个目录页签，点击这个页签可以看见目录，使用浏览器的元素查看工具，我们可以定位到目录和每一章节的相关信息，根据这些信息我们就可以爬取到具体的页面：

2.6 获取章节地址

现在我们打开 xzxzb.py 文件，就是我们刚刚创建的爬虫：

# -*- coding: utf-8 -*- import scrapy class XzxzbSpider(scrapy.Spider): name = 'xzxzb' allowed_domains = ['qidian.com'] start_urls = ['http://qidian.com/'] def parse(self, response): pass

start_urls 就是目录地址，爬虫会自动爬这个地址，然后结果就在下面的 parse 中处理。现在我们就来编写代码处理目录数据，首先爬取小说的主页，获取目录列表：

def parse(self, response): pages = response.xpath('//div[@id="j-catalogWrap"]//ul[@class="cf"]/li') for page in pages: url = page.xpath('./child::a/attribute::href').extract() print url pass

获取网页中的 DOM 数据有两种方式，一种是使用 CSS 选择子，另外一种是使用 XML 的 xPath 查询。

这里我们用 xPath，相关知识请自行学习，看以上代码，首先我们通过 ID 获取目录框，获取类 cf 获取目录列表：

pages = response.xpath('//div[@id="j-catalogWrap"]//ul[@class="cf"]/li')

接着，遍历子节点，并查询 li 标签内 a 子节点的 href 属性，最后打印出来：

for page in pages: url = page.xpath('./child::a/attribute::href').extract() print url

这样，可以说爬取章节路径的小爬虫就写好了，使用如下命令运行 xzxzb 爬虫查看结果：

scrapy crawl xzxzb

这个时候我们的程序可能会出现如下错误：

…
ImportError: No module named win32api
…

运行下面的语句即可：

pip install pypiwin32

屏幕输出如下：

> ... > [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/wrrduN6auIlOBDFlr9quQA2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Jh-J5usgyW62uJcMpdsVgA2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5YXHdBvg1ImaGfXRMrUjdw2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/fw5EBeKat-76ItTi_ILQ7A2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/KsFh5VutI6PwrjbX3WA1AA2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/-mpKJ01gPp1p4rPq4Fd4KQ2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MlZSeYOQxSPM5j8_3RRvhw2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5TXZqGvLi-3M5j8_3RRvhw2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/sysD-JPiugv4p8iEw--PPw2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/xGckZ01j64-aGfXRMrUjdw2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/72lHOJcgmedOBDFlr9quQA2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/cZkHZEYnPl22uJcMpdsVgA2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/vkNh45O3JsRMs5iq0oQwLQ2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ge4m8RjJyPH6ItTi_ILQ7A2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Y33PuxrKT4dp4rPq4Fd4KQ2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MDQznkrkiyXwrjbX3WA1AA2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/A2r-YTzWCYj6ItTi_ILQ7A2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Ng9CuONRKei2uJcMpdsVgA2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Q_AxWAge14pMs5iq0oQwLQ2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ZJshvAu8TVVp4rPq4Fd4KQ2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/hYD2P4c5UB2aGfXRMrUjdw2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/muxiWf_jpqTgn4SMoDUcDQ2'] [u'//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/OQQ5jbADJjVp4rPq4Fd4KQ2'] > ...

爬取章节路径的小爬虫就写好了，但我们的目的不仅于此，我们接下来使用这些地址来抓取内容：

2.7 章节页面分析

我们接下来分析一下章节页面，从章节页面我们要获取标题和内容。

如果说章节信息爬取使用的 parser 方法，那么我们可以给每一个章节内容的爬取写一个方法，比如：parser_chapter，先看看章节页面的具体情况：

可以看到，章节的整个内容在类名为 main-text-wrap 的 div 标签内，标题是其中类名为j_chapterName的 h3 标签，具体内容是类名为read-content j_readContent的 div 标签。

试着把这些内容打印出来：

# -*- coding: utf-8 -*- import scrapy class XzxzbSpider(scrapy.Spider): name = 'xzxzb' allowed_domains = ['qidian.com'] start_urls = ['https://book.qidian.com/info/1010780117/'] def parse(self, response): pages = response.xpath('//div[@id="j-catalogWrap"]//ul[@class="cf"]/li') for page in pages: url = page.xpath('./child::a/attribute::href').extract_first() # yield scrapy.Request('https:' + url, callback=self.parse_chapter) yield response.follow(url, callback=self.parse_chapter) pass def parse_chapter(self, response): title = response.xpath('//div[@class="main-text-wrap"]//h3[@class="j_chapterName"]/text()').extract_first().strip() content = response.xpath('//div[@class="main-text-wrap"]//div[@class="read-content j_readContent"]').extract_first().strip() print title # print content pass

上一步，我们获取到了一个章节地址，从输出内容来看是相对路径，因此我们使用了yield response.follow(url, callback=self.parse_chapter)，第二个参数是一个回调函数，用来处理章节页面，爬取到章节页面后我们解析页面和标题保存到文件。

next_page = response.urljoin(url) yield scrapy.Request(next_page, callback=self.parse_chapter)

scrapy.Request 不同于使用 response.follow，需要通过相对路径构造出绝对路径，response.follow 可以直接使用相对路径，因此就不需要调用 urljoin 方法了。

注意，response.follow 直接返回一个 Request 实例，可以直接通过 yield 进行返回。

数据获取了之后是存储，由于我们要的是 html 页面，因此，我们就按标题存储即可，代码如下：

def parse_chapter(self, response): title = response.xpath('//div[@class="main-text-wrap"]//h3[@class="j_chapterName"]/text()').extract_first().strip() content = response.xpath('//div[@class="main-text-wrap"]//div[@class="read-content j_readContent"]').extract_first().strip() # print title # print content filename = './down/%s.html' % (title) with open(filename, 'wb') as f: f.write(content.encode('utf-8')) pass

至此，我们已经成功的抓取到了我们的数据，但还不能直接使用，需要整理和优化。

2.8 数据整理

首先，我们爬取下来的章节页面排序不是很好，如果人工去排需要太多的时间精力；另外，章节内容包含许多额外的东西，阅读体验不好，我们需要优化内容的排版和可读性。

我们先给章节排个序，因为目录中的章节列表是按顺序排列的，所以只需要给下载页面名称添加一个顺序号就行了。

可是保存网页的代码是回调函数，顺序只是在处理目录的时候能确定，回调函数怎么能知道顺序呢？因此，我们要告诉回调函数它处理章节的顺序号，我们要给回调函数传参，修改后的代码是这样的：

def parse(self, response): pages = response.xpath('//div[@id="j-catalogWrap"]//ul[@class="cf"]/li') for page in pages: url = page.xpath('./child::a/attribute::href').extract_first() idx = page.xpath('./attribute::data-rid').extract_first() # yield scrapy.Request('https:' + url, callback=self.parse_chapter) req = response.follow(url, callback=self.parse_chapter) req.meta['idx'] = idx yield req pass def parse_chapter(self, response): idx = response.meta['idx'] title = response.xpath('//div[@class="main-text-wrap"]//h3[@class="j_chapterName"]/text()').extract_first().strip() content = response.xpath('//div[@class="main-text-wrap"]//div[@class="read-content j_readContent"]').extract_first().strip() # print title # print content filename = './down/%s_%s.html' % (idx, title) cnt = '

%s

%s' % (title, content) with open(filename, 'wb') as f: f.write(cnt.encode('utf-8')) pass

不知道大家注意到没有，前面的分析中目录已经提供了一个data_rid可以作为排序号，我们在目录分析页面获取这个序号，然后通过 request 的 meta 传入parse_chapter。

在parse_chapter中通过 response 的 meta 获取传入的参数，然后文件名中加入这个顺序好完成了排序。另外，Sigil 找那个通过 H1 标签来生成目录，需要目录的话，我们需要给内容添加一个 h1 标签。

还有可读性差的问题，也许我们下载的网页可能会包含一些乱七八糟的东西，我们有很多办法，也可以使用 readbility 等第三方库，这里就不深入了。

3 使用 Sigil 制作电子书

电子书的制作，完全就是工具的应用，非常简单，这里把流程过一下，大家根据兴趣自行深入。

3.1 Sigil 简介

Sigil 是一个多平台的 ePub 电子书编辑器。官方网站：https://sigil-ebook.com/，下载页面在 https://github.com/Sigil-Ebook/Sigil/releases，根据自己的需求下载，安装很简单就不啰嗦了。

3.2 ePub 电子书简介

ePub（Electronic Publication 的缩写，意为：电子出版），是一个自由的开放标准，属于一种可以 “自动重新编排” 的内容；也就是文字内容可以根据阅读设备的特性，以最适于阅读的方式显示。

ePub 档案内部使用了 XHTML 或 DTBook （一种由 DAISY Consortium 提出的 XML 标准）来展现文字、并以 zip 压缩格式来包裹档案内容。EPub 格式中包含了数位版权管理（DRM）相关功能可供选用。

3.3 加载 html 文件

要制作 ePub 电子书，我们首先通过 Sigil 把我们的抓取的文件加载到程序中，在添加文件对话框中我们全选所有文件：

内容都是 HTML 文件，所以编辑、排版什么的学习下 HTML。

3.4 制作目录

文件中存在 HTML 的 h 标签时，点击生成目录按钮就可以自动生成目录，我们在前面数据抓取时已经自动添加了 h1 标签：

3.5 制作封面

封面本质上也是 HTML，可以编辑，也可以从页面爬取，就留给大家自己实现吧。

3.6 编辑元数据

编辑书名、作者等信息：

3.6 输出 ePub

编辑完成后保存，取个名字：

输出可以使用电子书阅读软件打开查看，我用的是 Calibre，还可以方便的转换为相应的格式装到 Kindle 中阅读。

整个过程就结束了，文章内代码提交到码云：https://goo.gl/yjGizR，接下来自由发挥，请开始你的表演。

参考资料

爬虫 Scrapy 学习系列之一：Tutorial：https://goo.gl/LwqouP。

近期热文

《作为面试官，如何考察工程师的软素质》

《谈谈 Java 内存模型》

《Jenkins 与 GitLab 的自动化构建之旅》

《通往高级 Java 开发的必经之路》

《谈谈源码泄露 · WEB 安全》

《用 LINQ 编写 C# 都有哪些一招必杀的技巧？》

《机器学习面试干货精讲》

「阅读原文」看交流实录，你想知道的都在这里

你可能感兴趣的:(如何用 Python 爬取网页制作电子书)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
下载github patch到本地小米人er 我的博客 git patch
以下是几种从GitHub上下载以.patch结尾的补丁文件的方法：通过浏览器直接下载打开包含该.patch文件的GitHub仓库。在仓库的文件列表中找到对应的.patch文件。点击该文件，浏览器会显示文件的内容，在页面的右上角通常会有一个“Raw”按钮，点击它可以获取原始文件内容。然后在浏览器中使用快捷键（如Ctrl+S或者Command+S）将原始文件保存到本地，选择保存的文件名并确保后缀为.p
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
2020-12-16 长寿富贵
9：56不知今天哪位亲来说说话呀？成萌：尽尽皆是道。道道皆相同。不解呀？成萌：郁郁不得志，混混过日子。哦……说谁的呀？成萌：说自己呀……还能说谁呢？那如何办呢？成萌：回头……如何回头？成萌：回见心源。如何回见心源？成萌：不追不随诸相迁，如如不动在心田。啊？成萌：慢慢守心吧。
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Rust基础知识 GRKF15 rust 开发语言后端
1.Rust语言简介1.1基础语法变量声明：let关键字用于声明变量，可以指定或不指定类型，如leta=10;和letmutc=30i32;。函数定义：使用fn关键字定义函数，并指定参数类型及返回类型，如fnadd(i:i32,j:i32)->i32{i+j}。控制流：包括if、else等，控制语句后需要使用;来结束语句。1.2数据类型整数类型：i8、i16、i32、i64、i128，以及无符号的
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本