Python_sn

Python爬虫入门基础及正则表达式抓取博客案例分享

文章目录

一.什么是网络爬虫
二.正则表达式
- 1.re模块
- 2.complie方法
- 3.match方法
- 4.search方法
- 5.group和groups方法
三.Python网络数据爬取的常用模块
- 1.urllib模块
- 2.urlparse模块
四.正则表达式抓取网络数据的常见方法
- 1.抓取标签间的内容
- 2.爬取标签中的参数
- 3.字符串处理及替换
五.个人博客爬取实例
- 1.分析过程
- 2.代码实现
六.总结

很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！??¤
QQ群：623406465

一.什么是网络爬虫

随着互联网的迅速发展，万维网成为大量信息的载体，越来越多的网民可以通过互联网获取所需的信息，同时如何有效地提取并利用这些信息也成为了一个巨大的挑战。搜索引擎（Search Engine）作为辅助人们检索信息的工具，它成为了用户访问万维网的入口和工具，常见的搜索引擎比如Google、Yahoo、百度、搜狗等。但是，这些通用性搜索引擎也存在着一定的局限性，比如搜索引擎返回的结果包含大量用户不关心的网页；再如它们是基于关键字检索，缺乏语义理解，导致反馈的信息不准确；通用的搜索引擎无法处理非结构性数据，图片、音频、视频等复杂类型的数据。

为了解决上述问题，定向抓取相关网页资源的网络爬虫应运而生，下图是Google搜索引擎的架构图，它从万维网中爬取相关数据，通过文本和连接分析，再进行打分排序，最后返回相关的搜索结果至浏览器。同时，现在比较热门的知识图谱也是为了解决类似的问题而提出的。

网络爬虫又被称为网页蜘蛛或网络机器人，它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫不同，定向爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。

网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

数据分析通常包括前期准备、数据爬取、数据预处理、数据分析、可视化绘图及分析评估六个步骤，如下图所示。其中数据爬取主要划分为四个步骤：

需求分析。首先需要分析网络数据爬取的需求，了解所爬取主题的网址、内容分布，所获取语料的字段、图集等内容。
技术选择。网页抓取技术可以通过Python、Java、C++、C#等不同编程语言实现，主要涉及的技术包括：Urllib库、正则表达式、Selenium、BeautifulSoup、Scrapy等技术。
网页抓取。确定好爬取技术后，需要分析网页的DOM树结构，通过XPATH技术定位网页所爬取内容的节点，再抓取数据；同时，部分网站涉及到页面跳转、登录验证等。
存储技术。数据存储技术主要是存储爬取的数据信息，主要包括SQL数据库、纯文本格式、CSV\XLS文件等。

作者希望大家能从基础跟着我学习Python知识，最后能抓取你需要的数据集并进行深入的分析，一起加油吧！

二.正则表达式

正则表达式是用于处理字符串的强大工具，通常被用来检索、替换那些符合某种规则的文本。这篇文章首先引入正则表达式的基本概念，然后讲解其常用的方法，并结合Python网络数据爬取常用模块和常见正则表达式的网站分析方法进行讲解，最后使用正则表达式爬取了个人博客网站。

正则表达式（Regular Expression，简称Regex或RE）又称为正规表示法或常规表示法，常常用来检索、替换那些符合某个模式的文本，它首先设定好了一些特殊的字符及字符组合，通过组合的“规则字符串”来对表达式进行过滤，从而获取或匹配我们想要的特定内容。它非常灵活，其逻辑性和功能性也非常强，并能迅速地通过表达式从字符串中找到所需信息，但对于刚接触的人来说，比较晦涩难懂。

由于正则表达式主要应用对象是文本，因此它在各种文本编辑器中都有应用，小到著名编辑器EditPlus，大到Microsoft Word、Visual Studio等大型编辑器，都可以使用正则表达式来处理文本内容。

1.re模块

Python通过re模块提供对正则表达式的支持，但在使用正则表达式之前需要导入re模块，才能调用该模块的功能函数。

import re

其基本步骤是先将正则表达式的字符串形式编译为Pattern实例，然后使用Pattern实例处理文本并获得一个匹配（match）实例，再使用match实例获得所需信息。常用的函数是findall，原型如下：

findall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags])

该函数表示搜索字符串string，以列表形式返回全部能匹配的子串。其中参数re包括三个常见值，每个常见值括号内的内容是完整的写法。

re.I(re.IGNORECASE)：使匹配忽略大小写
re.M(re.MULTILINE)：允许多行匹配
re.S(re.DOTALL)：匹配包括换行在内的所有字符

Pattern对象是一个编译好的正则表达式，通过Pattern提供的一系列方法可以对文本进行匹配查找。Pattern不能直接实例化，必须使用re.compile()进行构造。

2.complie方法

re正则表达式模块包括一些常用的操作函数，比如complie()函数。其原型如下：

compile(pattern[,flags] )

该函数根据包含正则表达式的字符串创建模式对象，返回一个pattern对象。参数flags是匹配模式，可以使用按位或“|”表示同时生效，也可以在正则表达式字符串中指定。Pattern对象是不能直接实例化的，只能通过compile方法得到。

简单举个实例，使用正则表达式获取字符串中的数字内容，如下所示：

>>> import re
>>> string="A1.45，b5，6.45，8.82"
>>> regex = re.compile(r"\d+\.?\d*")
>>> print regex.findall(string)
['1.45', '5', '6.45', '8.82']
>>>

3.match方法

match方法是从字符串的pos下标处起开始匹配pattern，如果pattern结束时已经匹配，则返回一个match对象；如果匹配过程中pattern无法匹配，或者匹配未结束就已到达endpos，则返回None。该方法原型如下：

match(string[, pos[, endpos]]) | re.match(pattern, string[, flags])
参数string表示字符串；pos表示下标，pos和endpos的默认值分别为0和len(string)；参数flags用于编译pattern时指定匹配模式。

4.search方法

search方法用于查找字符串中可以匹配成功的子串。从字符串的pos下标处尝试匹配pattern，如果pattern结束时仍可匹配，则返回一个match对象；若pattern结束时仍无法匹配，则将pos加1后重新尝试匹配；直到pos=endpos时仍无法匹配则返回None。函数原型如下：

search(string[, pos[, endpos]]) | re.search(pattern, string[, flags])
参数string表示字符串；pos表示下标，pos和endpos的默认值分别为0和len(string))；参数flags用于编译pattern时指定匹配模式。

5.group和groups方法

group([group1, …])方法用于获得一个或多个分组截获的字符串，当它指定多个参数时将以元组形式返回，没有截获字符串的组返回None，截获了多次的组返回最后一次截获的子串。groups([default])方法以元组形式返回全部分组截获的字符串，相当于多次调用group，其参数default表示没有截获字符串的组以这个值替代，默认为None。

三.Python网络数据爬取的常用模块

本小节介绍Python网络数据爬取的常用模块或库，主要包括urlparse模块、urllib模块、urllib2模块和requests模块，这些模块中的函数都是基础知识，但也非常重要。

1.urllib模块

本书首先介绍Python网络数据爬取最简单并且应用比较广泛的第三方库函数urllib。urllib是Python用于获取URL（Uniform Resource Locators，统一资源定址器）的库函数，可以用来抓取远程数据并保存，甚至可以设置消息头（header）、代理、超时认证等。

urllib模块提供的上层接口让我们像读取本地文件一样读取www或ftp上的数据。它比C++、C#等其他编程语言使用起来更方便。其常用的方法如下：

urlopen
urlopen(url, data=None, proxies=None)

该方法用于创建一个远程URL的类文件对象，然后像本地文件一样操作这个类文件对象来获取远程数据。参数url表示远程数据的路径，一般是网址；参数data表示以post方式提交到url的数据；参数proxies用于设置代理。urlopen返回一个类文件对象。urlopen提供了如下表所示。

注意，在Python中我们可以导入相关扩展包，通过help函数查看相关的使用说明，如下图所示。

下面通过一个实例讲述Urllib库函数爬取百度官网的实例。

# -*- coding:utf-8 -*-
import urllib.request
import webbrowser as web  

url = "http://www.baidu.com"
content = urllib.request.urlopen(url)

print(content.info())     #头信息
print(content.geturl())   #请求url
print(content.getcode())  #http状态码

#保存网页至本地并通过浏览器打开
open("baidu.html","wb").write(content.read())
web.open_new_tab("baidu.html")

该段调用调用urllib.urlopen(url)函数打开百度链接，并输出消息头、url、http状态码等信息，如下图所示。

代码import webbrowser as web引用webbrowser第三方库，然后可以使用类似于“module_name.method”调用对应的函数。open().write()表示在本地创建静态的baidu.html文件，并读取已经打开的百度网页内容，执行文件写操作。web.open_new_tab(“baidu.html”)表示通过浏览器打开已经下载的静态网页新标签。其中下载并打开的百度官网静态网页“baidu.html”文件如下图所示。

同样可以使用web.open_new_tab(“http://www.baidu.com”)在浏览器中直接打开在线网页。

urlretrieve
urlretrieve(url, filename=None, reporthook=None, data=None)

urlretrieve方法是将远程数据下载到本地。参数filename指定了保存到本地的路径，如果省略该参数，urllib会自动生成一个临时文件来保存数据；参数reporthook是一个回调函数，当连接上服务器，相应的数据块传输完毕时会触发该回调，通常使用该回调函数来显示当前的下载进度；参数data指传递到服务器的数据。下面通过例子来演示将新浪首页网页抓取到本地，保存在“D:/sina.html”文件中，同时显示下载进度。

# -*- coding:utf-8 -*-
import urllib.request
   
# 函数功能：下载文件至本地，并显示进度
# a-已经下载的数据块, b-数据块的大小, c-远程文件的大小
def Download(a, b, c):
    per = 100.0 * a * b / c
    if per > 100:
        per = 100
    print('%.2f' % per)
url = 'http://www.sina.com.cn'
local = 'd://sina.html'
urllib.request.urlretrieve(url, local, Download)

上面介绍了urllib模块中常用的两个方法，其中urlopen()用于打开网页，urlretrieve()方法是将远程数据下载到本地，主要用于爬取图片。注意，Python2可以直接引用，而Python3需要通过urllib.request调用。

# -*- coding:utf-8 -*-
import urllib.request

url = 'https://www.baidu.com/img/PCtm_d9c8750bed0b3c7d089fa7d55720d6cf.png'
local = 'baidu.png'
urllib.request.urlretrieve(url, local)

抓取百度logo图片如下图所示：

2.urlparse模块

urlparse模块主要是对url进行分析，其主要操作是拆分和合并url各个部件。它可以将url拆分为6个部分，并返回元组，也可以把拆分后的部分再组成一个url。主要有函数有urljoin、urlsplit、urlunsplit、urlparse等。

urlparse
urlparse.urlparse(urlstring[, scheme[, allow_fragments]])

该函数将urlstring值解析成6个部分，从urlstring中取得url，并返回元组(scheme, netloc, path, params, query, fragment)。该函数可以用来确定网络协议（HTTP、FTP等）、服务器地址、文件路径等。实例代码如下所示。

# coding=utf-8
from urllib.parse import urlparse
url = urlparse('http://www.eastmount.com/index.asp?id=001')

print(url)          #url解析成六部分
print(url.netloc)   #输出网址

输出如下所示，包括scheme、netloc、path、params、query、fragment六部分内容。

>>> 
ParseResult(
	scheme='http', 
	netloc='www.eastmount.com', 
	path='/index.asp', 
	params='', 
	query='id=001', 
	fragment=''
)
www.eastmount.com
>>>

同样可以调用urlunparse()函数将一个元组内容构建成一条Url。函数如下：

urlunparse
urlparse.urlunparse(parts)

该元组类似urlparse函数，它接收元组(scheme, netloc, path, params, query, fragment)后，会重新组成一个具有正确格式的url，以便供Python的其他HTML解析模块使用。示例代码如下：

# coding=utf-8
import urllib.parse
url = urllib.parse.urlparse('http://www.eastmount.com/index.asp?id=001')

print(url)           #url解析成六部分
print(url.netloc)    #输出网址

#重组URL
u = urllib.parse.urlunparse(url)
print(u)

输出如下图所示。

四.正则表达式抓取网络数据的常见方法

接着介绍常用的正则表达式抓取网络数据的一些技巧，这些技巧都是来自于作者自然语言处理和数据抓取的项目经验，可能不是很系统，但也希望能给读者提供一些抓取数据的思路，从而更好地解决一些实际问题。

1.抓取标签间的内容

HTML语言是采用标签对的形式来编写网站的，包括起始标签和结束标签，比如< head>、< tr>、< script>< script>等。下面讲解抓取标签对之间的文本内容，比如抓取< title>Python标签对之间的“Python”内容。

(1) 抓取title标签间的内容

'(.*?)'

首先我们可以采用该正则表达式来抓取起始标签< title >和结束标签< /title >之间的内容，“(.*?)”就代表着我们需要抓取的内容。下面这段代码是爬取百度官网的标题，即“百度一下，你就知道”。

# coding=utf-8  
import re  
import urllib.request
url = "http://www.baidu.com/"  
content = urllib.request.urlopen(url).read()
title = re.findall(r'(.*?)', content.decode('utf-8'))
print(title[0])
# 百度一下，你就知道

代码调用urllib库的urlopen()函数打开超链接，并调用正则表达式re库中的findall()函数寻找title标签间的内容。由于findall()函数是获取所有满足该正则表达式的文本，这里只需要输出第一个值title[0]即可。注意，Python3需要转换utf8编码，否则会报错。

下面讲解另一种方法，用来获取标题起始标签（< title>）和结束标签（）之间的内容，同样输出百度官网标题“百度一下，你就知道”。

# coding=utf-8  
import re  
import urllib.request

url = "http://www.baidu.com/"  
content = urllib.request.urlopen(url).read()
pat = r'(?<=).*?(?=)'    
ex = re.compile(pat, re.M|re.S)
obj = re.search(ex, content.decode('utf-8'))
title = obj.group()  
print(title)
# 百度一下，你就知道

2.抓取超链接标签间的内容
在HTML中，< a href=url>超链接标题用于标识超链接，下面的代码用于获取完整的超链接，同时获取超链接< a>和之间的标题内容。

# coding=utf-8  
import re  
import urllib.request
url = "http://www.baidu.com/"  
content = urllib.request.urlopen(url).read()

#获取完整超链接
res = r""
urls = re.findall(res, content.decode('utf-8'))
for u in urls:
    print(u)

#获取超链接和之间内容
res = r'(.*?)'  
texts = re.findall(res, content.decode('utf-8'), re.S|re.M)  
for t in texts:
    print(t)

输出结果部分内容如下所示，这里如果采用“print(u)”或“print(t)”语句直接输出结果。

3.抓取tr标签和td标签间的内容
网页常用的布局包括table布局或div布局，其中table表格布局中常见的标签包括tr、th和td，表格行为tr（table row），表格数据为td（table data），表格表头为th（table heading）。那么如何抓取这些标签间的内容呢？下面是获取它们之间内容的代码。假设存在HTML代码如下所示：

学号	姓名
1001	杨秀璋
1002	燕娜

运行结果如下图所示：

正则表达式爬取tr、th、td标签之间内容的Python代码如下。

# coding=utf-8  
import re
import urllib.request
content = urllib.request.urlopen("test.html").read() #打开本地文件

#获取间内容
res = r'(.*?)'
texts = re.findall(res, content.decode('utf-8'), re.S|re.M)
for m in texts:
    print(m)

#获取间内容
for m in texts:
    res_th = r'(.*?)'
    m_th = re.findall(res_th, m, re.S|re.M)
    for t in m_th:
        print(t)

#直接获取间内容
res = r'(.*?)(.*?)'    
texts = re.findall(res, content.decode('utf-8'), re.S|re.M)
for m in texts:
    print(m[0],m[1])

输出结果如下，首先获取tr之间的内容，然后再在tr之间内容中获取< th>和之间值，即“学号”、“姓名”，最后是获取两个< td>和之间的内容。注意，Python3解析本地文件可能会出错，掌握方法更重要。

如果包含属性值，则正则表达式修改为“< td id=.?>(.?)”。同样，如果不一定是id属性开头，则可以使用正则表达式“?>(.?)”。

2.爬取标签中的参数

(1) 抓取超链接标签的url
HTML超链接的基本格式为“< a href=url>链接内容”，现在需要获取其中的url链接地址，方法如下：

# coding=utf-8  
import re

content = '''
新闻
hao123
地图
视频
'''

res = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
urls = re.findall(res, content, re.I|re.S|re.M)
for url in urls:
    print(url)

输出内容如下：

2.抓取图片超链接标签的url
在HTML中，我们可以看到各式各样的图片，其图片标签的基本格式为“< img src=图片地址 />”，只有通过抓取了这些图片的原地址，才能下载对应的图片至本地。那么究竟怎么获取图片标签中的原图地址呢？下面这段代码就是获取图片链接地址的方法。

content = ''''''
urls = re.findall('src="(.*?)"', content, re.I|re.S|re.M)
print urls
# ['http://www.yangxiuzhang.com/eastmount.jpg']

原图地址为“http://…/eastmount.jpg”，它对应一张图片，该图片是存储在“www.yangxiuzhang.com”网站服务器端的，最后一个“/”后面的字段为图片名称，即为“eastmount.jpg”。那么如何获取url中最后一个参数呢？

3.获取url中最后一个参数
在使用Python爬取图片过程中，通常会遇到图片对应的url最后一个字段用来命名图片的情况，如前面的“eastmount.jpg”，需要通过解析url“/”后面的参数来获取图片。

content = ''''''
urls = 'http://www..csdn.net/eastmount.jpg'
name = urls.split('/')[-1]  
print name
# eastmount.jpg

该段代码urls.split(’/’)[-1]表示采用字符“/”分割字符串，并且获取最后一个所获取的值，即为图片名称“eastmount.jpg”。

3.字符串处理及替换

在使用正则表达式爬取网页文本时，通常需要调用find()函数找到指定的位置，再进行进一步爬取，比如获取class属性为“infobox”的表格table，再进行定位爬取。

start = content.find(r'')                  #终点位置
infobox = text[start:end]    
print infobox
同时，爬取过程中可能会爬取到无关变量，此时需要对无关内容进行过滤，这里推荐使用replace函数和正则表达式进行处理。比如爬取内容如下所示：
 # coding=utf-8  
import re

content = '''

'''

res = r''    
texts = re.findall(res, content, re.S|re.M)
for m in texts:
    print(m[0],m[1])
输出内容如下所示：
此时需要过滤多余字符串，如换行（< br />）、空格（& nbsp;）、加粗（< B>），过滤代码如下：
# coding=utf-8  
import re
content = '''

'''
res = r''    
texts = re.findall(res, content, re.S|re.M)
for m in texts:
    value0 = m[0].replace('
', '').replace(' ', '')
    value1 = m[1].replace('
', '').replace(' ', '')
    if '' in value1:
        m_value = re.findall(r'(.*?)', value1, re.S|re.M)
        print(value0, m_value[0])
    else:
        print(value0, value1)
采用replace将字符串“< br />”和“’& nbsp;”替换成空白，实现过滤，而加粗（< B>）需要使用正则表达式过滤。输出结果如下：
五.个人博客爬取实例
 
   切记：这个例子可能不是非常好，但是作为入门及正则表达式结合挺好的。刚开始学习Python网络爬虫不要嫌麻烦，只有通过类似的训练，以后面对类似的问题你才会得心应手，更好的抓取需要的数据。 
  
1.分析过程
在讲述了正则表达式、常用网络数据爬取模块、正则表达式爬取数据常见方法等内容之后，我们将讲述一个简单的正则表达式爬取网站的实例。这里讲解使用正则表达式爬取作者个人博客网站的简单示例，获取所需内容。
作者的个人网址“http://www.eastmountyxz.com/”打开如图所示。假设现在需要爬取的内容如下：
 
   博客网址的标题（title）内容 
   爬取所有图片的超链接，比如爬取< img src=”xxx.jpg” />中的“xxx.jpg” 
   分别爬取博客首页中的四篇文章的标题、超链接及摘要内容，比如标题为“再见北理工：忆北京研究生的编程时光”。 
  
 
第一步 浏览器源码定位
 首先通过浏览器定位需要爬取元素的源代码，比如文章标题、超链接、图片等，发现这些元素对应HTML源代码存在的规律，这称为DOM树文档节点分析。通过浏览器打开网页，选中需要爬取的内容，右键鼠标并点击“审查元素”或“检查”，即可找到所需爬取节点对应的HTML源代码，如图所示。
标题“再见北理工：忆北京研究生的编程时光”位于< div class=”essay”>节点下，它包括一个< h1>记录标题，一个< p>记录摘要信息，即：

 这里需要通过网页标签的属性和属性值来标记爬虫节点，即找到class属性为“essay”的div，就可以定位第一篇文章的位置。同理，其余三篇文章为< div class=”essay1”>、< div class=”essay2”>和< div class=”essay3”>，定位这些节点即可。
第二步 正则表达式爬取标题
 网站的标题通常位于< head>< title>…之间，该网站标题HTML代码如下：

   
   秀璋学习天地
   ....

爬取博客网站的标题“秀璋学习天地”的方法是通过正则表达式“< title>(.*?)”实现，代码如下，首先通过urlopen()函数访问博客网址，然后定义正则表达式爬取。
import re
import urllib.request

url = "http://www.eastmountyxz.com/"
content = urllib.request.urlopen(url).read()
title = re.findall(r'(.*?)', content.decode('utf-8'))
print(title[0])
输出结果如下图所示：
第三步 正则表达式爬取所有图片地址
 由于HTML插入图片标签格式为“< img src=图片地址 />”，则使用正则表达式获取图片地址的方法为：获取以“src=”开头，以双引号结尾的内容即可。代码如下：
import re
import urllib.request

url = "http://www.eastmountyxz.com/"
content = urllib.request.urlopen(url).read()
urls = re.findall(r'src="(.*?)"', content.decode('utf-8'))
for url in urls:
    print(url)
输出的结果如下所示，共显示了6张图片。
需要注意：这里的每张图片都省略了博客地址：
 
   http://www.eastmountyxz.com/ 
  
我们需要对所爬取的图片地址进行拼接，增加原博客地址拼成完整的图片地址，再进行下载，并且该地址通过浏览器可以直接访问查看。如:
 
   http://www.eastmountyxz.com/images/11.gif 
  
第四步 正则表达式爬取博客内容
 前面第一步讲述了如何定位四篇文章的标题，第一篇文章位于< div class=”essay”>和标签之间，第二篇位于< div class=”essay1”>和，依次类推。但是该HTML代码存在一个错误：class属性通常表示一类标签，它们的值都应该是相同的，所以这四篇文章的class属性都应该是“essay”，而name或id才是用来标识标签的唯一属性。
这里使用find(’< div class=“essay” >’)函数来定位第一篇文章的起始位置，使用find(’< div class=“essay1” >’)函数来定位第一篇文章的结束位置，从而获取< div class=”essay”>到之间的内容。比如获取第一篇文章的标题和超链接代码如下：
import re
import urllib.request
url = "http://www.eastmountyxz.com/"
content = urllib.request.urlopen(url).read()
data = content.decode('utf-8')
start = data.find(r'')
end = data.find(r'')
print(data[start:end])
输出内容如下，获取第一篇博客的HTML源代码。
该部分代码分为三步骤：
 
   调用urllib库的urlopen()函数打开博客地址，并读取内容赋值给content变量。 
   调用find()函数查找特定的内容，比如class属性为“essay”的div标签，依次定位获取开始和结束的位置。 
   进行下一步分析，获取源码中的超链接和标题等内容。 
  
定位这段内容之后，再通过正则表达式获取具体内容，代码如下：
import re
import urllib.request

url = "http://www.eastmountyxz.com/"
content = urllib.request.urlopen(url).read()
data = content.decode('utf-8')

start = data.find(r'')
end = data.find(r'')
page = data[start:end]
                 
res = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
t1 = re.findall(res, page) #超链接
print(t1[0])
t2 = re.findall(r'(.*?)', page)  #标题
print(t2[0])
t3 = re.findall('(.*?)', page, re.M|re.S) #摘要
print(t3[0])
调用正则表达式分别获取内容，由于爬取的段落（P）存在换行内容，所以需要加入re.M和re.S支持换行查找，最后输出结果如下：
2.代码实现
完整代码如下：
#coding:utf-8
import re
import urllib.request

url = "http://www.eastmountyxz.com/"
content = urllib.request.urlopen(url).read()
data = content.decode('utf-8')

#爬取标题
title = re.findall(r'(.*?)', data)
print(title[0])

#爬取图片地址
urls = re.findall(r'src="(.*?)"', data)
for url in urls:
    print(url)

#爬取内容
start = data.find(r'')
end = data.find(r'')
page = data[start:end]           
res = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
t1 = re.findall(res, page)  #超链接
print(t1[0])
t2 = re.findall(r'(.*?)', page)  #标题
print(t2[0])
t3 = re.findall('(.*?)', page, re.M|re.S) #摘要
print(t3[0])
print('')

start = data.find(r'')
end = data.find(r'')
page = data[start:end]           
res = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
t1 = re.findall(res, page)  #超链接
print(t1[0])
t2 = re.findall(r'(.*?)', page)  #标题
print(t2[0])
t3 = re.findall('(.*?)', page, re.M|re.S) #摘要
print(t3[0])
输出结果如图所示。
通过上面的代码，读者会发现使用正则表达式爬取网站还是比较繁琐，尤其是定位网页节点时，后面将讲述Python提供的常用第三方扩展包，利用这些包的函数进行定向爬取。
六.总结
正则表达式是通过组合的“规则字符串”来对表达式进行过滤，从复杂内容中匹配想要的信息。它的主要对象是文本，适合于匹配文本字符串等内容，不适合匹配文本意义，比如匹配URL、Email这种纯文本的字符就非常适合。各种编程语言都能使用正则表达式，比如C#、Java、Python等。
正则表达式爬虫常用于获取字符串中的某些内容，比如提取博客阅读量和评论数的数字，截取URL域名或URL中某个参数，过滤掉特定的字符或检查所获取的数据是否符合某个逻辑，验证URL或日期类型等。由于其比较灵活、逻辑性和功能性较强的特点，使它能迅速地以极简单的方式从复杂字符串中达到匹配目的。
但它对于刚接触的人来说，正则表达式比较晦涩难懂；同时，通过它获取HTML中某些特定文本也比较困难，尤其是当网页HTML源代码中结束标签缺失或不明显的情况。接下来作者将讲述更为强大、智能的第三方爬虫扩展包，主要是BeautifulSoup和Selenium技术。

                    
                        
                        
                             
                        
                        
                        
                            
                        
                        
                        
                            
                        
                    
                

        你可能感兴趣的:(python,编程语言,Python爬虫,网络爬虫,Python编程)
        
            
                
                    深入Python闭包内存泄漏：从原理到实战修复指南
                        清水白石008
Python题库pythonpython开发语言
                        深入Python闭包内存泄漏：从原理到实战修复指南引言：闭包与内存管理的双重挑战在Python编程中，闭包（Closure）作为函数式编程的重要特性，被广泛应用于装饰器、回调函数等场景。然而，当闭包与类实例结合使用时，若处理不当极易引发内存泄漏问题。本文将通过一个典型案例，深入剖析闭包导致内存泄漏的机理，并演示从检测到修复的完整流程，最终提炼出防御性编程的最佳实践。一、内存泄漏闭包案例实录1.1典
                    
                    Python装饰器与闭包：实战应用与深入理解
                        

                        背景简介本章深入探讨了Python装饰器与闭包的核心概念，展示了它们在实际编程中的灵活应用和强大功能。装饰器的魔力：保持元数据与链式应用在Python中，装饰器是一种修改或增强函数行为的强大工具，它能够让我们在不改变原始函数代码的情况下，为其添加新功能。保持函数的元数据是装饰器的一个重要特性，它确保了装饰后的函数保持其身份和文档字符串信息。这对于代码的可读性和维护性至关重要。当需要将多个装饰器应用
                    
                    python闭包的应用场景_简单谈谈Python中的闭包
                        weixin_39587113
python闭包的应用场景
                        Python中的闭包前几天又有人留言，关于其中一个闭包和re.sub的使用不太清楚。我在脚本之家搜索了下，发现没有写过闭包相关的东西，所以决定总结一下，完善Python的内容。1.闭包的概念首先还得从基本概念说起，什么是闭包呢？来看下维基上的解释:在计算机科学中，闭包(Closure)是词法闭包(LexicalClosure)的简称，是引用了自由变量的函数。这个被引用的自由变量将和这个函数一同存在
                    
                    网络爬虫——python爬取豆瓣评论
                        SSeaflower
爬虫python开发语言
                        网络爬虫——python爬取豆瓣评论一、网络爬虫概述1.1网络爬虫定义网络爬虫，又被称为网络蜘蛛（WebSpider）、网络机器人等。它根据网页地址（URL）爬取网页内容，网页地址（URL）就是我们在浏览器中输入的网站链接。例如：https://www.baidu.com；https://movie.douban.com/。网络爬虫不仅能够复制网页信息和下载音视频，还可以做到网站的模拟登录和行为链
                    
                    Python 中的深拷贝、浅拷贝与等号赋值：理解对象复制的本质
                        小羊苏八
python开发语言
                        目录1.等号赋值（=）2.浅拷贝（copy.copy()）3.深拷贝（copy.deepcopy()）4.不可变对象与可变对象5.性能对比6.实际应用场景7.总结前言在Python中，对象的复制是一个常见的操作，但很多人对深拷贝、浅拷贝和等号赋值之间的区别感到困惑。本文将通过详细的示例和解释，帮助你深入理解这三种操作的本质和应用场景。1.等号赋值（=）在Python中，等号赋值是最基本的对象操作之
                    
                    Python中的分支结构
                        小羊苏八
#pythonpython开发语言
                        文章目录前言一、Python分支结构概述二、if语句详解三、if-else语句详解四、if-elif-else语句详解五、嵌套分支结构六、分支结构的注意事项七、实际应用场景八、总结前言在Python编程的世界里，分支结构如同现实中的道路岔口，根据不同的条件引导程序流向不同的执行路径。它是构建复杂逻辑、实现智能决策的关键所在。本文将带你全面了解Python的分支结构，从基础语法到实际应用，让你轻松掌
                    
                    标题 “Python 网络爬虫 —— selenium库驱动浏览器
                        WeiJingYu.
python爬虫selenium
                        一、Selenium库核心认知Selenium库是Web应用程序测试与自动化操作的利器，能驱动浏览器（如Edge、Firefox等）执行点击、输入、打开、验证等操作。与Requests库差异显著：Requests库仅能获取网页原始代码，而Selenium基于浏览器驱动程序工作，浏览器可渲染网页源代码，借此能轻松拿到渲染后的数据信息（如JS动态加载内容），完美解决Requests库无法处理的动态页面
                    
                    Python网络爬虫实现selenium对百度识图二次开发以及批量保存Excel
                        WeiJingYu.
python爬虫selenium
                        一.百度识图自动上传图片fromseleniumimportwebdriverfromselenium.webdriver.edge.optionsimportOptionsfromselenium.webdriver.common.byimportByedge_options=Options()edge_options.binary_location=r"C:\ProgramFiles(x86)
                    
                    Python关于操作文件夹的讲解——Python 操作文件和文件夹
                        WeiJingYu.
python开发语言
                        借助os库，可完成文件大小查询、文件/文件夹删除、重命名等操作，满足多样化文件管理需求。（一）查询文件大小os库path模块的getsize(path)方法，能获取指定路径文件占用内存大小，单位为字节。字节是计算机存储基本单位，常见存储单位换算关系如下：单位换算关系说明字节（Byte）1字节=8位（bit）存储基本单元千字节（KB）1KB=1024Byte日常文件大小常用表述兆字节（MB）1MB=
                    
                    Python 网络爬虫 —— 代理服务器
                        WeiJingYu.
爬虫服务器前端
                        一、会话（Session）（一）核心逻辑HTTP本身无记忆，每次请求独立。会话（Session）就是为解决这问题，让客户端（浏览器）和服务器“记住”交互状态（比如登录态），常用Cookie实现：服务器发Cookie给客户端存着，下次请求带着，服务器就知道“是同一用户”。（二）创建会话（requests实现）用requests库的Session类，自动维持会话、管理Cookie，代码形式：impor
                    
                    Python 中的闭包：原理、应用与实践
                        小羊苏八
python开发语言
                        目录前言1.什么是闭包？2.闭包的基本结构3.闭包的应用场景4.闭包的高级特性5.闭包的性能与内存管理6.闭包的实践案例7.总结前言在Python编程中，闭包是一个非常强大且灵活的特性。闭包允许嵌套函数访问外部函数的变量，即使外部函数已经返回。这种特性使得闭包在函数式编程、装饰器、回调函数等场景中非常有用。本文将通过详细的示例和解释，深入探讨Python中的闭包。1.什么是闭包？闭包（Closur
                    
                    python-第五课-绘线段、正方形
                        布口袋_天晴了

                        1.绘制第一个海龟图形A.课程内容：通过绘制线段和正方形来学习导入海归模块、创建画笔、移动和旋转画笔。通过绘制图形来学习python编程的基本方法。B.知识点(1)导入海龟绘图模块(2)创建画笔(3)向前移动(4)画笔旋转C.用到的基本指令(1)import(2)turtle.Pen()(3)forward()(4)right()海龟绘图(turle)是python内置的一个比较有趣味的模块。使用
                    
                    python爬虫技术——基础知识、实战
                        南瓜AI
python爬虫scrapy
                        参考文献：Python爬虫入门(一)（适合初学者）-CSDN博客一、常用爬虫工具包Scrapy语言:Python特点:高效、灵活的爬虫框架，适合大型爬虫项目。BeautifulSoup语言:Python特点:用于解析HTML和XML，简单易用。Selenium语言:Python/Java/C#特点:支持浏览器自动化，适合处理JavaScript渲染的网页。Requests语言:Python特点:简
                    
                    分享两个爬虫练习网站
                        高质量海王哦
爬虫爬虫python
                        Python爬虫案例|ScrapeCenterSpiderbuf|Python爬虫练习靶场
                    
                    Python之print打印
                        追捕的风
Python之数据处理python开发语言爬虫
                        python是一门脚本语言，少不了使用各种print打印调试，本文总结一下pythonprint打印的几种方法。1单独打印变量1.1只打印变量：方法：print(variable)示例：name="Mike"age=21print(name)print(age)输出：Mike211.2带其他信息：示例：name="Mike"age=21print('mynameis',name)print('my
                    
                    python3——print使用
                        weixin_30404405

                        print的初步认识：对于科班出身的或有相关经验的人来说，学习python是相当有趣的事,因为可以做日常任务，比如自动备份你的MP3；可以做网站，如YouTube就是Python写的；可以做网络游戏的后台，很多在线游戏的后台都是Python开发的；可以爬数据，得到你想要的内容。总之就是能干很多很多事啦。而对于非科班的我来说，学习python是非常辛苦的，从一行行print打印,到一个个关键字，从思
                    
                    DAY2——Python 基础变量类型之字符串和数字类型
                        .venn
PYTHON学习python开发语言算法
                        字符串类型（str）字符串是Python中最常用的数据类型之一，用于表示文本信息。字符串可以用单引号（''）、双引号（""）或三引号（''''''或""""""）定义。三引号通常用于多行字符串。字符串是不可变序列，支持索引和切片操作。以下是一些常见操作：#定义字符串s1='hello's2="world"s3='''Thisisamulti-linestring'''#字符串拼接combined=
                    
                    DAY4——Python 推导式及 常见语句和内置函数个人总结
                        

                        Python推导式Python推导式是一种简洁的语法结构，用于快速生成列表、字典、集合或生成器。推导式通常比传统的循环更高效且更易读。常见的推导式包括列表推导式、字典推导式、集合推导式和生成器推导式。列表推导式语法：[expressionforiteminiterableifcondition]示例：#生成平方数列表squares=[x**2forxinrange(10)]print(square
                    
                    对象的本质：OOP编程核心揭秘
                        止观止
计算机科学OOP面对对象编程
                        引言面向对象编程（OOP）革命性地重塑了软件开发，其核心在于“对象”——一种模拟现实实体的计算模型。对象不仅是数据容器，更是封装了状态和行为的自治单元，使程序从指令序列转变为交互网络。通过本解析，我们将层层递进，揭示对象在OOP中的根本角色：从定义延伸到设计实践，帮助读者跨越语言差异（如Java、Python或C++），掌握这一范式的精髓。章节构建遵循技术演进：先解剖对象本质，再关联OOP支柱，最
                    
                    python怎么打印
                        _python大神_
pythonpython
                        python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？py
                    
                    报错解决：/usr/bin/python^M: bad interpreter: No such file or directory
                        KimmyDs
linux运维服务器
                        报错问题分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh.py文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。一般是因为windows行结尾和linux行结尾标识不同造成的。问题解决：1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具先将脚本编码转换，再放到Linux中执行。转换方式如下（UltraEdit）：File-->
                    
                    Python 高手编程系列三千三百五十四：你自己的包索引或索引镜像
                        杨琴1
pythonjava网络
                        你可能会想要运行你自己的Python包索引，主要有以下3个原因。●官方的Python包索引没有任何可用性保证。它由Python软件基金会运行，这要感谢大量的捐款。因此，它往往意味着网站可能会倒闭。你不希望由于PyPI的故障而中途停止部署或打包过程。●即使是不会公开发布的闭源代码，将Python编写的可复用组件正确打包也很有用。它简化了代码库，因为公司内用于不同项目的包不需要供应（vendored）
                    
                    DAY3——PYTHON——复合类型之序列类型、映射类型和集合类型总结
                        .venn
PYTHON学习python复合类型可变序列
                        序列类型序列类型是元素有序排列的数据结构，可通过索引访问元素。有三种基本序列类型：list,tuple和range对象；列表是可变的，支持增删改操作；元组是不可变的，创建后不能修改；列表（List）概念List（列表）是Python中一种有序、可变的数据结构，可以存储不同类型的元素。列表用方括号[]表示，元素之间用逗号分隔。my_list=[1,"apple",3.14,True]创建List列表
                    
                    Python 高手编程系列三千三百五十三：十二要素应用
                        

                        无痛部署的主要要求是确保构建应用的过程尽可能简单和流畅。这主要是清除障碍并鼓励成熟的做法。在有些组织中，只有特定的人负责开发（开发团队，Dev），而不同的人负责部署和维护执行环境（运营团队，Ops），那么遵守这些常见做法就特别重要。与服务器维护、监控、部署、配置等相关的所有任务都统称为运营（operations）。即使在某些组织中没有单独的运营团队，通常也只有一部分开发人员被授权执行部署任务并维护
                    
                    Python 生物信息学秘籍第三版（四）
                        绝不原创的飞龙
默认分类默认分类
                        原文：annas-archive.org/md5/9694cf42f7d741c69225ff1cf52b0efe译者：飞龙协议：CCBY-NC-SA4.0第十一章：生物信息学中的机器学习机器学习在许多不同的领域中都有应用，计算生物学也不例外。机器学习在该领域有着无数的应用，最古老且最为人熟知的应用之一就是使用主成分分析（PCA）通过基因组学研究种群结构。随着该领域的蓬勃发展，还有许多其他潜在的应
                    
                    AI人工智能中Actor - Critic算法的深入解析与应用场景
                        AI智能探索者
AIAgent智能体开发实战人工智能算法ai
                        AI人工智能中Actor-Critic算法的深入解析与应用场景关键词：Actor-Critic、强化学习、策略梯度、价值函数、深度强化学习、马尔可夫决策过程、A2C/A3C摘要：本文将深入解析Actor-Critic算法的核心原理，从基础概念到数学推导，再到实际应用场景。我们将通过生动的比喻解释这一强化学习中的重要算法，展示其Python实现代码，并探讨它在游戏AI、机器人控制等领域的应用。最后，
                    
                    AI人工智能领域Actor - Critic算法的可视化分析
                        AI智能探索者
AIAgent智能体开发实战人工智能算法ai
                        AI人工智能领域Actor-Critic算法的可视化分析关键词：Actor-Critic算法、强化学习、策略梯度、价值函数、可视化分析、神经网络、马尔可夫决策过程摘要：本文深入浅出地讲解Actor-Critic算法的核心原理，通过生活化的比喻和可视化分析，帮助读者理解这一强化学习中的重要算法。我们将从基础概念入手，逐步剖析算法架构，并通过Python代码实现和可视化演示，展示算法在实际问题中的应用
                    
                    如何用深度学习实现图像风格迁移
                        

                        最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。前言图像风格迁移是人工智能领域中一个非常有趣且富有创意的应用。它能够让一张普通的照片瞬间变成梵高笔下的《星月夜》风格，或者像莫奈的《睡莲》一样充满艺术感。这种技术不仅在
                    
                    python安装火山引擎volcengine-python-sdk环境遇到的问题
                        

                        安装环境的时候遇到安装volcengine-python-sdk(setup.py)报错Buildingwheelforvolcengine-python-sdk(setup.py)...errorerror:subprocess-exited-with-error×pythonsetup.pybdist_wheeldidnotrunsuccessfully.│exitcode:1╰─>[3791
                    
                    ROS2 视频采集节点实现
                        ZPC8210
ROS音视频
                        一个完整的ROS2视频采集节点的实现，使用OpenCV进行视频捕获并通过ROS2发布图像消息。1.创建功能包首先创建一个新的ROS2功能包（如果还没有）：bashros2pkgcreatevideo_capture--build-typeament_python--dependenciesrclpysensor_msgscv_bridgeopencv-python2.实现视频采集节点在video_
                    
                                mondb入手
                                    木zi_鸣
mongodb
                                    windows 启动mongodb  编写bat文件， 
 
mongod --dbpath D:\software\MongoDBDATA 
mongod --help  查询各种配置 
配置在mongob 
 
打开批处理，即可启动，27017原生端口，shell操作监控端口  扩展28017，web端操作端口 
 
启动配置文件配置， 
 
数据更灵活 
                                
                                大型高并发高负载网站的系统架构
                                    bijian1013
高并发负载均衡
                                            扩展Web应用程序 
一.概念 
        简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 
        1.
                                
                                DISPLAY变量和xhost(原创)
                                    czmmiao
display
                                    DISPLAY 
在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
                                
                                获取B/S客户端IP
                                    周凡杨
java编程jspWeb浏览器
                                       最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： 
   String ip = InetAddress.getLocalHost().getHostAddress(); 
然而对于WEB
                                
                                浅谈类和对象
                                    朱辉辉33
编程
                                        类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的， 
占用存储空间。 
    类是由属性和方法构成的，基本格式是public  class 类名{ 
 
 //定义属性 
 private/public 数据类型 属性名； 
 
 //定义方法 
 publ
                                
                                android activity与viewpager+fragment的生命周期问题
                                    肆无忌惮_
viewpager
                                    有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。 
第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 
		super.onResume();
		bindService(intent, conn, BIND_AUTO_CREATE);

                                
                                base64Encode对图片进行编码
                                    843977358
base64图片encoder
                                    /**
	 * 对图片进行base64encoder编码
	 * 
	 * @author mrZhang
	 * @param path
	 * @return
	 */
	public static String encodeImage(String path) {
		BASE64Encoder encoder = null;
		byte[] b = null;
		I
                                
                                Request Header简介
                                    aigo
servlet
                                    当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request   Header)   用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：    
                                
                                HttpClient4.3 创建SSL协议的HttpClient对象
                                    alleni123
httpclient爬虫ssl
                                    public class HttpClientUtils
{
	public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){
		SSLContext sslContext=null;
		
		try
		{
			sslContext=new SSLContextBuilder().l
                                
                                java取反 -右移-左移-无符号右移的探讨
                                    百合不是茶
位运算符 位移
                                    取反：
		在二进制中第一位，1表示符数，0表示正数
		byte a = -1;
		原码：10000001
		反码：11111110
		补码：11111111
      //异或: 00000000
		byte b = -2;
		原码：10000010
		反码：11111101
		补码：11111110
      //异或: 00000001
		
	
                                
                                java多线程join的作用与用法
                                    bijian1013
java多线程
                                            对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
                                
                                Java发送http请求(get 与post方法请求)
                                    bijian1013
javaspring
                                    PostRequest.java 
package com.bijian.study;

import java.io.BufferedReader;
import java.io.DataOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURL
                                
                                【Struts2二】struts.xml中package下的action配置项默认值
                                    bit1129
struts.xml
                                    在第一部份，定义了struts.xml文件，如下所示： 
  
<!DOCTYPE struts PUBLIC
        "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN"
        "http://struts.apache.org/dtds/struts
                                
                                【Kafka十三】Kafka Simple Consumer
                                    bit1129
simple
                                    代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。 
实际情况是需要将host和port绑定到一起， 
  
package kafka.examples.lowlevel;

import kafka.api.FetchRequest;
import kafka.api.FetchRequestBuilder;
impo
                                
                                nodejs学习api
                                    ronin47
nodejs api
                                    NodeJS基础 什么是NodeJS 
JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。 
每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
                                
                                java-64.寻找第N个丑数
                                    bylijinnan
java
                                    


public class UglyNumber {

	/**
	 * 64.查找第N个丑数
具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url]
	 * 
题目：我们把只包含因子
2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
                                
                                二维数组（矩阵）对角线输出
                                    bylijinnan
二维数组
                                    

/**
二维数组 对角线输出 两个方向
例如对于数组：
{ 1, 2, 3, 4 }, 
{ 5, 6, 7, 8 },
{ 9, 10, 11, 12 }, 
{ 13, 14, 15, 16 },

slash方向输出：
1 
5 2 
9 6 3 
13 10 7 4 
14 11 8 
15 12 
16 

backslash输出：
4 
3
                                
                                [JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新)
                                    comsci
工作流
                                       既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理 
 
   大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
                                
                                redis常见使用
                                    cuityang
redis常见使用
                                    redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 
 
引入jar包 jedis-2.1.0.jar  (本文下方提供下载) 
 
package redistest; 
 
import redis.clients.jedis.Jedis; 
 
public class Listtest
                                
                                配置多个redis
                                    dalan_123
redis
                                    配置多个redis客户端 
<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans"       xmlns:xsi=&quo
                                
                                attrib命令
                                    dcj3sjt126com
attr
                                         
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统.      
  只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护.  
 
  存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.  
 
                                
                                Yii使用公共函数
                                    dcj3sjt126com
yii
                                    在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。   在入口文件index.php里添加   require_once('protected/function.php');   即可对其引用，成为公用的函数集合。   function.php如下：   
   <?php   /**     * This is the shortcut to D
                                
                                linux 系统资源的查看（free、uname、uptime、netstat）
                                    eksliang
netstatlinux unamelinux uptimelinux free
                                    linux 系统资源的查看 
转载请出自出处：http://eksliang.iteye.com/blog/2167081 
  
http://eksliang.iteye.com 一、free查看内存的使用情况 
语法如下： 
  
free [-b][-k][-m][-g] [-t]
参数含义
-b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
                                
                                JAVA的位操作符
                                    greemranqq
位运算JAVA位移<<>>>
                                    最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 
  
1.按位操作符 ： 
   按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。 
   与（&）运算： 
   1&1 = 1, 1&0 = 0, 0&0 &
                                
                                Web前段学习网站
                                    ihuning
Web
                                      
Web前段学习网站 
菜鸟学习：http://www.w3cschool.cc/ 
  
JQuery中文网：http://www.jquerycn.cn/ 
  
内存溢出：http://outofmemory.cn/#csdn.blog 
  
http://www.icoolxue.com/ 
  
http://www.jikexue
                                
                                强强联合：FluxBB 作者加盟 Flarum
                                    justjavac
r
                                    原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac  
FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
                                
                                java统计在线人数（session存储信息的）
                                    macroli
javaWeb
                                    这篇日志是我写的第三次了 前两次都发布失败！郁闷极了！ 
  
由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！ 
我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 
1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 
public class Ses
                                
                                bootstrp carousel初体验 快速构建图片播放
                                    qiaolevip
每天进步一点点学习永无止境bootstrap纵观千象
                                    img{
			border: 1px solid white;
			box-shadow: 2px 2px 12px #333;
			_width: expression(this.width > 600 ? "600px" : this.width + "px");
			_height: expression(this.width &
                                
                                SparkSQL读取HBase数据，通过自定义外部数据源
                                    superlxw1234
sparksparksqlsparksql读取hbasesparksql外部数据源
                                    关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源 
  
  
前面文章介绍了SparSQL通过Hive操作HBase表。 
  
SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
                                
                                Spring Boot 1.3.0.M1发布
                                    wiselyman
spring boot
                                        Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 
  
1.提供一个新的sprin
                                
                
            
        
    

    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    

    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.

        
    
 
   
  1001 杨秀璋

1002 燕 娜
1003 Python
(.*?) (.*?) 
   
   
   
  
1001 杨秀璋

1002 颜 娜
1003 Python
(.*?) (.*?)