专业bug开发

手把手学爬虫第一弹——数据获取和解析

文章目录

前言
一、爬虫是什么？
二、爬取数据（resquests模块）
- 1.简单GET请求
- 2.简单POST请求
- 3.复杂的网络请求
- - （1）. 添加请求头headers
  - （2）. 验证Cookies
  - （3）. 会话请求
  - （4）. 验证请求
  - （5）. 请求超时与异常捕获
- 4.代理服务
- - （1）. 在代码中写入多个ip
  - （2）. 获取免费ip存储后使用
  - - - a. 获取ip
      - b. 读取ip并判断是否可用
      - c.通过专门的API接口获取ip
二、解析数据
- 1. 正则表达式
- - （1）. 正则表达式基础
  - - - a. 行定位符
      - b.元字符
      - c. 限定符
      - d.字符类
      - e. 排除字符
      - f. 选择字符
      - g. 转义字符
      - h. python中的正则表达式
  - (2). match() 匹配
  - (3). search() 匹配
  - (4). findall()匹配
  - (5). 字符串处理
- 2. Xpath解析
- 3. BeautifulSoup解析
- - (1). BeautifulSoup的简单应用
  - (2). 获取节点内容
  - (3). 方法获取内容
  - (4). CSS选择器
三、爬虫项目实战
总结

前言

Python作为一门人尽皆知的编程语言，其适用范围广泛，今天我就带着大家一起快速入门Python的爬虫，本文我们主要以requests第三方模块的请求为主，其他urllib或者是urllib自行了解，另外我也会带着大家一起对获取到的数据利用正则（re）、xpath、BeautifulSoup进行解析。文章篇幅较长，请耐心看完呦
学爬虫不要忘了爬虫祖师爷，有问题可以去他的网站看看。崔庆才个人站点

一、爬虫是什么？

爬虫，顾名思义，利用代码代替人手动获取网络上的信息的操作，爬虫加快了我们获取互联网海量信息的速度。

二、爬取数据（resquests模块）

1.简单GET请求

对于部分网页我们只需要通过get请求就可以获取到网页信息，对于这部分网页我们只需要使用requests的get请求即可获取到网页信息，下面以百度首页为例：

import requests	#导入requests模块

response = requests.get('https://www.baidu.com')    #发起get请求
result = response.content.decode('utf-8')		#对请求内容进行编码
print('响应状态码：', response.status_code)		#打印响应状态码
print('请求内容为：', result)			#打印请求结果

2.简单POST请求

post请求方式也叫作提交表单，表单中的数据就是请求参数。请求参数可以是列表、元组或者是JSON格式。

import requests    # 导入模块
import json

data = {                    # 请求参数
    '1': '能力是有限的，而努力是无限的。',
    '2': '星光不问赶路人，时光不负有心人。'
}
response = requests.post('http://httpbin.org/post', data=data)          # 发起请求
result = json.loads(response.text)        # 数据格式化
print(result)

3.复杂的网络请求

（1）. 添加请求头headers

部分网页为了保护数据会对访问者身份进行校验，如果我们的程序代码直接发起请求的话会被服务器拒绝访问，针对这种情况我们需要为我们的请求添加请求头，这样就可以对我们的请求进行伪装，从而成功访问网页内容。

import requests    # 导入模块
import json

url = 'https://www.baidu.com'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'}
response = requests.get(url=url, headers=headers)
result = response.content.decode('utf-8')
print('响应状态码：', response.status_code)
print('请求内容为：', result)

（2）. 验证Cookies

有些需要登录的网页通常会通过Cookies进行登录验证，对于这类网页我们需要获取到登录时的Cookies，这样就可以获取到登录后才可以查看的数据了，下面我们以豆瓣为例。

import requests

url = "https://www.douban.com/"
cookies = 'll="118254"; bid=zIWp62M93rc; apiKey=; __utma=30149280.1537777336.1631262226.1631262226.1631262226.1; __utmc=30149280; __utmz=30149280.1631262226.1.1.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __utmt=1; user_data={"area_code":"+86","number":"15071579625","code":"8567"}; last_login_way=phone; ap_v=0,6.0; __gads=ID=9daaafc881690f95:T=1631262281:S=ALNI_MaICBMAwA7Z3TFZJ92H_KR2rzdLpA; push_noty_num=0; push_doumail_num=0; __utmv=30149280.23665; __utmb=30149280.6.10.1631262226; vtoken=phone_reset_password 9c00c1cb111d496eb620336328857dd6; _pk_id.100001.2fad=d0329b8128734456.1631262400.1.1631262400.1631262400.; _pk_ses.100001.2fad=*; login_start_time=1631262407870'
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
}

# 创建RequestsCookieJar对象，用于设置Cookies信息
cookies_jar = requests.cookies.RequestsCookieJar()
for cookie in cookies.split(';'):
    key, value = cookie.split('=', 1)
    cookies_jar.set(key, value)

# 发起请求
response = requests.get(url, headers=headers, cookies=cookies_jar)
result = response.text
print('响应状态码：', response.status_code)
print('请求内容为：', result)

（3）. 会话请求

前面我们利用Cookies实现了模拟登陆，但这样不仅操作麻烦，而且部分网页的Cookies会有时间限制，一段时间以后Cookies就会过期，为了解决这一问题我们可以使用requests提供的session对象。

import requests  # 导入模块

s = requests.Session()  # 创建一个会话对象
data = {'username': 'mrsoft', 'password': 'mrsoft'}
response_1 = s.post('http://site2.rjkflm.com:666/index/index/chklogin.html', data=data)  # 发送登录请求
response_2 = s.get('http://site2.rjkflm.com:666')  # 获取登陆后的页面
print('登录信息：', response_1.text)
print('登录后页面：', response_2.text)

（4）. 验证请求

我们在访问某些页面的时候会弹出验证，要求我们输入用户名和密码，这时就可以使用requests自带的验证功能，只需要在请求方法中填写auth参数，该参数的值是一个HTTPBasicAuth对象。

import requests  # 导入模块
from requests.auth import HTTPBasicAuth   # 导入HTTPBasicAuth类

url = 'http://site2.rjkflm.com:666/spider/auth/'
auth = HTTPBasicAuth('admin', 'admin')
response = requests.get(url=url, auth=auth)
print(response.text)

（5）. 请求超时与异常捕获

我们在访问一个网页时可能会由于网络原因或者是服务器原因导致请求超时或者产生异常，这时候我们就可以为请求设置超时时间和异常捕获。

import requests    # 导入模块

try:
    url = 'https://www.baidu.com'
    response = requests.get(url=url, timeout=0.01)   # 超时时间为0.01秒
    print('响应状态码：', response.status_code)
except Exception as e:
    print('异常为：', str(e))

4.代理服务

在爬取一些网页时我们肯那个会遇到一种情况，频繁访问后网页无法继续爬取了，这时候一般是我们的行为被服务器认定为恶意爬取，对我们的访问ip进行了屏蔽。针对于这种情况我们需要采用代理IP的形式访问。

（1）. 在代码中写入多个ip

import requests      # 导入网络请求模块
# 头部信息
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                         'AppleWebKit/537.36 (KHTML, like Gecko) '
                         'Chrome/72.0.3626.121 Safari/537.36'}
proxy = {'http': 'http://117.88.176.38:3000',
         'https': 'https://117.88.176.38:3000'}  # 设置代理ip与对应的端口号
try:
    # 对需要爬取的网页发送请求,verify=False不验证服务器的SSL证书
    response = requests.get('http://2020.ip138.com', headers=headers, proxies=proxy, verify=False, timeout=3)
    print(response.status_code)  # 打印响应状态码
except Exception as e:
    print('错误异常信息为：',e)    # 打印异常信息

（2）. 获取免费ip存储后使用

出现上面的情况多半是我们选择的ip为无效ip，针对这种情况我们一般会统一获取免费的代理ip，然后保存至文件，每次请求时都换一个新的IP.

a. 获取ip

import requests  # 导入网络请求模块
from lxml import etree  # 导入HTML解析模块
import pandas as pd  # 导入pandas模块
import time

# 头部信息
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'}
ip_list = []
ip_table = pd.DataFrame(columns=['ip'])  # 创建临时表格数据
for i in range(1, 11):
    print("正在爬取第{}页".format(i))
    url = 'http://www.ip3366.net/?stype=1&page={}'.format(i)
    # 发送网络请求
    response = requests.get(url=url, headers=headers)
    response.encoding = 'gb2312'  # 设置编码方式
    if response.status_code == 200:  # 判断请求是否成功
        html = etree.HTML(response.text)  # 解析HTML
        ip = html.xpath('//*[@id="list"]/table/tbody/tr/td[1]/text()')  # 获取ip内容
        port = html.xpath('//*[@id="list"]/table/tbody/tr/td[2]/text()')  # 获取端口号
        for j in range(0, 10):
            my_ip = ip[j] + ':' + port[j]
            print('代理ip为：', ip[j], '对应端口为：', port[j])
            ip_list.append(my_ip)
    time.sleep(1)
ip_table['ip'] = ip_list  # 将提取的ip保存至excel文件中的ip列
# 生成xlsx文件
ip_table.to_excel('E:/python/pythonProject3/venv/Include/ip.xlsx', sheet_name='data')

b. 读取ip并判断是否可用

这种方式存在的问题就是免费网站获取的ip有国内的有国外的，有可用的有不可用的，所以存在ip是失效的问题，解决办法就是掏钱买专门的api接口。

import time
import requests  # 导入网络请求模块
import pandas    # 导入pandas模块
from lxml import etree  # 导入HTML解析模块

ip_table = pandas.read_excel('E:/python/pythonProject3/venv/Include/ip.xlsx')  # 读取代理IP文件内容
ip = ip_table['ip']                      # 获取代理ip列信息
# 头部信息
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
           'Accept-Language': 'zh-CN,zh;q=0.9'}
# 循环遍历代理IP并通过代理发送网络请求
for i in ip:
    proxies = {'http': 'http://{}'.format(i),
               'https': 'https://{}'.format(i)}
    try:
            # verify=False不验证服务器的SSL证书
        response = requests.get('http://2021.ip138.com/', headers=headers, proxies=proxies, verify=False, timeout=10)
        if response.status_code == 200:   # 判断请求是否成功,请求成功说明代理IP可用
            response.encoding = 'utf-8'     # 进行编码
            html = etree.HTML(response.text)  # 解析HTML
            info_1 = str(html.xpath('/html/body/p[1]/text()[1]')).replace("['\n", "").replace("[']", "")
            info_2 = str(html.xpath('/html/body/p[1]/a/text()')).replace("['", "").replace("']", "")
            info_3 = str(html.xpath('/html/body/p[1]/text()[2]')).replace("['] ", "").replace("\n']", "")
            print(info_1 + info_2 + info_3)                # 输出当前ip匿名信息
            time.sleep(3)
    except Exception as e:
        # pass
        print('错误异常信息为：', e)    # 打印异常信息

c.通过专门的API接口获取ip

import requests  # 导入网络请求模块
from lxml import etree  # 导入HTML解析模块
import time

url = 'api接口'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'}
response = requests.get(url=url, headers=headers)
ip = str(response.text).replace("\r", "").replace("\n", "")
proxies = {'http': 'http://{}'.format(ip),
           'https': 'https://{}'.format(ip)}
print(proxies)
try:
    # verify=False不验证服务器的SSL证书
    response = requests.get('http://2021.ip138.com/', headers=headers, proxies=proxies, verify=False, timeout=10)
    if response.status_code == 200:  # 判断请求是否成功,请求成功说明代理IP可用
        response.encoding = 'utf-8'  # 进行编码
        html = etree.HTML(response.text)  # 解析HTML
        info_1 = str(html.xpath('/html/body/p[1]/text()[1]')).replace("['\n", "").replace("[']", "")
        info_2 = str(html.xpath('/html/body/p[1]/a/text()')).replace("['", "").replace("']", "")
        info_3 = str(html.xpath('/html/body/p[1]/text()[2]')).replace("['] ", "").replace("\n']", "")
        print(info_1 + info_2 + info_3)  # 输出当前ip匿名信息
        time.sleep(3)
except Exception as e:
    # pass
    print('错误异常信息为：', e)  # 打印异常信息

二、解析数据

当我们使用爬虫的时候大多数是为了爬取我们需要的部分数据，但直接获取到的往往不是我们需要的，这时候就需要我们对于爬取到的数据进行解析，进而在数据中找到我们需要的数据，接下来我将和大家一起使用正则（re）、Xpath、Beautiful Soup进行数据解析工作。

1. 正则表达式

正则表达式顾名思义就是由字符组成的表达式，这些表达式根据不同的组合可以匹配字符串中需要的部分。

（1）. 正则表达式基础

a. 行定位符

行定位符用于描述字符串的边界。

符号	作用
^	表示行的开始
$	表示行的结尾

b.元字符

元字符使用：

\bmr\w*\b

\b表示单词的边界
mr表示匹配开头是mr的字串
\e*表示匹配任意数量的字母或数字
# 该表达式可以匹配mrsoft、mrsbook、mr1234等字符串

代码	说明
.	匹配除换行符以外的任意字符
\w	匹配字母、数字、下划线、汉字
\W	匹配除了字母、数字、下划线、汉字以外的字符（与\w相反）
\s	匹配任意空白符
\S	匹配除单个空白符（包括Tab和换行符）以外所有字符
\d	匹配数字
\D	匹配任意非数字
\A	从字符串开始处匹配
\Z	从字符串结束处匹配
\b	匹配一个单词的边界，单词分界符通常是空格、标点或者换行
\B	匹配非单词边界
^	匹配字符串的开始
$	匹配字符串的结束
()	被括起来的表达式将作为分组

c. 限定符

上面提到"\w*"可以匹配任意数量的字母或数字。如果我们要匹配一定数量的数字，比如11位数的手机号？这时候就可以用限定符来实现。

^\d{11}$
# 匹配11位数的电话号码

符号	说明	举例
?	匹配前面的字符零次或一次	colour?r 可以匹配到colour和color
+	匹配前面的字符一次或多次	go+gle 可以匹配gogle到goooo…gle
*	匹配前面的字符零次或多次	go*gle 可以匹配ggle到goooo…gle
{n}	匹配前面的字符串n次	go{2}gle 只可以匹配google
{n,}	匹配前面的字符最少n次	go{2,}gle 可以匹配从google到goooo…gle
{n,m}	匹配前面的字符最少n次,最多m次	employe{0,2} 可以匹配employ、employe\employee

d.字符类

假如我们要匹配所有大小写字母和数字，你会怎么做？列举所有的可能？显然不是，这时候我们可以使用正则表达式提供的字符类，将我们的条件放在中括号里面，例如：

[a-z0-9A-Z] # 可以匹配所有字母和数字

e. 排除字符

上面我们可以利用字符类获取我们想要的字符，那如何排除我们不需要的字符呢，很简单，在上面的表达式前面加一个^就可以了，例如：

[^a-zA-Z] # 可以匹配一个不是字母的字符

f. 选择字符

如果我们要在一堆字符里面找出所有的手机号码或者是身份证号码，如何运用正则表达式呢？分析一下身份证号码的组成，一共18位，前17位位数字，最后一位为数字或者是X，根据这一描述，我们显然可以得出如下的表达式：

[^\d{18}$|(^\d{17}(\d|X|x)$)

g. 转义字符

正则表达式的转义字符和python的转义字符基本没什么区别，例如当我们需要匹配的是个ip地址时，192.168.1.1中的.如何匹配呢？前面我们说到正则里面的点可以匹配一个任意字符，那这里就需要对其进行转义.

[1-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3} # 匹配ip地址

h. python中的正则表达式

在python里面我们一般不会写模式字符串，即在转义的地方加上\，这样会导致表达式中有大量的\，取而代之的是原生表达式，在表达式前面加上 R 或 r.

(2). match() 匹配

match()从字符串的开始位置匹配，如果在起始位置匹配成功就直接返回结果，反之返回None.

re.match(‘正则表达式’, ‘待匹配字符串’, ‘修饰符’)
例如：
re.match(‘mr_\w+’, ‘MR_SHOPmr_shop’, re.I)

I 表示不区分大小写

表达式	匹配效果	匹配结果
re.match(‘mr_\w+’, ‘MR_SHOPmr_shop’, re.I)	匹配以指定字符串开头
re,match(".ello", “hello”)	匹配任意开头的字符串

(3). search() 匹配

search()方法不同于match（）方法，search()会在整个字符串搜索第一匹配的值，匹配成功就返回，否则返回None。

re,search(“mr_\w+”, “MR_SHOP”, re.I)
re,search(“mr_\w+”, “项目名称 MR_SHOP”, re.I)
两个表示匹配结果一样

表达式	匹配效果
\d?	匹配多个数字，可有可无
\b	表示字符串的边界，可以是开头、结尾、空格以及换行

(4). findall()匹配

findall()方法会搜索整个字符串寻找符合要求的字符，并以列表的形式返回，如果没有匹配到就会返回空列表。

表达式	匹配效果
re.findall(‘mr_\w+’, ‘MR_SHOP mr_shop’, re.I)	所有指定字符开头的字符串
re.findall(‘https://(.*)/’, ‘http://www.hao123.com/’)	贪婪匹配，获取//开始到/前面的所有字符
re.findall(‘https://(.*?)/’, ‘http://www.hao123.com/’)	非贪婪匹配，这样可能匹配不到任何字符，因为匹配结果会尽可能少

(5). 字符串处理

替换字符串
re.sub(‘正则表达式’, ‘要替换的字符串’, ‘要被替换的字符串’, ‘替换的最大次数，默认为0’, 修饰符)

import re
str = r'1[34578]\d{9}'
string = '中奖号码为3867363546 联系电话为：15071567345'
result = re.sub(str, '1**********', string)
print(result)
# 输出结果为： 中奖号码为3867363546 联系电话为：1**********

分割字符串
re.split(‘正则表达式’, ‘要匹配的字符串’, 最大拆分次数, 修饰符)

import re
str = r'[?|&]'
url = 'http://www.baidu.com?a=12&b=3'
result = re.split(str, url)
print(result)
# 输出结果为： ['http://www.baidu.com', 'a=12', 'b=3']

2. Xpath解析

上一节我们学了正则表达式清洗数据，这一节我们学习一种更加便捷的数据清洗解析方式，XPath。这是一种基于XML的路径语言。

Xpath常用的路径表示：

表达式	描述
nodename	此节点的所有子节点
/	从当前节点选取子节点
//	从当前节点选取子孙节点
.	选取当前节点
…	选取当前节点的父节点
@	选取属性class
*	选取所有节点

这种解析方式主要熟悉网页结构，利用上面的路径表达式选取对应的路径。浏览器也提供了直接复制的Xpath路径，使用如下：

这里我就不再详细介绍这种解析方法，大家可以参考这位博主的文章，写的很详细了！Xpath解析数据

from lxml import etree
import requests

url = "https://wuhan.zbj.com/search/f/?type=new&kw=%E5%B0%8F%E7%A8%8B%E5%BA%8F%E5%BC%80%E5%8F%91"

resp = requests.get(url)
xml = resp.text
tree = etree.HTML(xml)
res = tree.xpath('//div[@class="service-info-wrap"]')
# print(res)
for item in res:
    price = item.xpath('./div[@class="service-price clearfix"]/span/text()')
    title = item.xpath('./div[@class="service-title"]/p/text()')
    result = {
        "price": ''.join(price),
        "title": ''.join(title)
    }
    print(result)

3. BeautifulSoup解析

BeautifulSoup是一个用于从HTML和XML中提取数据的Python库。

(1). BeautifulSoup的简单应用

使用第一步先导入bs4库，然后创建一个BeautifulSoup对象指定选用的解析器。

from bs4 import BeautifulSoup  # 导入BeautifulSoup库

# 创建模拟HTML代码的字符串
html_doc = """


第一个 HTML 页面


body 元素的内容会显示在浏览器中。
title 元素的内容会显示在浏览器的标题栏中。


"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print(soup)                  # 打印解析的HTML代码
print(type(soup))            # 打印数据类型
# 这样我们就完成了数据的第一步处理工作

(2). 获取节点内容

下面以一个例子加代码注释解释如何获取节点内容。

获取节点源代码

from bs4 import BeautifulSoup  # 导入BeautifulSoup库

# 创建模拟HTML代码的字符串
html_doc = """


第一个 HTML 页面


body 元素的内容会显示在浏览器中。
title 元素的内容会显示在浏览器的标题栏中。


"""

# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
"""
    获取节点内容
"""
print('head节点内容为：\n', soup.head)               # 打印head节点

获取节点属性
在已选择的节点后面加上.attrs即可

# 创建模拟HTML代码的字符串
html_doc = """


    横排响应式登录
    
    
    
    



"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print('meta节点中属性如下：\n',soup.meta.attrs)
print('link节点中属性如下：\n',soup.link.attrs)

获取节点的文本内容
在已获取的节点后面加上.string即可。

from bs4 import BeautifulSoup  # 导入BeautifulSoup库

# 创建模拟HTML代码的字符串
html_doc = """


    横排响应式登录
    
    
    
    



"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print('titlt节点中的文本如为:', soup.title.string)

(3). 方法获取内容

find_all()方法——获取所有符合条件的节点

find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwaigs)

find_all(name)

通过节点名称获取内容。
soup.find_all(name=‘标签名’)

find_all(attrs)

通过指定属性获取内容
soup.find_all(class=‘newslist’)

fina_all(tetx)

获取指定文本内容。
soup.find_all(text=‘文本内容’)

find()——获取第一个匹配的节点

find()的各项参数和find_all一样，不同的是前者可以匹配所有符合匹配条件的字符，后者只能匹配第一个符合条件的字符

tip：还有很多其他不常用的方法，自行查阅了解。

(4). CSS选择器

通过标签查找

print soup.select('title')  # 查找title标签

通过类名查找

print soup.select('.sister') # 通过class类名查找

通过id名查找

print soup.select('#link1') # 通过id="link2"查找

组合查找

print soup.select('p #link1')
# 查找p标签下id="link1"的内容

print soup.select("head > title")
# 查找head标签下的title标签的内容

属性查找

print soup.select('a[class="sister"]')
# 查找a便签而且class="sister"的内容

三、爬虫项目实战

目标：爬取豆瓣电影top250的相关信息
第二页url: https://movie.douban.com/top250?start=25&filter=
第三页url: https://movie.douban.com/top250?start=50&filter=

正则表达式：

import re  # 导入re模块
import time  # 导入时间模块
import random  # 导入随机模块
import requests  # 导入网络请求模块

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'}


# 处理字符串中的空白符，并拼接字符串
def processing(strs):
    s = ''  # 定义保存内容的字符串
    for n in strs:
        n = ''.join(n.split())  # 去除空字符
        n = n.replace(" ", "")
        s = s + n  # 拼接字符串
    return s  # 返回拼接后的字符串


# 获取电影信息
def get_movie_info(url):
    response = requests.get(url, headers=header)  # 发送网络请求
    result = response.text
    li_all = re.findall(r'[\s\S]*?
', result)
    # print(li_all[0])
    for item in li_all:
        names = re.findall(r'(.*)', item)  # 获取电影名字相关信息
        name = processing(names)  # 处理电影名称信息
        infos = re.findall(r'导演:(.*?)
', item)  # 获取导演、主演等信息
        info = processing(infos)  # 处理导演、主演等信息
        scores = re.findall(r'(.*)', item)  # 获取电影评分
        score = processing(scores)
        evaluations = re.findall(r'(.*)', item)  # 获取评分人数
        evaluation = processing(evaluations)
        summarys = re.findall(r'(.*)', item)  # 获取评分人数
        summary = processing(summarys)
        print('电影名称：', name)
        print('导演与演员：', info)
        print('电影评分：', score)
        print('评价人数：', evaluation)
        print('电影总结：', summary)
        print('--------分隔线--------')


if __name__ == '__main__':
    for i in range(0, 25, 25):  # 每页25为间隔，实现循环，只爬取前5页
        # 通过format替换切换页码的url地址
        url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
        get_movie_info(url)  # 调用爬虫方法,获取电影信息
        time.sleep(random.randint(1, 3))  # 等待1至3秒随机时间

Xpath：

from lxml import etree  # 导入etree子模块
import time  # 导入时间模块
import random  # 导入随机模块
import requests  # 导入网络请求模块

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'}


# 处理字符串中的空白符，并拼接字符串
def processing(strs):
    s = ''  # 定义保存内容的字符串
    for n in strs:
        n = ''.join(n.split())  # 去除空字符
        s = s + n  # 拼接字符串
    return s  # 返回拼接后的字符串


# 获取电影信息
def get_movie_info(url):
    response = requests.get(url, headers=header)  # 发送网络请求
    html = etree.HTML(response.text)  # 解析html字符串
    div_all = html.xpath('//div[@class="info"]')
    for div in div_all:
        names = div.xpath('./div[@class="hd"]/a//span/text()')  # 获取电影名字相关信息
        name = processing(names)  # 处理电影名称信息
        infos = div.xpath('./div[@class="bd"]/p/text()')  # 获取导演、主演等信息
        info = processing(infos)  # 处理导演、主演等信息
        score = div.xpath('./div[@class="bd"]/div/span[2]/text()')  # 获取电影评分
        evaluation = div.xpath('./div[@class="bd"]/div/span[4]/text()')  # 获取评价人数
        # 获取电影总结文字
        summary = div.xpath('./div[@class="bd"]/p[@class="quote"]/span/text()')
        print('电影名称：', name)
        print('导演与演员：', info)
        print('电影评分：', score)
        print('评价人数：', evaluation)
        print('电影总结：', summary)
        print('--------分隔线--------')


if __name__ == '__main__':
    for i in range(0, 125, 25):  # 每页25为间隔，实现循环，只爬取前5页
        # 通过format替换切换页码的url地址
        url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
        get_movie_info(url)  # 调用爬虫方法,获取电影信息
        time.sleep(random.randint(1, 3))  # 等待1至3秒随机时间

BeautifulSoup：

from bs4 import BeautifulSoup
import time  # 导入时间模块
import random  # 导入随机模块
import requests  # 导入网络请求模块

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'}


# 处理字符串中的空白符，并拼接字符串
def processing(strs):
    s = ''  # 定义保存内容的字符串
    for n in strs:
        s = s + n.get_text()  # 拼接字符串
        s = s.replace(' ', '').replace('\n', '')  # 去除空字符
    return s  # 返回拼接后的字符串


# 获取电影信息
def get_movie_info(url):
    response = requests.get(url, headers=header)  # 发送网络请求
    result = response.text
    soup = BeautifulSoup(result, 'lxml')
    # print(soup)
    li_all = soup.select('div[class="item"]')
    # print(li_all)
    for item in li_all:
        names = item.select('span[class="title"]')[0].get_text()  # 获取电影名字相关信息
        # name = processing(names)  # 处理电影名称信息
        infos = item.select('p[class=""]')  # 获取导演、主演等信息
        info = processing(infos)  # 处理导演、主演等信息
        scores = item.select('span[class="rating_num"]')# .get_text()  # 获取电影评分
        score = processing(scores)
        evaluations = item.select('span:nth-child(4)')# .get_text()  # 获取评分人数
        evaluation = processing(evaluations)
        summarys = item.select('span[class="inq"]')  # 获取简评
        summary = processing(summarys)
        print('电影名称：', names)
        print('导演与演员：', info)
        print('电影评分：', score)
        print('评价人数：', evaluation)
        print('电影总结：', summary)
        print('--------分隔线--------')


if __name__ == '__main__':
    for i in range(0, 25, 25):  # 每页25为间隔，实现循环，只爬取前5页
        # 通过format替换切换页码的url地址
        url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
        get_movie_info(url)  # 调用爬虫方法,获取电影信息
        time.sleep(random.randint(1, 3))  # 等待1至3秒随机时间

总结

    爬虫真正说起来并不难，难就难在于如何正确解析网页数据，上面我给大家讲述了常用的三种方法，几乎每一种都有例子，希望大家可以认真看完这篇文章，一边看一边跟这些，相信你也可以很快掌握基础的数据爬取和数据解析。
    后面我将会继续分享如何使用爬虫框架、如何爬去动态网页、如何应对网站验证码反爬等一系列操作，一起期待呦~
    文章整理历时较长，全文20000多字，如有不做或错误，欢迎指正

author： KK
time ：2021年9月16日00:14:06
flag：3/30

你可能感兴趣的:(python笔记,爬虫,python)

量化交易策略都有哪些？怎么运用？股票程序化交易接口 Python股票量化交易股票API接口量化交易量化交易策略均值回归动量策略风险控制股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>均值回归策略：寻找价格的回归点均值回归的原理均值回归策略是基于一种市场现象，即价格不会永远偏离其长期的平均值。从市场的历史数据来看，无论是股票、期货还是其他金融资产，价格总是围绕着一个均值上下波动。这就像一个有弹性的绳子，当价格被拉伸
【全栈】SprintBoot+vue3迷你商城-细节解析（2）：分页杰九 vue.js spring boot java
【全栈】SprintBoot+vue3迷你商城-细节解析（2）：分页往期的文章都在这里啦，大家有兴趣可以看一下后端部分：【全栈】SprintBoot+vue3迷你商城（1）【全栈】SprintBoot+vue3迷你商城（2）【全栈】SprintBoot+vue3迷你商城-扩展：利用python爬虫爬取商品数据【全栈】SprintBoot+vue3迷你商城（3）【全栈】SprintBoot+vue3
有需要2025年参加蓝桥杯比赛的同学往下看！！！岱宗夫up 教程蓝桥杯职场和发展
有需要2025年参加蓝桥杯比赛的同学往下下看！！！以下是关于近两年（2023年和2024年）蓝桥杯Python组考点的详细总结：一、2023年蓝桥杯Python考点分析在2023年的蓝桥杯Python竞赛中，考点主要集中在基础算法、数据结构、动态规划、数学、高精度计算以及二分查找等方面。（一）基础算法基础算法是竞赛的基石，包括枚举、排序（如冒泡排序、选择排序、插入排序等）、搜索（如BFS和DFS）
Ubuntu22 安装多个版本的python 莫忘初心丶 python 数据库开发语言
前言使用pyenv是一个很好的选择，尤其是在需要管理多个Python版本时。它提供了一个简单的方法来安装、切换和管理多个版本的Python，而不必依赖系统的包管理器或update-alternatives。特别是当你需要在同一系统中频繁切换Python版本时，pyenv会显得更加方便。目录前言为什么使用`pyenv`安装`pyenv`1.安装依赖2.安装`pyenv`3.配置shell环境4.安装
python的继承 zhangbeizhen18 L01-基础
记录：备忘录。1.继承classPerson(object):def__init__(self,p_name,p_addr,p_age):self.name=p_nameself.addr=p_addrself.age=p_ageclassGirl(Person):def__init__(self,g_name,g_addr,g_age,g_bra_cup):Person.__init__(sel
【MySQL】表空间丢失处理（Tablespace is missing for table 错误处理） m0_74824823 面试学习路线阿里巴巴 mysql 数据库
问题背景最近，我在运行一个基于Python爬虫的项目时，爬虫需要频繁与MySQL数据库交互。不幸的是，在数据爬取过程中，Windows系统突然强制更新并重启。这次意外中断导致MySQL数据库的三个表格（2022年、2023年和2024年的数据表）出现了“Tablespaceismissing”的错误。起初，我尝试了常规的CHECKTABLE和REPAIRTABLE方法，但这些都没有解决问题。最终，
Python 继承详解江湖一条鱼 python
继承是面向对象编程（OOP）的一个重要特性，允许一个类（子类）从另一个类（父类）继承属性和方法。继承可以提高代码的重用性，增强程序的可扩展性和可维护性。目录一、继承的作用二、继承的语法1.单继承2.多继承三、子类扩展1.添加新功能2.重写父类方法3.调用父类方法四、继承的特殊情况1.子类初始化父类2.方法解析顺序（MRO）五、抽象类与接口1.抽象类2.接口3.ABC类4.使用方法1.定义抽象基类2
【如何学习商城源码】启山智软商城源码微信小程序小程序 java
学习商城源码是一个系统而深入的过程，需要掌握多种方法和技巧。以下是一些建议，帮助你有效地学习商城源码：一、搭建学习环境准备开发工具编程语言相关：根据商城源码使用的编程语言，安装相应的集成开发环境（IDE）。例如，若源码是Java语言编写的，可安装IntelliJIDEA或Eclipse；若是Python语言，可选择PyCharm等。这些IDE能帮助你高效地编辑、调试代码，提供语法高亮、自动补全等功
从零创建一个 Django 项目 m0_74824823 面试学习路线阿里巴巴 django python 后端
1.准备环境在开始之前，确保你的开发环境满足以下要求：安装了Python(推荐3.8或更高版本)。安装pip包管理工具。如果要使用MySQL或PostgreSQL，确保对应的数据库已安装。创建虚拟环境在项目目录中创建并激活虚拟环境，保证项目依赖隔离：#创建虚拟环境python-mvenvenv#激活虚拟环境#WindowsenvScriptsactivate#Linux/Macsourceenv/
anaconda中的python在pycharm中用不了_Pycharm中使用Anaconda 白白前
Pycharm中使用Anaconda问题：安装完Pycharm和Anaconda后，想让Pycharm能调用Anaconda中包含的各种包。这样就不用重复安装各种包了。Anaconda下载安装Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包，Anaconda的下载文件比较大(约515MB)。安装Anacond
python - 永久存储 susie0815 python python 服务器
打开文件使用open()函数打开文件时，openfilemode（文件打开模式）是一个决定了以何种方式打开文件以及对文件可以进行哪些操作的重要参数。基本模式只读模式（‘r’）默认的打开模式，用于读取文件。如果文件不存在，会抛出FileNotFoundError异常。try:file=open('test.txt','r')content=file.read()print(content)file.
自动化测试的学习路线 Ws＿学习
自动化测试是提高软件开发效率和质量的关键手段。学习自动化测试通常涉及多个方面的技能，从基础的编程语言知识到测试工具的使用，再到实际的测试脚本编写和执行。以下是一个学习自动化测试的路线图，帮助你有条不紊地掌握相关技能：1.基础知识在开始自动化测试之前，首先要具备一定的编程和软件测试基础：编程语言：Python、Java、JavaScript或者Ruby（根据你选择的自动化测试工具决定）软件测试基础：
Python自动化测试 Ws＿ python python
Python自动化测试是软件开发中的重要组成部分，可以帮助提高测试效率和准确性。以下是学习Python自动化测试的基本路线，以及相关资料的链接：学习路线1.基础知识Python基础：掌握Python语言的基本语法、数据类型、控制流、函数、面向对象编程等。你可以先确保对Python的基本语法有清晰的理解。参考资料：Python官方文档书籍推荐：《Python编程：从入门到实践》2.了解自动化测试的基
Python实现Excel表格保存到不同文件夹 Leo_Aqu excel python
"""点击“上传”按钮，从本地上传待处理的Excel表格点击“处理”按钮，对Excel表格进行处理点击“保存A”按钮，保存处理后的Excel表格到A文件夹下点击“保存B”按钮，保存处理后的Excel表格到B文件夹下"""#作者:Leo#时间:2024/9/2621:52importtkinterastkfromtkinterimportfiledialog,messageboximportpand
通义灵码AI程序员天天向上杰 AI编程 AIGC 人工智能
通义灵码是阿里云与通义实验室联合打造的智能编码辅助工具，基于通义大模型技术，为开发者提供多种编程辅助功能。它支持多种编程语言，包括Java、Python、Go、TypeScript、JavaScript、C/C++、PHP、C#、Ruby等200多种编码语言。通义灵码AI程序员：今年1月，通义灵码AI程序员全面上线，同时支持VSCode、JetBrainsIDEs，是国内首个真正落地的AI程序员。
python使用技巧超超是超超 python
1、耗时装饰器importtimedefdecorate(func):definner():begin=time.time()result=func()end=time.time()print(f'函数{func}耗时{end-begin}')returnresultreturninner2、查看代码运行耗时fromline_profilerimportLineProfilerdefoperati
Anaconda与python和pycharm的安装及其关系 Daylight.. 学习笔记 pycharm python ide
Anaconda与python和pycharm的安装及其关系一、Anaconda与python和pycharm的关系：1.Anaconda包含python，并且里面含有许多常用的库。（安装了Anaconda就不需要安装python了）2.pycharm是一种IDE（集成开发环境），在其中可以编写Python程序。（工具和语言的关系）。二、如何安装？Anaconda的安装Anaconda官网下载地址
ImportError: cannot import name ‘Mapping‘ from ‘collections‘ AI算法网奇 python基础前端 javascript 数据库
ImportError:cannotimportname'Mapping'from'collections'解决方法：fromcollections.abcimportMapping#正确导入Mappingdefprocess_mapping(data):ifisinstance(data,Mapping):#使用Mapping进行类型检查#处理映射类型的代码pass测试命令：python-c"f
python图形界面化编程GUI（二）常用的组件(Text、Radiobutton、Checkbutton、Canvas)和布局管理器(gird、pack、place) hwwaizs python-GUI图形化编程 python 开发语言
Text文本框Text(多行文本框)的主要用于显示多行文本，还可以显示网页链接,图片,HTML页面,甚至CSS样式表，添加组件等。主要用来显示信息，也常被当做简单的文本处理器、⽂本编辑器或者网页浏览器来使用。IDLE就是Text组件构成的。insert插入的时候可以用INSERT代表当前光标的位置，END代表在结尾的位置，也可以用插入小数的形式，2.3代表第二行第三列后插入。fromtkinter
【深度解析】最短路径算法：Dijkstra与Floyd-Warshall 吴师兄大模型算法数据结构 python 最短路径算法 Dijkstra算法 Floyd-Warshall 开发语言
系列文章目录01-从零开始掌握Python数据结构：提升代码效率的必备技能！02-算法复杂度全解析：时间与空间复杂度优化秘籍03-线性数据结构解密：数组的定义、操作与实际应用04-深入浅出链表：Python实现与应用全面解析05-栈数据结构详解：Python实现与经典应用场景06-深入理解队列数据结构：从定义到Python实现与应用场景07-双端队列（Deque）详解：Python实现与滑动窗口应
CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
全网最全！DeepSeek 新手入门教程合集人工智能deepseek
如果你是初次接触DeepSeek的普通用户或开发者，面对海量教程却无从下手？别担心！本文为你整理全网最易懂、最实用的DeepSeek学习资源，涵盖快速上手、编程实战、系统手册等，附直达链接，收藏这一篇就够了！一、快速入门指南《DeepSeek入门教程》-博客园亮点：手把手教你注册账号、获取APIKey，并提供Python调用多轮对话的代码示例，适合初级开发者。直达链接：点击查看核心内容：API调用
【Python】Python入门——判断语句 zhoushanguhe Python python 编程开发语言
Python入门——判断语句。内容包括if语句、条件表达式、三元运算、match语句等。目录一、if语句1.基本if-else语句2.常用比较运算符3.if-else连写4.pass语句5.变量的作用域二、条件表达式三、三元运算四、match语句五、其他一、if语句1.基本if-else语句当条件成立时，执行某些语句；否则执行另一些语句。注意：if和else后需要加上冒号:if语句的代码块需要缩进
兄弟们，我的deepseek终于可以控制浏览器了：Part 1/n，含代码几道之旅 Dify：智能体（Agent）工作流知识库全搞定几道之旅AI专栏VVVIP 人工智能
文章目录前言helloworld前言其实，deepseek控制浏览器咱之前就发过，只不过当时没有想到这么好的标题，哈哈。所依赖的，依然是BrowserUse这个项目BrowserUse项目官网helloworld按照官网配置好环境后，只需新建一个python文件（例如，叫main.py?）然后运行即可。fromlangchain_openaiimportChatOpenAIfrombrowser_
CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和 Deepseek-V3 仙人掌_lz 人工智能人工智能 AI 部署自然语言处理
简介KTransformers是一个灵活的、以Python为中心的框架，旨在通过先进的内核优化和放置/并行策略提升HuggingFaceTransformers的使用体验。它具有高度的可扩展性，用户可通过单行代码注入优化模块，获得兼容Transformers的接口、符合OpenAI和Ollama的RESTfulAPI，甚至简化的ChatGPT风格的WebUI。KTransformers的性能优化基
C语言-回调函数的应用 woainizhongguo. C/C++c语言
什么是回调函数回调函数就是一个被作为参数传递的函数。在C语言中，回调函数只能使用函数指针实现，在C++、Python、ECMAScript等更现代的编程语言中还可以使用仿函数或匿名函数。工作机制⑴定义一个回调函数；⑵提供函数实现的一方在初始化的时候，将回调函数的函数指针注册给调用者；⑶当特定的事件或条件发生的时候，调用者使用函数指针调用回调函数对事件进行处理。应用案例（1）应用层：通过调用hal层
Python Union 联合类型注解详解人才程序员杂谈 python 服务器 java linux 后端软件工程开发语言
文章目录PythonUnion联合类型注解详解1.什么是Union联合类型？**语法（Python3.9及之前版本）**：**语法（Python3.10及之后版本）**：2.Union联合类型注解示例**(1)使用Union来表示多个类型的参数****(2)使用`|`来表示联合类型（Python3.10及之后版本）**3.使用Union进行复杂类型注解**(1)使用Union与列表结合****(2
释放 DeepSeek 的力量：像专家一样本地安装与探索！ guzhoumingyue AI python
要在本地运行DeepSeek，您需要遵循以下步骤。请确保您的计算机上已安装Python和Git，并且满足DeepSeek的依赖项。步骤1:安装依赖项安装Python和pip确保您已安装Python（建议使用Python3.6及以上版本）。您可以通过在终端/命令提示符中输入以下命令来检查Python是否已安装：bash复制代码python--version或者bash复制代码python3--ver
ffmpeg-python安装 neverayever 计算机 ffmpeg python linux
centos-ffmpeg-python安装安装ffmpeg一：下载并解压wgethttp://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gztar-zxvfffmpeg-4.2.tar.gz若linux服务器没网，可以在windows上直接访问http://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gz就可下载，然后上传至服
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &