My.ICBM

【基础】【Python网络爬虫】【5.数据解析】bs4、Xpath、Parsel模块、正则表达式（附大量案例代码）（建议收藏）

Python网络爬虫基础

数据解析
- 1. 为何数据解析
- 2. 常见的数据类型
- - 结构化数据
  - 半结构化数据
  - 非结构化数据
- 3. 爬虫项目实现步骤
数据解析模块
- 1. Bs4
- - 环境安装
  - bs4解析流程
  - - 案例 - bs4碧血剑文本爬取
- 2. Xpath
- - 环境安装
  - xpath解析的编码流程
  - xpath表达式如何理解？
  - - 案例 - 简历模板下载
    - 案例 - 爬取空气质量数据网
    - 案例 - （彼岸图）图片数据爬取
- 3. Parsel 模块
- - CSS
  - - 标签选择器
    - 类选择器
    - ID选择器
    - 组合选择器
    - 伪类选择器
    - - 案例 - css解析小说1
    - 提取属性和文本数据
    - - 案例 - css解析小说2
      - 案例 - 解析小说二次提取
      - 案例 - 微医网css解析
  - Xpath
  - - 什么是xpath
    - html和xml的区别
    - - 案例 - xpath采集图片
      - 案例 - 豆瓣250
      - 案例 - 穷游网
  - 正则表达式
  - - 元字符
    - 贪婪匹配和非贪婪匹配
    - 精确匹配
    - 数量词
    - 字符集
    - re.match
    - re.search
    - re.split
    - re.compile
    - re.sub
    - - 案例 - 匹配特殊字符
    - 匹配开头和结尾
    - - 案例 - 正则练习
      - 案例 - 电话加密
      - 案例 - 正则解析 Json 数据

数据解析

1. 为何数据解析

概念：可以将一整张页面中局部的指定数据进行提取。
作用：可以实现聚焦爬虫
数据解析通用原理：
- 在一张页面源码中，想要爬取的数据是存在于相关的html的标签中进行的存储
- 可以将指定的标签定位到，然后提取该标签中的相关的内容
- 简单描述：
  - 1.标签定位
  - 2.提取定位到标签中的文本内容
聚焦爬虫编码流程
- 指定url
- 发起请求
- 获取响应数据
- 数据解析
- 持久化存储

2. 常见的数据类型

结构化数据

结构化的数据是指可以使用关系型数据库表示和存储，表现为二维形式的数据。一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。

半结构化数据

非关系模型的、有基本固定结构模式的数据，例如日志文件、XML文档、JSON文档等。http://www.bejson.com/jsoneditoronline/ 这个也是json文件。

非结构化数据

顾名思义，就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据，我们一般直接整体进行存储，而且一般存储为二进制的数据格式。
总结：能看懂的就是结构化的数据，看不懂的，就是非结构化数据

3. 爬虫项目实现步骤

"""
爬虫项目实现步骤:
1. 找数据对应的请求地址
2. 通过代码发送地址请求
3. 提取需要的数据内容, 剔除不需要的
    一下来那个两种方式是专门在html中提取数据的方法
        css选择器
        xpath节点提取
    正则表达式: 只要是字符串数据, 都能使用正则提取, 万能的匹配方式, 可以用于其他的所有计算机语言中在爬虫中用于少范围的数据提取
4. 保存数据
"""

数据解析模块

1. Bs4

环境安装

# 安装两个第三方库
- pip install bs4  
- pip install lxml

bs4解析流程

1.实例化一个BeautifulSoup的对象，然后把即将被解析的页面源码数据加载到该对象中

BeautifulSoup(fp,‘lxml’):fp表示本地的一个文件，该种方式是将本地存储的html文件进行数据解析
BeautifulSoup(page_text,‘lxml’):page_text是网络请求到的页面源码数据，该种方式是直接将网络请求到的页面源码数据进行数据解析

2.调用BeautifulSoup对象中相关的属性和方法实现标签定位和数据提取

// 当前目录下新建一个test.html文件，然后将下述内容拷贝到该文件中
<html lang="en">
<head>
	<meta charset="UTF-8" />
	<title>测试bs4</title>
</head>
<body>
	<div>
		<p>百里守约</p>
	</div>
	<div class="song">
		<p>李清照</p>
		<p>王安石</p>
		<p>苏轼</p>
		<p>柳宗元</p>
		<a href="http://www.song.com/" title="赵匡胤" target="_self">
			<span>this is span</span>
		宋朝是最强大的王朝，不是军队的强大，而是经济很强大，国民都很有钱</a>
		<a href="" class="du">总为浮云能蔽日,长安不见使人愁</a>
		<img src="http://www.baidu.com/meinv.jpg" alt="" />
	</div>
	<div class="tang">
		<ul>
			<li><a href="http://www.baidu.com" title="qing">清明时节雨纷纷,路上行人欲断魂,借问酒家何处有,牧童遥指杏花村</a></li>
			<li><a href="http://www.163.com" title="qin">秦时明月汉时关,万里长征人未还,但使龙城飞将在,不教胡马度阴山</a></li>
			<li><a href="http://www.126.com" alt="qi">岐王宅里寻常见,崔九堂前几度闻,正是江南好风景,落花时节又逢君</a></li>
			<li><a href="http://www.sina.com" class="du">杜甫</a></li>
			<li><a href="http://www.dudu.com" class="du">杜牧</a></li>
			<li><b>杜小月</b></li>
			<li><i>度蜜月</i></li>
			<li><a href="http://www.haha.com" id="feng">凤凰台上凤凰游,凤去台空江自流,吴宫花草埋幽径,晋代衣冠成古丘</a></li>
		</ul>
	</div>
</body>
</html>

# 有了test.html文件后，就可以操作练习。
from bs4 import BeautifulSoup

fp = open('test.html', 'r')
# 1.创建一个BeautifulSoup的工具对象，然后把即将被解析的页面源码数据加载到该对象中
# 参数1：被解析的页面源码数据
# 参数2：固定形式的lxml(一种解析器)
soup = BeautifulSoup(fp, 'lxml')

# 2.可以调用BeautifulSoup对象的相关函数和属性进行标签定位和数据提取
''' 标签定位-方式1:soup.tagName(只可以定位到第一次出现的该标签) '''
title_tag = soup.title
p_tag = soup.p

''' 标签定位-方式2（属性定位）:soup.find(tagName,attrName='value') '''
# 注意：find只可以定位满足要求的第一个标签，如果使用class属性值的话，find参数class_
# 定位到了class属性值为song的div标签
div_tag = soup.find('div', class_='song')
# 定位到class属性值为du的a标签
a_tag = soup.find('a', class_='du')
# 定位到了id的属性值为feng的a标签
a_tag = soup.find('a', id='feng')

''' 标签定位-方式3（属性定位）:soup.find_all(tagName,attrName='value') '''
# 注意：find_all可以定位到满足要求的所有标签
tags = soup.find_all('a', class_='du')

''' 标签定位-方式4(选择器定位): '''
# 常用的选择器：class选择器(.class属性值)  id选择器(#id的属性值)
tags = soup.select('#feng')  # 定位到id的属性值为feng对应的所有标签
tags = soup.select('.du')  # 定位到class属性值为du对应的所有标签
# 层级选择器：>表示一个层级  一个空格可以表示多个层
tags = soup.select('.tang > ul > li > a')
tags = soup.select('.tang a')
# print(tags)

''' 定位到标签内部数据的提取 '''
# 方式1：提取标签内的文本数据
# tag.string:只可以将标签直系的文本内容取出
# tag.text:可以将标签内部所有的文本内容取出
tag = soup.find('a', id='feng')
content = tag.string

div_tag = soup.find('div', class_='tang')
content = div_tag.text

# 方式2：提取标签的属性值 tag['attrName']
img_tag = soup.find('img')
img_src = img_tag['src']
print(img_src)

案例 - bs4碧血剑文本爬取

import requests
from bs4 import BeautifulSoup
import os

# 创建一个文件夹
dirName = 'xiaoshuo'
# exists(dirName)：如果dirName文件夹存在返回True，否则返回False
if not os.path.exists(dirName):
    os.mkdir(dirName)

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}

url = 'https://bixuejian.5000yan.com/'
response = requests.get(url=url, headers=headers)
# 设置响应对象的编码格式，处理中文乱码
response.encoding = 'utf-8'
page_text = response.text

# 数据解析
soup = BeautifulSoup(page_text, 'lxml')
# 解析章节的标题和章节的内容
a_list = soup.select('.paiban > li > a')
for a in a_list:
    title = a.string
    detail_url = a['href']

    # 需要对详情页的url发请求，获取详情页的页面源码数据，解析其中的章节内容
    rep = requests.get(url=detail_url, headers=headers)
    rep.encoding = 'utf-8'
    detai_page_text = rep.text
    # 注意：重新给详情页创建一个解析对象
    detail_soup = BeautifulSoup(detai_page_text, 'lxml')
    div_tag = detail_soup.find('div', class_='grap')
    content = div_tag.text

    fileName = title + '.txt'  # haha.txt
    filePath = dirName + '/' + fileName  # xiaoshuo/haha.txt
    with open(filePath, 'w', encoding='utf-8') as fp:
        fp.write(title + '\n' + content)
    print(title, ':下载保存成功！！！')

2. Xpath

环境安装

pip install lxml

xpath解析的编码流程

1.创建一个etree类型的对象，然后把即将被解析的页面源码数据加载到该对象中
2.调用etree对象的xpath方法结合着不同形式的xpath表达式，进行标签定位和数据提取

xpath表达式如何理解？

html中的标签是遵从树状结构的。
切记：xpath表达式中不可以出现tbody标签，如果有直接将其删除跨过即可！

from lxml import etree

# 1.创建一个etree的工具对象，然后把即将被解析的页面源码数据加载到该对象中
tree = etree.parse('test.html')  # etree.parse 解析本地数据
# 2.调用etree对象的xpath函数然后结合着不用形式的xpath表达式进行标签定位和数据提取
# xpath函数返回的是列表，列表中存储的是满足定位要求的所有标签
# /html/head/title定位到html下面的head下面的title标签
title_tag = tree.xpath('/html/head/title')
# //title在页面源码中定位到所有的title标签
title_tag = tree.xpath('//title')

''' 属性定位 '''
# 定位到所有的div标签
div_tags = tree.xpath('//div')
# 定位到class属性值为song的div标签 //tagName[@attrName='value']
div_tag = tree.xpath('//div[@class="song"]')

''' 索引定位://tag[index] '''
# 注意：索引是从1开始的
div_tag = tree.xpath('//div[1]')

''' 层级定位 '''
# /表示一个层级  //表示多个层级
a_list = tree.xpath('//div[@class="tang"]/ul/li/a')
a_list = tree.xpath('//div[@class="tang"]//a')

''' 数据提取 '''
# 1.提取标签中的文本内容:/text()取直系文本  //text()取所有文本
a_content = tree.xpath('//a[@id="feng"]/text()')[0]
div_content = tree.xpath('//div[@class="song"]//text()')
# 2.提取标签的属性值：//tag/@attrName
img_src = tree.xpath('//img/@src')[0]
print(img_src)

案例 - 简历模板下载

'''
https://sc.chinaz.com/jianli/free.html

- 下载当前页所有的建立模板
  - 简历名称+简历的下载链接
  - 根据简历的下载链接 下载简历文件
  - 根据下载地址下载的压缩包，压缩包是二进制的数据
'''
import requests
from lxml import etree
import os

# 创建一个文件夹
dirName = 'jianli'
# exists(dirName)：如果dirName文件夹存在返回True，否则返回False
if not os.path.exists(dirName):
    os.mkdir(dirName)

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
url = 'https://sc.chinaz.com/jianli/free.html'
response = requests.get(url=url, headers=headers)
response.encoding = 'utf-8'
page_text = response.text

# 数据解析：简历的标题和详情页的url
tree = etree.HTML(page_text) # etree.HTML 解析从互联网请求下来的数据
div_list = tree.xpath('//div[@id="container"]/div')
for div in div_list:
    # 局部数据解析：./表示局部的div表示的标签
    title = div.xpath('./p/a/text()')[0] + '.rar'
    detail_url = div.xpath('./p/a/@href')[0]

    detail_response = requests.get(url=detail_url, headers=headers)
    detail_page_text = detail_response.text
    detail_tree = etree.HTML(detail_page_text)
    # 简历的下载地址
    download_url = detail_tree.xpath('//*[@id="down"]/div[2]/ul/li[1]/a/@href')[0]
    # 请求下载到了简历压缩包数据（二进制形式）
    data = requests.get(url=download_url, headers=headers).content
    path = dirName + '/' + title
    with open(path, 'wb') as fp:
        fp.write(data)
    print(title, '下载保存成功！')

案例 - 爬取空气质量数据网

'''
https://www.aqistudy.cn/historydata/
- 爬取热门城市和全部城市的名称
- 该网址不是安全链接，因此需要verify=False关闭安全认证
'''
# 第一种写法
import requests
from lxml import etree

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}

url = 'https://www.aqistudy.cn/historydata/'
page_text = requests.get(url=url, headers=headers).text

tree = etree.HTML(page_text)
# 解析热门城市
hot_cities = tree.xpath('//div[@class="bottom"]/ul/li/a/text()')
# 解析全部城市
all_cities = tree.xpath('//div[@class="bottom"]/ul/div[2]/li/a/text()')
print('热门城市：', hot_cities)
print('全部城市：', all_cities)

# 第二种写法
import requests
from lxml import etree

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}

url = 'https://www.aqistudy.cn/historydata/'
page_text = requests.get(url=url, headers=headers).text

tree = etree.HTML(page_text)
# xpath(表达式1 | 表达式2)：满足表达式1或者表达式2的所有数据都会被定位提取到
cities = tree.xpath('//div[@class="bottom"]/ul/li/a/text() | //div[@class="bottom"]/ul/div[2]/li/a/text()')
print(cities)

案例 - （彼岸图）图片数据爬取

'''
http://pic.netbian.com/4kmeinv/

- 将爬取到的图片存储到指定的文件夹中
'''
#### 爬取一页数据 ####
from lxml import etree
import requests
import os

# 新建一个文件夹
dirName = 'girls'
if not os.path.exists(dirName):  # 如果文件夹不存在，则新建，否则不新建
    os.mkdir(dirName)

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'
}

url = 'https://pic.netbian.com/4kmeinv/index.html'
response = requests.get(url=url, headers=headers)
response.encoding = 'gbk'
page_text = response.text

# 数据解析：图片地址+图片名称
tree = etree.HTML(page_text)  # HTML()专门用来解析网络请求到的页面源码数据
# 该列表中存储的是每一个li标签
li_list = tree.xpath('//div[@class="slist"]/ul/li')
for li in li_list:
    # 局部解析：将li标签中指定的内容解析出来
    img_title = li.xpath('./a/b/text()')[0] + '.jpg'  # 左侧./表示xpath的调用者对应的标签
    img_src = 'https://pic.netbian.com' + li.xpath('./a/img/@src')[0]

    # 对图片发起请求，存储图片数据
    img_data = requests.get(url=img_src, headers=headers).content
    # girls/123.jpg
    img_path = dirName + '/' + img_title
    with open(img_path, 'wb') as fp:
        fp.write(img_data)
    print(img_title, '下载保存成功！')

    
 #### 爬取多页数据 ####
from lxml import etree
import requests
import os

# 新建一个文件夹
dirName = 'girls'
if not os.path.exists(dirName):  # 如果文件夹不存在，则新建，否则不新建
    os.mkdir(dirName)

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'
}
# 创建一个通用的url:除了第一页其他页码的通用url
url = 'https://pic.netbian.com/4kmeinv/index_%d.html'
for page in range(1, 6):
    if page == 1:
        new_url = 'https://pic.netbian.com/4kmeinv/index.html'
    else:
        new_url = format(url % page)
    print('----------正在请求下载第%d页的图片数据----------' % page)
    response = requests.get(url=new_url, headers=headers)
    response.encoding = 'gbk'
    page_text = response.text

    # 数据解析：图片地址+图片名称
    tree = etree.HTML(page_text)  # HTML()专门用来解析网络请求到的页面源码数据
    # 该列表中存储的是每一个li标签
    li_list = tree.xpath('//div[@class="slist"]/ul/li')
    for li in li_list:
        # 局部解析：将li标签中指定的内容解析出来
        img_title = li.xpath('./a/b/text()')[0] + '.jpg'  # 左侧./表示xpath的调用者对应的标签
        img_src = 'https://pic.netbian.com' + li.xpath('./a/img/@src')[0]

        # 对图片发起请求，存储图片数据
        img_data = requests.get(url=img_src, headers=headers).content
        # girls/123.jpg
        img_path = dirName + '/' + img_title
        with open(img_path, 'wb') as fp:
            fp.write(img_data)
        print(img_title, '下载保存成功！')

3. Parsel 模块

python 的一个强大的第三方库 Parsel，里面包含 Xpath，bs4，css，re等四种数据提取方式的一个整合强大的库。

parsel这个库可以解析HTML与XML，并支持Xpath与CSS选择器对内容的提取和修改，同时也支持正则表达式的提取功能。parsel是Python最流行的爬虫框架scrapy的底层支持。

pip install parsel

CSS

在 CSS 中，选择器是一种模式，用于选择需要添加样式的元素。那么我们就可以使用css选择器，在html中找到数据所对应的标签。此方式也是一个专门在html中提取数据的方法。

选择器	例子	描述
.class	.intro	选择 class=“intro” 的所有元素
#id	#firstname	选择 id=“firstname” 的所有元素
*	*	选择所有元素
element	p	选择所有元素
element，element	div，p	选择所有元素和所有元素
element element	div p	选择元素内部的所有元素
element > element	div>p	选择父元素为元素的所有元素
[attribute]	[target]	选择带有 target 属性所有元素

标签选择器

标签选择器其实就是我们经常说的html代码中的标签。例如html、span、p、div、a、img等等；比如我们想要设置网页中的p标签内一段文字的字体和颜色，那么css代码就如下所示：

# 简化的html标签
html = """



	
	标签选择器



	css标签选择器的介绍
	标签选择器、类选择器、ID选择器
	百度一下
	
	具有id属性的标签
	
	 我是一个span标签
	
	组合选择器
	


"""
import parsel  # 数据解析模块, 第三方, pip install parsel

# 1. 转化对象
selector = parsel.Selector(html)  # Selector 就具有一系列数据解析的方法  css/xpath
print(selector)

# 2. 解析数据
"""标签选择器"""
# 所有通过css选择则器解析出来的数据都是一个对象(Selector)
# p  代表根据标签的名字做定位, 叫做标签选择器
# get() 从 Selector 对象中提取第一个数据, 直接返回字符串数据给我们
# result = selector.css('p').get()
# getall() 从 Selector 对象中提取提取所有数据, 返回一个列表
result = selector.css('p').getall()
print(result)

print('-' * 100 + '\n')

类选择器

类选择器在我们今后的css样式编码中是最常用到的，它是通过为元素设置单独的class来赋予元素样式效果。使用语法：（我们这里为p标签单独设置一个class类属性,代码就如下所示）

import parsel  # 数据解析模块, 第三方, pip install parsel

# 1. 转化对象
selector = parsel.Selector(html)  # Selector 就具有一系列数据解析的方法  css/xpath
print(selector)

# 2. 解析数据
"""类选择器"""
# . 代表提取标签的类型(class)
# 具有相同类属性的标签都会被提取
# 类选择器是通过标签的类属性(class属性)精确定位到你想要的标签
result2 = selector.css('.top').getall()
print(result2)

# 如果类属性值是带空格的, 那么空格需要用 . 代替
result3 = selector.css('.top .python').getall()
print(result3)
print('-' * 100 + '\n')

ID选择器

ID选择器类似于类选择符，作用同类选择符相同，但也有一些重要的区别。

"""ID选择器"""
# '#'  使用 id 选择器提取数据
# contend  代表 id 属性的属性值
# id  在 html中一般是唯一的
result4 = selector.css('#contend').getall()
print(result4)
print('-' * 100 + '\n')

组合选择器

可以多个选择器一起使用，就是组合选择器

"""组合选择器"""
# 组合选择器主要是加约束
result5 = selector.css('li#res.top').getall()
print(result5)

# 如果使用组合选择器, 标签选择器必须放最前面
result5 = selector.css('li#res.top').getall()
print(result5)
result5 = selector.css('li.top#res').getall()
print(result5)

"""
以上选择器的作用是用于做定位
"""

伪类选择器

可以用 : 指定选择想要提取的第几个标签

语法	示例	描述
:last-of-type	p:last-of-type	选择满足p语法元素的最后一个元素
:not(selector)	:not§	选择所有p以外的元素
:nth-child(n)	p:nth-child(2)	选择满足p语法元素的第二个元素
:nth-last-child(n)	p:nth-last-child(2)	选择满足p语法元素的倒数的第二个元素

import parsel

# 1. 转化对象
selector = parsel.Selector(html)
print(selector)

# 2. 解析数据
# : 表示伪类选择器
# nth-child 满足标签的第几个元素
# (1) 选择满足标签的第二个元素, 类似索引, 从1开始取
# 伪类主要是在同级标签中定位到指定的第几个
result = selector.css('p:nth-child(2)::text').getall()
print(result)

案例 - css解析小说1

import parsel
import requests

url = 'https://www.bqg78.com/book/1031/1.html'
response = requests.get(url=url)
html_data = response.text
print(html_data)  # 在解析数据前, 一定要打印数据查看是否请求到了

selector = parsel.Selector(html_data)
title = selector.css('h1.wap_none').getall()
print(title)

contend = selector.css('#chaptercontent').getall()
print(contend)

提取属性和文本数据

可以用 :: 提取标签包含的属性

# 简化的html标签
html = """



	
	标签选择器



	css标签选择器的介绍
	标签选择器、类选择器、ID选择器
	百度一下

	具有id属性的标签

	 我是一个span标签

	组合选择器



"""
import parsel

# 1. 转化对象
selector = parsel.Selector(html)
print(selector)

# 2. 解析数据
# :: 表示属性选择器, 当你提取到标签之后, 需要对标签特定的值进行提取(标签包含的文本内容, 标签的属性)
result = selector.css('a::text').getall()
print(result)

# ::attr(href)      根据标签中包含的属性名字提取属性值
# href              a标签属性的名字
result = selector.css('a::attr(href)').getall()
print(result)

案例 - css解析小说2

import parsel
import requests

url = 'https://www.bqg78.com/book/1031/1.html'
response = requests.get(url=url)
html_data = response.text
print(html_data)  # 在解析数据前, 一定要打印数据查看是否请求到了

selector = parsel.Selector(html_data)
title = selector.css('h1.wap_none::text').getall()
print(title)

contend = selector.css('#chaptercontent::text').getall()
print(contend)

案例 - 解析小说二次提取

import parsel
import requests

url = 'https://www.bqg78.com/book/1031/'
response = requests.get(url=url)
html_data = response.text
print(html_data)  # 在解析数据前, 一定要打印数据查看是否请求到了

selector = parsel.Selector(html_data)

# 第一次数据提取: 取所有符合条件的标签
dds = selector.css('.listmain dd')  # 取所有的dd标签
print(dds)

# 第二次提取: 在标签中中取多次结果
for dd in dds:
    title = dd.css('a::text').get()
    href = dd.css('a::attr(href)').get()
    print(title, href)

案例 - 微医网css解析

import parsel
import requests

url = 'https://www.guahao.com/expert/61409/%E5%86%85%E7%A7%91'
response = requests.get(url=url)
html_data = response.text
# 在解析数据前， 一定要打印查看数据是请求到了
# print(html_data)
selector = parsel.Selector(html_data)
lis = selector.css('.g-doctor-items.to-margin>ul>li')

for li in lis:
    doctor_name = li.css('.wrap>a::text').get()
    doctor_level = li.css('dl>dt::text').getall()[1].strip()
    doctor_kind = li.css('dd>p:nth-child(1)::text').get()
    doctor_Belonging = li.css('dd>p:nth-child(2)>span::text').get()
    doctor_score = li.css('.star>em::text').get()
    doctor_inquiry = li.css('.star-count>span:nth-child(2)>i::text').get()
    doctor_goodFor = li.css('.skill>p::text').get().strip().replace('\n', '').replace(' ', '')
    result = li.css('.star-count>span:nth-child(1)::text').get()

    print(result)

Xpath

什么是xpath

XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言，可用来在 HTML\XML 文档中对元素和属性进行遍历。
W3School官方文档：http://www.w3school.com.cn/xpath/index.asp

html和xml的区别

html_str = """
         
             
                
                    第一个
                 
                
                
                    第二个
                 
                
                
                    第三个
                 
                
                
                    第四个
                 
                
                
                    第五个 
                
            
        
"""
import parsel

# # 转换数据类型, 能够把缺失的html标签补充完整
selector = parsel.Selector(html_str)
# print(selector)
# # selector.xpath()

"""根节点的使用"""
result = selector.xpath('/html/body/div/ul/li/a').getall()
print(result)

"""
    xpath语法规则中
    /   表示从根节点开始提取(用得少),还表示取下一级标签
    如果你打算从根节点提取, 那么必须从html这个节点开始提取

"""
print('-' * 100 + '\n')

"""跨节点的使用"""
result2 = selector.xpath('//a').getall()
result3 = selector.xpath('/html//a').getall()
print(result2)
print(result3)

"""
    xpath语法规则中(用的极多)
    //   表示跨节点提取, 而不用考虑节点位置
"""
print('-' * 100 + '\n')

"""选取当前节点"""
# 选中标签, 然后提取标签下面所有的标签
result = selector.xpath('//ul')
result4 = result.xpath('./li').getall()
print(result4)
"""
    xpath语法规则中
    .   表示取当前节点
    使用场景: 需要对选取的标签进行二次提取的时候,需要用到 .
"""
print('-' * 100 + '\n')

"""选取当前节点的父节点"""
# 选取节点的父节点
result = selector.xpath('//a')
result5 = result.xpath('..').getall()
print(result5)
"""
    xpath语法规则中
    ..   表示取当前节点的父节点(用的极少)
"""
print('-' * 100 + '\n')

"""@属性定位和属性取值"""
# 获取第四个标签, 并获取其href属性值
result = selector.xpath('//a[@href="link4.html"]').getall()
print(result)

result = selector.xpath('//a[@href="link4.html"]/@href').getall()
print(result)
"""
    xpath语法规则中
    @ 有两个用途
    1. 根据标签特有的属性(class,href,src,id,title等等)精确定位到想要的标签    
    2. 可以根据已经定位好的标签, 指定标签内属性的名字, 获取属性值  
"""
print('-' * 100 + '\n')

"""获取标签包含的文本内容"""
# 获取第四个标签, 取其包含的文本内容
result = selector.xpath('//a[@href="link4.html"]/text()').getall()
print(result)
"""
    xpath语法规则中
    text()  作用在于获取指定标签后, 可以提取标签包含的文本内容
"""
print('-' * 100 + '\n')

"""同级标签精确定位"""
# 获取第三个li标签的节点
result = selector.xpath('//li[3]').getall()
print(result)

"""
    xpath语法规则中
    对于获取到的多个标签, 可以用 [] 精确定位获取标签的第几个
    [] 内部填标签的排列的顺序, 类似于索引取值, 索引从1开始
"""
print('-' * 100 + '\n')

"""多条件查询"""
# 获取所有标签的属性值和标签包含的文本, 只能使用一行 xpath 解决
result = selector.xpath('//li/@class|//a/text()').getall()
print(result)
"""
    xpath语法规则中
    |   表示多条件查询, 左右两边分别是两个条件, 满足其中一个条件的标签都会被找到(逻辑或)
    用的不多
"""
print('-' * 100 + '\n')

案例 - xpath采集图片

import os.path
import re
import parsel
import requests

def change_title(title):
    pattern = re.compile("[\/\\\:\*\?\"\<\>\|]")  # '/ \ : * ? " < > |'
    new_title = re.sub(pattern, "_", title)  # 替换为下划线
    return new_title

url = 'https://www.jdlingyu.com/dm/zb'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'}

response = requests.get(url=url, headers=headers)
html_data = response.text
# print(html_data)

# 解析数据
selector = parsel.Selector(html_data)
lis = selector.xpath('//div[@id="post-list"]/ul/li')

for li in lis:
    # xpath语法中二次提取一定要加.
    pic_title = li.xpath('.//h2/a/text()').get()
    pic_href = li.xpath('.//h2/a/@href').get()
    print(pic_title, pic_href)

    new_title = change_title(pic_title)

    if not os.path.exists('img\\' + new_title):
        os.mkdir('img\\' + new_title)

    # 发送相册详情页请求, 因为图片地址在详情页
    response_pic = requests.get(url=pic_href, headers=headers).text

    # 解析详情页地址
    selector_pic = parsel.Selector(response_pic)

    # 提取详情页所有地址
    pic_url_list = selector_pic.xpath('//div[@class="entry-content"]//img/@src').getall()

    for pic_url in pic_url_list:
        pic_data = requests.get(url=pic_url, headers=headers).content  # 请求图片数据

        # 文件名
        file_name = pic_url.split('/')[-1]

        with open(f'img\\{new_title}\\{file_name}', mode='wb') as f:
            f.write(pic_data)
            print('下载完成:', file_name)

案例 - 豆瓣250

"""
    使用 css 选择器将豆瓣250 十页的全部电影信息全部提取出来。
    目标网址：https://movie.douban.com/top250

    title（电影名）
    info（导演、主演、出版时间）
    score（评分）
    follow（评价人数）
	
	提取出来print（）打印即可
"""
import parsel
import requests

for page in range(0, 226, 25):

    url = f'https://movie.douban.com/top250?start={page}&filter='
    headers = {
        'Cookie': 'll="118267"; bid=VrC8tT1GWz8; __yadk_uid=iHqVKZD4ZHIVREbOrlu9k4uWFSsAdZtO; _pk_id.100001.4cf6=b39d476add4f5658.1683638062.; __utmz=30149280.1687782730.8.7.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __utmz=223695111.1687782730.4.4.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1687952054%2C%22https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DqdlD_RZvrHI0sXUZ08wSSKbkKLAWA_R84aALUkbWwp__yA2hUL-2C_Ej15saTpe7%26wd%3D%26eqid%3Dfdfaeaeb0001b3f60000000664998548%22%5D; _pk_ses.100001.4cf6=1; ap_v=0,6.0; __utma=30149280.1169382564.1682168622.1687782730.1687952054.9; __utmb=30149280.0.10.1687952054; __utmc=30149280; __utma=223695111.1640817040.1683638062.1687782730.1687952054.5; __utmb=223695111.0.10.1687952054; __utmc=223695111; __gads=ID=744f53c3cb2ebb52-22841ef3a4e00021:T=1683638065:RT=1687952056:S=ALNI_MZhRKuML1OBDnNRafe3qd6-ndhaiQ; __gpi=UID=00000c03bafcda5c:T=1683638065:RT=1687952056:S=ALNI_MbkLLsUm467wiS6ZZ6Mn2ohKIWBZw',
        'Host': 'movie.douban.com',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36',
    }
    response = requests.get(url=url, headers=headers)
    html_data = response.text
    # print(html_data)

    """解析数据"""
    # 转对象
    selector = parsel.Selector(html_data)

    # 第一次提取
    lis = selector.css('.grid_view>li')

    # 二次提取
    for li in lis:
        title = li.css('.hd>a>span:nth-child(1)::text').get()
        info = li.css('.bd>p:nth-child(1)::text').getall()
        info = '//'.join([i.strip() for i in info])
        score = li.css('.rating_num::text').get()
        follow = li.css('.star>span:nth-child(4)::text').get()
        print(title, info, score, follow)

    print('=' * 100 + '\n')

案例 - 穷游网

"""
    目标网址: https://place.qyer.com/china/citylist-0-0-1/
    
    需求:
        1、用xpath采集数据
        2、采集以下信息
            city_name   # 城市名
            travel_people  # 去过的人数
            travel_hot    # 热门景点
            img_url  # 城市图片url
            
        解析到数据用print()函数打印即可
请在下方编写代码：
"""
import parsel
import requests

url = f'https://place.qyer.com/china/citylist-0-0-1/'
response = requests.get(url=url)
html_data = response.text
print(html_data)

selector = parsel.Selector(html_data)
lis = selector.xpath('//*[@class="plcCitylist"]/li')
for li in lis:
    city_name = li.xpath('.//h3/a/text()').get()
    travel_people = li.xpath('.//*[@class="beento"]/text()').get()
    travel_hot = li.xpath('.//*[@class="pois"]/a/text()').getall()
    travel_hot = '-'.join([i.strip() for i in travel_hot])
    img_url = li.xpath('.//*[@class="pics"]//img/@src').get()
    print(city_name, travel_people, travel_hot, img_url)

正则表达式

text = """
回复(2)4楼2018-07-04 11:48

哥哥口袋有糖
初识物联1
[email protected]

收起回复5楼2018-07-04 14:10

Super劫Zed: [email protected]
2018-8-8 16:00回复
我也说一句

RAVV2017
物联硕士4
以上的邮箱，已发，还需要的请回复邮箱。两套物联网学习资料。

回复(4)7楼2018-07-04 16:06

儒雅的刘飞3
初识物联1
[email protected]，谢谢楼主

收起回复8楼2018-07-04 16:20

RAVV2017: 已发送，麻烦请查收，谢谢
2018-7-4 16:23回复
我也说一句
"""

import re  # 内置模块, 正则表达式模块

"""
pattern     正则表达式的匹配规则, 根据规则在字符串中匹配数据
string      需要匹配的字符串
flags       默认参数, 匹配模式
"""
result = re.findall('Super劫Zed: (.*?)@qq.com', text)
print(result)  # re.findall返回的结果是一个列表

元字符

text = """
回复(2)4楼2018-07-04 11:48

哥哥口袋有糖
初识物联1
[email protected]

收起回复5楼2018-07-04 14:10

Super劫Zed: [email protected]
2018-8-8 16:00回复
我也说一句

RAVV2017
物联硕士4
以上的邮箱，已发，还需要的请回复邮箱。两套物联网学习资料。

回复(4)7楼2018-07-04 16:06

儒雅的刘飞3
初识物联1
[email protected]，谢谢楼主

收起回复8楼2018-07-04 16:20

RAVV2017: 已发送，麻烦请查收，谢谢
2018-7-4 16:23回复
我也说一句_
"""
import re
# 默认情况下一个元字符只能匹配到一个字符串
"""
. 在默认情况下, 可以匹配除了换行符以外的任意字符
re.S 匹配模式, 能够让 . 匹配到换行符
"""
# 在元字符的前后加字符串的约束, 那么匹配的数据也要满足约束条件
# 如果有字符串即满足约束条件也满足元字符规则, 那么就会被匹配到
# 如果没有字符串满足正则表达式规则, 那么就会返回空列表
result = re.findall('Super劫Zed: .................', text, re.S)
print(result)

"""
\d  匹配一个数字字符
\D  匹配一个非数字字符
"""
result = re.findall('Super劫Zed: \d\d\d\d\d\d\d\d\d', text)
print(result)
result = re.findall('Super劫Zed: \d\d\d\d\d\d\d\d\d\D\D\D\D\D\D\D', text)
print(result)

"""
\s  匹配一个空白字符(换行,空格,\t, tab键)
\S  匹配一个非空白字符
"""
result = re.findall('\s', text)
print(result)
result = re.findall('\S', text)
print(result)

"""
\w  匹配一个单词字符, 即a-z、A-Z、0-9、_、包括各个国家语言文字
\W  匹配一个非单词字符
"""
result = re.findall('\w', text)
print(result)
result = re.findall('\W', text)
print(result)

"""
+  匹配前一个字符一次或者多次(最少要出现一次)
*  匹配前一个字符零次或者多次(最少可以是零次)

.+  匹配一次或者多次
.*  匹配零次或者多次
"""
result = re.findall('Super劫Zed: .\d+', text)
print(result)
result = re.findall('Super劫Zed: \d*\D*', text)
print(result)

result = re.findall('Super劫Zed: \s+', text)
print(result)
result = re.findall('Super劫Zed: \s*', text)
print(result)

贪婪匹配和非贪婪匹配

text = """
回复(2)4楼2018-07-04 11:48

哥哥口袋有糖
初识物联1
[email protected]

收起回复5楼2018-07-04 14:10

Super劫Zed: [email protected]
Super劫Zed: [email protected]
Super劫Zed: [email protected]
2018-8-8 16:00回复
我也说一句

RAVV2017
物联硕士4
以上的邮箱，已发，还需要的请回复邮箱。两套物联网学习资料。
"""
import re

result = re.findall('Super劫Zed: \[email protected]', text, re.S)
print(result)

"""
贪婪匹配: 默认匹配模式, 会尽可能的在满足规则的前提下, 多匹配数据

?  匹配1次或者0次

.*   匹配除了换行符以外的任意字符, 默认是贪婪模式
.*?  非贪婪匹配, 在符合规则的前提下, 匹配一次返回一次
"""
result = re.findall('Super劫Zed: .*@qq.com', text)
print(result)
result = re.findall('Super劫Zed: .*[email protected]', text, re.S)
print(result)

精确匹配

text = """
回复(2)4楼2018-07-04 11:48

哥哥口袋有糖
初识物联1
[email protected]

收起回复5楼2018-07-04 14:10

Super劫Zed: [email protected]
Super劫Zed: [email protected]
Super劫Zed: [email protected]
2018-8-8 16:00回复
我也说一句

RAVV2017
物联硕士4
以上的邮箱，已发，还需要的请回复邮箱。两套物联网学习资料。
"""
import re
"""
精确匹配: 先根据正则语法规则匹配数据, 然后提取()内的数据部分
()  表示精确匹配
"""
result = re.findall('Super劫Zed: (.*?)@qq.com', text, re.S)
print(result)

数量词

text = """
回复(2)4楼2018-07-04 11:48

哥哥口袋有糖
初识物联1
[email protected]

收起回复5楼2018-07-04 14:10

Super劫Zed: [email protected]
Super劫Zed: [email protected]
Super劫Zed: [email protected]
2018-8-8 16:00回复
我也说一句

RAVV2017
物联硕士4
以上的邮箱，已发，还需要的请回复邮箱。两套物联网学习资料。
"""
import re

result = re.findall('Super劫Zed: \d{5}@qq.com', text, re.S)
print(result)

result = re.findall('Super劫Zed: \d{6}@qq.com', text, re.S)
print(result)

# {start,stop}  表示数量词, 限制前一个字符的匹配数量, 闭区间
result = re.findall('Super劫Zed: \d{5,6}@qq.com', text, re.S)
print(result)

字符集

text = """
回复(2)4楼2018-07-04 11:48

哥哥口袋有糖
初识物联1
[email protected]

收起回复5楼2018-07-04 14:10

Super劫Zed: [email protected]
Super劫Zed: [email protected]
Super劫Zed: [email protected]
Super劫Zed: [email protected]
2018-8-8 16:00回复
我也说一句

RAVV2017
物联硕士4
以上的邮箱，已发，还需要的请回复邮箱。两套物联网学习资料。
"""
import re

# 一个[]只能匹配一个字符串, 只有字符集里面罗列的内容才可以匹配到
result = re.findall('Super劫Zed: [0123456789]*@qq.com', text)
print(result)

result = re.findall('Super劫Zed: [0-9]*@qq.com', text)
print(result)
result = re.findall('Super劫Zed: [a-zA-Z0-9]*@qq.com', text)
print(result)

result = re.findall('[:1]', text)
print(result)
"""
.*?     站位
(.*?)   精确匹配
"""

re.match

import re

string = 'PythonahsdgjasghPythonasdjajsk'

# re.match  匹配字符串中第一个内容, 如果字符串的最前面没有你要查找的内容就会报错, 只会找头部
# result    得到的结果是一个对象, 用group()在对象中把数据取出来
result = re.match('Python', string)
print(result)

print(result.group())

re.search

import re

string = '   PythonahsdgjasghPythonasdjajsk'

# re.search  可以在字符串中的任意位置查找指定的字符串, 找到了就返回, 有且仅返回一次数据
result = re.search('Python', string)
print(result)

print(result.group())

# 192.168.0.1

re.split

import re
"""
pattern     匹配规则
string      匹配的字符串
maxsplit    最大分割次数
flags       匹配模式
"""
string = 'Pythonasdkjasd 464654 adhuiaghsdk 564654 akjsdhkashdkja'

result = re.split('\d+', string)
print(result)

result = re.split('\d+', string, maxsplit=1)
print(result)

re.compile

import re

str1 = "[email protected]"
str2 = "python = 9999， c = 7890， c++ = 12345"
str3 = "python = 997"

# re.compile 将正则表达式规则编译成一个对象
# 在python解释器底层, 首先会对正则表达式语法进行编译
# 已经编译好的正则对象, 在python解释器底层就不会编译了
# 编译好的对象可以重复多次使用
pattern = re.compile('\d+')
print(pattern)

result = re.findall(pattern, str1)
print(result)

result = re.findall(pattern, str2)
print(result)

result = re.findall(pattern, str3)
print(result)

re.sub

import re
"""
pattern    匹配规则 
repl       匹配到的数据需要替换成什么--> (可以是字符串, 也可以是函数规则)
string     在哪里匹配
count      替换次数
flags      匹配模式
"""

string = 'Pythonasdkjasd Java adhuiaghsdk Java akjsdhkashdkja'
# 字符串的替换方法
result = re.sub('Java', 'python牛逼', string)
print(result)

result = re.sub('Java', 'python牛逼', string, count=1)
print(result)


def func(x):
    print('匹配到的数据会放到此参数当中来:', x.group())
    return x.group().replace('a', '@')


result = re.sub('Java', func, string, count=1)
print(result)

# re.finditer()

案例 - 匹配特殊字符

import re

html = """

"""

# SwfFile : escape('(.*?)'),
"""
在字符串中, 如果出现了元字符, 会影响我们匹配数据, 
因为元字符在正则表达式中有特殊含义, 所以需要在正则表达式中对元字符转义
"""
result = re.findall("SwfFi.*?scape\('(.*?)'\),", html, re.S)
print(result)

匹配开头和结尾

import re
email_list = ["[email protected]", "[email protected]", "[email protected]"]

for email in email_list:
    result = re.match('^\w*@163.com$', email)

    if result:
        print(f'{email} 是规范的邮箱地址, 地址是{result.group()}')
    else:
        print(f'{email} 不是规范的邮箱地址')

# {'你好': '你好python/www.baidu.com/你很好'}{'你好': '你好python/www.douban.com/你不好'}

案例 - 正则练习

"""
删除 xml_str 字符串里面多余的空行。并将每一行字符串内容顶格输出
"""
xml_str = """



	TowerRouteTask-1.0


	2020-05-09 13:47


	崇玉线_04#


	1


	17


	true


	


"""
"""在下方实现代码"""
import re
# result = re.sub('\t', '', xml_str)
# # print(result)
# result2 = re.sub('\n+', '\n', result)
# print(result2)

# \s
# {2,} --> 限制最少出现2次, 最多没有线
# result = re.sub('\s{2,}', '\n', xml_str)
# print(result)

result = re.sub('[\t\n]+', '\n', xml_str)
print(result)

案例 - 电话加密

"""
    根据下方出现的电话号码进行加密
    
    需求:
        最终效果: 181****5458

    请用正则表达式解决
"""
import re
# 方法一
def func(x):
    # print(x)
    str_ = x.group()
    return str_[:3] + '****' + str_[-4:]

tel = "18123115458"
result = re.sub('\d{11}', func, tel)
print(result)

# 方法二
tel = "18123115458"
result = re.sub('\d{11}', lambda x: x.group()[:3] + '****' + x.group()[-4:], tel)
print(result)

# 方法三
tel = "18123115458"
# 分组匹配
# (\d{3}) 分组一  (\d{4}) 分组二  (\d{4}) 分组三
# \\1 取分组一
result = re.sub('(\d{3})(\d{4})(\d{4})', '\\1****\\3', tel)
print(result)

案例 - 正则解析 Json 数据

"""
1. 采集网址 https://haokan.baidu.com/tab/gaoxiao_new

2. 采集目标
	- 采集当前页面里面的数据
	- 需要需要采集以下数据:
		title 视频标题
		duration 视频时长
		fmplaycnt 播放量

    - 用正则表达式采集
"""
import re

import requests

url = 'https://haokan.baidu.com/web/video/feed?tab=gaoxiao_new&act=pcFeed&pd=pc&num=23&shuaxin_id=16881261110000'
headers = {
    'Cookie': 'BIDUPSID=A8D9EA340531252B16551CBD43A8D395; PSTM=1681976911; BAIDUID=A8D9EA340531252BDEF2C13A73AFA5E7:FG=1; H_WISE_SIDS=131862_114552_216844_213346_214803_219942_110085_243887_244712_249892_256348_256447_256739_254317_257586_257996_258372_258375_230288_259102_259287_258772_234207_234295_253022_260335_260806_259299_253631_261575_261718_261459_261983_259782_260440_261793_259629_236312_262490_262452_261869_262607_262677_262597_262604_249411_259519_259948_262743_262746_262913_263190_256998_263221_263306_263279_243615_263343_261683_263434_254299_261411_263584_257289_262439_262533_263644_262408_262910_257169_262289_263906_263363_256419_264175_264089_264228_257442_256225_262260_255224_264018_264368_259558_256083_264383_264423_264452_264285_256152_264626_264246_258698_264749_261934_264820_264136_261035_261663; ZFY=CMMricp5SfogOfi1RswFaP4NBZN6t5zy:Axurblw8al4:C; BAIDUID_BFESS=A8D9EA340531252BDEF2C13A73AFA5E7:FG=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; BA_HECTOR=800lag2h0hahag258401000m1i9qvr81p; H_PS_PSSID=36550_38860_38958_38956_38918_38802_38640_26350; Hm_lvt_4aadd610dfd2f5972f1efee2653a2bc5=1688126064; Hm_lpvt_4aadd610dfd2f5972f1efee2653a2bc5=1688126112; ariaDefaultTheme=undefined; ab_sr=1.0.1_MjgyMzZjN2IxMjY5NzIyYzY2ZWQ2NTAzNGQ2YTcwNzRmZDczYjM5NDZiMDdkMGE0YWQyNTQ1YWVjN2YzNzExYmIyMmFlMjcyYzk2YzJjNjMyM2JjMDVhNDE5NDYyNTQ3MTM2MmU5M2Y1NDZlODYyNjg3YzlhODY0OWEwMGFlMzJjMTE5YzI4NDdhZDMyNzQ4MDA1YmYwZTE5YmNhMDkwZA==; reptileData=%7B%22data%22%3A%2287bae13ee8ed99ddf87f67f1f31fdf4ce6014e09f0fe8e757434c4500b3b88612312e5a033baaef9b71a836a58b6f53f35de74fc20152f9f3cb09bab3f2e4594dee3f7002bdc220ab39023b9f7742f316ca7e0e203afad9be69125ddc36dc865%22%2C%22key_id%22%3A%2230%22%2C%22sign%22%3A%22b50b7367%22%7D; RT="z=1&dm=baidu.com&si=0ea9a6fe-6353-4f02-829c-8039b1c56a1b&ss=ljiio6p3&sl=2&tt=31r&bcn=https%3A%2F%2Ffclog.baidu.com%2Flog%2Fweirwood%3Ftype%3Dperf&ld=13gd&nu=47t5yjyw&cl=1b5h"',
    'Authority': 'haokan.baidu.com',
    'Referer': 'https://haokan.baidu.com/tab/gaoxiao_new',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
json_data = response.json()
print(json_data)
print(type(json_data))

json_data = str(json_data)

# {'id': '9266673592642073145', 'title': '分手的原因终于找到了，原来是一起挂的同心圆被别人给剪啦！', 'poster_small': 'https://f7.baidu.com/it/u=2557173170,2348383163&fm=222&app=106&f=JPEG@s_0,w_660,h_370,q_80', 'poster_big': 'https://f7.baidu.com/it/u=2557173170,2348383163&fm=222&app=106&f=JPEG@s_0,w_660,h_370,q_80', 'poster_pc': 'https://f7.baidu.com/it/u=2557173170,2348383163&fm=222&app=106&f=JPEG@s_0,w_660,h_370,q_80,f_auto', 'source_name': '就这么搞笑', 'play_url': 'http://vd4.bdstatic.com/mda-pdc4ueypmq7b5isj/cae_h264/1681516229583661512/mda-pdc4ueypmq7b5isj.mp4?v_from_s=hkapp-haokan-nanjing', 'duration': '01:04', 'url': 'https://haokan.hao123.com/v?vid=9266673592642073145&pd=pc&context=', 'show_tag': 0, 'publish_time': '04月13日', 'is_pay_column': 0, 'like': '1', 'comment': '5', 'playcnt': '84', 'fmplaycnt': '84次播放', 'fmplaycnt_2': '84', 'outstand_tag': '', 'previewUrlHttp': 'https://vd4.bdstatic.com/mda-pdc4ueypmq7b5isj/cae_h264/1681516229583661512/mda-pdc4ueypmq7b5isj.mp4?v_from_s=hkapp-haokan-nanjing&auth_key=1688128351-0-0-55ae631ce80b6d3563a979677b4e18ef&bcevod_channel=searchbox_feed&pd=1&vt=1&cd=0&watermark=0&logid=0151184955&vid=9266673592642073145&pt=4&cr=0&sle=1&sl=573&split=501264', 'third_id': '1760852045386443', 'vip': 0, 'author_avatar': 'https://gips0.baidu.com/it/u=3423469398,1093432278&fm=3012&app=3012&autime=1687938807&size=b200,200&fmt=auto'},
# {'id': '.*?', 'title': '(.*?)',.*?'duration': '(.*?)',.*?'fmplaycnt': '(.*?)',.*?},
# \{'id': '.*?', 'title': '(.*?)',.*?'duration': '(.*?)',.*?'fmplaycnt': '(.*?)',.*?\},

result = re.findall("\{'id': '.*?', 'title': '(.*?)',.*?'duration': '(.*?)',.*?'fmplaycnt': '(.*?)',.*?\},", json_data)
print(result)

你可能感兴趣的:(【基础】Python网络爬虫,python,爬虫,正则表达式)

基于Streamlit实现的音频处理示例大霸王龙音视频 ffmpeg
基于Streamlit实现的音频处理示例，包含录音、语音转文本、文件下载和进度显示功能，整合了多个技术方案：一、环境准备#安装依赖库pipinstallstreamlitstreamlit-webrtcaudio-recorder-streamlitopenai-whisperpython-dotx二、完整示例代码importstreamlitasstfromaudio_recorder_stre
npm错误 gyp错误 vs版本不对 msvs_version不兼容澎湖Java架构师前端 html npm node.js 前端
npm错误gyp错误vs版本不对msvs_version不兼容windowsSDK报错执行更新GYP语句第一种方案第二种方案执行更新GYP语句npminstall-gnode-gyp最新的GYP好像已经不支持Python2.7版本，npm会提示你更新都3.*.*版本安装Node.js的时候一定要勾选以下这个，会自动检测安装缺少的环境第一种方案管理员运行CMD（PowerShell也行）执行更新工具
深入了解 ArangoDB 的图数据库应用与 Python 实践 eahba 数据库 python 开发语言
在当前数据驱动的时代，对连接数据的高效处理和分析需求日益增长。ArangoDB作为一个可扩展的图数据库系统，能够加速从连接数据中获取价值。本文将介绍如何使用Python连接和操作ArangoDB，并展示如何结合图问答链来获取数据洞察。技术背景介绍ArangoDB是一个多模型数据库，支持文档、图和键值类型的数据存储。其强大的图形存储和查询能力使其成为处理复杂数据关系的理想选择。通过JSON支持和单一
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
一、Python入门基础 MeyrlNotFound python 开发语言
1.Python简介与环境搭建•了解Python的历史、特点和应用领域Python的历史Python是一种高级编程语言，由GuidovanRossum于1989年发明。Python语言的设计目标是让代码易读、易写、易维护，从而提高开发效率和代码质量。自其诞生以来，Python已从一个简单的系统管理工具发展成为一种广泛应用于多个领域的编程语言。Python的特点1.简单易学：Python的语法简洁明
npm error gyp info 计算机辅助工程 npm 前端 node.js
在使用npm安装Node.js包时，可能会遇到各种错误，其中gyp错误是比较常见的一种。gyp是Node.js的一个工具，用于编译C++代码。这些错误通常发生在需要编译原生模块的npm包时。下面是一些常见的原因和解决方法：常见原因及解决方法Python未安装或版本不兼容：Node.js使用Python来运行gyp。确保你的系统上安装了Python，并且版本与node-gyp兼容。通常推荐使用Pyt
股票量化交易开发 Yfinance 数字化转型2025 python 开发语言
以下是一段基于Python的股票量化分析代码，包含数据获取、技术指标计算、策略回测和可视化功能：pythonimportyfinanceasyfimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfrombacktestingimportBacktest,Strategyfrombacktesti
【R语言2】Introduction to R 基础知识复习小测试 Pop quiz 不二程序猿 r语言开发语言数据挖掘
【R语言】基础知识点Popquiz前言Question1Question2Question3Question4Question5Question6Question7Question8Question9Question10是兄弟就砍一刀！答案前言在这里会有10道题，每一道都是对R语言的基础了解。有单选题和填空题，答案在最下面。填空题可以放到Rstudio里运行得出答案。Question1Whicho
sqlmap笔记君如尘网络安全-渗透笔记笔记
1.运行环境sqlmap是用Python编写的，因此首先需要确保你的系统上安装了Python。sqlmap支持Python2.6、2.7和Python3.4及以上版本。2.常用命令通用格式：bythonsqlmap.py-r注入点地址--参数-rpost请求-uget请求--level=测试等级--risk=测试风险-v显示详细信息级别-p针对某个注入点注入-threads更改线程数，加速--ba
JS基础-事件模型(事件&事件流&自定义事件&事件冒泡/代理) LYFlied html&浏览器 javascript 事件模型事件流前端面试
文章目录一、事件与事件流二、事件模型1.DOM0级模型2.IE事件模型3.DOM2级模型4.DOM3级事件处理方式三、事件对象四、事件绑定与解除1.事件绑定1.1对象.on事件名字=事件处理函数1.2.对象.addEventListener("没有on的事件名字",事件处理函数,false)3.对象.attachEvent("有on的事件名字",事件处理函数);2.解除绑定五、EventWrapp
JavaScript基础-DOM的一些基本常用语法 Southern Wind JavaScript javascript
总结了一下JS一直到DOM中所用的单词的用法输入方式：window.prompt('请输入数据');输出方式：1、window.alert('HelloJavaScript');2、console.log输出到控制台3、输出数据到页面document.write('hello')JavaScript数据类型1、基本类型string：字符型number：数值型boolean：布尔型2、特殊类型und
C#基础学习（二）C#数组生存手册：从入门到“血压拉满“的奇妙旅程 FAREWELL00075 c#学习开发语言数组 Array
作为一只C#萌新，当你试图用数组装下整个世界时，系统可能会温柔地弹出一句**"Indexwasoutsidetheboundsofthearray."**。别慌！这份求生指南将用段子教你玩转数组一、数组是什么数组简单来说就是由相同元素组成的一个集合，数组里面不一定是数，还可能是bool,string等类型组成的集合。那么他有些什么特点呢：本质：装着相同类型元素的集装箱（比如一箱肥宅快乐水）特性：长
python环境部署工具 uv Honnnnnn uv
以原先使用的pipenv工具为例子，通过pipfile.lock生成requirements文件，再将requirements转成pyproject.toml文件，最后生成uv.lock基于当前虚拟环境导出requirements.txt--pipfreeze>requirements.txt（如果原先不是env而是基础的通过requirements.txt文件，省去转化requirements的
笔记：代码随想录算法训练营day60：并查集理论基础、寻找存在的路径 jingjingjing1111 笔记
本文为学习并查集理论基础|代码随想录、代码随想录过程中的思考find是找的顶头上司，而不是当前上司，最后怎么也得找到一个顶头上司的上司是自己，要不然这个结构也不成立使用issame替换会使被操作者为当前节点，而非根节点。join(u,v)的功能为将v的根节点挂到u的根节点下模拟过程可以看出，join中的find中的路径压缩要在长度大于2（路径大于1）的时候才会体现出来107.寻找存在的路径卡码网题
使用uni-app的组件（基础组件和扩展组件）云海洋和天 uni-app 小程序 uni-app 小程序
目录一、使用基础组件二、使用扩展组件（uni-ui）方式一：npm安装方式二：通过uni-modules导入全部组件一、使用基础组件文档uni-app官网•组件•组件概述https://uniapp.dcloud.net.cn/component/基础组件在uni-app框架中已经内置，可以直接使用。示例如：使用内置组件icon二、使用扩展组件（uni-ui）文档
Docker 容器基础技术：namespace 寻雾&启示 docker 容器运维
在容器内进程是隔离的，比如容器有自己的网络和文件系统，容器内进程的PID为1，这些都是依赖于Linuxnamespace所提供的隔离机制。本篇我们来了解下Linux有哪些namespace，以及它们是如何实现隔离的。文中案例代码均由ChatGPT生成，在Linux内核5.15.0-124-generic，ubuntu22.04LTS系统上测试通过。namespace类型每个进程都有自己所属的nam
计算机基础：编码04，认识反码和补码水饺编程 MFC学习笔记 Win32学习笔记 windows c++mfc c语言
专栏导航本节文章分别属于《Win32学习笔记》和《MFC学习笔记》两个专栏，故划分为两个专栏导航。读者可以自行选择前往哪个专栏。（一）WIn32专栏导航上一篇：计算机基础：编码03，根据十进制数，求其原码回到目录下一篇：无（二）MFC专栏导航上一篇：计算机基础：编码03，根据十进制数，求其原码回到目录下一篇：无本节前言在前两节，我讲解了关于原码的知识。本节，我来讲解反码和补码。在学习本节之前，你需
leetcode-hot100-python-专题三：滑动窗口 ༺ Dorothy ༻ leetcode hot100 leetcode python 算法
1、无重复字符的最长子串中等给定一个字符串s，请你找出其中不含有重复字符的最长子串的长度。示例1:输入:s=“abcabcbb”输出:3解释:因为无重复字符的最长子串是“abc”，所以其长度为3示例2:输入:s=“bbbbb”输出:1解释:因为无重复字符的最长子串是“b”，所以其长度为1。示例3:输入:s=“pwwkew”输出:3解释:因为无重复字符的最长子串是“wke”，所以其长度为3。请注意，
JavaScript基础-删除事件（解绑事件）難釋懷 javascript 前端开发语言
在现代Web开发中，动态地添加和移除事件处理器是构建交互式网页的关键技能之一。虽然添加事件处理器相对直观，但了解如何有效地移除或“解绑”这些处理器同样重要。这不仅有助于优化性能，还能防止潜在的内存泄漏问题。本文将介绍几种方法来删除JavaScript中的事件处理器，并探讨它们的应用场景及最佳实践。一、为什么需要删除事件？随着页面复杂度的增加，不恰当地管理事件处理器可能会导致性能下降或出现意外行为。
Android Jetpack 应用架构指南小李子学编程 Android 开发文档指南 android android jetpack 学习
AndroidJetpack应用架构指南本指南涵盖Android应用开发的最佳实践和推荐架构，助力开发者构建健壮高效的应用程序。。前置要求本文假设您已具备Android框架基础知识。若需系统学习Android开发，建议先完成《Android基础知识》目录新架构设计背景移动应用交互特性核心架构原则分离关注点数据模型驱动界面单一数据源单向数据流分层架构设计界面层数据层领域层依赖管理方案工程实践指南参考
Python UV - 安装、升级、卸载云客Coder python uv 开发语言
文章目录安装检查升级设置自动补全卸载UV命令官方文档详见：https://docs.astral.sh/uv/getting-started/installation/安装pipinstalluv检查安装后可运行下面命令，查看是否安装成功uv--version%uv--versionuv0.6.3(a0b9f22a22025-02-24)升级uvselfupdate将重新运行安装程序并可能修改您的
使用Python构建去中心化预测市场：从概念到实现 Echo_Wish Python！实战！python 去中心化开发语言
使用Python构建去中心化预测市场：从概念到实现大家好，我是Echo_Wish。今天，我们将深入探讨一个前沿的区块链应用——去中心化预测市场，并学习如何使用Python来构建一个简易的预测市场平台。预测市场是基于市场参与者对未来事件的预测来产生结果的地方，通常被用来预测政治事件、金融市场走向、体育比赛结果等。传统的预测市场如Augur、Polymarket等，基于去中心化平台，利用区块链技术确保
【商城实战(55)】商城数据库备份：策略与实操指南奔跑吧邓邓子商城实战商城实战数据库备份 MySQL 策略与实操
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
Python自动登陆、登出南京理工大学NJUST校园网程序 JimesMz python 开发语言
本文程序针对南京理工大学NJUST和NJUST-FREE校园网开发，其他学校无法使用。文章目录开发目的使用说明参考资料开发目的今天突然想要用代码实现一下自动登陆校园网，上网搜寻了一下。知乎有一些教程，CSDN也有一些完整的代码，但是我跟随教程或者直接运行现有代码都没有能够成功登陆，且NJUST校园网付费，我想要一个“登出”功能，借助Kimi自己写了一下。本人技术不精，以实现功能为主。使用说明请确保
Python爬虫笔记一（来自MOOC） Requests库入门小灰不停前进 #Python python pycharm 爬虫
Python爬虫笔记一通用代码框架：importrequestsdefgetHTMLText(url):try:r=requests.get(url,timeput=30)r.raise_for_status()#如果状态不是200，引发HTTPError异常r.encoding=r.apparemt_encodingreturnr.textexcept:return"产生异常"if__name_
Python调用fofa API接口并写入csv文件中 YOHO !GIRL 网络测绘 python 网络安全
前言一.功能目的二.功能调研三.编写代码1.引入库2.读取数据3.写入csv文件中总结前言上一篇我们讲述了目前较为主流的几款网络探测系统，简单介绍了页面的使用方法。链接如下，点击跳转：网络空间测绘引擎集合：Zoomeye、fofa、360、shodan、censys、鹰图然而当我们需要针对单个引擎进行二次开发时，页面就不能满足我们的需求了，这就需要参考API文档进行简单的数据处理，接下来，给大家介
SenseVoice 部署记录安静六角开源软件
最近试用了SenseVoice（阿里团队开源的语音转文字）效果可以，可以本地部署，有webui界面，测试了万字以上的转换效果可以。首先部署好conda环境和cuda，这个可以查看他人的文章。步骤1.创建虚拟环境：condacreate-nmainenvpython=3.102.然后安装依赖condaactivatemainenvpipinstall-rC:\Users\xx\Documents\P
使用kubeadm部署高可用IPV4/IPV6集群---V1.32
使用kubeadm部署高可用IPV4/IPV6集群https://github.com/cby-chen/Kubernetes开源不易，帮忙点个star，谢谢了k8s基础系统环境配置配置IP#注意！#若虚拟机是进行克隆的那么网卡的UUID和MachineID会重复#需要重新生成新的UUIDUUID和MachineID#UUID和MachineID重复无法DHCP获取到IPV6地址sshroot@1
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
C语言三大程序结构 & 单分支语句要下雨了吗 c语言 c++visual studio
核心概念：程序就像流水线，通过顺序、选择、循环三种结构完成复杂任务一、三大程序结构图解结构类型形象比喻代码示例顺序直行马路→不拐弯printf("A");printf("B");选择岔路口→二选一if...else循环环形跑道→重复绕圈for/while二、选择结构：if语句完全指南1.基础语法（单分支）if(条件表达式){语句1；//条件成立时执行}else{语句2；//条件不成立时执行}2.真
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户