快乐的冲浪码农

【数据采集】python爬虫进阶学习——聚焦爬虫（纯干货）

本篇文章涉及到数据解析方面的知识（聚焦爬虫）

在看这篇文章之前，建议读者有一定的爬虫相关的基础知识，零基础的同学请移步

半小时学会python爬虫

以下是本篇文章正文内容，建议使用PyCharm等工具进行实践

文章目录

1 引入
2 正则表达式解析
- 2.1 实战：糗事百科图片数据爬取
- - 爬一张图片试一试
  - 爬取第一页所有的图片
  - 爬取所有页数的图片
3 bs4解析
- 3.1 环境安装
- 3.2 bs4的数据解析原理
- 3.3 BeatuifulSoup对象的实例化
- 3.4 BeautifulSoup对象的属性和方法
- 3.5 实战：爬取小说所有的章节的内容
4 xpath解析
- 4.1 原理
- 4.2 环境安装
- 4.3 实例化对象
- 4.4 调用xpath方法捕获数据
- 4.5 实战：爬取58二手房的房源信息
- 4.6 实战：解析下载图片数据
- 4.7 实战：爬取全国城市名称

1 引入

1、聚焦爬虫

大多数情况下的需求，我们都会指定去使用聚焦爬虫，也就是爬取页面中指定部分的数据值，而不是整个页面的数据。

2、数据解析的分类：

正则表达式
bs4解析
xpath解析（重点）

3、数据爬取的流程可以修改为：

指定url
发起请求
获取响应数据
数据解析
持久化存储

4、数据解析原理

解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储

因此，数据解析的步骤如下：

进行指定标签的定位
标签或标签对应的属性中存储的数据值进行提取（解析）

2 正则表达式解析

正则表达式的相关内容可以自行学习一下，不用背，会查就行

下面直接开始实战

2.1 实战：糗事百科图片数据爬取

1、需求

爬取糗事百科中热图模块下的所有图片

地址：https://www.qiushibaike.com/imgrank/

2、分析

所有的图片都是有图片地址的
使用content可以存储二进制文件（图片，见下编码1）
进行通用爬虫，可以发现src在元素img中
进行聚焦爬虫，获取src路径，正则表达式如下：
ex='
.*?'

3、编码

爬一张图片试一试

首先，可以先试一试爬一张图片，代码如下：

import requests
if __name__ == "__main__" :
    # UA伪装
    headers = {
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.1 Safari/605.1.15'
    }

	# 指定图片的URL
    url = 'https://pic.qiushibaike.com/system/pictures/12383/123839033/medium/U1LTJQIQJDP8TCKP.jpg'
    
    # 发起请求，携带参数
    requests.get(url=url,headers=headers)
    
    # 获取响应对象
    response = requests.get(url=url,headers=headers)
    
    # 获取响应数据,content返回二进制形式的图片
    jpg = response.content
    
    with open('./a.jpg','wb')as fp:
        fp.write(jpg)

爬取第一页所有的图片

代码如下：

注意看注释

import requests
import re 
import os

if __name__ == "__main__" :
    
    # 创建一个文件夹，保存图片
    if not os.path.exists('./图片'):
        os.mkdir('./图片')
        
    # UA伪装
    headers = {
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.1 Safari/605.1.15'
    }

	# 指定URL
    url = 'https://www.qiushibaike.com/imgrank/'
    
    # 通用爬虫对整张页面进行爬取
    # 发起请求，携带参数
    requests.get(url=url,headers=headers)
    # 获取响应对象
    response = requests.get(url=url,headers=headers)
    # 获取响应数据
    page_text = response.text
    
    # 使用聚焦爬虫，取出所有的图片
    ex='.*?'
    img_src_list = re.findall(ex,page_text,re.S)
    for src in img_src_list:
        # 拼接出一个完整的图片地址
        src = 'https:'+src
        # 请求到图片的二进制数据
        img_data = requests.get(url = src,headers=headers).content
        # 生成图片名称，从原始的地址中切分出来
        img_name = src.split('/')[-1]
        # 图片存储的路径
        img_path = './图片/'+img_name
        # 持久化存储
        with open(img_path,'wb')as fp:
            fp.write(img_data)

爬取所有页数的图片

代码如下，与上一段代码进行对比：

import requests
import re 
import os

if __name__ == "__main__" :
    
    # 创建一个文件夹，保存图片
    if not os.path.exists('./所有图片'):
        os.mkdir('./所有图片')
        
    # UA伪装
    headers = {
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.1 Safari/605.1.15'
    }

	# 指定URL模版
    url = 'https://www.qiushibaike.com/imgrank/page/%d/'
    
    for pageNum in range(1,14):
        # 对应页面的url
        new_url = format(url%pageNum)
        
        # 通用爬虫对整张页面进行爬取
        # 发起请求，携带参数
        requests.get(url=url,headers=headers)
        # 获取响应对象
        response = requests.get(url=new_url,headers=headers)
        # 获取响应数据
        page_text = response.text
    
    # 使用聚焦爬虫，取出所有的图片
    ex='.*?'
    img_src_list = re.findall(ex,page_text,re.S)
    for src in img_src_list:
        # 拼接出一个完整的图片地址
        src = 'https:'+src
        # 请求到图片的二进制数据
        img_data = requests.get(url = src,headers=headers).content
        # 生成图片名称，从原始的地址中切分出来
        img_name = src.split('/')[-1]
        # 图片存储的路径
        img_path = './所有图片/'+img_name
        # 持久化存储
        with open(img_path,'wb')as fp:
            fp.write(img_data)

3 bs4解析

3.1 环境安装

 1. 需要将pip源设置为国内源，阿里源、豆瓣源、网易源等
 2. windows
    （1）打开文件资源管理器(文件夹地址栏中)
    （2）地址栏上面输入 %appdata%
    （3）在这里面新建一个文件夹  pip
    （4）在pip文件夹里面新建一个文件叫做  pip.ini ,内容写如下即可
        [global]
        timeout = 6000
        index-url = https://mirrors.aliyun.com/pypi/simple/
        trusted-host = mirrors.aliyun.com
 3. linux
    （1）cd ~
    （2）mkdir ~/.pip
    （3）vi ~/.pip/pip.conf
    （4）编辑内容，和windows一模一样
 4. 需要安装：pip install bs4
     bs4在使用时候需要一个第三方库，把这个库也安装一下
     pip install lxml

3.2 bs4的数据解析原理

实例化一个BeatuifulSoup对象，并且将页面源码数据加载到该对象中
通过调用对象的相关属性或者方法解析标签定位和数据提取

3.3 BeatuifulSoup对象的实例化

from bs4 import BeautifulSoup

# 1、将本地的html文档中的数据加载到该对象中
fp = open('./test.html',encoding=utf-8)
soup = Beautiful(fp,'lxml')

# 2、将互联网上的html文档中的数据加载到该对象中
page_text = response.text
soup = BeautifulSoup(page_text,'lxml')

3.4 BeautifulSoup对象的属性和方法

1、soup.tagName

# 返回html中第一次出现的tagname标签
soup.a
soup.div

2、soup.find()

# soup.find('tagname'）,返回的和soup.tagname一样
soup.find('div')

# soup.find('tagname',class_/id/attr='')
soup.find('div',class_'song')

3、soup.find_all()

# soup.find_all('tagname')，返回所有符合要求的标签（列表）
soup.find_all('a')

4、soup.select()

# 返回一个列表，选择器包括id选择器，类选择器、标签选择器
soup.select('.classname')

# 层级选择器，> 表示一个层级
soup.select('.classname > ul > li > a')

# 层级选择器，空格表示多个层级
soup.select('.classname > ul a')

5、获取标签之间的文本数据

# 获取a标签的文本数据，text、string、get_text()

# text和get_text()可以获取标签下的所有的文本内容，即使不属于直系内容
soup.a.text
soup.a.get_text()

# string只可以获取该标签下直系的文本内容
soup.a.string

6、获取标签中的属性值

soup.a['属性名称']

3.5 实战：爬取小说所有的章节的内容

1、需求

爬取三国演义小说所有的章节标题和内容

http://www.shicimingju.com/book/sanguoyanyi.html

2、分析

先使用通用爬虫，可以看到a标签的href对应的是链接，内容为章节的标题
使用聚焦爬虫获取标题所对应的内容

3、编码

import requests
import re
import os
from bs4 import BeautifulSoup

if __name__ == "__main__":

    # UA伪装
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.1 Safari/605.1.15'
    }

    # 对首页数据进行爬取
    url = 'https://www.shicimingju.com/book/sanguoyanyi.html'

    # 获取数据
    page_text = requests.get(url=url, headers=headers).text

    # 在首页中解析出章节的标题和详情页的url
    # 1、实例化
    soup = BeautifulSoup(page_text, 'lxml')
    # 2、解析标题和url
    li_list = soup.select('.book-mulu > ul > li')
    # 打开文件
    fp = open('./sanguo.txt', 'w', encoding='utf-8')
    for li in li_list:
        # 获取a标签的标题和href
        title = li.a.string
        detail_url = 'https://www.shicimingju.com' + li.a['href']
        # 对详情页发起请求
        detail_page_text = requests.get(url=detail_url, headers=headers).text
        # 解析章节的内容
        detail_soup = BeautifulSoup(detail_page_text, 'lxml')
        dic_tag = detail_soup.find('div', class_='chapter_content')
        # 获取到了内容
        content = dic_tag.text
        # 持久化存储
        fp.write(title + ':' + content + '\n')

4 xpath解析

4.1 原理

XPath具有十分强大的选择功能，有一百多种内置函数，几乎可以对我们所有需要选择的节点的内容匹配和节点处理提供支持。

是最通用的数据解析方式

原理：

实例化etree对象，且需要将被解析的页面源码数据加载到该对象中
调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获

4.2 环境安装

pip install lxml

4.3 实例化对象

from lxml import etree

将本地的html文档中的源码数据加载到etree对象中

etree.parse(filepath)

将从互联网上获取的源码数据加载到该对象中

etree.HTML('page_text')

4.4 调用xpath方法捕获数据

xpath('xpath表达式')

常用xpath表达式：

# 实例化一个etree对象
tree = etree.parse('./a.html')

# 定位标签	返回列表，存储了element类型对象（一个或多个）
r = tree.xpath('/html/head/title') # ‘/’表示从根节点开始定位，一个层级
r = tree.xpath('/html//title')  # '//'表示多个层级
r = tree.xpath('//title') # 表示从任意位置定位title标签

# 定位属性	返回列表，写法：标签[@属性=“属性值”]
r = tree.xpath('//div[@class="a"]') # 定位到class为a的所有div

# 索引定位	返回列表，索引从1开始
r = tree.xpath('//div[@class="a"]/p[3]')#定位到class为a的div下的第三个p标签 

# 取文本1		返回列表，写法：标签/text（）获取直系文本内容
r = tree.xpath('//div[@class="a"]//li[1]/a/text()')

# 取文本2		返回列表，写法：标签//text（） 获取所有的文本内容
r = tree.xpath('//div[@class="a"]//li[1]//text')

# 取属性		返回列表，写法：标签/@属性名称
r = tree.xpath('//div[@class="a"]/img/@src')

注意：/表示根标签，./表示当前标签

4.5 实战：爬取58二手房的房源信息

1、需求

爬取58二手房的房源信息

https://sy.58.com/ershoufang/?utm_source=market&spm=u-2d2yxv86y3v43nkddh1.BDPCPZ_BT&PGTID=0d100000-000b-cda5-35a9-c4d948f85c33&ClickID=2

2、编码

import requests
import re 
from lxml import etree

if __name__ == "__main__" :
    
    # UA伪装
    headers = {
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.1 Safari/605.1.15'
    }

	# 指定url
    url = 'https://sy.58.com/ershoufang/'
    
    # 获取页面数据
    page_text = requests.get(url = url,headers=headers).text
    
    # 数据解析
    # 1、实例化
    tree = etree.HTML(page_text)
    # 2、调用xpath定位li标签
    li_list = tree.xpath('//ul[@class="house-list-wrap"]/li')
    # 3、获取a标签
    fp = open('58.txt','w',encoding='utf-8')
    for li in li_list:
        title = li.xpath('./div[2]/h2/a/text()')[0]
        fp.write(title)

4.6 实战：解析下载图片数据

1、需求

解析下载图片数据

http://pic.netbian.com/4kqiche/

2、编码

注意：这个网站可能被爬了太多次，已经设置了防护措施，所以这里其实是爬不了的，大家看代码学习一下方法就好。

import requests
import re 
import os
from lxml import etree

if __name__ == "__main__" :
    
    # 创建一个文件夹，保存图片
    if not os.path.exists('./所有图片'):
        os.mkdir('./所有图片') 
        
    # UA伪装
    headers = {
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.1 Safari/605.1.15'
    }

	# 指定url
    url = 'http://pic.netbian.com/4kqiche/'
    
    # 获取页面数据
    response = requests.get(url = url,headers=headers)
#     response.encoding = 'utf-8'
    page_text = response.text
    
    # 数据解析
    # 1、实例化
    tree = etree.HTML(page_text)
    # 2、调用xpath定位
    li_list = tree.xpath('//ul[@class="clearfix"]/li')
    # 3、获取src属性值
    for li in li_list:
        src = 'http://pic.netbian.com'+li.xpath('./a/img/@src')[0]
        title = li.xpath('./a/img/@alt')[0]+'.jpg'
        title = title.encode('iso-8859-1').decode('gbk')
        # 持久化存储
        img_data = requests.get(url = src,headers=headers).content
        img_path = '所有图片/'+title
        with open (img_path,'wb')as fp:
            fp.write(img_data)

4.7 实战：爬取全国城市名称

1、需求

爬取全国城市的名称

https://www.aqistudy.cn/historydata/

2、编码

import requests
import re 
import os
from lxml import etree

if __name__ == "__main__" :
        
    # UA伪装
    headers = {
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.1 Safari/605.1.15'
    }

	# 指定url
    url = 'https://www.aqistudy.cn/historydata/'
    
    # 获取页面数据
    response = requests.get(url = url,headers=headers)
    page_text = response.text
    
    # 数据解析
    # 1、实例化
    tree = etree.HTML(page_text)
    # 2、调用xpath定位
    li_list_h = tree.xpath('//div[@class="hot"]/div[2]/ul/li')
    li_list_c = tree.xpath('//div[@class="all"]/div[2]/ul')
    city = []
    # 3、获取
    for li in li_list_h:
        host_city_name = li.xpath('./a/text()')[0]
        city.append(host_city_name)
        
    for li in li_list_c:
        all_city_name_li = li.xpath('./div[2]/li')
        for lii in all_city_name_li:
            all_city_name = lii.xpath('./a/text()')[0]
            city.append(all_city_name)
        
    print(city)

结果：

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

【数据采集】python爬虫进阶学习——聚焦爬虫（纯干货）

文章目录

1 引入

2 正则表达式解析

2.1 实战：糗事百科图片数据爬取

爬一张图片试一试

爬取第一页所有的图片

爬取所有页数的图片

3 bs4解析

3.1 环境安装

3.2 bs4的数据解析原理

3.3 BeatuifulSoup对象的实例化

3.4 BeautifulSoup对象的属性和方法

3.5 实战：爬取小说所有的章节的内容

4 xpath解析

4.1 原理

4.2 环境安装

4.3 实例化对象

4.4 调用xpath方法捕获数据

4.5 实战：爬取58二手房的房源信息

4.6 实战：解析下载图片数据

4.7 实战：爬取全国城市名称

你可能感兴趣的:(大数据相关技术汇总,python,爬虫)