Ma Sizhou

适合小白的Python爬虫入门——轻松获取疫情数据

黑马程序员视频笔记（自用）.

目录

一、基础知识

1、爬虫简介

1.1 网络爬虫与浏览器的区别

1.2 网络爬虫的定义

1.3 网络爬虫的作用

2、requests请求库

2.1 requests介绍

2.2 requests安装

2.3 requests的基本使用

3、Beautiful Soup解析库

3.1 Beautiful Soup介绍

3.2 Beautiful Soup安装

3.3 Beautiful Soup对象的介绍与创建

3.4 Beautiful Soup对象的find方法

3.5 案例：从疫情首页提取各国最新的疫情数据

4、正则表达式

4.1正则表达式的概念与作用

（1）概念：

（2）作用：

4.2 正则表达式常见语法

4.3 re.findall()方法

（1）API:

（2)findalla()的特点

4.4 正则表达式中r原串的使用

4.5 提取最新的疫情数据的json字符串

4.6 总结

5、json模块

5.1 json模块介绍

5.2 json转换为python

5.3 python转换为json

（1） python类型数据转换为json字符串：

（2）python类型数据以json格式写入文件：

5.4 解析最新的疫情数据的json字符串

5.5 总结

二、疫情爬虫项目

1、采集最近一日世界各国疫情数据

2、采集从01月23日以来的世界各国疫情数据

3、采集最近一日全国各省疫情数据

4、采集从01月22日以来的中国各省疫情数据

5、总结

一、基础知识

1、爬虫简介

1.1 网络爬虫与浏览器的区别

如下图所示，是浏览器工作的原理：发送请求——>服务器响应——>返回响应的数据，进行渲染。

而网络爬虫的工作原理是：发送请求——>服务器响应——>返回响应的数据。

总之：

1.2 网络爬虫的定义

1.3 网络爬虫的作用

那怎么请求数据呢？下面接着看：

2、requests请求库

2.1 requests介绍

2.2 requests安装

打开终端，输入下面命令：

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple

2.3 requests的基本使用

看一个请求百度首页的例子：

# 1.导入模块
import requests

# 2.发送请求，获取响应
response = requests.get('http://www.baidu.com')
print(response)  # 表示成功

# 3.获取响应数据
# print(response.encoding)  # 查看默认使用的是什么编码：ISO-8859-1

##方式一获取响应
response.encoding = 'utf-8'  # 改变编码方式
print(response.text)

##方式二获取响应（推荐）
print(response.content.decode())  # decode()默认使用utf-8解码
# print(response.content.decode(encoding='gbk'))  # 改为gbk编码方式

注意：

现在数据请求到了，那怎么从请求的数据中提取想要的数据呢？接着看：

3、Beautiful Soup解析库

3.1 Beautiful Soup介绍

3.2 Beautiful Soup安装

Beautiful Soup3停止更新了，所以这里安装Beautiful Soup4，按如下命令：

pip install bs4 -i https://pypi.tuna.tsinghua.edu.cn/simple

还需要安装xml解析库：

pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple

3.3 Beautiful Soup对象的介绍与创建

（1）介绍：

（2）创建：

# 1.导入模块
from bs4 import BeautifulSoup

# 2.创建BeautifulSoup对象
soup = BeautifulSoup('data', 'lxml')  # 第一个参数：html的开始标签、数据、结束标签；第二个参数：指明要用的解析
print(soup)  # BeautifulSoup会自动的修正html

3.4 Beautiful Soup对象的find方法

html文档树如下图所示：

接下来看看find方法的API：

接下来看看例子：

（1）根据标签名查找：

需求：获取文档中的title标签和a标签。

代码：

# 1.导入模块
from bs4 import BeautifulSoup

# 2.准备文档字符串
html = """
    
        The Dormouse's story
     
    
        
            The Dormouse's story
        
        Once upon a time there were three little sisters; and their names were
            Elsie.
            Lacieand
            tillie;
            and they lived at the bottom of a well.
        
        ...

 """

# 3.创建BeautifulSoup对象
soup = BeautifulSoup(html, 'lxml')# 第一个参数：html的开始标签、数据、结束标签；第二个参数：指明要用的解析

# 4.查找title标签
title = soup.find('title')
print(title)

# 5.查找a标签
a = soup.find('a')
print(a)  # 只是第一个

## 查找所有的a标签
a_s = soup.find_all('a')  # 把所有的a标签存入列表，再返回
print(a_s)

（2）根据属性查找：

需求：获取文档中的id为link1的标签

代码：

# 1.导入模块
from bs4 import BeautifulSoup

# 2.准备文档字符串
html = """
    
        The Dormouse's story
     
    
        
            The Dormouse's story
        
        Once upon a time there were three little sisters; and their names were
            Elsie.
            Lacieand
            tillie;
            and they lived at the bottom of a well.
        
        ...

 """

# 3.创建BeautifulSoup对象
soup = BeautifulSoup(html, 'lxml')

# 4.获取文档中的id为link1的标签
## 方式一：通过命名参数指定
a = soup.find(id="link1")
print(a)

# 方式二：使用attrs来指定属性字典，进行查找
a = soup.find(attrs={
     'id': 'link1'})
print(a)

（3）根据文本查找(使用不多)：

需求：获取文档中文本为Elsie的标签文本

代码：

# 1.导入模块
from bs4 import BeautifulSoup

# 2.准备文档字符串
html = """
    
        The Dormouse's story
     
    
        
            The Dormouse's story
        
        Once upon a time there were three little sisters; and their names were
            Elsie.
            Lacieand
            tillie;
            and they lived at the bottom of a well.
        
        ...

 """

# 3.创建BeautifulSoup对象
soup = BeautifulSoup(html, 'lxml')

# 4.查找文档中文本为Elsie的标签文本
text = soup.find(text='Elsie')
print(text)

现在我们通过find方法获取到了文档中的标签，其实像上面获取的是Tag对象。接下来介绍一下Tag对象：

例子：

soup = BeautifulSoup(html, 'lxml')
a = soup.find(id="link1")  # 这个a就是Tag对象

# Tag对象
print(type(a))  # 
print('标签名', a.name)
print('标签所有属性', a.attrs)
print('标签文本内容', a.text)

3.5 案例：从疫情首页提取各国最新的疫情数据

代码：

# 1.导入相关模块
import requests
from bs4 import BeautifulSoup

# 2.发送请求，获取疫情首页内容
response = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia')
home_page = response.content.decode()  # 默认utf-8编码
print(home_page)  # 打印看是否请求成功

# 3.使用BeautifulSoup提取疫情数据
soup = BeautifulSoup(home_page, 'html5lib')  # 创建BeautifulSoup对象
script = soup.find(id="getListByCountryTypeService2true")  # 根据属性查找：方式一：通过命名参数指定
# script = soup.find(attrs={'id':'getListByCountryTypeService2true'})  # 根据属性查找：方式二：使用attrs来指定属性字典，进行查找
print(script)
text = script.text  # 接收这个标签里的文本内容
print(text)

注意：我使用lxml解析器的时候，用text获取的内容为空，我给换成html5lib就解决了。
安装： pip install html5lib

现在想要的数据找到了，但是如何能准确的匹配呢？下面来看：

4、正则表达式

4.1正则表达式的概念与作用

（1）概念：

（2）作用：

4.2 正则表达式常见语法

例子：

# 导入正则模块
import re

# 字符模块
rs = re.findall('abc', 'abc')
rs = re.findall('a.c', 'abc')
rs = re.findall('a\.c', 'a.c')  # \为转义字符
rs = re.findall('a[bc]d', 'acd')  # []就是个字符集，匹配到里面的任意一个都行

# 预定义的字符集
rs = re.findall('\d', '123')
rs = re.findall('\w', 'Az123_我爱中国')  # \w匹配的是大小写字母、数字、下划线、中文

# 数量词
rs = re.findall('a*', 'adc')  # a*就表示出现0，1，2...n次a,
rs = re.findall('a+', 'abc')  # a+表示出现1,2...n次a
rs = re.findall('a?', 'abc')  # a?表示a出现0次或1次
rs = re.findall('a\d{2}', 'a123')  # \d{2}表示\d出现两次

print(rs)

总结：

4.3 re.findall()方法

（1）API:

（2)findalla()的特点

例子：

import re

# 1.findall方法，返回匹配的结果列表
rs = re.findall('\d+', 'chuan13zhi24')
# print(rs)

# 2.findall方法中，flag参数的作用
rs = re.findall('a.bc', 'a\nbc')  # 这个.不能匹配\n
rs = re.findall('a.bc', 'a\nbc', re.DOTALL)  # 这个就可以匹配\n了
rs = re.findall('a.bc', 'a\nbc', re.S)  # 作用同上
# print(rs)

# findall方法中，分组的使用
rs = re.findall('a.+bc', 'a\nbc', re.DOTALL)  #
print(rs)  # ['a\nbc']

rs = re.findall('a(.+)bc', 'a\nbc', re.DOTALL)  # 只返回和小括号里面匹配的内容，其他的字符负责定位
print(rs)  # ['\n']

4.4 正则表达式中r原串的使用

作用：

例子：

import re

# 1.不使用r原串时，与到转义字符怎么做
rs = re.findall('a\nbc', 'a\nbc')
print(rs)  # ['a\nbc']

rs = re.findall('a\\bc', 'a\\bc')  # 遇到转义字符不能匹配
print(rs)  # []

rs = re.findall('a\\\\bc', 'a\\bc')  # 这个是解决的办法，使用4个\便可解决（繁琐）
print(rs)  # ['a\\bc']

#2.r原串在正则中就可以消除转义字符带来的影响
rs = re.findall(r'a\\nbc', 'a\\nbc')
print(rs)  # ['a\\nbc']

# 扩展：可以解决写正则的时候，不符合PEP8规范的问题
rs = re.findall(r'\d', 'a123')
print(rs)  # ['1', '2', '3']

4.5 提取最新的疫情数据的json字符串

代码：

# 1.导入相关模块
import requests
from bs4 import BeautifulSoup
import re

# 2.发送请求，获取疫情首页内容
response = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia')
home_page = response.content.decode()  # 默认utf-8编码
# print(home_page)  # 打印看是否请求成功

# 3.使用BeautifulSoup提取疫情数据
soup = BeautifulSoup(home_page, 'html5lib')  # 创建BeautifulSoup对象
script = soup.find(id="getListByCountryTypeService2true")  # 根据属性查找：方式一：通过命名参数指定
# script = soup.find(attrs={'id':'getListByCountryTypeService2true'})  # 根据属性查找：方式二：使用attrs来指定属性字典，进行查找
# print(script)

text = script.text  # 接收这个标签里的文本内容
# print(text)

# 4.使用正则表达式，提取json字符串
json_str = re.findall(r'\[.+\]', text)[0]  # []有特殊用法，所以要转义
print(json_str)

4.6 总结

现在json格式的字符串取出来了，那怎么转成python的类型，进而存入文件呢？下面来看：

5、json模块

5.1 json模块介绍

下面是json格式的例子：

5.2 json转换为python

代码例子：

import json

# 1.把JSON字符串转换为PYTHON数据
# 1.1 准备JSON字符串
json_str = """[{"provinceName":"美国", "currentConfirmedCount":1179041, "confirmedCount":1643499},
{"provinceName":"英国", "currentConfirmedCount":222227, "confirmedCount":259559}]"""
# 1.2 把JSON字符串转换为PYTHON数据
rs = json.loads(json_str)
print(rs)
print(type(rs))  # 
print(type(rs[0]))  # 

# 2.把JSON格式文件，转换为PYTHON类型的数据
# 2.1 构建指向该文件的文件对象
with open('data/test.json') as fp:
    # 2.2 加载该文件对象，转换为PYTHON数据
    python_list = json.load(fp)
    print(python_list)
    print(type(python_list))  # 
    print(type(python_list[0]))  #

5.3 python转换为json

（1） python类型数据转换为json字符串：

（2）python类型数据以json格式写入文件：

代码：

import json

# 1.把python转换为json字符串
# 1.1 python类型的数据
json_str = """[{"provinceName":"美国", "currentConfirmedCount":1179041, "confirmedCount":1643499},
{"provinceName":"英国", "currentConfirmedCount":222227, "confirmedCount":259559}]"""
rs = json.loads(json_str)  # rs便是python类型的数据
# 1.2把python转换为json字符串
json_str = json.dumps(rs, ensure_ascii=False)
print(json_str)

# 2.把python以json格式存储到文件中
# 2.1 构建要写入的文件对象
with open('data/test1.json', 'w') as fp:
    # 2.2 把python以json格式存储到 test1.json文件中
    json.dump(rs, fp, ensure_ascii=False)

5.4 解析最新的疫情数据的json字符串

代码：

# 1.导入相关模块
import requests
from bs4 import BeautifulSoup
import re
import json

# 2.发送请求，获取疫情首页内容
response = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia')
home_page = response.content.decode()  # 默认utf-8编码
# print(home_page)  # 打印看是否请求成功

# 3.使用BeautifulSoup提取疫情数据
soup = BeautifulSoup(home_page, 'html5lib')  # 创建BeautifulSoup对象
script = soup.find(id="getListByCountryTypeService2true")  # 根据属性查找：方式一：通过命名参数指定
# script = soup.find(attrs={'id':'getListByCountryTypeService2true'})  # 根据属性查找：方式二：使用attrs来指定属性字典，进行查找
# print(script)

text = script.text  # 接收这个标签里的文本内容
# print(text)

# 4.使用正则表达式，提取json字符串
json_str = re.findall(r'\[.+\]', text)[0]  # []有特殊用法，所以要转义
# print(json_str)

# 5.把json字符串转换为python类型的数据
last_day_corona_virus = json.loads(json_str)
print(last_day_corona_virus)

5.5 总结

二、疫情爬虫项目

1、采集最近一日世界各国疫情数据

代码：

import requests
from bs4 import BeautifulSoup
import re
import json

# 1.发送请求，获取疫情首页
response = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia')
home_page = response.content.decode()

# 2.从疫情首页，提取最近一日各国疫情数据
soup = BeautifulSoup(home_page, 'html5lib')
script = soup.find(id='getListByCountryTypeService2true')
text = script.text
# print(text)

# 3.从疫情数据中获取json格式的字符串
json_str = re.findall('\[.+\]', text)[0]
# print(json_str)

# 4.把json格式的字符串转换为python类型
last_corona_virus = json.loads(json_str)
# print(last_corona_virus)

# 5.以json格式保存，最近一日各国疫情数据
with open('data/last_corona_virus.json', 'w', encoding="utf-8") as fp:
    json.dump(last_corona_virus, fp, ensure_ascii=False)

2、采集从01月23日以来的世界各国疫情数据

代码：

import requests
from bs4 import BeautifulSoup
import re
import json
from tqdm import tqdm



class CoronaVirusSpider(object):
    def __init__(self):
        self.home_url = 'https://ncov.dxy.cn/ncovh5/view/pneumonia'

    def get_content_from_url(self, url):
        """
        根据URL，获取响应内容的字符串数据
        :param url:请求的url
        :return:响应内容的字符串
        """
        response = requests.get(url)
        return response.content.decode()

    def parse_home_page(self, home_page):
        """
        解析首页内容，获取解析后的python数据
        :param home_page:首页的内容
        :return:解析后的python数据
        """
        # 2.从疫情首页，提取最近一日各国疫情数据
        soup = BeautifulSoup(home_page, 'html5lib')
        script = soup.find(id='getListByCountryTypeService2true')
        text = script.text
        # print(text)

        # 3.从疫情数据中获取json格式的字符串
        json_str = re.findall('\[.+\]', text)[0]
        # print(json_str)

        # 4.把json格式的字符串转换为python类型
        data = json.loads(json_str)
        # print(last_corona_virus)
        return data

    def save(self, data, path):
        # 5.以json格式保存，最近一日各国疫情数据
        with open(path, 'w', encoding="utf-8") as fp:
            json.dump(data, fp, ensure_ascii=False)

    def crawl_last_day_corona_virus(self):
        """
        采集最近一天的各国疫情信息
        :return:
        """
        # 1.发送请求，获取首页内容
        home_page = self.get_content_from_url(self.home_url)
        # 2.解析首页内容，获取最近一天的疫情数据
        last_day_corona_virus = self.parse_home_page(home_page)
        # 3.保存数据
        self.save(last_day_corona_virus, 'data/last_corona_virus.json')

    def crawl_corona_virus(self):
        """
        采集1月23日以来各国疫情数据
        :return:
        """
        # 1.加载各国疫情数据
        with open('data/last_corona_virus.json', 'r', encoding='gb18030', errors='ignore') as fp:
            last_day_corona_virus = json.load(fp)
        # print(last_day_corona_virus)

        # 定义列表，用于存储各国1月23日以来的疫情数据
        corona_virus = []
        # 2.遍历各国疫情数据，获取统计的URL
        for country in tqdm(last_day_corona_virus, '采集1月23日以来的各国疫情数据'):  # tqdm为进度条显示
            # 3.发送请求，获取各国1月23号至今的json数据
            statistics_data_url = country['statisticsData']
            statistics_data_json_str = self.get_content_from_url(statistics_data_url)
            # 4.把json数据转换为python类型数据，添加列表
            statistics_data = json.loads(statistics_data_json_str)['data']
            # print(statistics_data)
            for one_day in statistics_data:
                one_day['provinceName'] = country['provinceName']
                one_day['countryShortCode'] = country['countryShortCode']
            # print(statistics_data)
            corona_virus.extend(statistics_data)
        # 5.把列表以json格式保存为文件
        self.save(corona_virus, 'data/corona_virus.json')

    def run(self):
        # self.crawl_last_day_corona_virus()
        self.crawl_corona_virus()


if __name__ == "__main__":
    spider = CoronaVirusSpider()
    spider.run()

注：通过疫情首页，获取到的是最近一日的数据，在这个数据中，每一个国家有一个url，是所有时间的数据，所以通过这个url才能获取所有时间的数据。

3、采集最近一日全国各省疫情数据

代码：

import requests
from bs4 import BeautifulSoup
import re
import json
from tqdm import tqdm



class CoronaVirusSpider(object):
    def __init__(self):
        self.home_url = 'https://ncov.dxy.cn/ncovh5/view/pneumonia'

    def get_content_from_url(self, url):
        """
        根据URL，获取响应内容的字符串数据
        :param url:请求的url
        :return:响应内容的字符串
        """
        response = requests.get(url)
        return response.content.decode()

    def parse_home_page(self, home_page, tag_id):
        """
        解析首页内容，获取解析后的python数据
        :param home_page:首页的内容
        :return:解析后的python数据
        """
        # 2.从疫情首页，提取最近一日各国疫情数据
        soup = BeautifulSoup(home_page, 'html5lib')
        script = soup.find(id=tag_id)
        text = script.text
        # print(text)

        # 3.从疫情数据中获取json格式的字符串
        json_str = re.findall('\[.+\]', text)[0]
        # print(json_str)

        # 4.把json格式的字符串转换为python类型
        data = json.loads(json_str)
        # print(last_corona_virus)
        return data

    def save(self, data, path):
        # 5.以json格式保存，最近一日各国疫情数据
        with open(path, 'w', encoding="utf-8") as fp:
            json.dump(data, fp, ensure_ascii=False)

    def crawl_last_day_corona_virus(self):
        """
        采集最近一天的各国疫情信息
        :return:
        """
        # 1.发送请求，获取首页内容
        home_page = self.get_content_from_url(self.home_url)
        # 2.解析首页内容，获取最近一天的疫情数据
        last_day_corona_virus = self.parse_home_page(home_page, tag_id='getListByCountryTypeService2true')
        # 3.保存数据
        self.save(last_day_corona_virus, 'data/last_corona_virus.json')

    def crawl_corona_virus(self):
        """
        采集1月23日以来各国疫情数据
        :return:
        """
        # 1.加载各国疫情数据
        with open('data/last_corona_virus.json', 'r', encoding='gb18030', errors='ignore') as fp:
            last_day_corona_virus = json.load(fp)
        # print(last_day_corona_virus)

        # 定义列表，用于存储各国1月23日以来的疫情数据
        corona_virus = []
        # 2.遍历各国疫情数据，获取统计的URL
        for country in tqdm(last_day_corona_virus, '采集1月23日以来的各国疫情数据'):  # tqdm为进度条显示
            # 3.发送请求，获取各国1月23号至今的json数据
            statistics_data_url = country['statisticsData']
            statistics_data_json_str = self.get_content_from_url(statistics_data_url)
            # 4.把json数据转换为python类型数据，添加列表
            statistics_data = json.loads(statistics_data_json_str)['data']
            # print(statistics_data)
            for one_day in statistics_data:
                one_day['provinceName'] = country['provinceName']
                one_day['countryShortCode'] = country['countryShortCode']
            # print(statistics_data)
            corona_virus.extend(statistics_data)
        # 5.把列表以json格式保存为文件
        self.save(corona_virus, 'data/corona_virus.json')

    def crawl_last_day_corona_virus_of_china(self):
        """
        采集最近一日各省疫情数据
        :return:
        """
        # 1.发送请求，获取疫情首页
        home_page = self.get_content_from_url(self.home_url)
        # 2.解析疫情首页，获取最近一日各省疫情数据
        last_day_corona_virus_of_china = self.parse_home_page(home_page, tag_id='getAreaStat')

        # 3.保存疫情数据
        self.save(last_day_corona_virus_of_china, 'data/last_day_corona_virus_of_china.json')

    def run(self):
        self.crawl_last_day_corona_virus()
        # self.crawl_corona_virus()
        self.crawl_last_day_corona_virus_of_china()


if __name__ == "__main__":
    spider = CoronaVirusSpider()
    spider.run()

4、采集从01月22日以来的中国各省疫情数据

代码：

import requests
from bs4 import BeautifulSoup
import re
import json
from tqdm import tqdm



class CoronaVirusSpider(object):
    def __init__(self):
        self.home_url = 'https://ncov.dxy.cn/ncovh5/view/pneumonia'

    def get_content_from_url(self, url):
        """
        根据URL，获取响应内容的字符串数据
        :param url:请求的url
        :return:响应内容的字符串
        """
        response = requests.get(url)
        return response.content.decode()

    def parse_home_page(self, home_page, tag_id):
        """
        解析首页内容，获取解析后的python数据
        :param home_page:首页的内容
        :return:解析后的python数据
        """
        # 2.从疫情首页，提取最近一日各国疫情数据
        soup = BeautifulSoup(home_page, 'html5lib')
        script = soup.find(id=tag_id)
        text = script.text
        # print(text)

        # 3.从疫情数据中获取json格式的字符串
        json_str = re.findall('\[.+\]', text)[0]
        # print(json_str)

        # 4.把json格式的字符串转换为python类型
        data = json.loads(json_str)
        # print(last_corona_virus)
        return data

    def parse_corona_virus(self, last_day_corona_virus_of_china, desc):
        # 定义列表，用于存储各国1月23日以来的疫情数据
        corona_virus = []
        # 2.遍历最近一日全国疫情信息，获取各省疫情URL
        for country in tqdm(last_day_corona_virus_of_china, desc):  # tqdm为进度条显示
            # 3.发送请求，过去各省疫情json字符串
            statistics_data_url = country['statisticsData']
            statistics_data_json_str = self.get_content_from_url(statistics_data_url)
            # 4.解析各省疫情json字符串，并添加列表
            statistics_data = json.loads(statistics_data_json_str)['data']
            # print(statistics_data)
            for one_day in statistics_data:
                one_day['provinceName'] = country['provinceName']
                if country.get('countryShortCode'):
                    one_day['countryShortCode'] = country['countryShortCode']

            # print(statistics_data)
            corona_virus.extend(statistics_data)
        return corona_virus

    def load(self, path):
        """
        根据路径加载数据
        """
        with open(path, 'r', encoding='gb18030', errors='ignore') as fp:
            data = json.load(fp)
        return data

    def save(self, data, path):
        # 5.以json格式保存，最近一日各国疫情数据
        with open(path, 'w', encoding="utf-8") as fp:
            json.dump(data, fp, ensure_ascii=False)

    def crawl_last_day_corona_virus(self):
        """
        采集最近一天的各国疫情信息
        :return:
        """
        # 1.发送请求，获取首页内容
        home_page = self.get_content_from_url(self.home_url)
        # 2.解析首页内容，获取最近一天的疫情数据
        last_day_corona_virus = self.parse_home_page(home_page, tag_id='getListByCountryTypeService2true')
        # 3.保存数据
        self.save(last_day_corona_virus, 'data/last_corona_virus.json')

    def crawl_corona_virus(self):
        """
        采集1月23日以来各国疫情数据
        :return:
        """
        # 1.加载各国疫情数据
        last_day_corona_virus = self.load('data/last_corona_virus.json')
        # print(last_day_corona_virus)

        # 定义列表，用于存储各国1月23日以来的疫情数据
        corona_virus = self.parse_corona_virus(last_day_corona_virus, '采集1月23日以来的各国疫情数据')
        # 5.把列表以json格式保存为文件
        self.save(corona_virus, 'data/corona_virus.json')

    def crawl_last_day_corona_virus_of_china(self):
        """
        采集最近一日各省疫情数据
        :return:
        """
        # 1.发送请求，获取疫情首页
        home_page = self.get_content_from_url(self.home_url)
        # 2.解析疫情首页，获取最近一日各省疫情数据
        last_day_corona_virus_of_china = self.parse_home_page(home_page, tag_id='getAreaStat')

        # 3.保存疫情数据
        self.save(last_day_corona_virus_of_china, 'data/last_day_corona_virus_of_china.json')

    def crawl_corona_virus_of_china(self):
        """
        采集从1月22日以来的全国各省的疫情数据
        :return:
        """
        # 1.加载最近一日全国疫情信息
        last_day_corona_virus_of_china = self.load('data/last_day_corona_virus_of_china.json')

        corona_virus = self.parse_corona_virus(last_day_corona_virus_of_china, '采集1月23日以来的各省疫情数据')

        # 5.以json格式保存疫情信息
        self.save(corona_virus, 'data/corona_virus_of_china.json')

    def run(self):
        # self.crawl_last_day_corona_virus()
        self.crawl_corona_virus()
        # self.crawl_last_day_corona_virus_of_china()
        self.crawl_corona_virus_of_china()


if __name__ == "__main__":
    spider = CoronaVirusSpider()
    spider.run()

5、总结

你可能感兴趣的:(python网络爬虫)

盘点一个Python网络爬虫抓取股票代码问题（上篇）皮皮_f075
大家好，我是皮皮。一、前言前几天在Python白银群【厚德载物】问了一个Python网络爬虫的问题，这里拿出来给大家分享下。image.png二、实现过程这个问题其实for循环就可以搞定了，看上去粉丝的代码没有带请求头那些，导致获取不到数据。后来【瑜亮老师】、【小王子】给了具体思路，代码如下图所示：image.png后来【小王子】也给了一个具体代码，如下：importrequestsimportt
python网络爬虫（五）——爬取天气预报光电的一只菜鸡 python python 爬虫开发语言
1.注册高德天气key 点击高德天气，然后按照开发者文档完成key注册；作为爬虫练习项目之一。从高德地图json数据接口获取天气，可以获取某省的所有城市天气，高德地图的这个接口还能获取县城的天气。其天气查询API服务地址为https://restapi.amap.com/v3/weather/weatherInfo?parameters，若要获取某城市的天气推荐2.安装MongoDB Mong
python网络爬虫（一）——网络爬虫基本原理光电的一只菜鸡 python python 爬虫数据库
1.使用BeautifulSoup解析网页通过request库已经抓取到网页源码，接下来要从源码中找到并提取数据。BeautifulSoup是python的一个库，其主要功能是从网页中抓取数据。BeautifulSoup目前已经被移植到bs4库中，也就是说在导入BeautifulSoup时需要先安装bs4。安装好bs4库后，还需要安装lxml库。如果我们不安装lxml库，就会使用python默
python网络爬虫（三）——爬虫攻防光电的一只菜鸡 python python 爬虫开发语言
爬虫是模拟人的浏览访问行为，进行数据的批量抓取，当抓取的数据量逐渐增大时，会给被访问的服务器造成很大的压力，甚至有可能崩溃。换句话说就是，服务器是不喜欢有人抓取自己的数据的，那么，网站方面就会这队这些爬虫者采取一些反爬策略。服务器识别爬虫的一种方式是通过检查连接的User-Agent来识别到底是浏览器访问还是代码访问的。如果是代码访问的，当访问量增大时，服务器其就会直接封掉来访IP。在
python网络爬虫（二）——数据的清洗与组织光电的一只菜鸡 python python 爬虫 java
学会了网络爬虫发送请求后，我们可以获得一段目标的HTML代码，但是还没有把数据提取出来，接下来需要进行数据的清洗与组织。foritemindata:result={'title':item.get_test(),'link':item.get('href')}print(result) 首先明确要提取的数据是标题和链接，标题在a标签中，提取标签的正文用get_text()方法；链接在a标签的
python网络爬虫的流程图_python爬虫系列（1）- 概述 weixin_39649965 python网络爬虫的流程图
原标题：python爬虫系列（1）-概述事由之前间断地写过一些python爬虫的一些文章，如：工具分享|在线小说一键下载Python帮你定制批量获取智联招聘的信息Python帮你定制批量获取你想要的信息用python定制网页跟踪神器，有信息更新第一时间通知你（附视频演示）把python网页跟踪神器部署到云上，彻底解放你的电脑个人认为学习python语言的话，爬虫是一个非常适合入门的方向。为了把学习
计算机毕设分享面向高考招生咨询的问答系统设计与实现（源码+论文）源码爱鸭高考毕设毕业设计开源
文章目录0项目说明1项目说明2系统设计3系统功能3.1问答3.2问题模板4实验结果5论文目录6项目工程0项目说明面向高考招生咨询的问答系统设计与实现提示：适合用于课程设计或毕业设计，工作量达标，源码开放1项目说明本系统主要从数据获取，问题分类，问题处理和答案生成以及软件设计四个方面论述自动问答系统的设计与实现。数据获取涉及到网络数据抓取技术，数据库存储与操作，本文使用了python网络爬虫和MyS
盘点CSV文件在Excel中打开后乱码问题的两种处理方法皮皮_f075
大家好，我是Python进阶者。前几天给大家分享了一些乱码问题的文章，阅读量还不错，感兴趣的小伙伴可以前往：盘点3种Python网络爬虫过程中的中文乱码的处理方法，UnicodeEncodeError:'gbk'codeccan'tencodecharacter解决方法，今天基于粉丝提问，给大家介绍CSV文件在Excel中打开后乱码问题的两种处理方法，希望对大家的学习有所帮助。前言前几天有个叫【R
零基础如何高效的学习好Python爬虫技术？ IT青年
如何高效学习Python爬虫技术？大部分Python爬虫都是按“发送请求-获得页面-解析页面-抽取并储存内容”流程来进行抓取，模拟人们使用浏览器获取网页信息的过程。高效学习Python爬虫技术的步骤：1、学Python网络爬虫基础知识学Python网络爬虫时先了解Python基本常识，变量、字符串、列表、字典、元组、操控句子、语法等，把基础打牢，在做案例时能知道运用的是哪些知识点。此外还需求了解一
第四篇：python网络爬虫张箫剑 python 爬虫开发语言
文章目录一、什么是爬虫二、Python爬虫架构三、安装第三方库1.request(网页下载器)2.BeautifulSoup(网页解析器)四、URL管理器五、练习六、小结一、什么是爬虫爬虫：一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。二、Python爬虫架构Python爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）
Python网络爬虫：使用Requests库精通网络请求 web安全工具库网络爬虫 python 开发语言
源码分享https://docs.qq.com/sheet/DUHNQdlRUVUp5Vll2?tab=BB08J2网络爬虫依赖于强大的库来处理HTTP请求，而Python的Requests库是构建网络爬虫时的首选工具之一。本篇博客将向你介绍如何使用Requests库来发送HTTP请求，并通过具体的代码案例来演示其功能和强大之处。介绍Requests库Requests是一个简单而优雅的HTTP库，
python安装beautifulsoup库_《Python网络爬虫》3.1 BeautifulSoup库安装 weixin_39830225
BeautifulSoupparsesanythingyougiveit,anddoesthetreetraversalstuffforyou.BeautifulSoup也叫美味汤，他是一个非常优秀的python第三方库，它能够对html、xml格式进行解析，并且提取其中的相关信息。在BeautifulSoup的网站上有这样一番话，BeautifulSoup可以对你提供给他的任何格式进行相关的爬取
Python---python网络爬虫入门实践总结 maidu_xbd Python
目录一、爬虫介绍二、利用urllib实现最小的爬虫程序三、Requests爬虫实现四、数据解析利器：lxmlxpath五、selenium+chromeDriver一、爬虫介绍爬虫：网络数据采集的程序。爬虫爬取的数据有什么用？（1）资料库（2）数据分析（3）人工智能：人物画像；推荐系统：今日头条、亚马逊等；图像识别；自然语言处理为什么用python写爬虫？java：代码量很大，重构成本变大。php
Python网络爬虫四大选择器（正则表达式、BS4、Xpath、CSS）总结雪小妮爬虫
Python网络爬虫四大选择器（正则表达式、BS4、Xpath、CSS）总结0.前言相关实战文章：正则表达式、BeautifulSoup、Xpath、CSS选择器分别抓取京东网的商品信息。网络爬虫：模拟客户端批量发送网络请求，批量接收请求对应的数据，按照一定的规则，自动抓取互联网信息的程序，进行数据采集，并进行持久化存储。其他用途：百度搜索，12306抢票、各种抢购、投票、刷票、短信轰炸、网络攻击
如何使用python网络爬虫批量获取公共资源数据实践技术应用数字化信息化智能化解决方案 python 爬虫开发语言
要使用Python网络爬虫批量获取公共资源数据，你需要遵循以下步骤：确定目标网站和数据结构：首先，你需要明确你要爬取的网站以及该网站的数据结构。了解目标网站的数据结构和API（如果有的话）是关键。选择合适的爬虫框架：Python有很多网络爬虫框架可供选择，如Scrapy、BeautifulSoup、requests等。选择一个适合你需求的框架。安装必要的库：根据你的选择，你可能需要安装一些Pyth
Python网络爬虫入门基础 _反爬虫【4】 tiamo_16 Python网络爬虫网络编程 python 爬虫开发语言网络安全
1.由于网络爬虫具有一定的弊端，使用网络爬虫可以悄无声息的从互联网上获取很多资源，包括一些付费，原创和不公开的资源。所以很多大型网站都采取了反爬虫机制，来抵御爬虫的不正当行为。2.本次介绍了什么是反网络爬虫？，简单的爬虫伪装操作？以及如何应对网络爬虫？。什么是反网络爬虫？反爬虫：**是指对扫描器中的网络爬虫环节进行反制，它会根据ip访问频率，浏览网页速度和User-Agent等参数来判断是否为网络
【进阶】【Python网络爬虫】【15.爬虫框架】scrapy入门（附大量案例代码）（建议收藏） My.ICBM Python网络爬虫 python 爬虫 scrapy
Python网络爬虫基础一、爬虫框架1.什么是框架？2.初期如何学习框架？二、scrapy入门1.网络爬虫请求数据解析数据保存数据2.scrapy安装安装方式全局命令项目命令案例-scrapy下厨房网爬取settings.pyspidersblood.py案例-scrapy爬取哔哩哔哩网settings.pyitems.pypipelines.pyiderslibi.py-基于终端指令的持久化存储
【Python基础 & 机器学习】Python环境搭建（适合新手阅读的超详细教程）为梦而生~ 机器学习python实战 python 机器学习开发语言人工智能数据挖掘 pycharm
个人主页：为梦而生~关注我一起学习吧！重要专栏：机器学习：相对完整的机器学习基础教学！机器学习python实战：用python带你感受真实的机器学习深度学习：现代人工智能的主流技术介绍python网络爬虫从基础到实战：Python的主流应用领域之一，也可以与人工智能领域相结合的技术往期推荐：【机器学习&深度学习】神经网络简述【机器学习&深度学习】卷积神经网络简述【python爬虫开发实战&情感分析
芒果tv数据采集与可视化实现叫我：松哥 php 开发语言
摘要一个爬虫从网上爬取数据的大致过程可以概括为：向特定的网站服务器发出请求，服务器返回请求的网页数据，爬虫程序收到服务器返回的网页数据并加以解析提取，最后把提取出的数据进行处理和存储。因此，一个爬虫程序可以主要分为三大部分：向服务器请求并获取网页数据、解析网页数据、数据处理和存储。课程设计中详细的介绍了网络爬虫的实现机制与理论基础。通过利用Python网络爬虫技术，抓取芒果tv的电影信息包括电影名
Python网络爬虫实战——实验2：Python爬虫网络请求与内容解析武汉唯众智创 Python网络爬虫实战 python 爬虫开发语言
【实验内容】本实验主要通过requests、re与lxml库的使用，采集北京市政府招中标数据。（https://ggzyfw.beijing.gov.cn/index.html）【实验目的】1、熟悉网页结构、了解网络抓包的技巧；2、了解requests网络请求库的基本使用；3、掌握基础的re、xpath语法的使用；【实验步骤】步骤1观察网址结构步骤2获取子页面链接步骤3解析子页面，输出json文件
Python网络爬虫实战——实验4：Python爬虫代理的使用武汉唯众智创 Python网络爬虫实战 python 爬虫开发语言
【实验内容】本实验主要介绍在爬虫采集数据的过程中代理的使用。【实验目的】1、掌握代理使用的基本场景；2、解决IP封锁问题；3、提高爬虫访问效率；【实验步骤】步骤1选择代理服务提供商步骤2配置爬虫使用代理步骤3采集数据生成json文件步骤1选择代理服务提供商(1)代理的概念代理（Proxy）是一种网络服务，它充当客户端和目标服务器之间的中介，接受来自客户端的请求并将其转发给目标服务器。代理可以修改、
Python网络爬虫分步走之 – 第一步：什么是网络爬虫？ Jackson@ML Python Web Crawler Search Engine python 爬虫开发语言
Python网络爬虫分步走之第一步：什么是网络爬虫？WebScrapinginPythonStepbyStep–1stStep,WhatisWebCrawler?ByJackson@ML1.什么是网络爬虫？在能够使用Google搜索引擎的场合，你是否尝试过简单搜索：“Howdoesitknowwheretolook?(意思是：如何知道去哪里看？），那么很快，Google返回的答案是：webcraw
一篇文章教会你Python网络爬虫程序的基本执行流程 chinaherolts2008 python基础教程 python基础教程
网络爬虫是指在互联网上自动爬取网站内容信息的程序，也被称作网络蜘蛛或网络机器人。大型的爬虫程序被广泛应用python基础教程于搜索引擎、数据挖掘等领域，个人用户或企业也可以利用爬虫收集对自身有价c#教程值的数据。一个网络爬虫程序的基本执行流程可以总结三个过程：请求数据，解析数据，保存数据请求数据请求的数据除了普通的HTML之外，还有json数据、字符串数据、图片、视频、音频等。解析数据当一个数据下
Python网络爬虫实战——实验7：Python使用apscheduler定时采集任务实战武汉唯众智创 Python网络爬虫实战 python 爬虫数据库
【实验内容】本实验主要介绍在Django框架中使用APScheduler第三方库实现对数据的定时采集。【实验目的】1、掌握APScheduler库的使用；2、学习在Django中实现多个定时任务调度；【实验步骤】步骤1Apscheduler简介与特点步骤2Apscheduler基本概念步骤3在Django中实现多个定时任务调度步骤1：Apscheduler简介与特点(1)简介APScheduler
Python网络爬虫实战——实验5：Python爬虫之selenium动态数据采集实战武汉唯众智创 Python网络爬虫实战 python 爬虫 selenium
【实验内容】本实验主要介绍和使用selenium库在js动态加载网页中数据采集的作用。【实验目的】1、理解动态加载网页的概念2、学习Selenium库基本使用3、掌握动态加载数据采集流程【实验步骤】步骤1理解动态加载网页步骤2学习使用Selenium库步骤3采集河北政府采购网步骤1：理解动态加载网页动态加载网页是指在页面初次加载完成后，通过JavaScript等前端技术，根据用户的交互或其他触发条
Python网络爬虫实战——实验6：Python实现js逆向与加解密武汉唯众智创 Python网络爬虫实战爬虫 javascript 开发语言
【实验内容】本实验主要介绍在数据采集过程中对js代码进行分析从而对加密字段进行解密。【实验目的】1、理解js逆向工程的概念2、学会逆向工程中的加解密分析【实验步骤】步骤1理解js逆向工程的概念步骤2学会逆向工程中的加解密分析步骤3采集广东政府采购网步骤1：理解js逆向工程的概念JavaScript逆向工程是指通过分析、理解和操作JavaScript代码，以揭示和破解其实现的逻辑和功能。这种技术通常
Python网络爬虫实战——实验8：Python爬虫项目部署与kafka消息队实战武汉唯众智创 Python网络爬虫实战 python 爬虫 kafka
【实验内容】本实验主要介绍关于在Linux云环境下部署和运行爬虫项目并使用kafka发送消息队列。【实验目的】1、学会在云环境中部署爬虫项目2、掌握Kafka消息队列的基本使用3、实现爬虫与消息队列的集成【实验步骤】步骤1在Linux上部署爬虫项目步骤2Kafka消息队列的基本使用步骤3在python中向kafka推送消息步骤1：在云环境中部署爬虫项目(1)使用pycharm部署爬虫项目在pych
Python网络爬虫实战——实验1：Python爬虫环境配置武汉唯众智创 Python网络爬虫实战 python 爬虫开发语言
综述随着信息时代的到来，互联网上涌现出海量的数据，而网络爬虫作为一种强大的数据采集工具，为我们提供了获取和分析这些数据的途径。本文将为您介绍一系列Python网络爬虫实战实验，从环境配置到项目部署，帮助您全面了解和掌握这一领域的技能。通过本文的实验，您将不仅学会构建一个完整的网络爬虫系统，还能够处理爬虫过程中可能遇到的各种挑战。网络爬虫技能的掌握将为您在数据分析、信息挖掘等领域提供有力的支持，让您
Python网络爬虫是什么意思？老男孩IT教育爬虫 python
众所周知，Python是一门脚本语言，也被称为胶水语言，其应用领域也是十分广泛的，哪怕你不想从事IT行业，学习Python语言也是百利而无一害的，今天给大家详细介绍下Python网络爬虫究竟是什么，请看下文：网络爬虫也被称为网络蜘蛛、网络机器人，它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页，并将所需要的数据抓取下来。通过对抓取的数据进行处理，从而提取出有价值
python 学习笔记（一）——Requests 库网络爬虫 ΔQ python
学习python网络爬虫第一天本博客纯用于学习记录，无其它用途。用到的库requests库，requests库是python自带库，无需安装。lxml库，安装调用pippipinstalllxml案例：电影天堂#encoding:utf-8importrequestsfromlxmlimportetreeBASE_DOMAIN='https://www.dytt8.net/'#定义全局变量第25行
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。