邱球球

大数据分析美国疫情

大数据美国疫情分析2020年

本案例以2020年美国新冠肺炎疫情数据作为数据集，以Python为编程语言，使用Spark对数据进行分析，并对分析结果进行可视化。

0x00 实验环境

（1）Linux：Ubuntu 16.04
（2）Hadoop3.1.3
（3）Python: 3.7
（4）Spark: 2.4.0

0x01 数据集

数据集下载
本次实验使用的数据集来自数据网站Kaggle的美国新冠肺炎疫情数据集，该数据集以数据表us-counties.csv，其中包含了美国发现首例新冠肺炎确诊病例至今（2020-05-19）的相关数据。数据包含以下字段：
字段名称字段含义例子
date 日期 2020/1/21；2020/1/22；etc
county 区县（州的下一级单位） Snohomish；
state 州 Washington
cases 截止该日期该区县的累计确诊人数 1,2,3…
deaths 截止该日期该区县的累计确诊人数 1,2,3…
格式转换
原始数据集是以.csv文件组织的，为了方便spark读取生成RDD或者DataFrame，首先将us-counties.csv转换为.txt格式文件us-counties.txt。转换操作使用python实现，代码组织在TranstionTxt.py中，具体代码如下：

# -*- coding:utf-8 -*-
# @Time : 2021/1/21 10:26
# @Author: qiuqiuqiu
# @File : TranstionTxt.py

import pandas as pd

#.csv->.txt
data = pd.read_csv('us-counties.csv')
with open('us-counties.txt','a+',encoding='utf-8') as f:
    for line in data.values:
        f.write((str(line[0])+'\t'+str(line[1])+'\t')+str(line[2])+'\t'+str(line[3])+'\t'+str(line[4])+'\n')
    print('success')

0x02 使用Spark对数据分析

这里采用Python作为编程语言。操作的完整实验代码存放在了analyst.py中，具体如下：

# -*- coding:utf-8 -*-
# @Time : 2021/1/21 14：30
# @Author: qiuqiuqiu
# @File : analyst.py



# 1) 统计美国截止每日的累计确诊人数和累计死亡人数。做法是以date作为分组字段，对cases和deaths字段进行汇总统计。
# 2) 统计美国每日的新增确诊人数和新增死亡人数。因为新增数=今日数-昨日数，所以考虑使用自连接，连接条件是t1.date = t2.date + 1，然后使用t1.totalCases – t2.totalCases计算该日新增。
# 3) 统计截止5.19日，美国各州的累计确诊人数和死亡人数。首先筛选出5.19日的数据，然后以state作为分组字段，对cases和deaths字段进行汇总统计。
# 4) 统计截止5.19日，美国确诊人数最多的十个州。对3)的结果DataFrame注册临时表，然后按确诊人数降序排列，并取前10个州。
# 5) 统计截止5.19日，美国死亡人数最多的十个州。对3)的结果DataFrame注册临时表，然后按死亡人数降序排列，并取前10个州。
# 6) 统计截止5.19日，美国确诊人数最少的十个州。对3)的结果DataFrame注册临时表，然后按确诊人数升序排列，并取前10个州。
# 7) 统计截止5.19日，美国死亡人数最少的十个州。对3)的结果DataFrame注册临时表，然后按死亡人数升序排列，并取前10个州
# 8) 统计截止5.19日，全美和各州的病死率。病死率 = 死亡数/确诊数，对3)的结果DataFrame注册临时表，然后按公式计算。



from pyspark import SparkConf, SparkContext
from pyspark.sql import Row
from pyspark.sql.types import *
from pyspark.sql import SparkSession
from datetime import datetime
import pyspark.sql.functions as func


def toDate(inputStr):
    newStr = ""
    if len(inputStr) == 8:
        s1 = inputStr[0:4]
        s2 = inputStr[5:6]
        s3 = inputStr[7]
        newStr = s1 + "-" + "0" + s2 + "-" + "0" + s3
    else:
        s1 = inputStr[0:4]
        s2 = inputStr[5:6]
        s3 = inputStr[7:]
        newStr = s1 + "-" + "0" + s2 + "-" + s3
    date = datetime.strptime(newStr, "%Y-%m-%d")
    return date


# 主程序:
spark = SparkSession.builder.appName('PythonSparkSQLexample').getOrCreate()

fields = [StructField("date", DateType(), False), StructField("county", StringType(), False),
          StructField("state", StringType(), False),
          StructField("cases", IntegerType(), False), StructField("deaths", IntegerType(), False), ]
schema = StructType(fields)

rdd0 = spark.sparkContext.textFile("us-counties.txt")
rdd1 = rdd0.map(lambda x: x.split("\t")).map(lambda p: Row(toDate(p[0]), p[1], p[2], int(p[3]), int(p[4])))

shemaUsInfo = spark.createDataFrame(rdd1, schema)

shemaUsInfo.createOrReplaceTempView("usInfo")

# 1.计算每日的累计确诊病例数和死亡数
df = shemaUsInfo.groupBy("date").agg(func.sum("cases"), func.sum("deaths")).sort(shemaUsInfo["date"].asc())

# 列重命名
df1 = df.withColumnRenamed("sum(cases)", "cases").withColumnRenamed("sum(deaths)", "deaths")
# df1.repartition(1).write.json("result1.json")  # 写入hdfs

df1.repartition(1).write.format('json').mode('overwrite').save('result1.json')
print("success result1")
# 注册为临时表供下一步使用
df1.createOrReplaceTempView("ustotal")

# 2.计算每日较昨日的新增确诊病例数和死亡病例数
df2 = spark.sql(
    "select t1.date,t1.cases-t2.cases as caseIncrease,t1.deaths-t2.deaths as deathIncrease from ustotal t1,ustotal t2 where t1.date = date_add(t2.date,1)")

df2.sort(df2["date"].asc()).repartition(1).write.json("result2.json")  # 写入hdfs
print("success result2")
# 3.统计截止5.19日 美国各州的累计确诊人数和死亡人数
df3 = spark.sql(
    "select date,state,sum(cases) as totalCases,sum(deaths) as totalDeaths,round(sum(deaths)/sum(cases),4) as deathRate from usInfo  where date = to_date('2020-05-19','yyyy-MM-dd') group by date,state")

df3.sort(df3["totalCases"].desc()).repartition(1).write.json("result3.json")  # 写入hdfs
print("success result3")
df3.createOrReplaceTempView("eachStateInfo")

# 4.找出美国确诊最多的10个州
df4 = spark.sql("select date,state,totalCases from eachStateInfo  order by totalCases desc limit 10")
df4.repartition(1).write.json("result4.json")
print("success result4")
# 5.找出美国死亡最多的10个州
df5 = spark.sql("select date,state,totalDeaths from eachStateInfo  order by totalDeaths desc limit 10")
df5.repartition(1).write.json("result5.json")
print("success result5")
# 6.找出美国确诊最少的10个州
df6 = spark.sql("select date,state,totalCases from eachStateInfo  order by totalCases asc limit 10")
df6.repartition(1).write.json("result6.json")
print("success result6")
# 7.找出美国死亡最少的10个州
df7 = spark.sql("select date,state,totalDeaths from eachStateInfo  order by totalDeaths asc limit 10")
df7.repartition(1).write.json("result7.json")
print("success result7")
# 8.统计截止5.19全美和各州的病死率
df8 = spark.sql(
    "select 1 as sign,date,'USA' as state,round(sum(totalDeaths)/sum(totalCases),4) as deathRate from eachStateInfo group by date union select 2 as sign,date,state,deathRate from eachStateInfo").cache()
df8.sort(df8["sign"].asc(), df8["deathRate"].desc()).repartition(1).write.json("result8.json")
print("success result8")

读取文件生成DataFrame
由于本实验中使用的数据为结构化数据，因此可以使用spark读取源文件生成DataFrame以方便进行后续分析实现。
本部分代码组织在analyst.py中，读取us-counties.txt生成DataFrame的代码如下：

# 主程序:
spark = SparkSession.builder.appName('PythonSparkSQLexample').getOrCreate()

fields = [StructField("date", DateType(), False), StructField("county", StringType(), False),
          StructField("state", StringType(), False),
          StructField("cases", IntegerType(), False), StructField("deaths", IntegerType(), False), ]
schema = StructType(fields)

rdd0 = spark.sparkContext.textFile("us-counties.txt")
rdd1 = rdd0.map(lambda x: x.split("\t")).map(lambda p: Row(toDate(p[0]), p[1], p[2], int(p[3]), int(p[4])))

shemaUsInfo = spark.createDataFrame(rdd1, schema)

shemaUsInfo.createOrReplaceTempView("usInfo")

进行数据分析
本实验主要统计以下8个指标，分别是：

统计美国截止每日的累计确诊人数和累计死亡人数。做法是以date作为分组字段，对cases和deaths字段进行汇总统计。
统计美国每日的新增确诊人数和新增死亡人数。因为新增数=今日数-昨日数，所以考虑使用自连接，连接条件是t1.date = t2.date + 1，然后使用t1.totalCases – t2.totalCases计算该日新增。
统计截止5.19日，美国各州的累计确诊人数和死亡人数。首先筛选出5.19日的数据，然后以state作为分组字段，对cases和deaths字段进行汇总统计。
统计截止5.19日，美国确诊人数最多的十个州。对3)的结果DataFrame注册临时表，然后按确诊人数降序排列，并取前10个州。
统计截止5.19日，美国死亡人数最多的十个州。对3)的结果DataFrame注册临时表，然后按死亡人数降序排列，并取前10个州。
统计截止5.19日，美国确诊人数最少的十个州。对3)的结果DataFrame注册临时表，然后按确诊人数升序排列，并取前10个州。
统计截止5.19日，美国死亡人数最少的十个州。对3)的结果DataFrame注册临时表，然后按死亡人数升序排列，并取前10个州
统计截止5.19日，全美和各州的病死率。病死率 = 死亡数/确诊数，对3)的结果DataFrame注册临时表，然后按公式计算。
在计算以上几个指标过程中，根据实现的简易程度，既采用了DataFrame自带的操作函数，又采用了spark sql进行操作。

结果文件
上述Spark计算结果保存.json文件，方便后续可视化处理。由于使用Python读取HDFS文件系统不太方便，故将HDFS上结果文件转储到本地文件系统中，使用以下命令：
对于result2等结果文件，使用相同命令，只需要改一下路径即可。

df2.sort(df2["date"].asc()).repartition(1).write.json("result2.json")  # 写入hdfs

数据可视化

可视化工具与选择
选择使用python第三方库pyecharts作为可视化工具。
在使用前，需要安装pyecharts，安装代码如下：

pip install pyecharts

具体可视化实现代码组织与showdata.py文件中。具体代码如下：

# -*- coding:utf-8 -*-
# @Time : 2021/1/21 16:07
# @Author: qiuqiuqiu
# @File : showdata.py

from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.charts import Line
from pyecharts.components import Table
from pyecharts.charts import WordCloud
from pyecharts.charts import Pie
from pyecharts.charts import Funnel
from pyecharts.charts import Scatter
from pyecharts.charts import PictorialBar
from pyecharts.options import ComponentTitleOpts
from pyecharts.globals import SymbolType
import json


# 1.画出每日的累计确诊病例数和死亡数——>双柱状图
def drawChart_1(index):
    root =   "p"+str(index)+".json"
    print(root)
    date = []
    cases = []
    deaths = []
    with open(root, 'r') as f:
        while True:
            line = f.readline()
            if not line:  # 到 EOF，返回空字符串，则终止循环
                break
            js = json.loads(line)
            date.append(str(js['date']))
            cases.append(int(js['cases']))
            deaths.append(int(js['deaths']))

    d = (
        Bar()
            .add_xaxis(date)
            .add_yaxis("累计确诊人数", cases, stack="stack1")
            .add_yaxis("累计死亡人数", deaths, stack="stack1")
            .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
            .set_global_opts(title_opts=opts.TitleOpts(title="美国每日累计确诊和死亡人数"))
            .render("pp"+str(index)+".html")
    )


# 2.画出每日的新增确诊病例数和死亡数——>折线图
def drawChart_2(index):
    root = "p"+str(index)+".json"
    date = []
    cases = []
    deaths = []
    with open(root, 'r') as f:
        while True:
            line = f.readline()
            if not line:  # 到 EOF，返回空字符串，则终止循环
                break
            js = json.loads(line)
            date.append(str(js['date']))
            cases.append(int(js['caseIncrease']))
            deaths.append(int(js['deathIncrease']))

    (
        Line(init_opts=opts.InitOpts(width="1600px", height="800px"))
            .add_xaxis(xaxis_data=date)
            .add_yaxis(
            series_name="新增确诊",
            y_axis=cases,
            markpoint_opts=opts.MarkPointOpts(
                data=[
                    opts.MarkPointItem(type_="max", name="最大值")

                ]
            ),
            markline_opts=opts.MarkLineOpts(
                data=[opts.MarkLineItem(type_="average", name="平均值")]
            ),
        )
            .set_global_opts(
            title_opts=opts.TitleOpts(title="美国每日新增确诊折线图", subtitle=""),
            tooltip_opts=opts.TooltipOpts(trigger="axis"),
            toolbox_opts=opts.ToolboxOpts(is_show=True),
            xaxis_opts=opts.AxisOpts(type_="category", boundary_gap=False),
        )
            .render("pp"+str(index)+".html")
    )
    (
        Line(init_opts=opts.InitOpts(width="1600px", height="800px"))
            .add_xaxis(xaxis_data=date)
            .add_yaxis(
            series_name="新增死亡",
            y_axis=deaths,
            markpoint_opts=opts.MarkPointOpts(
                data=[opts.MarkPointItem(type_="max", name="最大值")]
            ),
            markline_opts=opts.MarkLineOpts(
                data=[
                    opts.MarkLineItem(type_="average", name="平均值"),
                    opts.MarkLineItem(symbol="none", x="90%", y="max"),
                    opts.MarkLineItem(symbol="circle", type_="max", name="最高点"),
                ]
            ),
        )
            .set_global_opts(
            title_opts=opts.TitleOpts(title="美国每日新增死亡折线图", subtitle=""),
            tooltip_opts=opts.TooltipOpts(trigger="axis"),
            toolbox_opts=opts.ToolboxOpts(is_show=True),
            xaxis_opts=opts.AxisOpts(type_="category", boundary_gap=False),
        )
            .render("pp"+str(index)+".html")
    )


# 3.画出截止5.19，美国各州累计确诊、死亡人数和病死率--->表格
def drawChart_3(index):
    root = "p"+str(index)+".json"
    allState = []
    with open(root, 'r') as f:
        while True:
            line = f.readline()
            if not line:  # 到 EOF，返回空字符串，则终止循环
                break
            js = json.loads(line)
            row = []
            row.append(str(js['state']))
            row.append(int(js['totalCases']))
            row.append(int(js['totalDeaths']))
            row.append(float(js['deathRate']))
            allState.append(row)

    table = Table()

    headers = ["State name", "Total cases", "Total deaths", "Death rate"]
    rows = allState
    table.add(headers, rows)
    table.set_global_opts(
        title_opts=ComponentTitleOpts(title="美国各州疫情一览", subtitle="")
    )
    table.render("pp"+str(index)+".html")


# 4.画出美国确诊最多的10个州——>词云图
def drawChart_4(index):
    root ="p"+str(index)+".json"
    data = []
    with open(root, 'r') as f:
        while True:
            line = f.readline()
            if not line:  # 到 EOF，返回空字符串，则终止循环
                break
            js = json.loads(line)
            row = (str(js['state']), int(js['totalCases']))
            data.append(row)

    c = (
        WordCloud()
            .add("", data, word_size_range=[20, 100], shape=SymbolType.DIAMOND)
            .set_global_opts(title_opts=opts.TitleOpts(title="美国各州确诊Top10"))
            .render("pp"+str(index)+".html")
    )


# 5.画出美国死亡最多的10个州——>象柱状图
def drawChart_5(index):
    root ="p"+str(index)+".json"
    state = []
    totalDeath = []
    with open(root, 'r') as f:
        while True:
            line = f.readline()
            if not line:  # 到 EOF，返回空字符串，则终止循环
                break
            js = json.loads(line)
            state.insert(0, str(js['state']))
            totalDeath.insert(0, int(js['totalDeaths']))

    c = (
        PictorialBar()
            .add_xaxis(state)
            .add_yaxis(
            "",
            totalDeath,
            label_opts=opts.LabelOpts(is_show=False),
            symbol_size=18,
            symbol_repeat="fixed",
            symbol_offset=[0, 0],
            is_symbol_clip=True,
            symbol=SymbolType.ROUND_RECT,
        )
            .reversal_axis()
            .set_global_opts(
            title_opts=opts.TitleOpts(title="PictorialBar-美国各州死亡人数Top10"),
            xaxis_opts=opts.AxisOpts(is_show=False),
            yaxis_opts=opts.AxisOpts(
                axistick_opts=opts.AxisTickOpts(is_show=False),
                axisline_opts=opts.AxisLineOpts(
                    linestyle_opts=opts.LineStyleOpts(opacity=0)
                ),
            ),
        )
            .render("pp"+str(index)+".html")
    )


# 6.找出美国确诊最少的10个州——>词云图
def drawChart_6(index):
    root = "p"+str(index)+".json"
    data = []
    with open(root, 'r') as f:
        while True:
            line = f.readline()
            if not line:  # 到 EOF，返回空字符串，则终止循环
                break
            js = json.loads(line)
            row = (str(js['state']), int(js['totalCases']))
            data.append(row)

    c = (
        WordCloud()
            .add("", data, word_size_range=[100, 20], shape=SymbolType.DIAMOND)
            .set_global_opts(title_opts=opts.TitleOpts(title="美国各州确诊最少的10个州"))
            .render("pp"+str(index)+".html")
    )


# 7.找出美国死亡最少的10个州——>漏斗图
def drawChart_7(index):
    root = "p"+str(index)+".json"
    data = []
    with open(root, 'r') as f:
        while True:
            line = f.readline()
            if not line:  # 到 EOF，返回空字符串，则终止循环
                break
            js = json.loads(line)
            data.insert(0, [str(js['state']), int(js['totalDeaths'])])

    c = (
        Funnel()
            .add(
            "State",
            data,
            sort_="ascending",
            label_opts=opts.LabelOpts(position="inside"),
        )
            .set_global_opts(title_opts=opts.TitleOpts(title=""))
            .render("pp"+str(index)+".html")
    )


# 8.美国的病死率--->饼状图
def drawChart_8(index):
    root ="p"+str(index)+".json"
    values = []
    with open(root, 'r') as f:
        while True:
            line = f.readline()
            if not line:  # 到 EOF，返回空字符串，则终止循环
                break
            js = json.loads(line)
            if str(js['state']) == "USA":
                values.append(["Death(%)", round(float(js['deathRate']) * 100, 2)])
                values.append(["No-Death(%)", 100 - round(float(js['deathRate']) * 100, 2)])
    c = (
        Pie()
            .add("", values)
            .set_colors(["blcak", "orange"])
            .set_global_opts(title_opts=opts.TitleOpts(title="全美的病死率"))
            .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
            .render("pp"+str(index)+".html")
    )


# 可视化主程序：
index = 1
while index < 9:
    funcStr = "drawChart_" + str(index)
    eval(funcStr)(index)
    index += 1

结果图表展示
可视化结果是.html格式的，reslut1的结果展示图保存路径为“/home/hadoop/result/result1/result1.html”，reslut2的结果展示图保存路径为“/home/hadoop/result/result2/result1.html”，其余类似递推。

美国每日的累计确诊病例数和死亡数——>双柱状图
美国每日的新增确诊病例数——>折线图
美国每日的新增死亡病例数——>折线图
截止5.19，美国各州累计确诊、死亡人数和病死率—>表格
截止5.19，美国累计确诊人数前10的州—>词云图
截止5.19，美国累计死亡人数前10的州—>象柱状图
截止5.19，美国累计确诊人数最少的10个州—>词云图
截止5.19，美国累计死亡人数最少的10个州—>漏斗图
截止5.19，美国的病死率—>饼状图

交互式HTML组件库：ipywidgets入门及实践指南劳治亮
交互式HTML组件库：ipywidgets入门及实践指南项目地址:https://gitcode.com/gh_mirrors/ip/ipywidgets1.项目介绍ipywidgets是一个用于Jupyter笔记本和IPython内核的交互式HTML组件库。它提供了一系列基本和高级的浏览器控制，使用户能够与数据进行互动，为学习、研究和开发提供沉浸式体验。这些可交互的组件包括滑块、复选框、文本输入
基于Python+Spark的气象天气分析大屏可视化系统设计与实现毕设源码 sj52abcd python spark 课程设计毕业设计
博主介绍：✌专注于VUE,小程序，安卓，Java,python,物联网专业，有17年开发经验，长年从事毕业指导，项目实战✌选取一个适合的毕业设计题目很重要。✌关注✌私信我✌具体的问题，我会尽力帮助你。研究的背景:随着我国气象事业的发展，气象数据的实时分析和可视化成为越来越重要的任务。然而，目前气象数据的分析与展示手段仍然较为传统，缺乏交互性，不能满足现代气象业务的需求。因此，研究一种基于Pytho
webpack-bundle-analyzer 打包分析工具 cc蒲公英辅助工具 webpack 前端 node.js
移动端项目优化的时候，需要这个插件来可视化查看打包大小，在此记录下插件官网地址一.安装npminstall--save-devwebpack-bundle-analyzer二.使用方式：1.作为插件使用（推荐）在webpack配置文件，如果有生产配置文件放入生产配置文件里require方式引入进来，然后在plugins配置项new一个实例即可constwebpack=require('webpac
Python编程入门指南：从基础到高级编程咕咕gu- python 零基础学习开发语言学习零基础入门
如果你正在学习Python，那么你需要的话可以，点击这里Python重磅福利：入门&进阶全套学习资料、电子书、软件包、项目源码等等免费分享！一、引言1.1Python编程语言简介Python是一种高级编程语言，它具有简单易学、代码简洁、易维护等特点，因此被广泛应用于科学计算、数据分析、人工智能等领域。Python的语法简洁，代码易于阅读和编写，因此它被广大开发者所喜爱。同时，Python还拥有庞大
Python从0到100（五）：Python分支结构和循环结构是Dream呀 python 数据库 linux 深度学习 matlab
一、分支结构：Python中的分支结构和循环结构是编写程序时常用的控制结构。在Python中，分支结构通过if、elif和else关键字来实现条件判断。在使用if语句时，程序会根据条件表达式的真假执行相应的代码块。ifcondition1:#如果条件1为真，则执行这里的代码elifcondition2:#如果条件1为假，条件2为真，则执行这里的代码else:#如果以上条件都不满足，
深入剖析ipywidgets-7.0.0b1：Python交互式前端库的新进展多行不易
本文还有配套的精品资源，点击获取简介：ipywidgets是一个用于创建交互式用户界面的Python库，广泛应用于数据可视化和科学计算。最新版本7.0.0b1带来了新特性、性能优化、API改进和兼容性增强。本详细解析包括ipywidgets的核心概述、主要功能、版本新特性以及其在教育、数据探索和应用原型开发等场景中的应用。1.ipywidgets核心概念介绍在当今数据科学和机器学习领域，交互式可视
抓包工具：Mitmproxy 一张假钞爬虫网络 http https
Mitmproxy是一组工具，它们为HTTP/1、HTTP/2和WebSocket提供交互式、支持SSL/TLS的拦截代理。特性拦截HTTP和HTTPS请求和响应并动态修改它们。保存完整的HTTP对话，以便以后重放和分析。重放HTTP会话的客户端。重放以前记录的服务器的HTTP响应。反向代理模式将流量转发到指定的服务器。MacOS和Linux上的透明代理模式。使用Python脚本对HTTP流量进行
python websocket爬虫_python爬虫----爬取阿里数据银行websocket接口 weixin_39722917 python websocket爬虫
业务需求：爬取阿里品牌数据银行的自定义模块==>>>人群透视==>>>查看报告==>>数据最终获取页面：页面获取情况如下：绿色的就是我们需要模拟的请求，红色朝下的就是请求对应的数据，通过rid参数来找寻对应请求和数据，这个rid和时间戳很类似，没错这就是一个13位的时间戳，和随机数组合而成的：randomID=str(int(time.time()*1000))+str(self.count).z
python3简单爬虫 (爬取各个网站上的图片)_Python简单爬取图片实例神楽坂有木 python3简单爬虫 (爬取各个网站上的图片)
都知道Python的语法很简单易上手，也很适合拿来做爬虫等等，这里就简单讲解一下爬虫入门——简单地爬取下载网站图片。效果就像这样自动爬取下载图片到本地：代码：其实很简单，我们直接看下整体的代码：#coding=utf-8importurllibimportredefgetHtml(url):page=urllib.urlopen(url)html=page.read()returnhtmldefg
【硬刚大数据】2021年从零到大数据专家之Hbase八股文王知无(import_bigdata)
欢迎关注博客主页：https://blog.csdn.net/u013411339欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)
史上最强！Spring Boot 3.3 高效批量插入万级数据的多种方案 m0_74825074 面试学习路线阿里巴巴 spring boot 后端 java
SpringBoot3.3多种方式实现高效批量插入万级数据，史上最强！在大数据处理场景下，如何高效地将大量数据插入数据库是一个重要课题。本文基于SpringBoot3.3及MyBatis-Plus，介绍几种高效的批量插入数据的方法，包括：使用JDBC批处理使用自定义SQL批处理单条插入（for循环）拼接SQL语句插入MyBatis-Plus的saveBatch方法循环插入+开启批处理模式每种方式都
使用Python爬虫获取1688店铺所有商品信息的完整指南不会玩技术的技术girl Python API python 爬虫开发语言
在当今的电商时代，获取电商平台的商品信息对于市场分析、竞争对手研究以及数据挖掘等任务至关重要。1688作为中国领先的B2B电商平台，拥有海量的商品和商家数据。通过Python爬虫技术结合1688的API接口，我们可以高效地获取店铺的所有商品信息。本文将详细介绍如何实现这一目标。一、1688API接口简介1688开放平台提供了丰富的API接口，允许开发者通过合法的方式获取商品信息、店铺信息等数据。其
Python爬虫系列：爬取小说并写入txt文件_python爬虫爬取小说保存txt 2301_82244158 程序员 python 爬虫开发语言
哈喽，哈喽~都说手机自带的浏览器是看小说最好的一个APP，不须要下载任何软件，直接百度就ok了。但是小编还是想说，如果没有网，度娘还是度娘吗？能把小说下载成一个**.txt文件看**不是更香吗？这能难倒小编吗？坚决不能滴。于是乎，自己动手丰衣足食，Python就是万能的好吧。概要：程序语言：python第三方库：requests，parsel最后Python崛起并且风靡，因为优点多、应用领域广、被
Python爬虫获取custom-1688自定义API操作接口不会玩技术的技术girl Python API 1688API python 爬虫开发语言
一、引言在电子商务领域，1688作为国内领先的B2B平台，提供了丰富的API接口，允许开发者获取商品信息、店铺信息等。其中，custom接口允许开发者进行自定义操作，获取特定的数据。本文将详细介绍如何使用Python调用1688的custom接口，并对获取到的数据进行分析和应用。二、准备工作注册1688开放平台账号访问1688开放平台官网，注册一个账号并完成相关认证。这是获取API接口权限的前提。
【Python百日进阶-Web开发-FastAPI】Day806 - FastAPI的查询参数和字符串校验岳涛@泰山医院 Dash 前端 python fastapi
文章目录一、额外的校验1.1导入Query二、使用Query作为默认值三、添加更多校验四、添加正则表达式五、默认值六、声明为必需参数七、查询参数列表/多个值7.1具有默认值的查询参数列表/多个值7.2使用list八、声明更多元数据九、别名参数假设十、弃用参数十一、总结https://fastapi.tiangolo.com/zh/tutorial/query-params-str-validati
【Python百日进阶-数据分析】Day160 - plotly的IO操作岳涛@泰山医院 Dash python 数据分析 plotly
文章目录一、plotly.io.to_image1.1语法1.2参数1.3返回值二、plotly.io.write_image2.1语法2.2参数2.3返回值三、plotly.io.to_json3.1语法3.2参数3.3返回值四、plotly.io.from_json4.1语法4.2参数4.3返回值五、plotly.io.read_json5.1语法5.2参数5.3返回值六、plotly.io.
python热力图代码_python绘制热力图heatmap weixin_39898733 python热力图代码
本文实例为大家分享了python绘制热力图的具体代码，供大家参考，具体内容如下python的热力图是用皮尔逊相关系数来查看两者之间的关联性。#encoding:utf-8importnumpyasnpimportpandasaspdfrommatplotlibimportpyplotaspltfrommatplotlibimportcmfrommatplotlibimportaxesimportp
判断ip地址的合法性python_Python判断IP地址合法性的方法胖厨胡学斌
Python判断IP地址合法性的方法发布于2014-10-1015:16:49|753次阅读|评论:0|来源:网友投递Python编程语言Python是一种面向对象、解释型计算机程序设计语言，由GuidovanRossum于1989年底发明，第一个公开发行版发行于1991年。Python语法简洁而清晰，具有丰富和强大的类库。它常被昵称为胶水语言，它能够把用其他语言制作的各种模块(尤其是C/C++)
判断ip是否合法+linux,Shell脚本判断IP地址是否合法的方法我是波波老师呐判断ip是否合法+linux
使用shell校验ip地址合法性使用方法：[root@yangpython]#bashcheck_ip.ship地址执行结果：返回值0校验合法，非0不合法。shell代码：[root@yangpython]#vicheck_ip.sh#!/usr/bin/shcheckipaddr(){echo$1|grep"^[0-9]\{1,3\}\.$[0-9]\{1,3\}\.$\{2\}[0-9]\
python字符串常用方法整理 shdxhsq python学习 python 字符串
参考教程：https://www.w3school.com.cn/python/python_strings.asphttps://www.runoob.com/python3/python3-string.html注意：在jupyter中，可以在方法名后面打一个问号，然后页面下方会显示这个方法的用法和参数介绍。目录一、摘要二、常用的18个方法1.captialize()2.center()3.c
Python字符串常用方法 |枫叶 python
本人学习python时的总结，并不需要记住，知道有这个方法，拿起来用就行。a="helloworld"#字符串不能通过索引进行修改name[0]='q'#切片，查找字符串当中的一段值，[起始值:终止值:步长]不写步长默认是1print(a[0:5:])print(a[::-1])#步长负数倒过来走，不写起始值和终止值就走完全部print(a[::1])print(len(a))#len方法获取字符
python一些常用库镜像资源惬意的下雨天 python爬虫可视化 python 程序人生经验分享恰饭其他
python标准库：http://docs.python.org/3/library/index.htmlpythonHOWTO:http://docs.python.org/3/howto/index.html有以下的常用的国内源提供你选择:中国科技大学：https://pypi.mirrors.ustc.edu.cn/simple/清华大学：https://pypi.tuna.tsinghua
Python可视化Seaborn库绘图（参数说明+代码实战）步入烟尘 python 开发语言 Seaborn 可视化
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
Python关于lambda表达式的思考 Alidme python 开发语言学习
寒假学习打卡第十五天今天依然没有学mit6.100L的新课，过年比较忙，就刚好复习复习今天做了一下lambda表达式或者说lambda函数的练习，让我想到了两点：1、lambda函数与正常函数对比在我们编写小段的通用型代码，我们可以无需单独定义一段函数来编写，可以直接使用lambda表达式套用在需要的地方，或者绑定一个变量重复使用。#(1)写一个接受两个参数返回两个参数的乘积的lambda表达式f
记录python中常用的镜像源 Littlehero_121 python系列篇 python 开发语言
参考博客：python常用镜像_python镜像-CSDN博客以下内容摘抄以上博客1.阿里云镜像https://mirrors.aliyun.com/pypi/simple/2、清华大学镜像https://pypi.tuna.tsinghua.edu.cn/simple3、豆瓣镜像https://pypi.doubanio.com/simple/4、中科大镜像https://pypi.mirror
使用seaborn绘制相关性热力图 CodeWG python
使用seaborn绘制相关性热力图在数据分析和机器学习中，热力图是一种常见的可视化方法，用于显示不同变量之间的相关性。在Python中，我们可以使用seaborn库绘制相关性热力图。本文将介绍如何使用seaborn中的heatmap函数来绘制相关性热力图，并为读者提供示例代码。首先，我们需要导入必要的库：pandas、numpy和seaborn。我们还使用了matplotlib库以便于展示结果。i
【Python百日精通】Python 字符串的常用操作方法屿小夏精通Python百日计划 python java 算法
文章目录引言一、查找1.1find()方法1.2index()方法1.3rfind()和rindex()方法1.4count()方法二、修改2.1replace()方法2.2split()方法2.3join()方法三、判断3.1startswith()方法3.2endswith()方法3.3isalpha()方法3.4isdigit()方法3.5isalnum()方法3.6isspace()方法四
多租户架构未提供足够的租户安全培训和教育图幻未来网络安全
多租户架构下租户安全培训与教育的需求分析与解决方案引言随着云计算和大数据技术的飞速发展，多租户架构已成为企业数字化转型的重要基石。多租户架构允许一个应用程序实例为多个租户提供服务，从而降低了企业的运营成本。然而，这种架构也带来了一系列的安全挑战。为了解决这些问题，企业需要加强对租户的安全培训和教育，确保租户了解如何在使用多租户架构时保护自己的数据和应用程序。本文将探讨多租户架构下的租户安全培训和教
mayavi实例鄧寜 matlab python 开发语言
Mayavi是一个用于三维可视化的Python库。它可以用于绘制三维图形、曲面、等值线和点云数据。它使用VTK后端进行绘图，并提供了一个类似于MATLAB的界面，使用户能够轻松地创建复杂的三维图形。示例：frommayaviimportmlab#生成等值线数据x,y,z=mlab.test_plot3d()#使用mlab.contour3d绘制等值线mlab.contour3d(x,y,z)#显示
python获取键盘按键_python获取键盘 weixin_39992417 python获取键盘按键
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！printreceivedinputis:,strinput函数input()函数和raw_input()函数基本可以互换，但是input会假设你的输入是一个有效的python表达式，并返回运算结果。#!usrbinpythonstr=input(enteryourinput:);pr
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu