cc-gk

美国新冠肺炎疫情数据分析

使用python和spark对2020年美国新冠肺炎疫情数据分析

文章目录

使用python和spark对2020年美国新冠肺炎疫情数据分析
前言
一、实验环境
二、数据集
- 1.数据集下载
- 2.格式转换
- 3.将文件上传至HDFS文件系统中
三、使用Spark对数据进行分析
- 第一步，读取csv数据集文件
- 第二步：引用相关数据包
- 第三步：自编写RDD程序，主程序
- 第四步：注意RDD读取路径为HDFS文件上传路径
- 第五步：输出文件为result*.json（*为数字）
- 第六步：查看文件是否输出成功
- 第七步：创建本地文件夹，转化文件格式
四、数据进行可视化
- 第一步：安装pyecharts：pip install pyecharts
- 第二步：编写可视化代码
- 效果图
五、总结

前言

提示：这里可以添加本文要记录的大概内容：
本案例以2020年美国新冠肺炎疫情数据作为数据集，以Python为编程语言，使用Spark对数据进行分析，并对分析结果进行可视化。

一、实验环境

（1）Linux： Ubuntu 16.04
（2）Hadoop3.1.3
（3）Python: 3.6
（4）Spark: 2.4.0
（5）Jupyter Notebook

二、数据集

1.数据集下载

本次作业使用的数据集来自数据网站Kaggle的美国新冠肺炎疫情数据集（从百度网盘下载，提取码：t7tu），该数据集以数据表us-counties.csv组织，其中包含了美国发现首例新冠肺炎确诊病例至今（2020-05-19）的相关数据。数据包含以下字段：
字段名称字段含义例子
date 日期 2020/1/21；2020/1/22；etc
county 区县（州的下一级单位） Snohomish；
state 州 Washington
cases 截止该日期该区县的累计确诊人数 1,2,3…
deaths 截止该日期该区县的累计确诊人数 1,2,3…

2.格式转换

原始数据集是以.csv文件组织的，为了方便spark读取生成RDD或者DataFrame，首先将us-counties.csv转换为.txt格式文件us-counties.txt。转换操作使用python实现，代码组织在toTxt.py中,代码如下（示例）：

import pandas as pd

#.csv->.txt
data = pd.read_csv('/home/hadoop/us-counties.csv')
with open('/home/hadoop/us-counties.txt','a+',encoding='utf-8') as f:
    for line in data.values:
        f.write((str(line[0])+'\t'+str(line[1])+'\t'
                +str(line[2])+'\t'+str(line[3])+'\t'+str(line[4])+'\n'))

运行结果如下：

3.将文件上传至HDFS文件系统中

首先开启HDFS服务，再将文件上传至HDFS文件系统中,代码如下:

./bin/hdfs dfs -put /home/hadoop/us-counties.txt /user/hadoop

（上传路径是个已存在文件夹，若无该文件夹，先创建再进行上述操作）要使用 HDFS，首先需要在 HDFS 中创建用户目录：./bin/hdfs dfs -mkdir -p /user/yxm
在上传文件至HDFS文件系统：./bin/hdfs dfs -pu /home/yxm/us-counties.txt /user/yxm

出现以下信息即成功

可以查看文件夹是否存在：./bin/hdfs dfs -ls /user/yxm

出现下列信息即为成功

三、使用Spark对数据进行分析

这里采用Python作为编程语言。

在对数据进行分析要有几个注意点，jupyter notebook的正常运行，使用Jupyter Notebook调试PySpark程序，以及python版本是否兼容。
本实验用的python是3.6.9，3.7无法正常进行实验。
调试jupyter notebook如下:

输出正常
代码：

from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)
logFile = "file:///usr/local/spark/README.md"
logData = sc.textFile(logFile, 2).cache()
numAs = logData.filter(lambda line: 'a' in line).count()
numBs = logData.filter(lambda line: 'b' in line).count()
print('Lines with a: %s, Lines with b: %s' % (numAs, numBs))

此处有两种方式进行数据分析，第一种是在jupyter notebook中运行，第二种是生成创建.py文件，用python环境运行。下面用的是第一种方法。

第一步，读取csv数据集文件

第二步：引用相关数据包

代码：

from pyspark import SparkConf,SparkContext
from pyspark.sql import Row
from pyspark.sql.types import *
from pyspark.sql import SparkSession
from datetime import datetime
import pyspark.sql.functions as func

第三步：自编写RDD程序，主程序

代码：

def toDate(inputStr):
    newStr = ""
    if len(inputStr) == 8:
        s1 = inputStr[0:4]
        s2 = inputStr[5:6]
        s3 = inputStr[7]
        newStr = s1+"-"+"0"+s2+"-"+"0"+s3
    else:
        s1 = inputStr[0:4]
        s2 = inputStr[5:6]
        s3 = inputStr[7:]
        newStr = s1+"-"+"0"+s2+"-"+s3
    date = datetime.strptime(newStr, "%Y-%m-%d")
    return date

第四步：注意RDD读取路径为HDFS文件上传路径

此处的路径与~/.bashrc当中的环境变量有关

代码：

#主程序:
spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()

fields = [StructField("date", DateType(),False),StructField("county", StringType(),False),StructField("state", StringType(),False),
                    StructField("cases", IntegerType(),False),StructField("deaths", IntegerType(),False),]
schema = StructType(fields)

rdd0 = spark.sparkContext.textFile("/user/hadoop/us-counties.txt")
rdd1 = rdd0.map(lambda x:x.split("\t")).map(lambda p: Row(toDate(p[0]),p[1],p[2],int(p[3]),int(p[4])))


shemaUsInfo = spark.createDataFrame(rdd1,schema)

shemaUsInfo.createOrReplaceTempView("usInfo")

第五步：输出文件为result.json（为数字）

以此类推

代码：


#1.计算每日的累计确诊病例数和死亡数
df = shemaUsInfo.groupBy("date").agg(func.sum("cases"),func.sum("deaths")).sort(shemaUsInfo["date"].asc())

#列重命名
df1 = df.withColumnRenamed("sum(cases)","cases").withColumnRenamed("sum(deaths)","deaths")
df1.repartition(1).write.json("result1.json")                               #写入hdfs

#注册为临时表供下一步使用
df1.createOrReplaceTempView("ustotal")

#2.计算每日较昨日的新增确诊病例数和死亡病例数
df2 = spark.sql("select t1.date,t1.cases-t2.cases as caseIncrease,t1.deaths-t2.deaths as deathIncrease from ustotal t1,ustotal t2 where t1.date = date_add(t2.date,1)")

df2.sort(df2["date"].asc()).repartition(1).write.json("result2.json")           #写入hdfs

#3.统计截止5.19日 美国各州的累计确诊人数和死亡人数
df3 = spark.sql("select date,state,sum(cases) as totalCases,sum(deaths) as totalDeaths,round(sum(deaths)/sum(cases),4) as deathRate from usInfo  where date = to_date('2020-05-19','yyyy-MM-dd') group by date,state")

df3.sort(df3["totalCases"].desc()).repartition(1).write.json("result3.json") #写入hdfs

df3.createOrReplaceTempView("eachStateInfo")

#4.找出美国确诊最多的10个州
df4 = spark.sql("select date,state,totalCases from eachStateInfo  order by totalCases desc limit 10")
df4.repartition(1).write.json("result4.json")

#5.找出美国死亡最多的10个州
df5 = spark.sql("select date,state,totalDeaths from eachStateInfo  order by totalDeaths desc limit 10")
df5.repartition(1).write.json("result5.json")

#6.找出美国确诊最少的10个州
df6 = spark.sql("select date,state,totalCases from eachStateInfo  order by totalCases asc limit 10")
df6.repartition(1).write.json("result6.json")

#7.找出美国死亡最少的10个州
df7 = spark.sql("select date,state,totalDeaths from eachStateInfo  order by totalDeaths asc limit 10")
df7.repartition(1).write.json("result7.json")

#8.统计截止5.19全美和各州的病死率
df8 = spark.sql("select 1 as sign,date,'USA' as state,round(sum(totalDeaths)/sum(totalCases),4) as deathRate from eachStateInfo group by date union select 2 as sign,date,state,deathRate from eachStateInfo").cache()
df8.sort(df8["sign"].asc(),df8["deathRate"].desc()).repartition(1).write.json("result8.json")

第六步：查看文件是否输出成功

查看HDFS上传文件下的目录：./bin/hdfs dfs -ls /user/yxm

成功输出

第七步：创建本地文件夹，转化文件格式

若不提前创建文件夹，报错。
将HDFS上结果文件转储到本地文件系统中：


./bin/hdfs dfs -get /user/yxm/result1.json/part-00000.json /home/yxm/result/result1

提示输出成功，查看文件

四、数据进行可视化

第一步：安装pyecharts：pip install pyecharts

选择使用python第三方库pyecharts作为可视化工具。
在使用前，需要安装pyecharts，安装代码如下：

pip install pyecharts

第二步：编写可视化代码

打开jupyter notebook，导入数据包

编写程序，根据数据类型编写不同视图
文件输出路径为本地.josn文件路径

双柱状图：

折线图：

表格：

词云图：

象柱状图：

词云图：

饼状图：

查看输出文件：

效果图

具体可视化实现代码如下：

from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.charts import Line
from pyecharts.components import Table
from pyecharts.charts import WordCloud
from pyecharts.charts import Pie
from pyecharts.charts import Funnel
from pyecharts.charts import Scatter
from pyecharts.charts import PictorialBar
from pyecharts.options import ComponentTitleOpts
from pyecharts.globals import SymbolType
import json



#1.画出每日的累计确诊病例数和死亡数——>双柱状图
def drawChart_1(index):
    root = "/home/hadoop/result/result" + str(index) +"/part-00000.json"
    date = []
    cases = []
    deaths = []
    with open(root, 'r') as f:
        while True:
            line = f.readline()
            if not line:                            # 到 EOF，返回空字符串，则终止循环
                break
            js = json.loads(line)
            date.append(str(js['date']))
            cases.append(int(js['cases']))
            deaths.append(int(js['deaths']))

    d = (
    Bar()
    .add_xaxis(date)
    .add_yaxis("累计确诊人数", cases, stack="stack1")
    .add_yaxis("累计死亡人数", deaths, stack="stack1")
    .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
    .set_global_opts(title_opts=opts.TitleOpts(title="美国每日累计确诊和死亡人数"))
    .render("/home/hadoop/result/result1/result1.html")
    )


#2.画出每日的新增确诊病例数和死亡数——>折线图
def drawChart_2(index):
    root = "/home/hadoop/result/result" + str(index) +"/part-00000.json"
    date = []
    cases = []
    deaths = []
    with open(root, 'r') as f:
        while True:
            line = f.readline()
            if not line:                            # 到 EOF，返回空字符串，则终止循环
                break
            js = json.loads(line)
            date.append(str(js['date']))
            cases.append(int(js['caseIncrease']))
            deaths.append(int(js['deathIncrease']))

    (
    Line(init_opts=opts.InitOpts(width="1600px", height="800px"))
    .add_xaxis(xaxis_data=date)
    .add_yaxis(
        series_name="新增确诊",
        y_axis=cases,
        markpoint_opts=opts.MarkPointOpts(
            data=[
                opts.MarkPointItem(type_="max", name="最大值")

            ]
        ),
        markline_opts=opts.MarkLineOpts(
            data=[opts.MarkLineItem(type_="average", name="平均值")]
        ),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="美国每日新增确诊折线图", subtitle=""),
        tooltip_opts=opts.TooltipOpts(trigger="axis"),
        toolbox_opts=opts.ToolboxOpts(is_show=True),
        xaxis_opts=opts.AxisOpts(type_="category", boundary_gap=False),
    )
    .render("/home/hadoop/result/result2/result1.html")
    )
    (
    Line(init_opts=opts.InitOpts(width="1600px", height="800px"))
    .add_xaxis(xaxis_data=date)
    .add_yaxis(
        series_name="新增死亡",
        y_axis=deaths,
        markpoint_opts=opts.MarkPointOpts(
            data=[opts.MarkPointItem(type_="max", name="最大值")]
        ),
        markline_opts=opts.MarkLineOpts(
            data=[
                opts.MarkLineItem(type_="average", name="平均值"),
                opts.MarkLineItem(symbol="none", x="90%", y="max"),
                opts.MarkLineItem(symbol="circle", type_="max", name="最高点"),
            ]
        ),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="美国每日新增死亡折线图", subtitle=""),
        tooltip_opts=opts.TooltipOpts(trigger="axis"),
        toolbox_opts=opts.ToolboxOpts(is_show=True),
        xaxis_opts=opts.AxisOpts(type_="category", boundary_gap=False),
    )
    .render("/home/hadoop/result/result2/result2.html")
    )




#3.画出截止5.19，美国各州累计确诊、死亡人数和病死率--->表格
def drawChart_3(index):
    root = "/home/hadoop/result/result" + str(index) +"/part-00000.json"
    allState = []
    with open(root, 'r') as f:
        while True:
            line = f.readline()
            if not line:                            # 到 EOF，返回空字符串，则终止循环
                break
            js = json.loads(line)
            row = []
            row.append(str(js['state']))
            row.append(int(js['totalCases']))
            row.append(int(js['totalDeaths']))
            row.append(float(js['deathRate']))
            allState.append(row)

    table = Table()

    headers = ["State name", "Total cases", "Total deaths", "Death rate"]
    rows = allState
    table.add(headers, rows)
    table.set_global_opts(
        title_opts=ComponentTitleOpts(title="美国各州疫情一览", subtitle="")
    )
    table.render("/home/hadoop/result/result3/result1.html")


#4.画出美国确诊最多的10个州——>词云图
def drawChart_4(index):
    root = "/home/hadoop/result/result" + str(index) +"/part-00000.json"
    data = []
    with open(root, 'r') as f:
        while True:
            line = f.readline()
            if not line:                            # 到 EOF，返回空字符串，则终止循环
                break
            js = json.loads(line)
            row=(str(js['state']),int(js['totalCases']))
            data.append(row)

    c = (
    WordCloud()
    .add("", data, word_size_range=[20, 100], shape=SymbolType.DIAMOND)
    .set_global_opts(title_opts=opts.TitleOpts(title="美国各州确诊Top10"))
    .render("/home/hadoop/result/result4/result1.html")
    )




#5.画出美国死亡最多的10个州——>象柱状图
def drawChart_5(index):
    root = "/home/hadoop/result/result" + str(index) +"/part-00000.json"
    state = []
    totalDeath = []
    with open(root, 'r') as f:
        while True:
            line = f.readline()
            if not line:                            # 到 EOF，返回空字符串，则终止循环
                break
            js = json.loads(line)
            state.insert(0,str(js['state']))
            totalDeath.insert(0,int(js['totalDeaths']))

    c = (
    PictorialBar()
    .add_xaxis(state)
    .add_yaxis(
        "",
        totalDeath,
        label_opts=opts.LabelOpts(is_show=False),
        symbol_size=18,
        symbol_repeat="fixed",
        symbol_offset=[0, 0],
        is_symbol_clip=True,
        symbol=SymbolType.ROUND_RECT,
    )
    .reversal_axis()
    .set_global_opts(
        title_opts=opts.TitleOpts(title="PictorialBar-美国各州死亡人数Top10"),
        xaxis_opts=opts.AxisOpts(is_show=False),
        yaxis_opts=opts.AxisOpts(
            axistick_opts=opts.AxisTickOpts(is_show=False),
            axisline_opts=opts.AxisLineOpts(
                linestyle_opts=opts.LineStyleOpts(opacity=0)
            ),
        ),
    )
    .render("/home/hadoop/result/result5/result1.html")
    )



#6.找出美国确诊最少的10个州——>词云图
def drawChart_6(index):
    root = "/home/hadoop/result/result" + str(index) +"/part-00000.json"
    data = []
    with open(root, 'r') as f:
        while True:
            line = f.readline()
            if not line:                            # 到 EOF，返回空字符串，则终止循环
                break
            js = json.loads(line)
            row=(str(js['state']),int(js['totalCases']))
            data.append(row)

    c = (
    WordCloud()
    .add("", data, word_size_range=[100, 20], shape=SymbolType.DIAMOND)
    .set_global_opts(title_opts=opts.TitleOpts(title="美国各州确诊最少的10个州"))
    .render("/home/hadoop/result/result6/result1.html")
    )




#7.找出美国死亡最少的10个州——>漏斗图
def drawChart_7(index):
    root = "/home/hadoop/result/result" + str(index) +"/part-00000.json"
    data = []
    with open(root, 'r') as f:
        while True:
            line = f.readline()
            if not line:                            # 到 EOF，返回空字符串，则终止循环
                break
            js = json.loads(line)
            data.insert(0,[str(js['state']),int(js['totalDeaths'])])

    c = (
    Funnel()
    .add(
        "State",
        data,
        sort_="ascending",
        label_opts=opts.LabelOpts(position="inside"),
    )
    .set_global_opts(title_opts=opts.TitleOpts(title=""))
    .render("/home/hadoop/result/result7/result1.html")
    )


#8.美国的病死率--->饼状图
def drawChart_8(index):
    root = "/home/hadoop/result/result" + str(index) +"/part-00000.json"
    values = []
    with open(root, 'r') as f:
        while True:
            line = f.readline()
            if not line:                            # 到 EOF，返回空字符串，则终止循环
                break
            js = json.loads(line)
            if str(js['state'])=="USA":
                values.append(["Death(%)",round(float(js['deathRate'])*100,2)])
                values.append(["No-Death(%)",100-round(float(js['deathRate'])*100,2)])
    c = (
    Pie()
    .add("", values)
    .set_colors(["blcak","orange"])
    .set_global_opts(title_opts=opts.TitleOpts(title="全美的病死率"))
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    .render("/home/hadoop/result/result8/result1.html")
    )


#可视化主程序：
index = 1
while index<9:
    funcStr = "drawChart_" + str(index)
    eval(funcStr)(index)
    index+=1

五、总结

        通过本次实验，我们把在这一学期学的内容都使用了一遍，并且进行了融会贯通，本学期中，我们主要是对之前所学的python的内容进行巩固练习，并且对于一些细节处的修改；然后学习了shark，RDD，最后学了dataframe以及彼此之间的数据转换。
        在本次实验中，先是将数据集.csv文件进行格式转换，方便spark读取生成RDD或者DataFrame；接着将数据集上次到HDFS文件系统中，在这里我们要注意上传路径是个已存在文件夹，若无该文件夹，先创建再进行上述操作，否则可能会报错；接着使用spark对数据进行分析，并将分析结果输出，注意输出路径；记得HDFS查看文件是否输出成功；最后进行数据的可视化，在此需要安装可视化工具pyecharts对分析完成的数据进行可视化即可。
        本次实验中，我遇到过许多的问题，其中困扰我最久的是环境的搭建，python、hadoop、pyspark、pyecharts和Jupyter Notebook的安装，单个实现不难，主要是有一些彼此之间不兼容，版本或高或低，导致代码无法实现，重新安装时总会出现各种各样的问题。对此，我只能百度一一解决；然后就是数据可视化，由于对这一方面不太熟悉，因此在实现的过程中比较艰难，但好在一一克服了。
        通过了本次实验收获了良多，虽然在这个过程中经历了许多坎坷，但也认识到了自己的不足，找到了接下来努力的方向，进一步努力提升自己的技术水平。

[1] http://dblab.xmu.edu.cn/blog/2636-2/
注：参考厦门大学大数据实验室

设计模式（一）：设计原则、常用设计模式 lercent 设计模式设计模式
1.设计原则SOLID原则-SRP单一职责原则：一个类或者模块只负责完成一个职责（或者功能）。SOLID原则-OCP开闭原则：如果要添加一个新的功能，能够在已有代码基础上直接扩展代码，而不用修改已有代码就能实现，那么就符合“扩展开放、对修改关闭”原则。SOLID原则-LSP里式替换原则：子类对象能够替换程序中父类对象出现的任何地方，并且保证原来程序的逻辑行为不变及正确性不被破坏。SOLID原则-I
信息技术革新引领时代变革 JiYan_xiaohei 业界资讯
信息技术革新引领时代变革一、信息技术的飞速发展1．信息技术的概念及重要性信息技术，即信息的获取、传输、存储、处理和应用等技术的综合，已经成为现代社会不可或缺的基础设施。信息技术的飞速发展极大地改变了人们的生活方式和工作模式，推动了社会进步。2．信息技术的快速发展现状近年来，人工智能、大数据、云计算等前沿技术不断突破，展现出强大的潜力。这些新技术的出现不仅改变了数据处理和分析的方式，还催生了新的产业
互联网新纪元：探索技术革新与数字生活的无限可能 2401_87961950 5g
互联网新纪元：探索技术革新与数字生活的无限可能在当今这个日新月异的时代，互联网已不仅仅是连接世界的桥梁，它更是推动社会进步、经济繁荣与文化交流的重要引擎。随着技术的不断革新，互联网正以前所未有的速度和广度重塑着我们的生活方式、工作模式乃至思维方式。本文旨在探讨互联网最新发展趋势，分析其对个人、企业及社会产生的深远影响，并展望互联网新纪元的无限可能。一、技术革新：驱动互联网发展的新动力1.5G与物联
2024年办公协作新趋势：8种值得瞩目的工作方式不秃头的UI设计师远程工作远程办公协作团队协作
过去两年中，疫情的爆发推动了远程办公业务的发展，并且随着疫情的常态化和企业数字化转型的加速，中国企业对协作办公软件的需求显著增加。数据显示，2021年中国协作办公市场规模已达264.2亿元，预计到2023年将增长至330.1亿元。在线团队协作就像在不同应用场景中搭建了一座虚拟桥梁，打破了企业内部的数据孤岛，促进了各部门之间的多维协作。在线协作设计软件则成为企业数字化转型的理想选择，满足了企业在数字
定了，2025年数据库运维就这样干我科绝伦（Huanhuan Zhou） mysql oracle 数据库运维 oracle
在数字化浪潮中，数据库作为企业数据资产的核心载体，其稳定运行与高效管理至关重要。新的一年，为应对日益增长的数据量和业务复杂度，我们为数据库运维制定了一系列全面且细致的计划，旨在提升数据库性能、保障数据安全，为企业业务发展筑牢坚实基础。一、强化巡检，防患未然数据库的稳定运行离不开日常的精心呵护。2025年，我们将进一步加强巡检工作，利用专业工具和自主研发的系统，对数据库进行全面“体检”。不仅关注数据
双ESP8266-01S通讯UDP配置 majingming123 udp python 网络协议
第一台ESP8266(发送命令需要勾---发送新行)AT+CWMODE=3AT+CWSAP_DEF="CAR_wifi_Master","12345678",5,3//设置本地wifi名称以及密码AT+CIPSTA_DEF="192.168.4.1"//设置本地IPAT+CIFSR//查看本地IP；若是AP未被链接可能看不到刚才设置的IPAT+CIPMUX=0//单链接AT+CIPMODE=1//
DeepSeek 近况大揭秘：市场、技术与合作的多面剖析 InfiniteSea1019 ai
最近，AI领域的DeepSeek可谓是赚足了眼球，无论是在资本市场，还是在技术创新和行业应用方面，都有着令人瞩目的表现。今天，就让我们一起来深入了解一下DeepSeek的最新动态。DeepSeek概念股：分化与澄清并存在股票市场上，DeepSeek概念股曾一路高歌猛进，不过近期开始出现分化迹象。据Choice数据显示，2月12日，DeepSeek概念股中，青云科技、创业黑马、新致软件等70余股上涨
谷歌邮箱提示验证手机号的解决方法菠萝派爱跨境社交媒体安全
一、为什么谷歌邮箱提示需要验证手机号？谷歌邮箱（Gmail）在使用过程中，可能会提示您需要验证手机号，尤其是在以下几种情况下：新账号注册：在注册新的谷歌账号时，谷歌往往要求用户绑定手机号。这是为了增加账号的安全性，防止账号被滥用。手机号作为一种可靠的验证方式，能够帮助谷歌确认您是一个真实用户。账号安全性问题：如果系统检测到您的账号有异常登录活动（例如来自不同地区的登录尝试），谷歌可能会要求您验证手
通义灵码全新上线模型选择功能，新增支持 DeepSeek-V3 和 DeepSeek-R1 模型 TONGYI_Lingma 阿里云云原生 AI程序员通义灵码
近期，阿里云百炼平台重磅推出DeepSeek-V3、DeepSeek-R1、DeepSeek-R1-Distill-Qwen-32B等6款模型，进一步丰富其AI模型矩阵。与此同时，通义灵码也紧跟步伐，全新上线模型选择功能，支持基于百炼的DeepSeek-V3和DeepSeek-R1满血版671B模型，为AI编程领域注入新活力。通义灵码能力再升级，支持推理模型选择今年1月，通义灵码AI程序员全面上线
Python.pyecharts.charts折线图新旧版本对比详解！唔使般若 python
旧版本(0.5.10)实现frompyechartsimportLineline=Line("美国邮费阶梯图")datax=[1995,1996,1997,1998,1999,2001,2002,2003,2004,2005,2006,2007,2008,2009]datay=[0.32,0.32,0.32,0.32,0.33,0.33,0.34,0.37,0.37,0.37,0.37,0.39,
从需求分析到代码生成：AI如何重塑软件需求工程前端
软件开发的世界，一直以来都面临着巨大的挑战。传统软件开发过程中，需求分析往往耗时长、易出错，沟通成本高昂，这些都直接导致项目延期和成本超支。然而，随着人工智能技术的飞速发展，一个新的时代正在到来。AI代码生成器等AI技术的应用，为我们提供了自动化部分需求分析和代码生成过程的可能性，显著提高了效率，降低了成本。本文将探讨AI技术如何重塑软件需求工程，并以ScriptEcho为例，说明AI驱动的代码生
合合信息启信宝助力国家自然科学基金委员会重点专项推进人工智能大数据自然语言处理
近日，国家自然科学基金委员会公布了2024年度宏观调控专项“数据市场制度设计与关键技术”的评审结果。由中国科学院大学、中国社会科学院数量经济与技术经济研究所和清华大学共同申报的《数据资源统计监测与市场价值评估的理论与方法研究》项目成功获批立项。上海合合信息科技股份有限公司（股票代码：688615）作为课题支撑合作单位，将为课题研究团队提供多维度数据源支持与智能数据分析能力，共同为数字经济发展贡献力
AI前端开发对未来职业规划的影响：拥抱变化，迎接挑战前端
随着人工智能技术的飞速发展，AI写代码工具（以及其他AI代码生成工具）的兴起正在深刻地改变着前端开发领域。从简单的代码片段生成到复杂的页面布局设计，AI已经开始扮演越来越重要的角色。这不仅给前端开发带来了前所未有的效率提升，也对前端开发者的职业规划提出了新的挑战和机遇。本文将探讨AI前端开发的未来趋势，以及如何利用AI工具，例如ScriptEcho，来帮助前端开发者适应未来，在竞争激烈的市场中保持
AI时代前端开发的学习能力：与时俱进的挑战与机遇前端
在飞速发展的科技浪潮中，前端开发领域正经历着翻天覆地的变化。得益于AI写代码工具的兴起，低代码/无代码开发模式日益普及，各种新技术、新框架、新工具层出不穷，这无疑对前端工程师的学习能力提出了更高的要求。本文将探讨AI时代前端工程师所需的学习能力，以及如何应对这些挑战与机遇，最终在AI浪潮中立于不败之地。AI如何改变前端开发模式传统的软件开发流程往往需要大量的代码编写和调试，耗时费力。而AI的介入，
【专题】2025中国消费者的转型报告汇总以精准战略驱动新常态PDF解读（附原数据表）数据挖掘深度学习人工智能算法
原文链接：https://tecdat.cn/?p=39932在当下复杂多变的商业环境中，中国消费者市场正经历着深刻的变革。经济增长模式的转变、宏观经济环境的不确定性，都在重塑着消费者的行为与偏好。深入理解这些变化，对于企业制定精准有效的市场策略、把握增长机遇至关重要。本报告汇总洞察基于文末403份消费者行业研究报告的数据，报告合集已分享在交流群，阅读原文进群和500+行业人士共同交流和成长。运用
R中单细胞RNA-seq分析教程 (6) 后端
引言本系列开启R中单细胞RNA-seq数据分析教程，持续更新，欢迎关注，转发！简介现在，很少有人只进行一次单细胞RNA测序实验并仅产生一份数据。原因很直接：目前的单细胞RNA测序技术每次只能捕捉到有限样本的分子状态。为了在多个实验和不同条件下对众多样本进行测量，通常需要对来自不同实验的单细胞RNA测序数据进行联合分析。虽然有些实验策略，比如细胞哈希!，以及一些计算方法，比如demuxlet和scS
以C语言为基石，轻松理解Python的核心逻辑 welcome_123_ c语言 python 开发语言
一、编程思维的桥梁：从C到Python对于掌握C语言的开发者来说，Python的学习就像在熟悉的城市中发现一条新的捷径。本文将通过对比C语言和Python的核心特性，揭示两种语言的本质联系与差异，帮助C开发者快速建立Python编程思维。二、基础语法对照表2.1变量定义与使用操作C语言实现Python实现核心差异定义整型变量intnum=10;num=10Python无需声明类型浮点数运算floa
Omofun最新苹果版，O站复活了 cpa007 动画
下载地址https://pan.quark.cn/s/b7599cef6f61OmoFun是一款专为动漫爱好者设计的视频播放软件，以下是对其的详细介绍：一、软件概述OmoFun致力于提供丰富多样的动漫资源和高品质的观看体验。该软件汇聚了海量动漫视频，覆盖热门新番到经典老番，满足不同用户的观看需求。其界面简洁友好，操作便捷，同时还内置了强大的互动社区，方便用户交流心得和分享喜好。二、软件功能高清画质
python爬虫6个经典常用案例（完整代码）小北画画 python 爬虫开发语言人工智能 pycharm
文章目录1.抓取静态网页内容2.抓取多个网页（分页）3.使用正则表达式提取数据4.处理动态内容（使用Selenium）5.抓取带有登录认证的网页6.使用Scrapy框架Python爬虫是一种强大的工具，可以用来从网页中提取数据。以下是六个常用的Python爬虫案例，涵盖了从简单的网页抓取到更复杂的动态内容抓取。1.抓取静态网页内容目标：抓取一个静态网页的内容，并提取其中的特定信息。示例：抓取一个新
DVSI使用SenseGlove为开发虚拟现实场景技能培训 Axis tech vr
虚拟现实场景技能培训能够有效提升被培训者的技能熟练度，使其在现实世界中经历类似事件时第一时间做出正确反映，从而大大降低因缺乏相关技能经验所造成的财产、人员、时间损失。DVSI（DigitalVoiceSystemsInc）是一家美国数字化转型解决方案供应商，为全球各地的指挥中心、技术实验室、智能工作环境等提供尖端的视听解决方案。DVSI致力于设计智能数字环境和身临其境的探索体验，以推动业务成果并提
安科瑞环保用电监管云平台 GetEnterpriseInfoY SQL注入漏洞复现 0xSecl 漏洞复现v2 安全 web安全
0x01产品简介AcrelCloud-3000环保用电监管云平台依托创新的物联网电力传感技术，实时采集企业总用电、生产设备及环保治理设备用电数据，通过关联分析、超限分析、停电分析、停限产分析，结合及时发现环保治理设备未开启、异常关闭及减速、空转、降频等异常情况，同时通过数据分析还可以实时监控限产和停产整治企业运行状态，用户可以利用PC、手机、平板电脑等多种终端实现对平台的访问。0x02漏洞概述安科
具身智能训练新思路！将生成视频用于训练机器人天机️灵韵具身智能人工智能具身智能
将生成视频用于训练具身智能（EmbodiedAI）确实是近年来备受关注的前沿方向，这一思路通过结合生成式AI（如扩散模型、神经辐射场等）与机器人学习，为解决真实世界数据稀缺、训练成本高等问题提供了新可能。以下从技术逻辑、潜在优势、挑战及案例方向展开分析：一、技术逻辑：如何用生成视频训练机器人？生成式AI构建虚拟环境利用扩散模型（如Sora、StableVideoDiffusion）或3D生成技术（
【Audio】Android 10车载音频路由小羊子说车载开发之Android Audio android 音视频
音频路由在Android10中，car_audio_configuration.xml取代了car_volumes_groups.xml和IAudioControl.getBusForContext。新的配置文件定义了一个音频区列表。每个音频区都拥有一个或多个音量组及其关联设备，而每台设备都具有应在该音频区内进行路由的上下文。所有上下文都必须在每个音频区内表示。配置音频路由音频政策文件通常位于ve
基于分布式架构的毕业设计题目50例 love_java_code 计算机专业毕业设计题目分布式架构系统架构
基于分布式架构的毕业设计题目1-10题1、基于分布式架构的网络考试系统的设计2、基于分布式架构的融合客户数据中心探讨3、基于分布式架构的内网监控系统的应用与研究4、基于分布式架构的铁路企业社会保障管理信息系统设计5、基于分布式架构打造证券交易新核心6、基于分布式架构的融合用户数据中心部署方案研究7、基于分布式架构的大数据建模实践8、基于分布式架构的通航运营管理系统研究9、基于分布式架构的网络流量分
数据清洗与预处理：提升数据质量的关键步骤 Echo_Wish 实战高阶大数据 python spark 大数据
数据清洗与预处理：提升数据质量的关键步骤在大数据时代，数据已成为企业和组织的重要资产。然而，数据的价值取决于其质量。高质量的数据可以支持有效的决策和精确的分析，而低质量的数据则可能导致误导性的结论和错误的决策。因此，数据清洗与预处理成为了数据分析过程中不可或缺的关键步骤。一、数据质量的挑战在实际应用中，数据通常来自多个来源，如传感器、日志文件、用户输入等。这些数据可能存在以下问题：缺失值（Miss
ThreadPool.QueueUserWorkItem方法和WaitCallback委托 want fly c#上位机学习 c#开发语言
ThreadPool.QueueUserWorkItemThreadPool.QueueUserWorkItem方法是用于将工作项提交到线程池队列中的方法。当你需要执行一个方法但不想创建一个新的线程时，可以使用该方法。这个方法会将工作项放到一个线程池队列中，并由线程池中的一个线程来执行该工作项。方法的第一个参数是WaitCallback委托类型，它表示要在线程池上执行的方法。第二个参数是一个对象，
解锁 Python 函数形参新玩法：仅位置、仅关键字及综合定义攻略 tekin Python python 开发语言 python3函数定义函数形参参数位置控制形参控制
Python中，函数参数默认可按位置或显式关键字传递。但为提升代码可读性与效率，限制参数传递方式很有必要。开发者查看函数定义，便可明确参数是仅按位置、按位置或关键字，还是仅按关键字传递。这对API函数定义尤为关键，使用仅限位置形参能防止未来修改形参名引发的API破坏性变动，可有效保障API稳定性与兼容性。下面为你详细介绍如何在函数定义中使用这些参数类型。python函数定义：deff(pos1,p
AI时代前端开发的学习能力：与时俱进的挑战与机遇前端
在飞速发展的科技浪潮中，前端开发领域正经历着翻天覆地的变化。得益于AI写代码工具的兴起，低代码/无代码开发模式日益普及，各种新技术、新框架、新工具层出不穷，这无疑对前端工程师的学习能力提出了更高的要求。本文将探讨AI时代前端工程师所需的学习能力，以及如何应对这些挑战与机遇，最终在AI浪潮中立于不败之地。AI如何改变前端开发模式传统的软件开发流程往往需要大量的代码编写和调试，耗时费力。而AI的介入，
DeepSeek 指导手册从入门到精通长久的梦 DeepSeek DeepSeek 技术架构解析 DeepSeek 代码重构应用 DeepSeek 提示词模板 DeepSeek 联网搜索技巧 DeepSeek 未来趋势 DeepSeek 开源的意义 DeepSeek 性能优化方法
目录正文第⼀章：准备篇（30分钟上手）❄️1.1三分钟创建你的AI伙伴❄️1.2认识你的AI控制台第⼆章：基础对话篇（像交朋友⼀样学交流）❄️2.1有效提问的五个⻩⾦法则❄️2.2新⼿必学的10个魔法指令第三章：效率⻜跃篇（⽂件处理与复杂任务）❄️3.1五分钟学会⽂档分析❄️3.2让AI帮你写代码第四章：场景实战篇⸺解决真实世界问题❄️4.1学术论⽂全流程辅助（从开题到答辩）❄️阶段⼀：开题攻坚❄
AI前端开发对团队协作能力的影响：机遇与挑战并存前端
近年来，AI写代码工具的兴起彻底改变了前端开发的模式，为开发者带来了前所未有的效率提升。然而，这种变革也对团队协作能力提出了新的挑战和机遇。本文将探讨AI前端开发对团队协作的影响，并以ScriptEcho为例，分析AI工具如何优化协作流程，提升团队效率。AI前端开发：效率提升与协作模式的变革AI工具的应用，例如自动生成代码、智能代码补全等功能，显著缩短了前端开发周期。这使得团队成员能够将更多精力投
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

美国新冠肺炎疫情数据分析

使用python和spark对2020年美国新冠肺炎疫情数据分析

文章目录

前言

一、实验环境

二、数据集

1.数据集下载

2.格式转换

3.将文件上传至HDFS文件系统中

三、使用Spark对数据进行分析

第一步，读取csv数据集文件

第二步：引用相关数据包

第三步：自编写RDD程序，主程序

第四步：注意RDD读取路径为HDFS文件上传路径

第五步：输出文件为result*.json（*为数字）

第六步：查看文件是否输出成功

第七步：创建本地文件夹，转化文件格式

四、数据进行可视化

第一步：安装pyecharts：pip install pyecharts

第二步：编写可视化代码

效果图

五、总结

你可能感兴趣的:(美国新冠肺炎疫情数据分析)

第五步：输出文件为result.json（为数字）