天天.打代码

spark期末大作业

需求描述

本次实验需要以2020年美国新冠肺炎疫情数据作为数据集，以Python为编程语言，使用Spark对数据进行分析，并对分析结果进行可视化。原始数据集是以.csv文件组织的，为了方便spark读取生成RDD或者DataFrame。

首先使用Python将us-counties.csv转换为.txt格式文件us-counties.txt，然后使用本地文件系统上传到HDFS文件系统中，由于本实验中使用的数据为结构化数据，因此可以使用spark读取源文件生成DataFrame以方便进行后续分析实现。由于使用Python读取HDFS文件系统不太方便，故将HDFS上结果文件转储到本地文件系统中, 选择使用python第三方库pyecharts作为可视化工具,可视化结果是.html格式的。

本实验主要统计以下8个指标，分别是：

1) 统计美国截止每日的累计确诊人数和累计死亡人数。

2) 统计美国每日的新增确诊人数和新增死亡人数。

3) 统计截止5.19日，美国各州的累计确诊人数和死亡人数。

4) 统计截止5.19日，美国确诊人数最多的十个州。

5) 统计截止5.19日，美国死亡人数最多的十个州。

6) 统计截止5.19日，美国确诊人数最少的十个州。

7) 统计截止5.19日，美国死亡人数最少的十个州。

8) 统计截止5.19日，全美和各州的病死率。

在计算以上几个指标过程中，根据实现的简易程度，既采用了DataFrame自带的操作函数，又采用了spark sql进行操作。

环境介绍

操作系统：Ubuntu 20.04.2 LTS

1. 安装好的VMware Workstation Player虚拟机软件

请确认安装好VMware Workstation Player，如仍未安装VMware Workstation Player，请点击下载地址安装。

点击这里VMware Workstation Player官网下载地址

2. Ubuntu 20.04.2 LTS映像文件

点击这里从 Ubuntu官网下载，进入网页以后，找到下载Ubuntu桌面版Ubuntu 20.04.2.0 LTS ，请点击“下载”按钮下载“ubuntu-20.04.2.0-desktop-amd64.iso”镜像。

Hadoop版本：3.1.3

Hadoop安装文件，可以到Hadoop官网下载hadoop-3.1.3.tar.gz。也可以直接点击这里从百度云盘下载软件（提取码：lnwl），进入百度网盘后，进入“软件”目录，找到hadoop-3.1.3.tar.gz文件，下载到本地。我们选择将 Hadoop 安装至 /usr/local/ 中。

Java版本：1.8.0_292

Hadoop3.1.3需要JDK版本在1.8及以上。需要按照下面步骤来自己手动安装JDK1.8。已经把JDK1.8的安装包jdk-8u162-linux-x64.tar.gz放在了百度云盘，可以点击这里到百度云盘下载JDK1.8安装包（提取码：lnwl）。请把压缩格式的文件jdk-8u162-linux-x64.tar.gz下载到本地电脑，假设保存在“/home/linziyu/Downloads/”目录下。

Python版本：3.8.5

系统自带，无需安装

Pip版本：20.0.2

在终端输入以下命令即可安装：

sudo apt-get install python3-pip

Spark版本：3.1.2

需要下载Spark安装文件。访问Spark官方下载地址

也可以直接点击这里从百度云盘下载软件（提取码：ziyu）。进入百度网盘后，进入“软件”目录，找到spark-2.4.0-bin-without-hadoop.tgz文件，下载到本地。

数据来源描述

本次作业使用的数据集来自数据网站Kaggle的美国新冠肺炎疫情数据集（从百度网盘下载，提取码：t7tu），该数据集以数据表“us-counties.csv”组织，其中包含了美国发现首例新冠肺炎确诊病例至今（2020-05-19）的相关数据。数据包含以下字段：

字段名称字段含义例子

date 日期 2020/1/21；2020/1/22；etc

county 区县（州的下一级单位） Snohomish；

state 州 Washington

cases 截止该日期该区县的累计确诊人数 1,2,3…

deaths 截止该日期该区县的累计确诊人数 1,2,3…

数据上传及上传结果查看

数据集（从百度网盘下载，提取码：t7tu）

us-counties.csv:

5、数据处理过程描述

1.格式转换

原始数据集是以.csv文件组织的，为了方便spark读取生成RDD或者DataFrame，首先将us-counties.csv放到“/home/hadoop/”目录下，然后转换为.txt格式文件us-counties.txt。转换操作使用python实现，代码组织在toTxt.py中，具体代码如下：

$cd /home/hadoop/

$vim toTxt.py

import pandas as pd

data = pd.read_csv('/home/hadoop/us-counties.csv')

with open('/home/hadoop/us-counties.txt','a+',encoding='utf-8') as f:

    for line in data.values:

        f.write((str(line[0])+'\t'+str(line[1])+'\t'

                +str(line[2])+'\t'+str(line[3])+'\t'+str(line[4])+'\n'))

$Python3 toTxt.py

2.将文件上传至HDFS文件系统中

需要先启动hadoop，伪分布式读取的则是 HDFS 上的数据。要使用 HDFS，首先需要在 HDFS 中创建用户目录，然后使用如下命令把本地文件系统的“/home/hadoop/us-counties.txt”上传到HDFS文件系统中，具体路径是“/user/hadoop/us-counties.txt”。具体命令如下：

$cd /usr/local/hadoop

$./sbin/start-dfs.sh

$jsp

$./bin/hdfs dfs -mkdir -p /user/hadoop

$./bin/hdfs dfs -put /home/hadoop/us-counties.txt /user/hadoop

3. 使用Spark对数据进行分析

$ vim analyst.py

from pyspark import SparkConf,SparkContext

from pyspark.sql import Row

from pyspark.sql.types import *

from pyspark.sql import SparkSession

from datetime import datetime

import pyspark.sql.functions as func



def toDate(inputStr):

    newStr = ""

    if len(inputStr) == 8:

        s1 = inputStr[0:4]

        s2 = inputStr[5:6]

        s3 = inputStr[7]

        newStr = s1+"-"+"0"+s2+"-"+"0"+s3

    else:

        s1 = inputStr[0:4]

        s2 = inputStr[5:6]

        s3 = inputStr[7:]

        newStr = s1+"-"+"0"+s2+"-"+s3

    date = datetime.strptime(newStr, "%Y-%m-%d")

    return date



#主程序:

spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()



fields = [StructField("date", DateType(),False),StructField("county", StringType(),False),StructField("state", StringType(),False),

                    StructField("cases", IntegerType(),False),StructField("deaths", IntegerType(),False),]

schema = StructType(fields)



rdd0 = spark.sparkContext.textFile("/user/hadoop/us-counties.txt")

rdd1 = rdd0.map(lambda x:x.split("\t")).map(lambda p: Row(toDate(p[0]),p[1],p[2],int(p[3]),int(p[4])))

shemaUsInfo = spark.createDataFrame(rdd1,schema)

shemaUsInfo.createOrReplaceTempView("usInfo")



#1.计算每日的累计确诊病例数和死亡数

df = shemaUsInfo.groupBy("date").agg(func.sum("cases"),func.sum("deaths")).sort(shemaUsInfo["date"].asc())



#列重命名

df1 = df.withColumnRenamed("sum(cases)","cases").withColumnRenamed("sum(deaths)","deaths")

df1.repartition(1).write.json("result1.json")                               #写入hdfs



#注册为临时表供下一步使用

df1.createOrReplaceTempView("ustotal")



#2.计算每日较昨日的新增确诊病例数和死亡病例数

df2 = spark.sql("select t1.date,t1.cases-t2.cases as caseIncrease,t1.deaths-t2.deaths as deathIncrease from ustotal t1,ustotal t2 where t1.date = date_add(t2.date,1)")



df2.sort(df2["date"].asc()).repartition(1).write.json("result2.json")           #写入hdfs



#3.统计截止5.19日 美国各州的累计确诊人数和死亡人数

df3 = spark.sql("select date,state,sum(cases) as totalCases,sum(deaths) as totalDeaths,round(sum(deaths)/sum(cases),4) as deathRate from usInfo  where date = to_date('2020-05-19','yyyy-MM-dd') group by date,state")



df3.sort(df3["totalCases"].desc()).repartition(1).write.json("result3.json") #写入hdfs



df3.createOrReplaceTempView("eachStateInfo")



#4.找出美国确诊最多的10个州

df4 = spark.sql("select date,state,totalCases from eachStateInfo  order by totalCases desc limit 10")

df4.repartition(1).write.json("result4.json")



#5.找出美国死亡最多的10个州

df5 = spark.sql("select date,state,totalDeaths from eachStateInfo  order by totalDeaths desc limit 10")

df5.repartition(1).write.json("result5.json")



#6.找出美国确诊最少的10个州

df6 = spark.sql("select date,state,totalCases from eachStateInfo  order by totalCases asc limit 10")

df6.repartition(1).write.json("result6.json")



#7.找出美国死亡最少的10个州

df7 = spark.sql("select date,state,totalDeaths from eachStateInfo  order by totalDeaths asc limit 10")

df7.repartition(1).write.json("result7.json")



#8.统计截止5.19全美和各州的病死率

df8 = spark.sql("select 1 as sign,date,'USA' as state,round(sum(totalDeaths)/sum(totalCases),4) as deathRate from eachStateInfo group by date union select 2 as sign,date,state,deathRate from eachStateInfo").cache()

df8.sort(df8["sign"].asc(),df8["deathRate"].desc()).repartition(1).write.json("result8.json")

4. 结果文件

上述Spark计算结果保存.json文件，方便后续可视化处理。由于使用Python读取HDFS文件系统不太方便，故将HDFS上结果文件转储到本地文件系统中，使用以下命令：(目录”/home/hadoop/result/result1”需要先创建好，文件” success1.json/*.json”与目录” /home/hadoop/result/result1”一一对应)

$./bin/hdfs dfs -get /user/hadoop/success1.json/*.json /home/hadoop/result/result1

（注意：生成后的json需要改名为“part-00000.json”）

5. 数据可视化

可视化工具选择与代码：选择使用python第三方库pyecharts作为可视化工具。在使用前，需要安装pyecharts，安装代码如下：

$pip install pyecharts

$vim showdata.py

from pyecharts import options as opts

from pyecharts.charts import Bar

from pyecharts.charts import Line

from pyecharts.components import Table

from pyecharts.charts import WordCloud

from pyecharts.charts import Pie

from pyecharts.charts import Funnel

from pyecharts.charts import Scatter

from pyecharts.charts import PictorialBar

from pyecharts.options import ComponentTitleOpts

from pyecharts.globals import SymbolType

import json



#1.画出每日的累计确诊病例数和死亡数——>双柱状图

def drawChart_1(index):

    root = "/home/hadoop/result/result" + str(index) +"/part-00000.json"

    date = []

    cases = []

    deaths = []

    with open(root, 'r') as f:

        while True:

            line = f.readline()

            if not line:                            

# 到 EOF，返回空字符串，则终止循环

                break

            js = json.loads(line)

            date.append(str(js['date']))

            cases.append(int(js['cases']))

            deaths.append(int(js['deaths']))



    d = (

    Bar()

    .add_xaxis(date)

    .add_yaxis("累计确诊人数", cases, stack="stack1")

    .add_yaxis("累计死亡人数", deaths, stack="stack1")

    .set_series_opts(label_opts=opts.LabelOpts(is_show=False))

    .set_global_opts(title_opts=opts.TitleOpts(title="美国每日累计确诊和死亡人数"))

    .render("/home/hadoop/result/result1/result1.html")

)



#2.画出每日的新增确诊病例数和死亡数——>折线图

def drawChart_2(index):

    root = "/home/hadoop/result/result" + str(index) +"/part-00000.json"

    date = []

    cases = []

    deaths = []

    with open(root, 'r') as f:

        while True:

            line = f.readline()

            if not line:                            

# 到 EOF，返回空字符串，则终止循环

                break

            js = json.loads(line)

            date.append(str(js['date']))

            cases.append(int(js['caseIncrease']))

            deaths.append(int(js['deathIncrease']))



    (

    Line(init_opts=opts.InitOpts(width="1600px", height="800px"))

    .add_xaxis(xaxis_data=date)

    .add_yaxis(

        series_name="新增确诊",

        y_axis=cases,

        markpoint_opts=opts.MarkPointOpts(

            data=[

                opts.MarkPointItem(type_="max", name="最大值")



            ]

        ),

        markline_opts=opts.MarkLineOpts(

            data=[opts.MarkLineItem(type_="average", name="平均值")]

        ),

    )

    .set_global_opts(

        title_opts=opts.TitleOpts(title="美国每日新增确诊折线图", subtitle=""),

        tooltip_opts=opts.TooltipOpts(trigger="axis"),

        toolbox_opts=opts.ToolboxOpts(is_show=True),

        xaxis_opts=opts.AxisOpts(type_="category", boundary_gap=False),

    )

    .render("/home/hadoop/result/result2/result1.html")

    )

    (

    Line(init_opts=opts.InitOpts(width="1600px", height="800px"))

    .add_xaxis(xaxis_data=date)

    .add_yaxis(

        series_name="新增死亡",

        y_axis=deaths,

        markpoint_opts=opts.MarkPointOpts(

            data=[opts.MarkPointItem(type_="max", name="最大值")]

        ),

        markline_opts=opts.MarkLineOpts(

            data=[

                opts.MarkLineItem(type_="average", name="平均值"),

                opts.MarkLineItem(symbol="none", x="90%", y="max"),

                opts.MarkLineItem(symbol="circle", type_="max", name="最高点"),

            ]

        ),

    )

    .set_global_opts(

        title_opts=opts.TitleOpts(title="美国每日新增死亡折线图", subtitle=""),

        tooltip_opts=opts.TooltipOpts(trigger="axis"),

        toolbox_opts=opts.ToolboxOpts(is_show=True),

        xaxis_opts=opts.AxisOpts(type_="category", boundary_gap=False),

    )

    .render("/home/hadoop/result/result2/result2.html")

    )



#3.画出截止5.19，美国各州累计确诊、死亡人数和病死率--->表格

def drawChart_3(index):

    root = "/home/hadoop/result/result" + str(index) +"/part-00000.json"

    allState = []

    with open(root, 'r') as f:

        while True:

            line = f.readline()

            if not line:                            

# 到 EOF，返回空字符串，则终止循环

                break

            js = json.loads(line)

            row = []

            row.append(str(js['state']))

            row.append(int(js['totalCases']))

            row.append(int(js['totalDeaths']))

            row.append(float(js['deathRate']))

            allState.append(row)



    table = Table()



    headers = ["State name", "Total cases", "Total deaths", "Death rate"]

    rows = allState

    table.add(headers, rows)

    table.set_global_opts(

        title_opts=ComponentTitleOpts(title="美国各州疫情一览", subtitle="")

    )

    table.render("/home/hadoop/result/result3/result1.html")



#4.画出美国确诊最多的10个州——>词云图

def drawChart_4(index):

    root = "/home/hadoop/result/result" + str(index) +"/part-00000.json"

    data = []

    with open(root, 'r') as f:

        while True:

            line = f.readline()

            if not line:                            

# 到 EOF，返回空字符串，则终止循环

                break

            js = json.loads(line)

            row=(str(js['state']),int(js['totalCases']))

            data.append(row)



    c = (

    WordCloud()

    .add("", data, word_size_range=[20, 100], shape=SymbolType.DIAMOND)

    .set_global_opts(title_opts=opts.TitleOpts(title="美国各州确诊Top10"))

    .render("/home/hadoop/result/result4/result1.html")

    )



#5.画出美国死亡最多的10个州——>象柱状图

def drawChart_5(index):

    root = "/home/hadoop/result/result" + str(index) +"/part-00000.json"

    state = []

    totalDeath = []

    with open(root, 'r') as f:

        while True:

            line = f.readline()

            if not line:                            

# 到 EOF，返回空字符串，则终止循环

                break

            js = json.loads(line)

            state.insert(0,str(js['state']))

            totalDeath.insert(0,int(js['totalDeaths']))



    c = (

    PictorialBar()

    .add_xaxis(state)

    .add_yaxis(

        "",

        totalDeath,

        label_opts=opts.LabelOpts(is_show=False),

        symbol_size=18,

        symbol_repeat="fixed",

        symbol_offset=[0, 0],

        is_symbol_clip=True,

        symbol=SymbolType.ROUND_RECT,

    )

    .reversal_axis()

    .set_global_opts(

        title_opts=opts.TitleOpts(title="PictorialBar-美国各州死亡人数Top10"),

        xaxis_opts=opts.AxisOpts(is_show=False),

        yaxis_opts=opts.AxisOpts(

            axistick_opts=opts.AxisTickOpts(is_show=False),

            axisline_opts=opts.AxisLineOpts(

                linestyle_opts=opts.LineStyleOpts(opacity=0)

            ),

        ),

    )

    .render("/home/hadoop/result/result5/result1.html")

    )

#6.找出美国确诊最少的10个州——>词云图

def drawChart_6(index):

    root = "/home/hadoop/result/result" + str(index) +"/part-00000.json"

    data = []

    with open(root, 'r') as f:

        while True:

            line = f.readline()

            if not line:                            

# 到 EOF，返回空字符串，则终止循环

                break

            js = json.loads(line)

            row=(str(js['state']),int(js['totalCases']))

            data.append(row)



    c = (

    WordCloud()

    .add("", data, word_size_range=[100, 20], shape=SymbolType.DIAMOND)

    .set_global_opts(title_opts=opts.TitleOpts(title="美国各州确诊最少的10个州"))

    .render("/home/hadoop/result/result6/result1.html")

    )



#7.找出美国死亡最少的10个州——>漏斗图

def drawChart_7(index):

    root = "/home/hadoop/result/result" + str(index) +"/part-00000.json"

    data = []

    with open(root, 'r') as f:

        while True:

            line = f.readline()

            if not line:                            

# 到 EOF，返回空字符串，则终止循环

                break

            js = json.loads(line)

            data.insert(0,[str(js['state']),int(js['totalDeaths'])])



    c = (

    Funnel()

    .add(

        "State",

        data,

        sort_="ascending",

        label_opts=opts.LabelOpts(position="inside"),

    )

    .set_global_opts(title_opts=opts.TitleOpts(title=""))

    .render("/home/hadoop/result/result7/result1.html")

    )



#8.美国的病死率--->饼状图

def drawChart_8(index):

    root = "/home/hadoop/result/result" + str(index) +"/part-00000.json"

    values = []

    with open(root, 'r') as f:

        while True:

            line = f.readline()

            if not line:                            

# 到 EOF，返回空字符串，则终止循环

                break

            js = json.loads(line)

            if str(js['state'])=="USA":

                values.append(["Death(%)",round(float(js['deathRate'])*100,2)])

                values.append(["No-Death(%)",100-round(float(js['deathRate'])*100,2)])

    c = (

    Pie()

    .add("", values)

    .set_colors(["blcak","orange"])

    .set_global_opts(title_opts=opts.TitleOpts(title="全美的病死率"))

    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))

    .render("/home/hadoop/result/result8/result1.html")

    )

#可视化主程序：

index = 1

while index<9:

    funcStr = "drawChart_" + str(index)

    eval(funcStr)(index)

    index+=1

结果图标展示:

找到“/home/hadoop/result/result1/result1.html”的文件双击即可

（1）美国每日的累计确诊病例数和死亡数——>双柱状图

（2）美国每日的新增死亡病例数——>折线图

（3）截止5.19，美国各州累计确诊、死亡人数和病死率—>表格

（4）截止5.19，美国累计确诊人数前10的州—>词云图

（5）截止5.19，美国累计死亡人数前10的州—>象柱状图

（6）截止5.19，美国累计确诊人数最少的10个州—>词云图

（7）截止5.19，美国累计死亡人数最少的10个州—>漏斗图

（8）截止5.19，美国的病死率—>饼状图

6、经验总结

本次实训，是对我本事的进一步锻炼，也是一种考验。从中获得的诸多收获，也是很可贵的，是十分有意义的。了解了大数据的可视化图表的特点，熟练掌握可视化图的绘制操作，了解了大数据可视化的原理，能通过python学会设计不同的数据可视化图表。从中发掘了数据可视化的设计技巧。在设计可视化作品时，应以用户体验作为出发点，以数据为基础，不断改善图标外观，这样才能制做出生动的、吸引人的优秀作品。Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark 最大的特点就是快，可比 Hadoop MapReduce 的处理速度快 100 倍。Hadoop的分布式架构，将大数据处理引擎尽可能的靠近存储，对例如像ETL这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。通过spark计算能快速生成json文件，方便后续可视化处理。通果运行Hadoop伪分布式读取的则是 HDFS 上的数据。

参考文献

[1] 2020年美国新冠肺炎疫情数据分析_厦大数据库实验室博客[J/OL].

[2]Hadoop3.1.3安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04(16.04)_厦大数据库实验室博客[J/OL].

[3]Spark安装和编程实践（Spark2.4.0）[J/OL].

DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
又到年末伊人微语
今天，工作群里，各个部门开始提醒老师们上交各种期末总结资料，才蓦然感觉这个学期已接近尾声，才意识到2022即将过去，新的一年的脚步声已经越来越近不由得生阳一些感慨。年纪大了，感觉到每个日子都是“倏”地一声就过去了，来不及思量，来不及回顾，一年就这么过去了。我常常想，为什么会有这样的感觉呢？年轻时候的每一天是24小时，现在的每一天也不曾少过一分钟，为什么就会感觉到它的脚步越来越快呢？后来我想明白了，
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
2020年 12月3日渥太华阴一生守望一人
今天结课了。全面备战，准备期末考试了。最近看到纽约州立阿尔伯尼法学院和西奈山医学院有一个联合生命科学的硕士学位，有点心动，打算考完试以后找教授和相关负责人问一下。新闻方面，中国第一次实现了外太空运载器发射，嫦娥今天正式启程返家了。这也预示着我们面对载人登月又踏出了自己坚实的一步。同时，我们继美国之后在同一年制造出了量子计算机“九章”。“九章”量子计算机可以以200秒的速度计算出当前最强大超级计算机
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
女儿讲笑话系列 | 得想点办法梁之川
期末考试小明又考砸了。爸爸接过试卷看了许久，语重心长地说：小明，分数这么低，你得想点办法啊！小明回答：我也想啊！这分数是用黑色水笔写的，我也没办法改啊……
女儿今天期末考试，紧张得要命 Ailsa_a73a
女儿今天期末考试，昨晚回来以后爸爸就和他一起在复习，我看到他一直坐在桌面前复习了一个多小时，看来他是真的很在乎这次期末考试，也许老师在给他们施压，我和爸爸无形之中也给他很多压力。早上起床，我做了她平时最爱喝的黑米粥，还有冻粑，这两样都是她最爱吃的，可是起床了以后根本就没有食欲。她说：妈妈，我不想吃，我吃不下去。刚开始起床的时候，她跟我讲：妈妈，我肚子有点不舒服。我说：你是怎么了？要不要喝点温开水？
大学，你是荒废了还是努力了吗？白曦月
想想未来，你想要的生活是什么？当然光想也不行的，你得为之付出努力。如果你只是每日活于畅想中，你的梦想也只能是想想罢了。扪心自问，你为了你的梦想努力过吗？为了你想要的生活，从现在开始就该努力了吧？曾经一度，我认为大学就是用来干自己喜欢的事的。所以我利用所有没课的时间去图书馆。90％的课余时间全用来看课外书，做自己想做的事了。虽然在室友眼中，我很爱学习。但对于专业课，我从没认真学过。看着上学期期末的成
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
这该死的疫情婴宁嫣然
我真的是后知后觉，对今年年初的疫情当时只是恐惧，厌恶，现在是严重的憎恨了。因为疫情，领导说上学期学生在家没好好学习，基础不扎实，于是我们从期末考试结束就开始补课，今年的暑假休息了四天，哦不对是四天半。从七月至今，我们已经连续上了五个月课了，如果不是春节，估计我们还会有下一个五个月，还好，春节让我们这学期只用再上两个月。而从期中考试之前两周到现在，已经连续七个周上课了。我知道有人一定说疫情期间，你们
2019.12.29 3edc4fc38269
今天周日终于可以懒床了，八点了，小淏淏自己穿衣服起来了，还给我说你再睡会吧，我睡不着了，我自己起来玩。可捞着周末了，玩具现在全部进柜子里了，自己不知道玩什么了。时间长了电视都不知道看了。让他默写拼音，到现在韵母竟然还能掉两三个，这马上要期末考试了，还丢三落四的，我对他的期末考试没有信心了。就睡觉比较听话，趟床上一会就睡着了，上学时候还不懒床，一叫就起来，这个习惯挺好。今天从舞蹈课回来，看我打针还问
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
2022-12-26 向日葵的执着
每日一省（第279篇）孩子元月5号就要期末考试了。这几天辅导他写作业的过程中，发现有很多知识都掌握的不牢固，于是我难免就有些写着急了。我的态度和语气都写满了焦虑和紧张不安，孩子也被训的不知所措。今天晚上吃过饭后，我们又开始了复习，面对孩子惨兮兮的学习效果，压抑了几天的不满情绪瞬间爆发，一阵狂风暴雨之后，我发现孩子看我的眼神变了（他的眼中充满了愤怒和恐惧），跟我说话的语气也不一样了（充满了不屑和无奈
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

spark期末大作业

你可能感兴趣的:(spark,spark期末大作业,spark,hadoop,大数据)