雷神乐乐

大数据离线数仓开发项目详细教程

一、数据准备/opt/eventdata

二、环境准备

三、创建Kafka的topic主题

四、使用Flume将文件采集到Kafka

(一)在/opt/soft/flume190/conf/目录下创建events文件夹，并创建5个conf文件

(二)events.conf

(三)ea.conf

1.ea.conf脚本内容：

2开启flume

3.复制文件到指定目录

4.查看event_attendees_raw主题的消息数量

(四)users.conf

1.users.conf脚本内容：

2.开启flume

3.复制文件到指定目录

4.查看users主题的消息数量

(五)uf.conf

1.uf.conf脚本内容：

2.开启flume

3.复制文件到指定目录

4.查看user_friends_raw主题的消息数量

(六)train.conf

1.train.conf脚本内容：

2.开启flume

3.复制文件到指定目录

4.查看train主题的消息数量

五、使用java对Kafka中的消息进行清洗，传入Kafka中

六、将Kafka清洗后的数据存入HBase中

七、建立Hive表，映射HBase的数据

(一)DWD层

1.dwd_events库

2.users表

3.events表

4.user_friend表

5.event_attendee表

6.train表

7.locale表

8.time_zone表

9.dwd_events中的表

(二)DWS层——Hive实现

1.dws_events库

2.user_friend_count表——每个用户的朋友的数量

3.event_attendee_count表——每个事件发生后的出席情况

4.event_user_state表——每个事件邀请的朋友的应邀情况

5.user_event_status表——event_user_state表的数据梳理

6.user_attend_event_count表——查看每个用户分别对事件的邀请参加、不参加的数量的统计

7.friend_attend_state表——统计应邀情况

8.friend_attend_summary表——求用户朋友中针对某一件事情的状态数量多少人被邀请，多少人参加，多少人不参加，多少人可能去参加

9.event_cities表——找出事件发生最多的前32个的城市

10.event_countries表——找出事件发生最多的前8个国家

11.dws层的表

(三)DWS层——spark实现

1.环境搭建

2.user_friend_count表——每个用户的朋友的数量

3.event_attendee_count表———每个用户的朋友的数量

4.event_user_state表——每个事件邀请的朋友的应邀情况

5.user_event_status表——event_user_state表的数据梳理

6.user_attend_event_count表——查看每个用户分别对事件的邀请参加、不参加的数量的统计

7.friend_attend_state表——统计应邀情况

8.friend_attend_summary表——求用户朋友中针对某一件事情的状态数量多少人被邀请，多少人参加，多少人不参加，多少人可能去参加

9.event_cities表——找出事件发生最多的前32个的城市

10.event_countries表——找出事件发生最多的前8个国家

11.验证是否存入成功

(四)DM层——宽表明细层

1.dm_events库

2.user_event_1表——每个事件发生的国家、城市等信息

一、数据准备/opt/eventdata

二、环境准备

开启hadoop、hive、mysql、zookeeper、kafka、hbase

三、创建Kafka的topic主题

➢ Users
kafka-topics.sh --zookeeper lxm147:2181 --create --topic users --partitions 1 -replication-factor 1

➢ User_Friends
kafka-topics.sh --zookeeper lxm147:2181 --create --topic user_friends --partitions 1 -replication-factor 1

➢ user_friends_raw
kafka-topics.sh --zookeeper lxm147:2181 --create --topic user_friends_raw --partitions 1 --replication-factor 1

➢ Events
kafka-topics.sh --zookeeper lxm147:2181 --create --topic events --partitions 1 --replication-factor 1

➢ Event_Attendees
kafka-topics.sh --zookeeper lxm147:2181 --create --topic event_attendees --partitions 1 --replication-factor 1

➢ event_attendees_raw
kafka-topics.sh --zookeeper lxm147:2181 --create --topic event_attendees_raw --partitions 1 --replication-factor 1

➢ Train
kafka-topics.sh --zookeeper lxm147:2181 --create --topic train --partitions 1 -replication-factor 1

➢ Test
kafka-topics.sh --zookeeper lxm147:2181 --create --topic test --partitions 1 --replication-factor 1

四、使用Flume将文件采集到Kafka

(一)在/opt/soft/flume190/conf/目录下创建events文件夹，并创建5个conf文件

[root@lxm147 events]# pwd
/opt/soft/flume190/conf/events

[root@lxm147 events]# ls
ea.conf  events.conf  train.conf  uf.conf  users.conf

(二)events.conf

参考文章：《Flume采集数据到Kafka操作详解》

后面的采集任务与该篇博文中的方法是一样的！

(三)ea.conf

1.ea.conf脚本内容：

ea.sources=eaSource
ea.channels=eaChannel
ea.sinks=eaSink

ea.sources.eaSource.type=spooldir
ea.sources.eaSource.spoolDir=/opt/flumelogfile/ea
ea.sources.eaSource.deserializer=LINE
ea.sources.eaSource.deserializer.maxLineLength=320000
ea.sources.eaSource.includePattern=ea_[0-9]{4}-[0-9]{2}-[0-9]{2}.csv
ea.sources.eaSource.interceptors=head_filter
ea.sources.eaSource.interceptors.head_filter.type=regex_filter
ea.sources.eaSource.interceptors.head_filter.regex=^event*
ea.sources.eaSource.interceptors.head_filter.excludeEvents=true

ea.channels.eaChannel.type=file
ea.channels.eaChannel.checkpointDir=/opt/flumelogfile/checkpoint/ea
ea.channels.eaChannel.dataDirs=/opt/flumelogfile/data/ea

ea.sinks.eaSink.type=org.apache.flume.sink.kafka.KafkaSink
ea.sinks.eaSink.batchSize=640
ea.sinks.eaSink.brokerList=LINE
ea.sinks.eaSink.brokerList=192.168.180.147:9092
ea.sinks.eaSink.topic=event_attendees_raw

ea.sources.eaSource.channels=eaChannel
ea.sinks.eaSink.channel=eaChannel

2开启flume

[root@lxm147 flume190]# ./bin/flume-ng agent --name ea --conf ./conf/ --conf-file ./conf/events/ea.conf -Dflume.root.logger=INFO,console

3.复制文件到指定目录

cp /opt/eventdata/event_attendees.csv /opt/flumelogfile/events/ea_2023-04-01.csv

4.查看event_attendees_raw主题的消息数量

kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list lxm147:9092 --topic event_attendees_raw
event_attendees_raw:0:24144

(四)users.conf

1.users.conf脚本内容：

users.sources=usersSource
users.channels=usersChannel
users.sinks=userSink

users.sources.usersSource.type=spooldir
users.sources.usersSource.spoolDir=/opt/flumelogfile/users
users.sources.usersSource.deserializer=LINE
users.sources.usersSource.deserializer.maxLineLength=320000
users.sources.usersSource.includePattern=user_[0-9]{4}-[0-9]{2}-[0-9]{2}.csv
users.sources.usersSource.interceptors=head_filter
users.sources.usersSource.interceptors.head_filter.type=regex_filter
users.sources.usersSource.interceptors.head_filter.regex=^user_id*
users.sources.usersSource.interceptors.head_filter.excludeEvents=true

users.channels.usersChannel.type=file
users.channels.usersChannel.checkpointDir=/opt/flumelogfile/checkpoint/users
users.channels.usersChannel.dataDirs=/opt/flumelogfile/data/users

users.sinks.userSink.type=org.apache.flume.sink.kafka.KafkaSink
users.sinks.userSink.batchSize=640
users.sinks.userSink.brokerList=192.168.180.147:9092
users.sinks.userSink.topic=users

users.sources.usersSource.channels=usersChannel
users.sinks.userSink.channel=usersChannel

2.开启flume

[root@lxm147 flume190]# ./bin/flume-ng agent --name users --conf ./conf/ --conf-file ./conf/events/users.conf -Dflume.root.logger=INFO,console

3.复制文件到指定目录

cp /opt/eventdata/users.csv /opt/flumelogfile/events/users_2023-04-01.csv

4.查看users主题的消息数量

[root@lxm147 events]# kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list lxm147:9092 --topic users
users:0:38209

(五)uf.conf

1.uf.conf脚本内容：

userfriends.sources=userfriendsSource
userfriends.channels=userfriendsChannel
userfriends.sinks=userfriendsSink

userfriends.sources.userfriendsSource.type=spooldir
userfriends.sources.userfriendsSource.spoolDir=/opt/flumelogfile/uf
userfriends.sources.userfriendsSource.deserializer=LINE
userfriends.sources.userfriendsSource.deserializer.maxLineLength=320000
userfriends.sources.userfriendsSource.includePattern=uf_[0-9]{4}-[0-9]{2}-[0-9]{2}.csv
userfriends.sources.userfriendsSource.interceptors=head_filter
userfriends.sources.userfriendsSource.interceptors.head_filter.type=regex_filter
userfriends.sources.userfriendsSource.interceptors.head_filter.regex=^user*
userfriends.sources.userfriendsSource.interceptors.head_filter.excludeEvents=true

userfriends.channels.userfriendsChannel.type=file
userfriends.channels.userfriendsChannel.checkpointDir=/opt/flumelogfile/checkpoint/uf
userfriends.channels.userfriendsChannel.dataDirs=/opt/flumelogfile/data/uf

userfriends.sinks.userfriendsSink.type=org.apache.flume.sink.kafka.KafkaSink
userfriends.sinks.userfriendsSink.batchSize=640
userfriends.sinks.userfriendsSink.brokerList=192.168.180.147:9092
userfriends.sinks.userfriendsSink.topic=user_friends_raw

userfriends.sources.userfriendsSource.channels=userfriendsChannel
userfriends.sinks.userfriendsSink.channel=userfriendsChannel

2.开启flume

[root@lxm147 flume190]# ./bin/flume-ng agent --name userfriends --conf ./conf/ --conf-file ./conf/events/uf.conf -Dflume.root.logger=INFO,console

3.复制文件到指定目录

cp /opt/eventdata/user_friends.csv /opt/flumelogfile/events/uf_2023-04-01.csv

4.查看user_friends_raw主题的消息数量

[root@lxm147 flumelogfile]# kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list lxm147:9092 --topic user_friends_raw
user_friends_raw:0:38202

(六)train.conf

1.train.conf脚本内容：

train.sources=trainSource
train.channels=trainChannel
train.sinks=trainSink

train.sources.trainSource.type=spooldir
train.sources.trainSource.spoolDir=/opt/flumelogfile/train
train.sources.trainSource.deserializer=LINE
train.sources.trainSource.deserializer.maxLineLength=320000
train.sources.trainSource.includePattern=train_[0-9]{4}-[0-9]{2}-[0-9]{2}.csv
train.sources.trainSource.interceptors=head_filter
train.sources.trainSource.interceptors.head_filter.type=regex_filter
train.sources.trainSource.interceptors.head_filter.regex=^user*
train.sources.trainSource.interceptors.head_filter.excludeEvents=true

train.channels.trainChannel.type=file
train.channels.trainChannel.checkpointDir=/opt/flumelogfile/checkpoint/train
train.channels.trainChannel.dataDirs=/opt/flumelogfile/data/train

train.sinks.trainSink.type=org.apache.flume.sink.kafka.KafkaSink
train.sinks.trainSink.batchSize=640
train.sinks.trainSink.brokerList=LINE
train.sinks.trainSink.brokerList=192.168.180.147:9092
train.sinks.trainSink.topic=train

train.sources.trainSource.channels=trainChannel
train.sinks.trainSink.channel=trainChannel

2.开启flume

[root@lxm147 flume190]# ./bin/flume-ng agent --name train --conf ./conf/ --conf-file ./conf/events/train.conf -Dflume.root.logger=INFO,console

3.复制文件到指定目录

cp /opt/eventdata/train.csv /opt/flumelogfile/events/train_2023-04-01.csv

4.查看train主题的消息数量

[root@lxm147 flumelogfile]# kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list lxm147:9092 --topic train
train:0:15398

五、使用java对Kafka中的消息进行清洗，传入Kafka中

参考博文《KafkaStream——Spark对Kafka的数据进行清洗(java语言编写)》

六、将Kafka清洗后的数据存入HBase中

参考博文《日志项目之——将kafka数据存入hbase中》

七、建立Hive表，映射HBase的数据

(一)DWD层

1.dwd_events库

create database if not exists dwd_events;
use dwd_events;
// 开启动态分区
// 基本的优化配置
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.optimize.sort.dynamic.partition=true;
// 关闭map端优化
set hive.auto.convert.join=false;

2.users表

// hive 外部表映射HBase
drop table if exists hb_users;
create external table hb_users
(
    userid    string,
    birthyear int,
    gender    string,
    locale    string,
    location  string,
    timezone  string,
    joinedat  string
) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with SERDEPROPERTIES
    ('hbase.columns.mapping' =
            ':key,profile:birthyear,profile:gender,region:locale,region:location,region:timezone,registration:joinedAt')
    tblproperties ('hbase.table.name' = 'events_db:users');

// 创建一个内部表，存放格式为orc格式
create table users stored as orc as select * from hb_users;

drop table if exists hb_users;

select * from users;

3.events表

drop table if exists hb_events;
create external table hb_events
(
    eventid     string,
    userid      string,
    starttime   string,
    city        string,
    state       string,
    zip         string,
    country     string,
    lat         float,
    lng         float,
    commonwords string
) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with SERDEPROPERTIES
    ('hbase.columns.mapping' =
            ':key,creator:userid,schedule:starttime,location:city,location:state,location:zip,location:country,location:lat,location:lng,remark:commonwords')
    tblproperties ('hbase.table.name' = 'events_db:events');

set mapreduce.framework.name=local;
set hive.exec.mode.local.auto=true;
create table if not exists events stored as orc as select * from hb_events;

select * from events;

drop table if exists hb_events;

4.user_friend表

drop table if exists hb_user_friend;
create external table if not exists hb_user_friend
(
    rowkey   string,
    userid   string,
    friendid string
) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with SERDEPROPERTIES
    ('hbase.columns.mapping' =
            ':key,uf:user_id,uf:friend_id')
    tblproperties ('hbase.table.name' = 'events_db:user_friend');

create table if not exists user_friend stored as orc as select * from hb_user_friend;

select count(*) from user_friend;// 30279525

select * from hb_user_friend;

drop table if exists hb_user_friend;

5.event_attendee表

drop table if exists hb_event_attendee;
create external table hb_event_attendee
(
    rowkey     string,
    eventid    string,
    friendid   string,
    attendtype string
) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with SERDEPROPERTIES
    ('hbase.columns.mapping' =
            ':key,euat:eventid,euat:friendid,euat:state')
    tblproperties ('hbase.table.name' = 'events_db:event_attendee');


create table event_attendee stored as orc as select * from hb_event_attendee;

select * from event_attendee;

drop table if exists hb_event_attendee;

6.train表

drop table if exists hb_train;
create external table if not exists hb_train
(
    rowkey      string,
    userid      string,
    eventid     string,
    invited     string,
    `timestamp` string,
    interested  string
) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with SERDEPROPERTIES
    ('hbase.columns.mapping' =
            ':key,eu:user,eu:event,eu:invited,eu:timestamp,eu:interested')
    tblproperties ('hbase.table.name' = 'events_db:train');

create table train stored as orc as select * from hb_train;

select count(*) from train;// 15398

drop table if exists hb_train;

select * from train;

7.locale表

create external table locale(
    locale_id int,
    locale string
)row format delimited fields terminated by '\t'
location '/events/ods/data/locale';
select * from locale;

8.time_zone表

create external table time_zone(
    time_zone_id int,
    time_zone string
)row format delimited fields terminated by ','
location '/events/ods/data/timezone';
select * from time_zone;

9.dwd_events中的表

(二)DWS层——Hive实现

注意：事务表必须用orc格式。

1.dws_events库

-- 用户兴趣取向分析
-- 用户userid     事件eventid     用户是否某一事件感兴趣/不感兴趣
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.optimize.sort.dynamic.partition=true;
set hive.auto.convert.join=false;

create database if not exists dws_events;
use dws_events;

2.user_friend_count表——每个用户的朋友的数量

-- 计算每一个用户朋友的数量是多少
-- user_friend  得到每一个用户朋友的数量
create table user_friend_count stored as orc as
select userid,
       count(friendid) friendcount
from dwd_events.user_friend
where friendid is not null
  and trim(friendid) != ''
group by userid;

select *
from user_friend_count
limit 10;

3.event_attendee_count表——每个事件发生后的出席情况

create table event_attendee_count stored as orc as
select eventid,
       attendtype,
       count(friendid) attendCount
from dwd_events.event_attendee
group by eventid, attendtype;

select *
from event_attendee_count
limit 10;

接下来，要改变表的形式：

4.event_user_state表——每个事件邀请的朋友的应邀情况

create table if not exists dws_events.event_user_state
    stored as orc as
select eventid,
       friendid,
       case when attendtype = 'invitedID' then 1 else 0 end as invited,
       case when attendtype = 'yes' then 1 else 0 end       as yes,
       case when attendtype = 'noID' then 1 else 0 end      as no,
       case when attendtype = 'maybeID' then 1 else 0 end   as maybe
from dwd_events.event_attendee;

5.user_event_status表——event_user_state表的数据梳理

create table if not exists user_event_status stored as orc as
select t1.friendid     attend_userid,
       t1.eventid,
       max(t1.invited) invited,
       max(t1.yes)     attended,
       max(t1.no)      not_attended,
       max(t1.maybe)   maybe_attended
from event_user_state t1
group by t1.eventid, t1.friendid;

6.user_attend_event_count表——查看每个用户分别对事件的邀请参加、不参加的数量的统计

create table if not exists user_attend_event_count stored as orc as
select attend_userid,
       sum(invited)        as invited_count,
       sum(attended)       as attended_count,
       sum(not_attended)   as not_attended_count,
       sum(maybe_attended) as maybe_attended_count
from user_event_status
group by attend_userid;

7.friend_attend_state表——统计应邀情况

dwd_events.user_friend表：

dws_events.user_event_status表：

上述两表关联，统计应邀情况

create table if not exists friend_attend_state stored as orc as
select uf.userid,
       uf.friendid,
       ues.eventid,
       case when ues.invited > 0 then 1 else 0 end        as invited,
       case when ues.attended > 0 then 1 else 0 end       as attended,
       case when ues.not_attended > 0 then 1 else 0 end   as not_attended,
       case when ues.maybe_attended > 0 then 1 else 0 end as maybe_attended
from dwd_events.user_friend uf
         left join dws_events.user_event_status ues on ues.attend_userid = uf.friendid;

8.friend_attend_summary表——求用户朋友中针对某一件事情的状态数量多少人被邀请，多少人参加，多少人不参加，多少人可能去参加

create table if not exists friend_attend_summary stored as orc as
select userid,
       eventid,
       sum(invited)        invited_friends_count,
       sum(attended)       attended_friends_count,
       sum(not_attended)   not_attended_friends_count,
       sum(maybe_attended) maybe_attended_friends_count
from friend_attend_state
where eventid is not null
group by userid, eventid;

9.event_cities表——找出事件发生最多的前32个的城市

create table if not exists event_cities stored as orc as
select case when t.city <> '' then t.city else 'nocity' end city,
       --     if(t.city <> '', t.city, 'nocity'),
       t.count,
       row_number() over (order by t.count desc ) as        level
from (
         select city,
                count(*) count
         from dwd_events.events
-- where city is not null   and city != ''
         group by city
         order by count desc
         limit 32) t;

10.event_countries表——找出事件发生最多的前8个国家

create table if not exists event_countries stored as orc as
select case when t.country <> '' then t.country else 'nocountry' end as country,
       t.count,
       row_number() over (order by t.count desc )                       level
from (
         select country,
                count(*) count
         from dwd_events.events
         group by country
         order by count desc
         limit 8) t;

11.dws层的表

(三)DWS层——spark实现

1.环境搭建

import org.apache.spark.sql.functions._
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

object SparkToHive {
  def main(args: Array[String]): Unit = {
    // spark读取hive表
    val spark: SparkSession = SparkSession.builder().appName("sparkhive")
      .master("local[*]")
      .config("hive.metastore.uris", "thrift://192.168.180.147:9083")
      .enableHiveSupport()
      .getOrCreate()
    import spark.implicits._


    spark.close()
  }
}

2.user_friend_count表——每个用户的朋友的数量

val user_friend: DataFrame = spark.table("dwd_events.user_friend")
    user_friend.show(10, false)
    /*
    +------+----------+----------+
    |rowkey|userid    |friendid  |
    +------+----------+----------+
    |   �  |3939178181|826810668 |
    |   �  |927508653 |268007813 |
    |  R  |3341263967|1057491214|
    |  �  |2756012832|1792996666|
    |    |894415506 |2419486976|
    |  b  |1354439342|655720229 |
    |  �  |1049125233|2716161422|
    |  �  |3385957102|2696714993|
    |  	�  |1486659549|1461981334|
    |  	�  |4289947035|2269712784|
    +------+----------+----------+ */

    val user_friend_count: DataFrame = user_friend
      .where(col("friendid").isNotNull and trim($"friendid") =!= "")
      .groupBy("userid")
      .agg(count("friendid").as("friendcount"))
      .select($"userid", $"friendcount")
    user_friend_count.show(10)
    /*
    +----------+-----------+
    |    userid|friendcount|
    +----------+-----------+
    |1890034372|       4211|
    |1477282294|       1057|
    |  59413733|       1341|
    |2490509127|       1874|
    |2264585544|       4655|
    |3490623651|       2841|
    |3711871763|        814|
    |3292982761|       1855|
    |1072430432|       2047|
    |1194867611|       2526|
    +----------+-----------+*/
    // 检验是否正确
    user_friend_count.filter("userid==2490509127").show()

    // todo 将user_friend_count表存入hive
    user_friend_count.write.mode(SaveMode.Overwrite).format("orc").saveAsTable("spark_hive.user_friend_count")
    println("user_friend_count存入成功！")

3.event_attendee_count表———每个用户的朋友的数量

val event_attendeeDF: DataFrame = spark.table("dwd_events.event_attendee")
    event_attendeeDF.show(10, false)
    val event_attendee_count: DataFrame = event_attendeeDF
      .groupBy("eventid", "attendtype")
      .agg(count("friendid").as("attendCount"))
      .select($"eventid", $"attendtype", $"attendCount")
    event_attendee_count.show(10)
    /*
    +----------+----------+-----------+
    |   eventid|attendtype|attendCount|
    +----------+----------+-----------+
    |2889060532|       yes|        142|
    |2892429018|      noID|         24|
    |2897294049|       yes|         32|
    |2905904014| invitedID|        744|
    |2907906052|       yes|         19|
    | 291670090|       yes|         16|
    |2920583393|   maybeID|          9|
    | 292137502| invitedID|         22|
    |2923173603|      noID|          1|
    | 292829502|       yes|         26|
    +----------+----------+-----------+*/
    // 检验是否正确
    //    event_attendee_count.filter("eventid==100022787").show()
    // todo 将event_attendee_count表存入hive
    event_attendee_count.write.mode(SaveMode.Overwrite).format("orc").saveAsTable("spark_hive.event_attendee_count")
    println("event_attendee_count存入成功！")

4.event_user_state表——每个事件邀请的朋友的应邀情况

 val event_attendee: DataFrame = spark.table("dwd_events.event_attendee")
    event_attendee.show(10, false)
    /*
    +-----------------------------+----------+----------+----------+
    |rowkey                       |eventid   |friendid  |attendtype|
    +-----------------------------+----------+----------+----------+
    |2876154686398769537invitedID |2876154686|398769537 |invitedID |
    |28761546864009644924yes      |2876154686|4009644924|yes       |
    |28761546864013573384invitedID|2876154686|4013573384|invitedID |
    |28761546864024311006invitedID|2876154686|4024311006|invitedID |
    |28761546864036236137noID     |2876154686|4036236137|noID      |
    |28761546864041306043noID     |2876154686|4041306043|noID      |
    |28761546864076390199invitedID|2876154686|4076390199|invitedID |
    |28761546864094501247invitedID|2876154686|4094501247|invitedID |
    |28761546864103909109yes      |2876154686|4103909109|yes       |
    |28761546864114930709noID     |2876154686|4114930709|noID      |
    +-----------------------------+----------+----------+----------+*/
    val event_user_state: DataFrame = event_attendee
      .select("eventid", "friendid", "attendtype")
      .withColumn("invited", when(col("attendtype") === "invitedID", 1).otherwise(0))
      .withColumn("yes", when(col("attendtype") === "yes", 1).otherwise(0))
      .withColumn("no", when(col("attendtype") === "noID", 1).otherwise(0))
      .withColumn("maybe", when(col("attendtype") === "maybeID", 1).otherwise(0))
      .drop("attendtype")
    event_user_state.show(10, false)

    /*
    +----------+----------+-------+---+---+-----+
    |eventid   |friendid  |invited|yes|no |maybe|
    +----------+----------+-------+---+---+-----+
    |2876154686|398769537 |1      |0  |0  |0    |
    |2876154686|4009644924|0      |1  |0  |0    |
    |2876154686|4013573384|1      |0  |0  |0    |
    |2876154686|4024311006|1      |0  |0  |0    |
    |2876154686|4036236137|0      |0  |1  |0    |
    |2876154686|4041306043|0      |0  |1  |0    |
    |2876154686|4076390199|1      |0  |0  |0    |
    |2876154686|4094501247|1      |0  |0  |0    |
    |2876154686|4103909109|0      |1  |0  |0    |
    |2876154686|4114930709|0      |0  |1  |0    |
    +----------+----------+-------+---+---+-----+*/
    // todo 将event_user_state表存入hive
    event_user_state.write.mode(SaveMode.Overwrite).format("orc").saveAsTable("spark_hive.event_user_state")
    println("event_user_state存入成功！")

5.user_event_status表——event_user_state表的数据梳理

val user_event_status: DataFrame = event_user_state
      .groupBy("eventid", "friendid")
      .agg(max("invited").as("invited"),
        max("yes").as("attended"),
        max("no").as("not_attended"),
        max("maybe").as("maybe_attended"))
      .select($"friendid".as("attend_userid"), $"eventid", $"invited", $"attended", $"not_attended", $"maybe_attended")
    user_event_status.show(10, false)
    /*
    +-------------+----------+-------+--------+------------+--------------+
    |attend_userid|eventid   |invited|attended|not_attended|maybe_attended|
    +-------------+----------+-------+--------+------------+--------------+
    |4121945394   |2876154686|0      |0       |0           |1             |
    |141447478    |2876312334|1      |0       |0           |0             |
    |1540745136   |2876312334|1      |0       |0           |0             |
    |1602785576   |2876312334|1      |0       |0           |0             |
    |1954378660   |2876312334|1      |0       |0           |0             |
    |2467890010   |2876312334|1      |0       |0           |0             |
    |3854249513   |2876312334|1      |0       |0           |0             |
    |3900944627   |2876312334|1      |0       |0           |0             |
    |99137438     |2876312334|1      |0       |0           |0             |
    |2653177815   |2876474895|1      |0       |0           |0             |
    +-------------+----------+-------+--------+------------+--------------+*/
    // todo 将user_event_status表存入hive
    user_event_status.write.mode(SaveMode.Overwrite).format("orc").saveAsTable("spark_hive.user_event_status")
    println("user_event_status存入成功！")

6.user_attend_event_count表——查看每个用户分别对事件的邀请参加、不参加的数量的统计

 val user_attend_event_count: DataFrame = user_event_status.
      groupBy("attend_userid")
      .agg(
        sum("invited").as("invited_count"),
        sum("attended").as("attended_count"),
        sum("not_attended").as("not_attended_count"),
        sum("maybe_attended").as("maybe_attended_count"))
      .select($"attend_userid", $"invited_count", $"attended_count", $"not_attended_count", $"maybe_attended_count")
    user_attend_event_count.show(10, false)
    //    user_attend_event_count.filter(col("invited_count").isNull).show()
    /*
    +-------------+-------------+--------------+------------------+--------------------+
    |attend_userid|invited_count|attended_count|not_attended_count|maybe_attended_count|
    +-------------+-------------+--------------+------------------+--------------------+
    |855128455    |6            |0             |0                 |0                   |
    |1298918693   |70           |13            |0                 |1                   |
    |973498510    |3            |0             |0                 |0                   |
    |3733456205   |1            |0             |0                 |0                   |
    |3924756713   |0            |0             |0                 |1                   |
    |2049233271   |1            |0             |0                 |0                   |
    |1544040576   |572          |4             |1                 |0                   |
    |198353704    |5            |0             |0                 |0                   |
    |1042939212   |53           |2             |1                 |0                   |
    |989774136    |15           |0             |1                 |0                   |
    +-------------+-------------+--------------+------------------+--------------------+*/
    // todo 将user_attend_event_count表存入hive
    user_attend_event_count.write.mode(SaveMode.Overwrite).format("orc").saveAsTable("spark_hive.user_attend_event_count")
    println("user_attend_event_count存入成功！")

7.friend_attend_state表——统计应邀情况

//    user_friend.show(10,false)
    //    user_event_status.show(10,false)

    // 通过friendid=attend_userid相关联
    val friend_attend_state: DataFrame = user_friend.as("uf")
      .join(
        user_event_status.as("ues"),
        $"uf.friendid" === $"ues.attend_userid",
        "left")
      .select(
        $"uf.userid",
        $"uf.friendid",
        $"ues.eventid",
        when(col("ues.invited") > 0, 1).otherwise(0).as("invited"),
        when(col("ues.attended") > 0, 1).otherwise(0).as("attended"),
        when(col("ues.not_attended") > 0, 1).otherwise(0).as("not_attended"),
        when(col("ues.maybe_attended") > 0, 1).otherwise(0).as("maybe_attended")
      )
    friend_attend_state.show(10, false)
    /*
    +----------+----------+----------+-------+--------+------------+--------------+
    |userid    |friendid  |eventid   |invited|attended|not_attended|maybe_attended|
    +----------+----------+----------+-------+--------+------------+--------------+
    |700005400 |1000000082|null      |0      |0       |0           |0             |
    |3182595870|1000061907|2025801575|0      |0       |1           |0             |
    |3182595870|1000061907|2662605961|0      |0       |1           |0             |
    |105163661 |1000159243|null      |0      |0       |0           |0             |
    |3241009765|1000174727|null      |0      |0       |0           |0             |
    |4146824251|1000174727|null      |0      |0       |0           |0             |
    |2041077011|1000174727|null      |0      |0       |0           |0             |
    |713793505 |1000174727|null      |0      |0       |0           |0             |
    |4152340748|1000177128|null      |0      |0       |0           |0             |
    |3189616067|1000225963|null      |0      |0       |0           |0             |
    +----------+----------+----------+-------+--------+------------+--------------+*/
    // todo 将friend_attend_state表存入hive
    friend_attend_state.write.mode(SaveMode.Overwrite).format("orc").saveAsTable("spark_hive.friend_attend_state")
    println("friend_attend_state存入成功！")

8.friend_attend_summary表——求用户朋友中针对某一件事情的状态数量多少人被邀请，多少人参加，多少人不参加，多少人可能去参加

val friend_attend_summary: DataFrame = friend_attend_state
      .where(col("eventid").isNotNull)
      .groupBy("userid", "eventid")
      .agg(
        sum("invited").as("invited_friends_count"),
        sum("attended").as("attended_friends_count"),
        sum("not_attended").as("not_attended_friends_count"),
        sum("maybe_attended").as("maybe_attended_friends_count")
      )
      .select($"userid", $"eventid", $"invited_friends_count", $"attended_friends_count",
        $"not_attended_friends_count", $"maybe_attended_friends_count")
    friend_attend_summary.show(10, false)
    /*
    +----------+----------+---------------------+----------------------+--------------------------+----------------------------+
    |userid    |eventid   |invited_friends_count|attended_friends_count|not_attended_friends_count|maybe_attended_friends_count|
    +----------+----------+---------------------+----------------------+--------------------------+----------------------------+
    |139333642 |2153037761|1                    |0                     |0                         |0                           |
    |3965867052|2693701979|542                  |9                     |19                        |15                          |
    |570405433 |844053363 |1                    |0                     |0                         |0                           |
    |3600799019|3480624055|63                   |13                    |5                         |11                          |
    |220900628 |1684651848|24                   |0                     |0                         |0                           |
    |4076593100|1902753965|73                   |0                     |0                         |0                           |
    |3098511794|843844488 |27                   |0                     |0                         |1                           |
    |212275010 |1900273727|1                    |0                     |0                         |0                           |
    |484625739 |623506969 |136                  |0                     |2                         |0                           |
    |2678093681|1486124986|136                  |0                     |0                         |0                           |
    +----------+----------+---------------------+----------------------+--------------------------+----------------------------+*/

    // todo 将friend_attend_summary表存入hive
    friend_attend_summary.write.mode(SaveMode.Overwrite).format("orc").saveAsTable("spark_hive.friend_attend_summary")
    println("friend_attend_summary存入成功！")

9.event_cities表——找出事件发生最多的前32个的城市

val events: DataFrame = spark.table("dwd_events.events")
    events.show(10, false)
    /*
    +----------+----------+------------------------+---------+-------+-----+--------------+------+-------+-----------+
    |eventid   |userid    |starttime               |city     |state  |zip  |country       |lat   |lng    |commonwords|
    +----------+----------+------------------------+---------+-------+-----+--------------+------+-------+-----------+
    |2926425690|596548160 |2012-06-09T05:00:00.000Z|Charlotte|NC     |     |United States |35.238|-80.819|8          |
    |2926430949|2924318367|2012-10-18T19:00:00.003Z|         |       |     |              |null  |null   |1          |
    |2926432319|3488255249|2012-11-11T17:30:00.003Z|         |       |     |              |null  |null   |0          |
    |2926434242|4104060347|2012-11-15T05:00:00.003Z|         |       |     |              |null  |null   |1          |
    |2926434816|458628699 |2012-12-24T03:00:00.003Z|Vernon   |BC     |     |Canada        |50.262|-119.27|8          |
    |2926434921|4161455361|2012-11-14T00:00:00.003Z|         |       |     |              |null  |null   |1          |
    |292643510 |4236892345|2012-11-21T19:00:00.002Z|London   |England|     |United Kingdom|null  |null   |0          |
    |2926435519|2028324284|2012-12-02T02:30:00.003Z|         |       |     |              |null  |null   |1          |
    |2926438764|1025231184|2012-09-23T00:00:00.003Z|         |       |     |              |null  |null   |13         |
    |2926439286|3578613806|2012-11-09T00:00:00.001Z|Omaha    |NE     |68102|United States |41.257|-95.936|2          |
    +----------+----------+------------------------+---------+-------+-----+--------------+------+-------+-----------+*/

    val event_cities: DataFrame = events
      .groupBy("city")
      .agg(count("*").as("count"))
      .orderBy(col("count").desc)
      .limit(32)
      .withColumn("city_1", when($"city" =!= "", $"city").otherwise("nocity"))
      .drop("city")
      .withColumnRenamed("city_1", "city")
      .selectExpr("city", "count", "row_number() over(order by count desc) as level")
    event_cities.show(32)

    /*
      +-------------+-------+-----+
      |         city|  count|level|
      +-------------+-------+-----+
      |       nocity|1557124|    1|
      |     New York|  43009|    2|
      |      Toronto|  32023|    3|
      |  Los Angeles|  27831|    4|
      |      Chicago|  21390|    5|
      |       London|  21187|    6|
      |San Francisco|  20302|    7|
      |     Brooklyn|  14689|    8|
      |       Austin|  14528|    9|
      |      Houston|  12599|   10|
      | Philadelphia|  12589|   11|
      |      Seattle|  11952|   12|
      |     Portland|  11672|   13|
      |   Washington|  11638|   14|
      |    San Diego|  11438|   15|
      |    Vancouver|  10445|   16|
      |      Atlanta|  10012|   17|
      |    Las Vegas|   8964|   18|
      |       Denver|   8771|   19|
      |       Dallas|   8590|   20|
      |        Miami|   8252|   21|
      |      Phoenix|   7335|   22|
      |       Boston|   6810|   23|
      |  Minneapolis|   6737|   24|
      |     Montreal|   6273|   25|
      |      Orlando|   6272|   26|
      |  San Antonio|   6025|   27|
      |       Ottawa|   5921|   28|
      |     Columbus|   5605|   29|
      |  Saint Louis|   5391|   30|
      |    Melbourne|   5280|   31|
      |   Sacramento|   5231|   32|
      +-------------+-------+-----+*/
    // todo 将event_cities表存入hive
    event_cities.write.mode(SaveMode.Overwrite).format("orc").saveAsTable("spark_hive.event_cities")
    println("event_cities存入成功！")

10.event_countries表——找出事件发生最多的前8个国家

val event_countries: DataFrame = events
      .groupBy("country")
      .agg(count("*").as("count"))
      .orderBy(col("count").desc)
      .limit(8)
      .withColumn("country_1", when($"country" =!= "", $"country").otherwise("nocountries"))
      .drop("country")
      .withColumnRenamed("country_1", "country")
      .selectExpr("country", "count", "row_number() over(order by count desc) as level")
    event_countries.show()
    /*
    +--------------+-------+-----+
    |       country|  count|level|
    +--------------+-------+-----+
    |   nocountries|1533009|    1|
    | United States|1068337|    2|
    |        Canada| 137768|    3|
    |United Kingdom|  67806|    4|
    |         Italy|  48436|    5|
    |     Australia|  33137|    6|
    |       Germany|  18176|    7|
    |        Mexico|  17730|    8|
    +--------------+-------+-----+*/
    // todo 将event_countries表存入hive
    event_countries.write.mode(SaveMode.Overwrite).format("orc").saveAsTable("spark_hive.event_countries")
    println("event_countries存入成功！")

11.验证是否存入成功

(四)DM层——宽表明细层

1.dm_events库

set hive.exec.dynamic.partition.mode=nonstrict;
set hive.optimize.sort.dynamic.partition=true;
set hive.auto.convert.join=false;
set hive.exec.mode.local.auto=true;

create database if not exists dm_events;
use dm_events;

2.user_event_1表——每个事件发生的国家、城市等信息

create table user_event_1 stored as orc as
select t.userid,
       t.eventid,
       t.invited                                     user_invited,
       t.interested,
       e.eventid                                     event_creator,
       if(e.city <> '', e.city, 'nocity')            event_city,
       e.state                                       event_state,
       `if`(e.country <> '', e.country, 'nocountry') event_country,
       e.lat,
       e.lng
from dwd_events.train t
         inner join dwd_events.events e
                    on t.eventid = e.eventid;

你可能感兴趣的:(Spark学习,大数据,kafka,分布式)

GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
华为云分布式缓存服务DCS 8月新特性发布华为云PaaS服务小智华为云分布式缓存
分布式缓存服务（DistributedCacheService，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。此次为大家带来DCS8月的特性更新内容，一起来看看吧！
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
KVM+GFS分布式存储系统构建KVM高可用 henan程序媛分布式 GFS 高可用 KVM
一、案列分析1.1案列概述本章案例主要使用之前章节所学的KVM及GlusterFs技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，Glu
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
慢速连接攻击是什么？慢速连接攻击怎么防护？快快小毛毛网络 ddos 服务器
慢速连接攻击（SlowConnectionAttack），又称慢速攻击（SlowlorisAttack），是一种网络攻击技术，旨在通过占用服务器上的所有可用连接资源来使其无法响应正常请求。与传统的拒绝服务（DoS）和分布式拒绝服务（DDoS）攻击不同，慢速攻击并不依赖于发送大量数据包来消耗带宽，而是利用HTTP、TCP或SSL等协议的特性，通过发送大量不完整的请求或缓慢发送数据来占用服务器资源，使
分布式锁和spring事务管理暴躁的鱼锁及事务分布式 spring java
最近开发一个小程序遇到一个需求需要实现分布式事务管理业务需求用户在使用小程序的过程中可以查看景点，对景点地区或者城市标记是否想去，那么需要统计一个地点被标记的人数，以及记录某个用户对某个地点是否标记为想去，用两个表存储数据，一个地点表记录改地点被标记的次数，一个用户意向表记录某个用户对某个地点是否标记为想去。由于可能有多个用户同时标记一个地点，每个用户在前端点击想去按钮之后，后台接收到请求，从数据
Gobelieve 架构 weixin_34099526 数据库 golang json
Gobelievegithub地址声明:转简书JackieF的文章,为了自己方便copy了一份,加一些自己的东西.链接：https://www.jianshu.com/p/8121d6e85282IMCore主要分三大块:im客户连接服务器（可分布式部署，暂无负载均衡模块)imr路由查询服务器（主要解决im分布式部署的问题）ims存储服务器(主从部署)基础模块1.数据包协议包：header(12)
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
linux挂载文件夹小码快撩 linux
1.使用NFS（NetworkFileSystem）NFS是一种分布式文件系统协议，允许一个系统将其文件系统的一部分共享给其他系统。检查是否安装NFSrpm-qa|grepnfs2.启动和启用NFS服务假设服务名称为nfs-server.service，你可以使用以下命令启动和启用它：sudosystemctlstartnfs-server.servicesudosystemctlenablenf
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
Rides实现分布式锁，保障数据一致性,Redisson分布式事务处理朱杰jjj 缓存分布式
分布式环境下分布式锁有三种方式：基于数据库分布式锁基于Redis分布式锁基于zk分布式锁本帖只介绍Redis分布式锁为什么需要用到分布式锁？在单机环境下一个服务中多个线程对同一个事物或数据资源进行操作时，可以通过添加加锁方式（synchronized和lock）来解决数据一致性的问题。但是如果出现多个服务的情况下，这时候我们在通过synchronized和lock的方式来加锁会出现问题，因为多个服
机电综合管理系统架构小熊coder 机载系统系统架构
文章目录一、机电综合管理系统架构1.系统概述2.架构层次3.核心组件二、余度管理1.余度概述2.硬件冗余3.软件冗余4.通信冗余三、总线架构1.MIL-STD-1553B总线2.ARINC429总线3.ARINC629总线4.AFDX/ARINC664总线四、未来发展趋势1.分布式架构2.高速网络3.智能化与自动化结语机电综合管理系统（ElectromechanicalManagementSyst
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

大数据离线数仓开发项目详细教程

一、数据准备/opt/eventdata

二、环境准备

三、创建Kafka的topic主题

四、使用Flume将文件采集到Kafka

(一)在/opt/soft/flume190/conf/目录下创建events文件夹，并创建5个conf文件

(二)events.conf

(三)ea.conf

1.ea.conf脚本内容：

2开启flume

3.复制文件到指定目录

4.查看event_attendees_raw主题的消息数量

(四)users.conf

1.users.conf脚本内容：

2.开启flume

3.复制文件到指定目录

4.查看users主题的消息数量

(五)uf.conf

1.uf.conf脚本内容：

2.开启flume

3.复制文件到指定目录

4.查看user_friends_raw主题的消息数量

(六)train.conf

1.train.conf脚本内容：

2.开启flume

3.复制文件到指定目录

4.查看train主题的消息数量

五、使用java对Kafka中的消息进行清洗，传入Kafka中

六、将Kafka清洗后的数据存入HBase中

七、建立Hive表，映射HBase的数据

(一)DWD层

1.dwd_events库

2.users表

3.events表

4.user_friend表

5.event_attendee表

6.train表

7.locale表

8.time_zone表

9.dwd_events中的表

(二)DWS层——Hive实现

1.dws_events库

2.user_friend_count表——每个用户的朋友的数量

3.event_attendee_count表——每个事件发生后的出席情况

4.event_user_state表——每个事件邀请的朋友的应邀情况

5.user_event_status表——event_user_state表的数据梳理

6.user_attend_event_count表——查看每个用户分别对事件的邀请参加、不参加的数量的统计

7.friend_attend_state表——统计应邀情况

8.friend_attend_summary表——求用户朋友中针对某一件事情的状态数量 多少人被邀请，多少人参加，多少人不参加，多少人可能去参加

9.event_cities表——找出事件发生最多的前32个的城市

10.event_countries表——找出事件发生最多的前8个国家

11.dws层的表

(三)DWS层——spark实现

1.环境搭建

2.user_friend_count表——每个用户的朋友的数量

3.event_attendee_count表———每个用户的朋友的数量

4.event_user_state表——每个事件邀请的朋友的应邀情况

5.user_event_status表——event_user_state表的数据梳理

6.user_attend_event_count表——查看每个用户分别对事件的邀请参加、不参加的数量的统计

7.friend_attend_state表——统计应邀情况

8.friend_attend_summary表——求用户朋友中针对某一件事情的状态数量 多少人被邀请，多少人参加，多少人不参加，多少人可能去参加

9.event_cities表——找出事件发生最多的前32个的城市

10.event_countries表——找出事件发生最多的前8个国家

11.验证是否存入成功

(四)DM层——宽表明细层

1.dm_events库

2.user_event_1表——每个事件发生的国家、城市等信息

你可能感兴趣的:(Spark学习,大数据,kafka,分布式)

8.friend_attend_summary表——求用户朋友中针对某一件事情的状态数量多少人被邀请，多少人参加，多少人不参加，多少人可能去参加

8.friend_attend_summary表——求用户朋友中针对某一件事情的状态数量多少人被邀请，多少人参加，多少人不参加，多少人可能去参加