rongyongfeikai2

Apache Flink 各类关键数据格式读取/SQL支持

目前事件归并分为两种，一种为实时的归并，即基于Kafka内的数据进行归并和事件生成；一种是周期性的归并，即基于Hive中的数据进行数据的归并和事件生成。

基于SQL归并时Spark Streaming支持的输入/输出数据如下：

数据类型	Flink支持情况
Kafka	需要定义schema
HDFS(parquet/csv/textfile)	读取parquet需要使用AvroParquetInputFormat csv/textfile有readCsvFile和TextFileInput
Hive	1.需要启用hive service metastore来提供thrift metastore接口 2.需要依赖flink-hcatalog来进行读取
JDBC(PostgreSQL）	JDBCInputFormat

下面就Apache Flink是否支持上述格式进行测试。

1.Kafka

首先需要定义一个POJO类，用于代表从kafka读取的dstream里的内容：

package com.flinklearn.models;
 
/**
 * Created by dell on 2018/10/23.
 */
public class TamAlert {
    private String msg;
 
    public TamAlert(){}
 
    public String getMsg() {
        return msg;
    }
 
    public void setMsg(String msg) {
        this.msg = msg;
    }
}

其次，在Flink的DataStream上执行SQL与Spark比较不同，对于Spark而言一直是stream的transform、registerTempTable动作，而在Flink上需要将DataStream转换为Table，才能执行相关SQL，而如果要进行transform需要再次将Table转为DataFrame才可以。

代码如下：

package com.flinklearn.main
 
import java.util.Properties
 
import com.alibaba.fastjson.{JSON}
import com.flinklearn.models.TamAlert
import org.apache.flink.api.common.serialization.SimpleStringSchema
import org.apache.flink.api.common.typeinfo.TypeInformation
import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer010
import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api.{TableEnvironment, Types}
import org.apache.flink.table.api.scala.StreamTableEnvironment
import org.apache.flink.table.api.scala._
 
import scala.collection.mutable.ArrayBuffer
 
/**
 * Created by dell on 2018/10/22.
 */
class Main {
  def startApp(): Unit = {
    val properties = new Properties()
    properties.setProperty("bootstrap.servers", "brokerserver")
    properties.setProperty("group.id", "com.flinklearn.main.Main")
    val env = StreamExecutionEnvironment.getExecutionEnvironment
 
    //从kafka读取数据，得到stream
    val stream:DataStream[TamAlert] = env
      .addSource(new FlinkKafkaConsumer010[String]("mytopic", new SimpleStringSchema(), properties))
      .map(line => {
        var rtn:TamAlert = null
        try{
          val temp = JSON.parseObject(line).getJSONObject("payload")
          rtn = new TamAlert()
          rtn.setMsg(temp.getString("msg"))
        }catch{
          case ex:Exception => {
            ex.printStackTrace()
          }
        }
        rtn
      }).filter(line=>line!=null)
 
    //将stream注册为temp_alert表，并打印msg字段
    val tableEnv:StreamTableEnvironment = TableEnvironment.getTableEnvironment(env)
    tableEnv.registerDataStream("temp_alert", stream,
      'msg)
    val httpTable  = tableEnv.sqlQuery("select msg from temp_alert")
 
    val httpStream = tableEnv.toAppendStream[(String,String,Integer)](httpTable)
    httpStream.print()
 
    env.execute("Kafka sql test.")
  }
}
object Main {
  def main(args:Array[String]):Unit = {
    new Main().startApp()
  }
}

2.HDFS

2.1 Parquet

对于HDFS Parquet格式的数据，Apache Flink并不如Spark一般有十分方便的read.parquet()接口，需要借助AvroParquetInputFormat来读取相应文件。具体操作步骤如下：

1.在pom.xml中引入相应的依赖


  org.apache.flink
  flink-hadoop-compatibility_2.11
  1.6.1


  org.apache.flink
  flink-avro
  1.6.1


  org.apache.parquet
  parquet-avro
  1.10.0


  org.apache.hadoop
  hadoop-mapreduce-client-core
  3.1.1


  org.apache.hadoop
  hadoop-hdfs
  3.1.1


  org.apache.hadoop
  hadoop-core
  1.2.1

2.使用avsc文件定义schema

{"namespace": "com.flinklearn.models",
 "type": "record",
 "name": "AvroTamAlert",
 "fields": [
    {"name": "msg", "type": ["string","null"]}
 ]
}

3.使用avro-tools生成对应的java类，并将java文件拷贝到项目里，本例子中是AvroTamAlert.java：

4.使用AvroParquetInputFormat来读取parquet文件：

package com.flinklearn.main
 
import java.util.Arrays
 
import com.flinklearn.models.{AvroTamAlert}
import org.apache.avro.Schema
import org.apache.avro.util.Utf8
import org.apache.flink.api.java.hadoop.mapreduce.HadoopInputFormat
import org.apache.flink.api.java.tuple.Tuple2
import org.apache.flink.api.scala.{ExecutionEnvironment}
import org.apache.flink.table.api.TableEnvironment
import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.hadoop.mapreduce.Job
import org.apache.hadoop.mapreduce.lib.input.{FileInputFormat}
import org.apache.flink.api.scala._
import org.apache.parquet.avro.AvroParquetInputFormat
import org.apache.flink.table.api.scala._
 
/**
 * Created by dell on 2018/10/23.
 */
class Main {
  def startApp(): Unit ={
    val env = ExecutionEnvironment.getExecutionEnvironment
 
    val job = Job.getInstance()
    val dIf = new HadoopInputFormat[Void, AvroTamAlert](new AvroParquetInputFormat(), classOf[Void], classOf[AvroTamAlert], job)
    FileInputFormat.addInputPath(job, new Path("/user/hive/warehouse/xx.db/yy"))
 
    AvroParquetInputFormat.setAvroReadSchema(job, AvroTamAlert.getClassSchema)
 
    val dataset = env.createInput(dIf).map(line=>line.f1).map(line=>(line.getSip.toString,line.getDip.toString,line.getDport))
 
    val tableEnv = TableEnvironment.getTableEnvironment(env)
    tableEnv.registerDataSet("tmp_table", dataset, 'msg)
 
    val table = tableEnv.sqlQuery("select msg from tmp_table")
    tableEnv.toDataSet[(String,String,Integer)](table).print()
 
    env.execute("start hdfs parquet test")
  }
}
object Main {
  def main(args:Array[String]):Unit = {
    new Main().startApp()
  }
}

2.2 CSV

需要添加的参数在2.3小节中。

package com.flinklearn.main
 
import org.apache.flink.api.scala.ExecutionEnvironment
import org.apache.flink.table.api.TableEnvironment
import org.apache.flink.api.scala._
import org.apache.flink.table.api.scala._
/**
 * Created by dell on 2018/10/25.
 */
object Main {
  def main(args:Array[String]):Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val dataset:DataSet[(String,Integer)] = env.readCsvFile("hdfs://ip:8020/mytest")
 
    val tableEnv = TableEnvironment.getTableEnvironment(env)
    tableEnv.registerDataSet("tmp_table", dataset, 'name, 'num)
    val table = tableEnv.sqlQuery("select name,num from tmp_table")
 
    val rtnDataset = tableEnv.toDataSet[(String,Integer)](table)
    rtnDataset.print()
 
    env.execute("test hdfs csvfile")
  }
}

2.3 TextFile

有几个关键的参数必须加到flink-conf.yaml文件中：

第一个参数指定Hadoop的配置文件

第二个参数指定模式为旧模式，因为flink1.6.1是用的scala2.11，使用scala接口会存在一定的问题（报jobgraph生成失败，目前还不清楚具体原因）

第三个参数指定类加载顺序（如果不指定，会报hdfs 不可读取块错误）

同时，需要将flink-hadoop-compatibility_2.11-1.6.1.jar放到flink/lib文件夹下，pom里打包没有用。

以上操作做完，就可以正确的读取hdfs上的文件了：

package com.flinklearn.main
 
import org.apache.flink.api.java.io.RowCsvInputFormat
import org.apache.flink.api.scala.ExecutionEnvironment
import org.apache.flink.api.scala.hadoop.mapreduce.HadoopInputFormat
import org.apache.flink.hadoopcompatibility.scala.HadoopInputs
import org.apache.flink.table.api.TableEnvironment
import org.apache.hadoop.fs.Path
import org.apache.hadoop.io.{LongWritable, Text}
import org.apache.hadoop.mapreduce.Job
import org.apache.hadoop.mapreduce.lib.input.{CombineTextInputFormat, TextInputFormat, FileInputFormat}
import org.apache.flink.api.scala._
import org.apache.flink.table.api.scala._
/**
 * Created by dell on 2018/10/25.
 */
object Main {
  def main(args:Array[String]):Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val dataset:DataSet[(LongWritable,Text)] = env.createInput(HadoopInputs.readHadoopFile[LongWritable,Text](
      new CombineTextInputFormat,
      classOf[LongWritable],
      classOf[Text],
      "/mytest"
    ))
    val transDataset = dataset.map(line=>{
      val lines = line._2.toString.split(",")
      if(lines.length == 2){
        (lines(0).toString,lines(1).toInt)
      }else{
        null
      }
    }).filter(line=>line!=null)
 
    print(transDataset.count())
 
    val tableEnv = TableEnvironment.getTableEnvironment(env)
    tableEnv.registerDataSet("tmp_table", transDataset, 'name, 'num)
    val table = tableEnv.sqlQuery("select name,num from tmp_table")
 
    val rtnDataset = tableEnv.toDataSet[(String,Integer)](table)
    rtnDataset.print()
 
    env.execute("test hdfs textfile")
  }
}

3.Hive

1.下载flink-hcatalog源码并添加到自己的项目中（不要用它的jar包，因为它依赖的hive库版本都太低了），路径：http://central.maven.org/maven2/org/apache/flink/flink-hcatalog/1.6.1/flink-hcatalog-1.6.1-sources.jar

2.在pom文件中添加依赖：


  org.apache.hadoop
  hadoop-common
  2.7.3


  org.apache.flink
  flink-hadoop-fs
  1.6.1


  com.jolbox
  bonecp
  0.8.0.RELEASE


  com.twitter
  parquet-hive-bundle
  1.6.0


  org.apache.hive
  hive-exec
  1.2.0


  org.apache.hive
  hive-metastore
  1.2.0


  org.apache.hive
  hive-cli
  1.2.0


  org.apache.hive
  hive-common
  1.2.0


  org.apache.hive
  hive-service
  1.2.0


  org.apache.hive
  hive-shims
  1.2.0


  org.apache.hive.hcatalog
  hive-hcatalog-core
  1.2.2


  org.apache.thrift
  libfb303
  0.9.3
  pom

3.在flink-lib中添加下面所有jar：

accumulo-core-1.6.0.jar derby-10.11.1.1.jar hive-serde-1.2.0.jar mail-1.4.1.jar
accumulo-fate-1.6.0.jar derbyclient-10.14.2.0.jar hive-service-1.2.0.jar maven-scm-api-1.4.jar
accumulo-start-1.6.0.jar eigenbase-properties-1.1.5.jar hive-shims-0.20S-1.2.0.jar maven-scm-provider-svn-commons-1.4.jar
accumulo-trace-1.6.0.jar flink-dist_2.11-1.6.1.jar hive-shims-0.23-1.2.0.jar maven-scm-provider-svnexe-1.4.jar
activation-1.1.jar flink-hadoop-compatibility_2.11-1.6.1.jar hive-shims-1.2.0.jar netty-3.7.0.Final.jar
ant-1.9.1.jar flink-python_2.11-1.6.1.jar hive-shims-common-1.2.0.jar opencsv-2.3.jar
ant-launcher-1.9.1.jar flink-shaded-hadoop2-uber-1.6.1.jar hive-shims-scheduler-1.2.0.jar oro-2.0.8.jar
antlr-2.7.7.jar geronimo-annotation_1.0_spec-1.1.1.jar hive-testutils-1.2.0.jar paranamer-2.3.jar
antlr-runtime-3.4.jar geronimo-jaspic_1.0_spec-1.0.jar httpclient-4.4.jar parquet-hadoop-bundle-1.6.0.jar
apache-curator-2.6.0.pom geronimo-jta_1.1_spec-1.1.1.jar httpcore-4.4.jar parquet-hive-bundle-1.6.0.jar
apache-log4j-extras-1.2.17.jar groovy-all-2.1.6.jar ivy-2.4.0.jar pentaho-aggdesigner-algorithm-5.1.5-jhyde.jar
asm-commons-3.1.jar guava-14.0.1.jar janino-2.7.6.jar php
asm-tree-3.1.jar guava-15.0.jar jcommander-1.32.jar plexus-utils-1.5.6.jar
avro-1.7.5.jar hamcrest-core-1.1.jar jdo-api-3.0.1.jar postgresql-42.0.0.jar
bonecp-0.8.0.RELEASE.jar hive-accumulo-handler-1.2.0.jar jetty-all-7.6.0.v20120127.jar py
calcite-avatica-1.2.0-incubating.jar hive-ant-1.2.0.jar jetty-all-server-7.6.0.v20120127.jar regexp-1.3.jar
calcite-core-1.2.0-incubating.jar hive-beeline-1.2.0.jar jline-2.12.jar servlet-api-2.5.jar
calcite-linq4j-1.2.0-incubating.jar hive-cli-1.2.0.jar joda-time-2.5.jar slf4j-log4j12-1.7.7.jar
curator-client-2.6.0.jar hive-common-1.2.0.jar jpam-1.1.jar snappy-java-1.0.5.jar
curator-framework-2.6.0.jar hive-contrib-1.2.0.jar json-20090211.jar ST4-4.0.4.jar
curator-recipes-2.6.0.jar hive-exec-1.2.0.jar jsr305-3.0.0.jar stax-api-1.0.1.jar
datanucleus-api-jdo-3.2.1.jar hive-hbase-handler-1.2.0.jar jta-1.1.jar stringtemplate-3.2.1.jar
datanucleus-api-jdo-3.2.6.jar hive-hcatalog-core-1.2.2.jar junit-4.11.jar super-csv-2.2.0.jar
datanucleus-core-3.2.10.jar hive-hwi-1.2.0.jar libfb303-0.9.2.jar tempus-fugit-1.1.jar
datanucleus-core-3.2.2.jar hive-jdbc-1.2.0.jar libthrift-0.9.2.jar velocity-1.5.jar
datanucleus-rdbms-3.2.1.jar hive-jdbc-1.2.0-standalone.jar log4j-1.2.16.jar xz-1.0.jar
datanucleus-rdbms-3.2.9.jar hive-metastore-1.2.0.jar log4j-1.2.17.jar zookeeper-3.4.6.jar

4.下载hive1.2.0版本（根据自己的需要来），将hive-site.xml拷贝一份到hive/conf目录下；启动hive thrift metastore

5.即可以读取hive表：

package com.flinklearn.main
 
 
import com.flinklearn.models.Alert
import org.apache.flink.api.scala.ExecutionEnvironment
 
import org.apache.flink.api.scala._
import org.apache.hadoop.conf.Configuration
 
/**
 * Created by dell on 2018/10/25.
 */
object Main {
  def main(args:Array[String]):Unit = {
    val conf = new Configuration()
    conf.set("hive.metastore.local", "false")
    conf.set("hive.metastore.uris", "thrift://ip:9083")
 
    val env = ExecutionEnvironment.getExecutionEnvironment
    val dataset = env.createInput(new HCatInputFormat[Alert]("db", "tb", conf))
 
    dataset.first(10).print()
 
    env.execute("flink hive test")
  }
}

4.JDBC


package com.flinklearn.main;
 
import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.io.jdbc.JDBCInputFormat;
import org.apache.flink.api.java.operators.DataSource;
import org.apache.flink.api.java.typeutils.RowTypeInfo;
 
 
/**
 * Created by dell on 2018/10/29.
 */
public class Main {
    public static void main(String[] args){
        try {
            ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
            JDBCInputFormat inputFormat = JDBCInputFormat.buildJDBCInputFormat()
                    .setDrivername("org.postgresql.Driver")
                    .setDBUrl("jdbc:postgresql://ip:port/nsc")
                    .setUsername("username")
                    .setPassword("password")
                    .setQuery("select xx,yy from zz")
                    .setRowTypeInfo(new RowTypeInfo(TypeInformation.of(String.class), TypeInformation.of(String.class)))
                    .finish();
 
            DataSource source = env.createInput(inputFormat);
            source.print();
            env.execute("jdbc test");
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

DK遇见未来：机器人祖爸
人工智能、AI、机械设计、BigData……这些听起来就很高端的专业究竟是什么？这些前沿学科相遇又会碰撞出什么？机器人，将这些前沿领域结合在一起越来越多的融入到我们的工作与生活中可问题来了机器人究竟是什么呢？又该如何给孩子讲机器人呢？这本《DK遇见未来：机器人》完美解决您的烦恼最新数据、系统知识、精美插图可以说这是一本儿童机器人大百科让孩子在这里遇见未来在讲读版视频中与您共同思考未来社会中机器人与
【量化系统实战】深入解析：大规模数据管理与分布式计算，打造你的量化“超级工厂” Natsume1710 python github 开发语言算法大数据数据仓库
前言随着量化策略的不断演进，以及对高频数据、另类数据（新闻、社交媒体、卫星图像等）需求的日益增长，许多朋友可能都会遇到一个棘手的问题：当数据量达到TB甚至PB级别，复杂的因子计算和超大规模回测在单机上变得举步维艰，系统效率严重受限。本文将作为量化系统构建系列的进阶篇，聚焦于大规模数据管理（BigDataManagement）和分布式计算（DistributedComputing）。我们将详细阐述如
QueryBook常见问题解答：从查询失败到数据文档管理的完整指南汤力赛Frederica
QueryBook常见问题解答：从查询失败到数据文档管理的完整指南querybookQuerybookisaBigDataQueryingUI,combiningcollocatedtablemetadataandasimplenotebookinterface.项目地址:https://gitcode.com/gh_mirrors/qu/querybook查询执行问题排查当您在QueryBook
QueryBook项目中的查询引擎支持与集成指南倪俊炼
QueryBook项目中的查询引擎支持与集成指南querybookQuerybookisaBigDataQueryingUI,combiningcollocatedtablemetadataandasimplenotebookinterface.项目地址:https://gitcode.com/gh_mirrors/qu/querybook概述QueryBook作为一个数据查询与分析平台，其核心功
安装Hadoop集群&入门&源码编译只年大数据 Hadoop hadoop 大数据分布式
安装Hadoop集群完全分布式先决条件准备三台机器NameStaticIPDESCbigdata102192.168.1.102DataNode、NodeManager、NameNodebigdata103192.168.1.103DataNode、NodeManager、ResourceManagerbigdata104192.168.1.104DataNode、NodeManager、Seco
Sharding-Sphere，Sharding-JDBC_介绍_Sharding-Sphere，Sharding-JDBC分布式_分库分表工作笔记001 添柴程序猿
技术交流QQ群【JAVA,C++,Python,.NET,BigData,AI】：170933152因为公司最近在做多租户的智慧城市相关的产品,这里,偶然看到这个框架,应该是可以用到,所以就看了一些,记录下来.先看一下我们要看的内容.去网站看看shardingsphere,是一套开源的分布式数据库中间件,解决方案包括3个产品点击了解更多去看一下
OGG从oracle到KAFKA的增量数据表同步操作 Romona_J oracle kafka 数据库
OGG从oracle到KAFKA的增量数据表同步操作需求oracle的库：cas库kfaka服务器：给与topic信息、以及服务器IP：端口同步表：cas.students环境在独立的服务器上面装oggfororacle11g以及oggforbigdata通过在oggfororacle服务器连接源端数据库做抽取到本地通过oggforbigdata服务器做复制1.OGGforOracle安装及配置开
MapReduce 程序详解
Hadoop的第一课总是MapReduce，但是往往我们每次都是使用自带的例子跑一遍MapReduce程序，今天总与自己写了一个完整的程序。技术有限，多多指教。1.导Jar包，将Hadoop的Jar导入到你的工程2.开始写自己的主类，分为3个类。第一个类WordcountMapperpackagecn.itcast.bigdata.mr.wcdemo;importjava.io.IOExcepti
【赛题样题】【大数据应用开发】2023年全国职业院校技能大赛高职组“大数据应用开发”第三套样题波比网络大数据大数据应用开发职业院校技能大赛高职组赛题样题
2023年全国职业院校技能大赛赛题第03套赛项名称：大数据应用开发英文名称：BigDataApplicationDevelopment赛项组别：高等职业教育组赛项编号：GZ033背景描述大数据时代背景下，电商经营模式发生很大改变。在传统运营模式中，缺乏数据积累，人们在做出一些决策行为过程中，更多是凭借个人经验和直觉，发展路径比较自我封闭。而大数据时代，为人们提供一种全新的思路，通过大量的数据分析得
云平台领域新秀：百度云的崛起之路 AI云原生与云计算技术学院百度云云计算 ai
云平台领域新秀：百度云的崛起之路关键词：百度云、云计算、云服务、技术架构、生态建设、市场竞争、行业智能化转型摘要：作为中国云计算市场的重要参与者，百度云通过独特的"ABC（AI+BigData+Cloud）"战略实现了从行业追赶者到创新引领者的蜕变。本文深度解析百度云的技术架构演进路径，揭示其在AI原生云、混合云架构、边缘计算协同等核心领域的技术优势；系统梳理生态建设策略与行业解决方案体系，分析其
DataX的json配置文件，{}，[]讲解 WZMeiei 大数据 json 数据库大数据
通过DataX将文件系统迁移到MySQLpython/bigdata/datax/bin/datax.py-rtxtfilereader-wmysqlwriter配置文件如下，（json文件中是不允许有//注释的，这里为了理解配置项的含义所以给加上了）{"job":{//数据同步任务的具体内容配置，包含数据源读取和写入目标的配置"content":[{//数据源读取器配置"reader":{//读
手把手教你搭建 Hadoop Namenode 高可用集群（HA）线条1 hadoop 大数据分布式
一、注意事项免密登录：确保所有节点间SSH免密登录正常，否则故障转移会失败。路径一致性：所有节点的Hadoop安装路径、数据目录需完全一致。端口冲突：检查9820、9870、8485等端口是否被占用。ZooKeeper集群：确保ZK集群稳定运行，至少3个节点避免脑裂。二、环境准备1.服务器规划节点角色软件依赖bigdata01Namenode1、JournalNode、ZooKeeperHadoo
智能商品推荐系统技术路线图-2 Nick_zcy 算法推荐算法 springboot spark
智能商品推荐系统技术路线图系统架构图系统分层架构用户交互层(PresentationLayer)↓HTTP/HTTPSAPI层(APILayer)↓Service调用业务服务层(ServiceLayer)↓数据访问数据访问层(DataAccessLayer)↓数据存储/处理数据存储层(DataStorageLayer)↓大数据处理大数据处理层(BigDataLayer)用户交互层Web前端(Vue
zookeeper 单机安装未来创世纪大数据 zookeeper
zookeeper安装1.下载zookeeper官方下载页面：http://zookeeper.apache.org/releases.html#download国内的下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/2.解压zookeeperterry@terry-VirtualBox:/opt/bigdata_platform
Shell中的sed命令(简单详细,一看就会,没一句废话) 线条1 linux bash 运维
sed可以用来实现过滤和替换1.可以进行查询操作sed可选项目标文件可选性：p打印$代表最后一行-n仅显示处理后的结果-e根据表达式进行处理2.列出txt文档中的数据catbigdata.txt|sed-n-e'3,5p'3.显示第一行到最后一行的数据：cat6.txt|sed-n-e'1,$p'显示第二行到最后一行cat6.txt|sed-n-e'2,$p'4.显示行号一种写法，没有使用sed,
springboot 基于IDEA排查脏jar 励志重写JDK java代码
查看springbootmaven相关依赖IDEA右上角m,执行命令：dependency:tree，控制台打印结果：com.xzff:bigdata-system:jar:2.6[INFO]+-com.xzff:bigdata-qt:jar:2.4:compile[INFO]|+-com.xzff:bigdata-generator:jar:2.6:compile[INFO]||+-org.sp
2024华为HCIP大数据考试总结&题库&提纲 KwCoding 华为大数据 HCIP big data
目录关于华为HCIP大数据HCIP大数据题库题库介绍关于题库更新购买方式HCIP大数据考试介绍考试形式考试题型考试内容祝：逢考必过关于华为HCIP大数据HCIP大数据，HCIP-BigDataDeveloper华为认证大数据开发高级工程师，考试代码H13-723因公司需要，最近这两年我从工程项目开发转为数据开发，负责数据仓库、数据中台的建设。在这期间参与了华为大数据培训，获赠了HCIP大数据考试券
bigdatareport chennalC#c.h.JA Ptho 数据结构 sqlite oracle json sql database spark
大数据技术体系深度解析（2025年版）一、大数据定义与核心特征（5V+扩展）传统5V模型升级Volume（体量）：从TB级到EB/ZB级，2025年全球数据总量预计达180ZB，其中非结构化数据（日志、视频、文本）占比超80%，推动存储架构向分层弹性扩展（冷热温数据分级，蓝光存储应用率提升至45%）。Velocity（速度）：实时数据流处理延迟要求从秒级（Kafka）进化到亚毫秒级（FlinkSQ
Spark-小练试刀 o不ok! 前端 javascript 开发语言
任务1：HDFS上有三份文件，分别为student.txt（学生信息表）result_bigdata.txt（大数据基础成绩表），result_math.txt（数学成绩表）。加载student.txt为名称为student的RDDx数据，result_bigdata.txt为名称为bigdata的RDD数据，result_math.txt为名称为math的RDD数据。hdfsdfs-mkdir/
Hive4.0.1集群安装部署（Hadoop版本为3.3.6）(详细教程) 大数据探索者 Hive Hadoop Centos hadoop 大数据 hive 分布式运维 centos mysql
前置环境Linux环境Zookeeper集群安装（详细教程）-CSDN博客HadoopHA高可用集群3.3.6搭建（详细教程）-CSDN博客MySQL8.0.40离线安装（详细教程）_mysql8.0.40ftp-CSDN博客Hadoop3.3.6官网下载链接地址部署规划服务器节点MetaStoreHiveServer2bigdata01√bigdata02√√bigdata03√1.先在bigd
【ATU Book-MemryX 系列】MemryX 推出浮点运算 AI 芯片，引领精准运算新时代 WPG大大通 ATU 伊布小編 (一部)人工智能大大通 ai npu 加速卡半导体
一、概述近年来，随着半导体制程的进步，硬件计算能力和数据量都有了飞跃性的提升，使得计算机视觉(ComputerVision)领域迎来了全新的发展阶段。过去，图像处理大多依赖像素级别的逐一运算，而现在，通过大数据(BigData)的支撑以及深度学习(DeepLearning)随着AI模型的成熟，它能够通过固定的学习模式从海量数据中快速创造出各种各样的应用。人工智能技术的普及与边缘计算在工业与车辆应用
spark-submit命令总览 zmd-zk 大数据组件的使用大数据 spark python 分布式学习
pyspark可以使用pyspark命令在服务器黑窗口中进行spark代码的编写pyspark--masterlocal[2]本地模式pyspark--masterspark://bigdata01:7077standalone模式pyspark--masteryarnyarn模式//启动一个黑窗口进行任务的编写spark-submit#提交任务的命令：spark-submit[options][
Prometheus+Kafka exporter+Grafana监控Kafka ErbaoLiu Prometheus grafana prometheus kafka kafka exporter
部署规划主机名bigdata111bigdata112bigdata113服务部署Kafka、Prometheus、Grafana、KafkaexporterKafkaKafkaKafka部署目录/opt/kafka_2.11-2.1.1Prometheus部署目录/opt/prometheus/
SAAS多租户实现方案_springboot 实现多租户_基于共享数据库_共享schema_共享数据表_基于baomidou_mybatis_plus---springcloud工作笔记158 添柴程序猿
技术交流QQ群【JAVA,C++,Python,.NET,BigData,AI】：170933152前面的博文说了,多租户其实就是把一套系统,提供给多个用户用,让每个用户都像拥有自己的一套系统一样,这样我们就可以把一套系统部署在我们自己这里,然后我们给某个来购买我们系统服务的商户,分个账号,他们就可以,拥有系统的整个功能了.这里的用户,也就是前来购买我们系统服务的,可以是一个公司,一个商户,我们称
Big Data 流处理框架 Flink wumingxiaoyao Big Data 大数据 flink Big Data 流处理框架实时数据处理
BigData流处理框架Flink什么是FlinkFlink的主要特性典型应用场景AmazonElasticMapReduce(EMR)VSFlink架构和运行时环境实时处理能力开发和编程模型操作和管理应用场景总结Flink支持的数据源Flink如何消费AWSSQS数据源自定义SourceFunctionFlinkConnectorforAWSSQS(社区贡献或第三方库)借助AWSLambda和K
Clickhouse集群集群安装大浪淘沙2023 clickhouse hadoop linux hdfs
1.环境信息：[root@bigdata003clickhouse-server]#cat/etc/redhat-releaseCentOSLinuxrelease7.9.2009(Core)2.在/etc/hosts中添加主机信息10.29.35.240bigdataxxx310.29.35.241bigdataxxx410.29.35.243bigdataxxx53.关闭防火墙和selinux
Utilizing DDR Memory Banks for Big Data Processing Performance 东北豆子哥 linux linux
UtilizingDDRMemoryBanksforBigDataProcessingPerformanceTomaximizeperformancewhenprocessingbigdatausingDDRmemorybanks,considerthesestrategies:MemoryArchitectureOptimizationBankInterleavingDistributedata
Java BigDecimal类 BigInter类简介及代码演示 JayceHarris java
BigDecimal类大数据中的大小数BigInter大数据中的大整数备注:如果除不尽程序会报错packagecom.BigData;importjava.math.BigDecimal;importjava.math.BigInteger;//定义大数据中的大整数和大小数publicclassBigDataDemo{publicstaticvoidmain(String[]args){//Big
【区块链+乡村振兴】数字农业区块链系统 | FISCO BCOS应用案例 FISCO_BCOS FISCO BCOS产业应用发展报告区块链乡村振兴
农业1.0时代为体力劳动为主的小农经济时代，农业2.0时代是以机械化生产为主、适度经营的“种植大户”时代，农业3.0时代则以现代科学技术为主要特征，而我们正在迈向的农业4.0时代，可以说是融合A(AI)、B(BlockChain)、C(Cloud)、D(BigData)技术，高度精准化、智能化、生态化的数字化农业时代。在助力数字化农业上，域乎科技利用FISCOBCOS区块链技术和物联网技术打造数字
Linux多线程工作笔记0004---C语言中g++ -o -c -g 功能添柴程序猿
技术交流QQ群【JAVA,C++,Python,.NET,BigData,AI】：170933152-o：指定生成可执行文件的名称。使用方法为：g++-oafilefile.cppfile.h...（可执行文件不可与待编译或链接文件同名，否则会生成相应可执行文件且覆盖原编译或链接文件），如果不使用-o选项，则会生成默认可执行文件a.out。-c：只编译不链接，只生成目标文件。-g：添加gdb调试选
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu