架构师老狼

Spark+Flink+Iceberg打造湖仓一体架构实践探索

数据湖-大数据生态杀青

数据仓库的痛点

只能存储结构化数据，无法采集存储非结构化数据
无法存储原始数据，所有的数据须经过ETL清洗过程
离线数仓的数据表牵一发而动全身，数据调整工程量大
实时数仓存储空间有限，无法采集和存储海量实时数据
回溯效率低下，实时数据和离线数据计算接口难以统一
Kafka 做实时数仓，以及日志传输。Kafka 本身存储成本很高，且数据保留时间有时效性，一旦消费积压，数据达到过期时间后，就会造成数据丢失且没有消费到
将实时要求不高的业务数据入湖、比如说能接受 1-10 分钟的延迟。因为 Iceberg 0.11 也支持 SQL 实时读取，而且还能保存历史数据。这样既可以减轻线上 Kafka 的压力，还能确保数据不丢失的同时也能实时读取

数据湖三剑客对比

Hudi

Hudi：Hadoop Upserts Deletes and Incrementals（原为 Hadoop Upserts anD Incrementals），强调了其主要支持 Upserts、Deletes 和 Incremental 数据处理，其主要提供的写入工具是 Spark HudiDataSource API 和自身提供的 HoodieDeltaStreamer
在查询方面，Hudi 支持 Hive、Spark、Presto。
在性能方面，Hudi 设计了 HoodieKey ，一个类似于主键的东西。对于查询性能，一般需求是根据查询谓词生成过滤条件下推至 datasource。Hudi 这方面没怎么做工作，其性能完全基于引擎自带的谓词下推和 partition prune 功能。

Delta

Delta定位是流批一体的 Data Lake 存储层，支持 update/delete/merge。不强调主键，因此其 update/delete/merge 的实现均是基于 spark 的 join 功能。在数据写入方面，Delta 与 Spark 是强绑定的，这一点 Hudi 是不同的：Hudi 的数据写入不绑定 Spark（可以用 Spark，也可以使用 Hudi 自己的写入工具写入）
在查询方面，开源 Delta 目前支持 Spark 与 Presto，但是，Spark 是不可或缺的，因为 delta log 的处理需要用到 Spark。这意味着如果要用 Presto 查询 Delta，查询时还要跑一个 Spark 作业

Iceberg

Iceberg一个通用化设计的Table Format，高性能的分析与可靠的数据管理，Iceberg 没有类似的 HoodieKey 设计，其不强调主键。上文已经说到，没有主键，做 update/delete/merge 等操作就要通过 Join 来实现，而 Join 需要有一个类似 SQL 的执行引擎。
Iceberg 在查询性能方面做了大量的工作。值得一提的是它的 hidden partition 功能。Hidden partition 意思是说，对于用户输入的数据，用户可以选取其中某些列做适当的变换（Transform）形成一个新的列作为 partition 列。这个 partition 列仅仅为了将数据进行分区，并不直接体现在表的 schema 中。

总结

Delta、Hudi、Iceberg三个开源项目中，Delta和Hudi跟Spark的代码深度绑定，尤其是写入路径。这两个项目设计之初，都基本上把Spark作为他们的默认计算引擎了。而Apache Iceberg的方向非常坚定，宗旨就是要做一个通用化设计的Table Format。它完美的解耦了计算引擎和底下的存储系统，便于多样化计算引擎和文件格式，很好的完成了数据湖架构中的Table Format这一层的实现，因此也更容易成为Table Format层的开源事实标准
Apache Iceberg也在朝着流批一体的数据存储层发展，manifest和snapshot的设计，有效地隔离不同transaction的变更，非常方便批处理和增量计算。并且，Apache Flink已经是一个流批一体的计算引擎，二都可以完美匹配，合力打造流批一体的数据湖架构。

Iceberg术语

数据文件 ( data files )
Iceberg 表真实存储数据的文件，一般存储在data目录下，以".parquet"结尾。
清单文件 ( Manifest file ）
每行都是每个数据文件的详细描述，包括数据文件的状态、文件路径、分区信息、列级别的统计信息（比如每列的最大最小值、空值数等）、通过该文件、可过滤掉无关数据、提高检索速度。
快照（ Snapshot ）
快照代表一张表在某个时刻的状态。每个快照版本包含某个时刻的所有数据文件列表。Data files 是存储在不同的 manifest files 里面， manifest files 是存储在一个 Manifest list 文件里面，而一个 Manifest list 文件代表一个快照。

spark + Iceberg离线数仓

前期准备
spark 3.0.0_scala_2.12
Iceberg 0.13.1
编译好的iceberg-spark3-runtime-0.13.1.jar拷贝到spark/jars
DWD加载ods原始数据

>controller
val sparkConf = new SparkConf()
      .set("spark.sql.catalog.hadoop_prod", "org.apache.iceberg.spark.SparkCatalog")
      .set("spark.sql.catalog.hadoop_prod.type", "hadoop")
      .set("spark.sql.catalog.hadoop_prod.warehouse", "hdfs://hadoop01:9820/spark/warehouse")
      .set("spark.sql.catalog.catalog-name.type", "hadoop")
      .set("spark.sql.catalog.catalog-name.default-namespace", "db")
      .set("spark.sql.sources.partitionOverwriteMode", "dynamic")
      .set("spark.sql.session.timeZone", "GMT+8")
      .setMaster("local[*]")
      .setAppName("dwd_app")
    val sparkSession = SparkSession.builder().config(sparkConf).getOrCreate()
    DwdIcebergService.readOdsData(sparkSession)
> service 
  // 加载member 到dwd
  def loadMember(sparkSession: SparkSession): Unit ={
    sparkSession.read.json("/datasource/iceberg/member.log").drop("dn")
      .withColumn("uid", col("uid").cast("int"))
      .withColumn("ad_id", col("ad_id").cast("int"))
      .writeTo("hadoop_prod.db.dwd_member").overwritePartitions()
  }

DWS数据宽表

  def getDwsMemberData(sparkSession: SparkSession, dt: String) = {
    import sparkSession.implicits._
    ....
    val result = dwdMember.join(dwdMemberRegtype.drop("dt"), Seq("uid"), "left")
      .join(dwdPcentermempaymoney.drop("dt"), Seq("uid"), "left")
      .join(dwdBaseAd, Seq("ad_id", "dn"), "left")
      .join(dwdBaseWebsite, Seq("siteid", "dn"), "left")
      .join(dwdVipLevel, Seq("vip_id", "dn"), "left_outer")
      .select("...").as[DwsMemberResult]

    val resultData = result.groupByKey(item => item.uid + "_" + item.dn)
      .mapGroups { case (key, iters) =>
        val keys = key.split("_")
        val uid = Integer.parseInt(keys(0))
        val dn = keys(1)
        val dwsMembers = iters.toList
        val paymoney = dwsMembers.filter(_.paymoney != null)
          .map(item => BigDecimal.apply(item.paymoney))
          .reduceOption(_ + _)
          .getOrElse(BigDecimal.apply(0.00)).toString
   ....
    // 分区列不能为null，spark-sql内存表null为字符串
    resultData.where($"dn" =!= "null").show()
    resultData.where($"dn" =!= "null")
      .write.format("iceberg")
      .mode("overwrite").save("hadoop_prod.db.dws_member")
  }

ADS统计分析

 def queryDetails(sparkSession: SparkSession, dt: String) = {
    import sparkSession.implicits._
    val result = DwsIcebergDao.queryDwsMemberData(sparkSession).as[QueryResult].where(s"dt='${dt}'")
    result.cache()

    //统计根据url统计人数  wordcount
    result.mapPartitions(partition => {
      partition.map(item => (item.appregurl + "_" + item.dn + "_" + item.dt, 1))
    }).groupByKey(_._1)
      .mapValues(item => item._2).reduceGroups(_ + _)
      .map(item => {
        val keys = item._1.split("_")
        val appregurl = keys(0)
        val dn = keys(1)
        val dt = keys(2)
        (appregurl, item._2, dt, dn)
      }).toDF("appregurl", "num", "dt", "dn")
      .writeTo("hadoop_prod.db.ads_register_appregurlnum").overwritePartitions()

    // 统计各memberlevel等级 支付金额前三的用户: mysql、oracle、hive、phoenix、iceberg对where里都不支持开窗函数，spark内存函数强大
    result.withColumn("rownum", row_number().over(Window.partitionBy("memberlevel").orderBy(desc("paymoney"))))
      .where("rownum<4")
      .orderBy("memberlevel", "rownum")
      .select("...")
      .writeTo("hadoop_prod.db.ads_register_top3memberpay").overwritePartitions()
  }

yarn 上测试
最后是花了 18 分钟跑完 1000 万条数据，查询表数据观察是否有数据丢失。数据没有丢失

Flink+Iceberg 流批一体架构

前期准备
flink 1.13.0_scala_2.12
iceberg 0.13.1
拷贝编译好的iceberg-flink-runtime-1.13-0.13.1.jar到flink/lib
启动flink集群，运行flink sql：bin/sql-client.sh embedded shell
flink cdc采集数据到kafka，流模式写入iceberg

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.enableCheckpointing(6000);
        ...
        kafakSource.setStartFromLatest();
        DataStream<RowData> result = env.addSource(kafakSource).map(item -> {
          ....
            rowData.setField(0, uid);
            rowData.setField(1, courseid);
            rowData.setField(2, deviceid);
            rowData.setField(3, StringData.fromString(array[3].trim()));
            return rowData;
        });

        result.print(">>>处理完数据：");
        TableLoader testtopicTable = TableLoader.fromHadoopTable("hdfs://hadoop01:9820/flink/warehouse/iceberg_db/dwd_view_log");
        FlinkSink.forRowData(result).tableLoader(testtopicTable).build();

        env.execute();

批模式初始化加载数据

   DataStream<RowData> batch = FlinkSource.forRowData().env(env).tableLoader(tableLoader).streaming(false).build();

流模式增量处理数据

DataStream<RowData> stream = FlinkSource.forRowData().env(env).tableLoader(tableLoader).streaming(true).build();

DataStream与Table转换写入iceberg

Table table = dwsIcbergDao.queryDwsMemberData(env, tableEnv).where($("dt").isEqual(dt));
        DataStream<QueryResult> queryResultDataStream = tableEnv.toAppendStream(table, QueryResult.class);

        tableEnv.createTemporaryView("tmpA", queryResultDataStream);
        String sql = "select *from(select uid,memberlevel,register,appregurl" +
                ",regsourcename,adname,sitename,vip_level,cast(paymoney as decimal(10,4)),row_number() over" +
                " (partition by memberlevel order by cast(paymoney as decimal(10,4)) desc) as rownum,dn,dt from tmpA where dt='" + dt + "') " +
                " where rownum<4";
        Table table1 = tableEnv.sqlQuery(sql);
        DataStream<RowData> top3DS = tableEnv.toRetractStream(table1, RowData.class).filter(item -> item.f0).map(item -> item.f1);

        String sql2 = "select appregurl,count(uid),dn,dt from tmpA where dt='" + dt + "' group by appregurl,dn,dt";
        Table table2 = tableEnv.sqlQuery(sql2);
        DataStream<RowData> appregurlnumDS = tableEnv.toRetractStream(table2, RowData.class).filter(item -> item.f0).map(item -> item.f1);

        TableLoader top3Table = TableLoader.fromHadoopTable(warehouseDir + "/ads_register_top3memberpay");
        TableLoader appregurlnumTable = TableLoader.fromHadoopTable(warehouseDir + "/ads_register_appregurlnum");

	FlinkSink.forRowData(top3DS).tableLoader(top3Table).overwrite(true).build();
    FlinkSink.forRowData(appregurlnumDS).tableLoader(appregurlnumTable).overwrite(true).build();

优化实践

1 小文件处理

Iceberg 0.11 以前，通过定时触发 batch api 进行小文件合并，这样虽然能合并，但是需要维护一套 Actions 代码，而且也不是实时合并的。

Table table = findTable(options, conf);
Actions.forTable(table).rewriteDataFiles()
        .targetSizeInBytes(10 * 1024) // 10KB
        .execute();

Iceberg 0.11 新特性，支持了流式小文件合并。通过分区/存储桶键使用哈希混洗方式写数据、从源头直接合并文件，这样的好处在于，一个 task 会处理某个分区的数据，提交自己的 Datafile 文件，比如一个 task 只处理对应分区的数据。这样避免了多个 task 处理提交很多小文件的问题，且不需要额外的维护代码，只需在建表的时候指定属性 write.distribution-mode，该参数与其它引擎是通用的，比如 Spark 等。

CREATE TABLE city_table ( 
     province BIGINT,
     city STRING
) PARTITIONED BY (province, city) WITH (
    'write.distribution-mode'='hash' 
);

2 排序功能

在 Iceberg 0.11 之前，Flink 是不支持 Iceberg 排序功能的，所以之前只能结合 Spark 以批模式来支持排序功能，0.11 新增了排序特性的支持，Iceberg也支持flink的排序

insert into Iceberg_table select days from Kafka_tbl order by days, province_id;

利用 Iceberg 的排序特性，将天作为分区。按天、小时、分钟进行排序，那么 manifest 文件就会记录这个排序规则，从而在检索数据的时候，提高查询效率，既能实现 Hive 分区的检索优点，还能避免 Hive metadata 元数据过多带来的压力。

总结

flink不支持隐藏分区，不支持创建带水位线的表
与 hudi 相比，缺少行级更新，只能对表的数据按分区进行 overwrite 全量覆盖
flink近实时入湖
① Iceberg 提交 Transaction 时是以文件粒度来提交。这就没法以秒为单位提交 Transaction，否则会造成文件数量膨胀；
② 没有在线服务节点。对于实时的高吞吐低延迟写入，无法得到纯实时的响应；
③ Flink 写入以 checkpoint 为单位，物理数据写入 Iceberg 后并不能直接查询，当触发了 checkpoint 才会写 metadata 文件，这时数据由不可见变为可见。checkpoint 每次执行都会有一定时间。

2022-03-16 16:09:24,486   INFO --- [                        jobmanager-future-thread-2]  org.apache.flink.runtime.checkpoint.CheckpointCoordinator                       (line: 1250)  :  Completed checkpoint 60 for job c7a6d8df0b422bb4c27a35b21a9142de (9169 bytes in 5 ms).
2022-03-16 16:09:30,481   INFO --- [                                  Checkpoint Timer]  org.apache.flink.runtime.checkpoint.CheckpointCoordinator                       (line:  741)  :  Triggering checkpoint 61 (type=CHECKPOINT) @ 1647418170480 for job c7a6d8df0b422bb4c27a35b21a9142de.
2022-03-16 16:09:30,483   INFO --- [IcebergFilesCommitter -> Sink: IcebergSink hdfs://hadoop01:9820/flink/warehouse/iceberg_db/dwd_view_log (1/1)#0]  org.apache.iceberg.flink.sink.IcebergFilesCommitter                             (line:  162)  :  Start to flush snapshot state to state backend, table: hdfs://hadoop01:9820/flink/warehouse/iceberg_db/dwd_view_log, checkpointId: 61
2022-03-16 16:09:30,483   INFO --- [                        jobmanager-future-thread-6]  org.apache.flink.runtime.checkpoint.CheckpointCoordinator                       (line: 1250)  :  Completed checkpoint 61 for job c7a6d8df0b422bb4c27a35b21a9142de (9169 bytes in 3 ms).

第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
如果做到轻松在股市赚钱？只要坚持这三个原则。履霜之人
大A股里向来就有七亏二平一赚的说法，能赚钱的都是少数人。否则股市就成了慈善机构，人人都有钱赚，谁还要上班？所以说亏钱是正常的，或者说是应该的。那么那些赚钱的人又是如何做到的呢？普通人能不能找到捷径去分一杯羹呢？方法是有的，但要做到需要你有极高的自律。第一，控制仓位，散户最大的问题是追涨杀跌，只要涨起来，就把钱往股票上砸，然后被套，隔天跌的受不了，又一刀切，全部割肉。来来回回间，遍体鳞伤。所以散户首
没想到，真没想到一棵落花的树
生活中，每一件小事都蕴藏着他的道理。有些令你意外，却能让你收到更为意外的结果。那一次，我真没想到的事，让我收获了爱。记忆的雨飘落下来，扰乱了我平静的心湖。那是一次数学考试，我破天荒地考了“99”分。我不禁沾沾自喜，这成绩我可不容易得到，妈妈一定会好好表扬我的。回到家，我想妈妈得意的报出成绩，妈妈只是淡淡的说：“嗯，等会儿试卷拿给我看看。”做完作业，我把试卷拿给了妈妈。只见妈妈捧着试卷，眯着眼睛盯着
2019-11-04复盘——飞来山上千寻塔，闻说鸡鸣见日升。那一叶秋
1、大盘篇先上老图，看习惯了，也就知道走势了图1上证指数日线图还是那张老图，自己可以在自己的相关软件上画出来，快变盘了。2、个股篇未加仓、未减仓。分析量能的时候，突然发现这么一个东西：“放量突破年线，缩量回调。”合众科技日线图其实，最近的N只个股，在技术分析上，都到了变盘的临界时候。结合这么久的走势，特别是ZJH不断放开IPO的申请，本质上说是融资难度变大，或者说是为企业的融资开创便利。但现在市场
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
安徽省这个湖,比西湖大8倍,称是安徽的北戴河, 合肥的后花园旅游小号角
旅游爱好者都知道，安徽省是一个旅游资源十分丰富的省份，且不说黄山、九华山、天柱山这三大名山，单说湖泊就不比其它省份少，今天我们一起走遍世界将为大家说说一个号称安徽北戴河，合肥后花园的湖泊，看看到底是哪个湖泊？话说，这个湖泊位于安徽省六安市舒城县境内，东距合肥50千米，大约一个小时左右的车程，它号称是合肥的后花园，安徽的北戴河。相传，湖畔石壁之上有一奇石神似观音临湖，湖中漂动众多小岛栩栩如佛子，宛若
古风原创慕白漓
【江南月】词:慕白漓曲:《庐州月》西厢一语惊醒梦中月光佳人为何素眉不添淡妆抚帕刺秀绵缎一缕清香南望飞雁又归西方城外又闻秋稻泛黄成殇细雨纷飞里春又归乡离家而去的你是否迷失彷徨一句诺言永记心上家书一封道尽咏平常青草才青暮色又飘扬等也难当回又何妨古拙的山水今又细水流长江南月光照耀湖旁如今的情也已不在心上十载月晃容颜覆黄问一句你今在他乡何方江南月光苏州城隍孤单的你可还记得夜凉西厢人忘你是否还在独唱却唱不出
骑昆明到北海—119 砚山县 61清风i
从十年前第一次长途骑行青海湖开始每年一次长途骑行看风景，尝各地美食，探访异域文化，记录途中美食美景美事，已逐渐形成习惯。每年春季详细规划好线路，夏季出行，2020年因为疫情迟迟不能确定线路和行程。总算到了暑期疫情逐渐消失，规划了50多天的云南昆明—广西北海计划。本次行程从云南昆明出发到广西北海市结束，五十一天骑行二千多公里线路昆明-官渡古镇-环滇池--澄江市一抚仙湖—路居镇--江川区--通海县—龙
果冻宝盒邀请码怎么填好，附6个顶级有效邀请码小小编007
在当今的电商时代，返利app已经成为了很多网购达人的必备工具。其中，果冻宝盒作为一款备受好评的返利软件，吸引了大量用户。而对于一些新手用户来说，填写果冻宝盒的邀请码可能会让他们感到困惑。本文将详细介绍果冻宝盒返利app，并指导用户如何正确填写邀请码。一、果冻宝盒返利app简介果冻宝盒是一款集折扣、返利、分享为一体的购物app。用户在果冻宝盒上购物时，不仅可以享受到商家提供的折扣，还可以获得果冻宝盒
冬练太极虽好，也需做好防护！武当功夫传人郑师和
俗话说，夏练三伏，冬练三九，练功绝非一日之功，必须持之以恒。太极拳是一项集文化、养生、锻炼于一体的活动。现在已经进入冬季，许多喜爱太极拳的朋友们仍然会到户外进行锻炼。这种精神固然可嘉，但是也一定要注意一些相关事项，以避免影响养生的效果。冬季练拳要“养汗”太极拳一日不练十日空,入冬天冷以后要“守汗”，春生夏长秋收冬藏，冬天练功，万物冬藏，要养阳气，需要藏精，顺天时天利，盘拳时，身体微热要见汗，还没出
这样旅行的人，值得拥有丰富而饱满的体验究竟
01“一张车票就实现了来拉萨的梦想。原以为很遥远，现也觉得旅途值得。也不过山河故人而已。”打开朋友圈，看到了强子新发的动态，配了两张图，一张图里是拉萨火车站，另一张图里是二十来张排列得整整齐齐的火车票，终点站都是拉萨。又想起几天前，姑娘秀了一波在青海湖的美照，照片里的她，身穿鲜艳的红色长裙，坐在牦牛背上，阳光打下来，她笑靥如花。橙色的旗子风中飘扬，那蓝绿色的青海湖和天空再美，也都成了陪衬。再看看自
（缓解抑郁症状）中原焦点团队杨小杰坚持分享第226天2021-4-1 yxjlady
缓解抑郁症状1、不要总待在室内，抑郁严重的人，通常都不想出门2、抑郁性都有诱因或一个导火索，人不能战胜所有东西，要有取舍3、社交，抑郁症的人总是自己脑中不断的自言自语，自我否定等，出去社交就被迫被别的东西点拨了，深度抑郁没法走出自己的世界，思维走不出自己的怪圈4、锻炼让自己轻微出汗最佳，身心是一体时，身体有活力，精神很难不健康5、冥想冥想和社交一样，可以改变你的神经可塑性，一个沉溺在自己世界里的抑
史上最全git命令,git回滚,git命令大全騒周其他 git
git命令大全一、Git整体理解二、由暂存区本地仓库三、由本地仓->远程仓库四、冲突处理五、Git分支操作六、bug的分支七、feature分支八、暂存的使用九、远程仓的操作十、标签的使用十一、Git配置全局信息十二、Linux的一些简单操作和一些符号的解释十三、符号解释十四、显示安装详细信息十五、gitconfig十六、Gitclone十七、Gitinit十八、gitstatus十九、gitre
如何区分Python中数据类型可变还是不可变秸秆混凝烧结工程师
关键字改变元素值，内存地址发生改变，被称为数据内型不可变如string，元组，存储数据类型单一，不能同时存在两个数据类型，新增元素后，表容量，元素个数，元素存储区ID改变，典型的内置元素一体存储法；改变元素值，但是内存地址不改变就是可变数据内型，如list，存储元素可以不同，删除，新增，插入，表序列不改变，扩展表容量时，对象地址ID不变，属于顺序表的，分离式存储结构，外置元素法，python中不可
张鑫溢：1.25黄金白银TD行情分析，日内多空如何操作？附后市操作策略 AA李钜溢
格止盈止损，严格把握点位，严禁重仓操作！做行情，首看趋势，其次看点位，最后是时间。我们强调的是对行情的理解和观察。无论操作是对还是错，都必须要有操作的理由。有理由的操作，无论对错及时检讨，这才是真正投资，否则，都只会沦为赌博。我们安稳赚钱，把握机会，我们稳健获利，控制仓位做好良性循环投资，切记，不要带着情绪。黄金行情走势分析：现货黄金上周五连续第二天下跌，因全球收紧防疫限制措施促使投资者避险，推升
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
2023-10-26 Eltonpeople
文化通史121今日启发：Elton:第八章中世文化的初兴第一节幕府体制与公武二元文化的确立镰仓幕府在日本历史上，平安时代末期，出现平氏和源氏两大武士集团。首先平氏取代贵族而获得了政权，但仍沿袭贵族政治。平氏与源氏两大武士集团之间不断发生战争。源赖朝于1180年奉以仁王之旨令，举兵讨伐平氏，经过富士川、一谷、坛浦等战役，最终推翻了平氏政权。源赖朝夺取政权后，在地方领主的武力支持下，在镰仓地方初步建立
氧惠风暴来袭！低成本摆摊卖这些，让你日入过万！氧惠好物
在互联网时代，低成本创业已经成为可能。今天，我要给大家介绍一款名为氧惠的APP，它将与你的生活产生重大影响。氧惠，一个全新的抖客+淘客平台，以其独特的带货高补贴模式，正在改变着人们的购物习惯和赚钱方式。氧惠，一个全新的购物体验首先，让我们来看看氧惠的特点。氧惠是一款集购物、省钱、赚钱于一体的APP。它与淘宝、京东、拼多多等主流电商平台合作，为用户提供内部优惠券，涵盖了吃喝玩乐衣食住行的各个方面。这
骑昆明到北海—181 靖西市鹅泉 61清风i
从十年前第一次长途骑行青海湖开始每年一次长途骑行看风景，尝各地美食，探访异域文化，记录途中美食美景美事，已逐渐形成习惯。每年春季详细规划好线路，夏季出行，2020年因为疫情迟迟不能确定线路和行程。总算到了暑期疫情逐渐消失，规划了50多天的云南昆明—广西北海计划。本次行程从云南昆明出发到广西北海市结束，五十一天骑行二千多公里。2020年9月13日傍晚点从延平站出发，9月15日到达云南昆明开始这一旅程
己亥杂诗其四十八西津的渡客
己亥杂诗其四十八江南六月水深綠，菡萏亭亭歌一曲。奴出淤泥亦自清，淺如紅芍白如玉。（六月初二攜夫人外孫金山湖遊目賞荷，以備外孫課業）图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App
骑士新2号，3打5先生，塞克斯顿的标签还有什么？篮球行为大赏
今年夏天最大的新闻早已尘埃落定，詹姆斯在近日与湖人参加合练，为下赛季做着准备。湖人在拥有联盟第一人之后，燃起了进军季后赛的希望。虽然没能吸引足够多的巨星加盟，但如今的紫金军团已经行走在崛起的路上。而反观骑士，在失去了詹姆斯之后，他们并没有获得任何好处。不仅如此，随着詹皇离去，骑士阵中部分悍将也呈鸟兽状前往其他球队，克利夫兰又一次陷入灾难。在选秀大会上，骑士没能再次成为幸运儿，手握篮网签的他们最终只
第315篇｜【岁月守候】生活有时候也需要自得宅乐未之园
❁/岁月守候（D32-34）2021-10-04，星期一，阴68）国庆观影。天气凉下来，正是可以出去走一走。滨河湿地已经没有那么多人，主要还是孩子们玩充气城堡罢了。现在的生活是多么美好啊，但是什么时候也不能忘记今天幸福生活的来之不易。缅怀先烈，致敬英雄，祝福祖国繁荣昌盛，这才是国庆应有之义。所以，去看一场《长津湖》吧。国庆观影2021-10-05，星期二，阴69）自得宅乐。天气真的冷了下来，却是宅
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
湖南的这个地方，让你感受最正宗的端午节韶山非遗博览园
赛龙舟，吃粽子，还有凤凰特色的抢鸭子……今年的端午，照样热闹，各地节日气息浓厚。那么端午假期刚过，你们是怎么度过的呢?可能不同的地方习俗不太一样，如果你想感受最正宗的端午节，那就来汨罗江畔吧。农历五月初五的端午节，是中国三大传统节日之一。汨罗江畔端午节习俗涵盖了屈原文化、龙舟文化、节庆文化等多重内容，与一条名江(汨罗江)、一位名人(屈原)、一座古祠(屈子祠)紧紧连为一体，并衍生出一项与祭屈相关的龙
日艺 | 18.11.12 《圣三位一体》 Artademie艺术派
《圣三位一体》，1428年，马萨乔，湿壁画，佛罗伦萨新圣母大教堂马萨乔（TommasodiSerGiovannidiSimone,Masaccio）文艺复兴时期最重要的人文主义画家之一，他是艺术史上第一位使用透视法的艺术家。在古希腊时期，就有艺术家在陶罐上使用“短缩法”绘制物体，这种方法让希腊人得以通过缩短所画对象的尺寸，而将三维空间转移到平面上。然而却始终是通过对自然细致入微的观察而得到的经验主
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
游园杨自路
今天是5月2日，月季大观园正式对外开放的第二天。早已听说游人爆满，本不想去凑热闹，正好老家来了亲戚，就一起去了。因为听说景区外面实施交通管制，所以就坐公交去，公交也是爆满，不过还算运气好，刚到站点就赶上了一趟公交。晃晃悠悠走了40多分钟才到，到时已经四点多了。天很热，太阳很毒，游人们兴致高涨。从东园进去，一眼便看见了一个大湖，湖对岸是月季大会主会场，造型像一朵盛开的粉色月季花，很漂亮。我们逆时针一
主流行架构 rainbowcheng 架构架构
nexus，gitlab,svn,jenkins,sonar,docker，apollo，catteambition，axure，蓝湖，禅道,WCP；redis，kafka，es，zookeeper，dubbo，shardingjdbc，mysql，InfluxDB，Telegraf，Grafana，Nginx，xxl-job，Neo4j,NebulaGraph是一个高性能的,NOSQL图形数据库
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR