weixin_45626756

数据湖浅析(以hudi为例)

数据湖定义

业界对于数据湖的定义存在一定争议，个人认为数据湖就是针对传统hive数仓不支持acid、upsert、schema evolution等痛点上，提出的一种数据存储库。
hive的痛点：hive主要特性是提供了sql解析和元数据管理的功能，统一管理了存储在hdfs上数据的shcmea信息。但是设计之初hive并没有考虑支持upsert，schema evolution等特性，基于这些业务痛点，数据湖应运而生。

湖仓湖的核心特点

1、ACID特性的支持

ACDID即数据库中事务特性，但是数据湖的事务和oltp数据库的数据特性不同，数据湖是粗粒度的事务控制(filegroup级别)。所谓事务，本质就是一个并发问题，本质在于解决读写冲突和写写冲突。以hudi为例，支持行级并发控制和列级别并发控制(通过TimeLine实现)。

并发控制：hudi中的每个commit都被抽象为TimeLine上的一个instance，instance记录了本次操作的行为、时间戳和状态。冲突检查会在 instant 状态变换的两个节点进行，一个是 requested 转 inflight 状态，一个是 inflight 转 completed 状态。其中，后者状态变换时，会进行加锁操作，以实现版本隔离。
冲突检查即是对 instant 创建到状态变化的过程中其他已经完成/正在执行的 instant 之间的进行冲突检查，检查策略分为行列两种。

行级别的冲突检查即是不能同时有两个 instant 往同一个 file group 写。
列级别的冲突检查即是可以有两个 instant 往同一个 file group 写，但是两个 instant 写入的schema 不可以存在交集。
每个 instant 只写入 schema 中的部分列，log 文件中的数据只包含 schema 中的部分
Compaction 按主键拼接不同列下的数据，Parquet 文件中存储的数据拥有完整的 schema

2、upsert支持

hudi支持对数据的upsert操作，对于upsert操作的支持是通过hudi的文件组织特性保证的。hudi中分为COW和MOR两种类型的表，upsert操作的时候，会根据每条数据的record key进行定位。

COW表：使用专门的列式文件格式存储数据，更新时保存多版本，并且在写的过程中通过异步的Merge来实现重写（Rewrite）数据文件。
COW表只包含列式格式的Base文件，每次执行COMMIT操作会生成新版本的Base文件，最终执行COMPACTION操作时还是会生成列式格式的Base文件。每次执行INSERT或UPDATE操作，都会在Timeline上生成一个的COMMIT，同时对应着一个文件分片（File Slice）。如果是INSERT操作则生成文件分组的第一个新的文件分片，如果是UPDATE操作则会生成一个新版本的文件分片。
MOR表：使用列式和行式文件格式混合的方式来存储数据，列式文件格式比如Parquet，行式文件格式比如Avro。更新时写入到增量（Delta）文件中，之后通过同步或异步的COMPACTION操作，生成新版本的列式格式文件。
Merge-On-Read表存在列式格式的Base文件，也存在行式格式的增量（Delta）文件，新到达的更新都会写到增量日志文件中，根据实际情况进行COMPACTION操作来将增量文件合并到Base文件上。通常，需要有效的控制增量日志文件的大小，来平衡读放大和写放大的影响。
下图中，每个文件分组都对应一个增量日志文件（Delta Log File）。COMPACTION操作在后台定时执行，会把对应的增量日志文件合并到文件分组的Base文件中，生成新版本的Base文件。

3、增量查询

Hudi支持三种查询类型：

Snapshot Query：只能查询到给定COMMIT或COMPACTION后的最新快照数据。对于Copy-On-Write表，Snapshot Query能够查询到，已经存在的列式格式文件（Parquet文件）；对于Merge-On-Read表，Snapshot Query能够查询到，通过合并已存在的Base文件和增量日志文件得到的数据。
Incremental Query：可以根据commit时间查询固定时间之后的数据。即只能查询到最新写入Hudi表的数据，也就是给定的COMMIT/COMPACTION之后的最新数据。
Read Optimized Query：只能查询到给定的COMMIT/COMPACTION之前所限定范围的最新数据。也就是说，只能看到列式格式Base文件中的最新数据。

4、schema evolution

hive更改表schema后需要全表回溯数据，是一种很重的操作。而iceberg的schema evolution特性可以支持修改表的schema。
基本原理是将底层parquet文件中的schema信息和iceberg中的schema建立ID映射。parquet文件的footer中会存储文件中的列信息，将parquet文件中的列信息和iceberg metastore中的列信息通过一个唯一ID建立映射关系。当读取文件时，根据iceberg metastore中列的ID信息，在parquet文件filter出对应列数据。写数据时将column ID和数据一起写入文件中，新列赋新ID，删除的ID不复。
读取数据时，用ID做映射，如果数据文件中没有，如果：

数据文件中没有，而metadata中有，说明表进行了add column操作，没有的column赋null值
数据文件中有，而metadata中有，说明表进行了delete column操作，读取parquet文件时过滤删除的列数据。
数据文件和metadate有相同的column ID但是column name不一样，说明表进行了rename操作。

partition evolution：iceberg支持更改表的分区字段，如开始为date分区，之后可以改为date、hour分区。因为iceberg数据中包含timestamp列，通过设置partition transform方式，iceberg会记录转换关系，并按需要进行partition evolution

5、timeline service

Hudi内部对每个表都维护了一个Timeline，这个Timeline是由一组作用在某个表上的Instant对象组成。Instant表示在某个时间点对表进行操作的，从而达到某一个状态的表示，所以Instant包含Instant Action，Instant Time和Instant State这三个内容，它们的含义如下所示：

Instant Action：对Hudi表执行的操作类型，目前包括COMMITS、CLEANS、DELTA_COMMIT、COMPACTION、ROLLBACK、SAVEPOINT这6种操作类型。
Instant Time：表示一个时间戳，这个时间戳必须是按照Instant Action开始执行的时间顺序单调递增的。
Instant State：表示在指定的时间点（Instant Time）对Hudi表执行操作（Instant Action）后，表所处的状态，目前包括REQUESTED（已调度但未初始化）、INFLIGHT（当前正在执行）、COMPLETED（操作执行完成）这3种状态。

根据上图，说明如下：

例子场景是，在10:00~10.20之间，要对一个Hudi表执行Upsert操作，操作的频率大约是5分钟执行一次。
每次操作执行完成，会看到对应这个Hudi表的Timeline上，有一系列的COMMIT元数据生成。
当满足一定条件时，会在指定的时刻对这些COMMIT进行CLEANS和COMPACTION操作，这两个操作都是在后台完成，其中在10:05之后执行了一次CLEANS操作，10:10之后执行了一次COMPACTION操作。

我们看到，从数据生成到最终到达Hudi系统，可能存在延迟，如图中数据大约在07:00、08:00、09:00时生成，数据到达大约延迟了分别3、2、1小时多，最终生成COMMIT的时间才是Upsert的时间。对于数据到达时间（Arrival Time）和事件时间（Event Time）相关的数据延迟性（Latency）和完整性（Completeness）的权衡，Hudi可以将数据Upsert到更早时间的Buckets或Folders下面。通过使用Timeline来管理，当增量查询10:00之后的最新数据时，可以非常高效的找到10:00之后发生过更新的文件，而不必根据延迟时间再去扫描更早时间的文件，比如这里，就不需要扫描7:00、8:00或9:00这些时刻对应的文件（Buckets）。

6、timeline 增量查询

为了支持增量查询，Hudi使用时间轴（Timeline）功能来跟踪表的变更历史，并记录每个操作的增量包含的文件路径和时间戳信息。通过时间轴和查询引擎，Hudi可以组合不同的数据文件，查找给定时间戳或时间范围内的所有增量操作。这样，即使在COW表中没有Delta文件，Hudi仍然可以跟踪和查询表的更新历史记录。
COW表的增量查询：

Hudi引擎会首先查询时间轴（Timeline），以查找给定时间戳或时间范围内涉及到的所有文件路径（File Paths）
读取每个数据文件时，Hudi引擎需要使用该文件的元数据信息（File Metadata）来定位增量数据记录和相关的记录键（Record Key）。parquet的File Metadata记录了该文件中包含的所有记录的元数据信息，包括**记录键（Record Key）、时间戳（Timestamp）**等相关信息。增量查询时引擎会先解析数据文件元数据，并使用其中的时间戳和记录键信息来过滤出符合条件的记录。
当Hudi引擎从数据文件中提取出指定时间戳或时间范围内的增量数据记录之后，剩下的查询工作就是标准的数据记录查询。Hudi引擎会使用记录键（Record Key）和时间戳（Timestamp）的组合来唯一标识每个记录和其对应的增量数据历史记录，并在查询时使用这些信息来定位和选择特定的增量数据记录，最终返回给用户符合条件的查询结果。

7、事务

Hudi的事务功能被称为Timeline，因为Hudi把所有对一张表的操作都保存在一个时间线对象里面。Hudi官方文档中对于Timeline功能的介绍稍微有点复杂，不是很清晰。其实从用户角度来看的话，Hudi提供的事务相关能力主要是这些：
hudi基于timeline实现事务，timeline上每个instant会包含当前版本对于的file path list。当client读取数据时，首先会查看timeline里最新的commit是哪个，从最新的commit里获得对应的文件列表，再去这些文件读取真正的数据。

Hudi通过这种方式实现了多版本隔离的能力。当一个client正在读取v1的数据时，另一个client可以同时写入新的数据，新的数据会被写入新的文件里，不影响v1用到的数据文件。只有当数据全部写完以后，v2才会被commit到timeline里面。后续的client再读取时，读到的就是v2的数据。

顺带一提的是，尽管Hudi具备多版本数据管理的能力，但旧版本的数据不会无限制地保留下去。Hudi会在新的commit完成时开始清理旧的数据，默认的策略是“清理早于10个commit前的数据”。
hudi事务和增量查询原理

Hudi主要设计

Hudi相较与传统数仓的TableStructre主要做了以下设计

定义RecordKey，每个Record必须有唯一的主键
分区的文件划分成多个FileGroup(表观上是具有相同前缀的一组文件)，同一个RecordKey只能属于一个FileGroup
FileGroup内的文件分为BaseFile和DeltaFile。DeltaFile记录对BaseFile的修改。多版本的BaseFile可能会同时存在；Compaction任务会把DeltaFile和BaseFile合并成新的BaseFile
引入.hoodie元数据文件夹，主要记录commit文件，每次数据导入/Compaction等对文件结构的修改都必须提交commit文件来确保持久化

Hudi文件管理

1、文件版本

一个新的 base commit time 对应一个新的 FileSlice，实际就是一个新的数据版本。HUDI 通过 TableFileSystemView 抽象来管理 table 对应的文件，比如找到所有最新版本 FileSlice 中的 base file （Copy On Write Snapshot 读）或者 base + log files（Merge On Read 读)。
通过 Timeline 和 TableFileSystemView 抽象，HUDI 实现了非常便捷和高效的表文件查找。

2、文件格式

Hoodie 的每个 FileSlice 中包含一个 base file （merge on read 模式可能没有）和多个 log file （copy on write 模式没有）。
每个文件的文件名都带有其归属的 FileID（即 FileGroup Identifier）和 base commit time（即 InstanceTime）。通过文件名的 group id 组织 FileGroup 的 logical 关系；通过文件名的 base commit time 组织 FileSlice 的逻辑关系。
HUDI 的 base file的包含数据文件头（File Footer）和数据文件元数据（File Metadata）
在 footer 的 meta 中记录了 record key 组成的 BloomFilter，用于在 file based index 的实现中实现高效率的 key contains 检测。只有不在 BloomFilter 的 key 才需要扫描整个文件消灭假阳。
在File Metadata中记录了文件中包含的所有记录的元数据信息，包括每个记录的记录键（Record Key）和时间戳（Timestamp），以及其他与记录相关的信息。通过读取和解析数据文件元数据，Hudi可以确定每个数据文件中包含哪些增量写记录，以及每个记录的更新时间戳和其他相关的元数据信息。

HUDI 的 log （avro 文件）是自己编码的，通过积攒数据 buffer 以 LogBlock 为单位写出，每个 LogBlock 包含 magic number、size、content、footer 等信息，用于数据读、校验和过滤。

3、Index

Hoodie key (record key + partition path) 和 file id (FileGroup) 之间的映射关系，数据第一次写入文件后保持不变，所以，一个 FileGroup 包含了一批 record 的所有版本记录。Index 用于区分消息是 INSERT还是 UPDATE。
Index创建过程：

新增 records 找到映射关系：record key => target partition
当前最新的数据找到映射关系：partition => (fileID, minRecordKey, maxRecordKey) LIST （如果是 base files 可加速）
新增 records 找到需要搜索的映射关系：fileID => HoodieKey(record key + partition path) LIST，key 是候选的 fileID
通过 HoodieKeyLookupHandle 查找目标文件（通过 BloomFilter 加速）

索引类型

Bloom Index：通过BloomFilter快速定位可能的FileGroup，减少数据扫描的范围，大数据量可能存在假阳问题。
Hbase Index：将HoodieKey与FileGroup的关系放到Hbase中，在插入FileGroup定位阶段所有task向Hbase发送Batch Get请求，获取Record Key的mapping信息。对小批次的keys查询效率高，但是需要引入外部系统，增加运维压力。
Simple Index：将需要更新的key与base文件的key进行join，性能较差
Hive Bucket Index：为避免Bloom Index的假阳引入的分桶索引，将Record Key打散为多个Bucket，每个Bucket对应一个FileGroup。理论上有Bucket会出现数据倾斜。
Non Index：字节针对日志数据的优化，适合无主键的日志数据导入，数据不会根据主键进行去重，支持高效的Append操作。
Flinke State：HUDI 在 0.8.0 版本中实现的 Flink witer，采用了 Flink的 state 作为底层的 index 存储，每个 records 在写入之前都会先计算目标 bucket ID。Flink是基于状态计算，如果索引数据特别大，进一步影响Flink的CK，另一部分会影响Flink资源的使用，可以进行状态调优
注意：Flink 只有一种 state based index（和 bucket_index），其他 index 是 Spark 可选配置。

Bloom Index的具体流程：

将要插入的Record以RecordKey为标示构建RDD[RecordKey]，大小为M
分区内全部BaseFile集合构建RDD[BaseFile]，大小为N
两个集合做笛卡尔积，生成一个RDD[RecordKey,BaseFile]，大小为M*N。
每个(RecordKey,BaseFile),加载BaseFile对应的BloomFilter，判断RecordKey是否存在
如果存在，加载BaseFile的所有Key判断是否精确命中
org.apache.hudi.index.bloom.SparkHoodieBloomIndex

4、文件布局

Hudi在分布式文件系统的基础路径下将数据表组织成目录结构

表被按照分区进行切分，每个分区在基础路径下为一个子目录
在每个分区内，文件被组织成File Group，由File ID唯一标识
每个File Group包含多个File Silce
每个File Silce都包含一个在某个Instance生成的BaseFile(.parquet)，以及一组LogFile(.log.*)
.hoodie 目录是 Hudi 表的核心目录，它包含了 Hudi 表的元数据和其他相关文件和目录
.temp 目录用于存储正在写入的数据
.tmp 目录用于存储已完成写入但尚未提交的数据
archive 目录用于存储归档数据
metadata 目录包含了所有分区的元数据信息
timeline.json 文件包含了表的时间轴信息
version 文件包含了表的版本信息
write.lock 文件用于控制并发写入
.hoodie_partition_metadata 文件包含了该分区的元数据信息，例如分区键、分区路径等。
分区目录是按照分区键组织的目录，每个分区目录下都包含了该分区下的所有数据文件和 .hoodie_partition_metadata 文件。

Hudi写入流程

1、COW

先对 records 按照 record key 去重
首先对这批数据创建索引 (HoodieKey => HoodieRecordLocation)；通过索引区分哪些 records 是 update，哪些 records 是 insert（key 第一次写入）
对于 update 消息，会直接找到对应 key 所在的最新 FileSlice 的 base 文件，并做 merge 后写新的 base file (新的 FileSlice)
对于 insert 消息，会扫描当前 partition 的所有 SmallFile（小于一定大小的 base file），然后 merge 写新的 FileSlice；如果没有 SmallFile，直接写新的 FileGroup + FileSlice

2、MOR

先对 records 按照 record key 去重（可选）
首先对这批数据创建索引 (HoodieKey => HoodieRecordLocation)；通过索引区分哪些 records 是 update，哪些 records 是 insert（key 第一次写入）
如果是 insert 消息，如果 log file 不可建索引（默认），会尝试 merge 分区内最小的 base file （不包含 log file 的 FileSlice），生成新的 FileSlice；如果没有 base file 就新写一个 FileGroup + FileSlice + base file；如果 log file 可建索引，尝试 append 小的 log file，如果没有就新写一个 FileGroup + FileSlice + base file
如果是 update 消息，写对应的 file group + file slice，直接 append 最新的 log file（如果碰巧是当前最小的小文件，会 merge base file，生成新的 file slice）log file 大小达到阈值会 roll over 一个新的

COW和MOR对比

COW

场景：适合离线场景(写少读多)
存储：列存(Parquet)
写入：每次写入数据，会先读取已有数据文件，然后与更新数据合并写入新的文件
查询：支持Hive表类似的HQL查询

MOR

场景：更适合近实时/实时场景(写多读少)
存储：行存(Delta Log)+列存(Base File)
写入：每次数据写入会先Append进行行存(Delta Log)，写入指定次数后，行存文件会与列存文件(BaseFile)进行合并生产新的列存文件，即Compaction过程
查询：
RealTime查询：读取行存+列存，数据延迟低
ReadOptimized查询：近读取列存数据，查询性能高
Incremental查询：适合用于增量消费场景(需要指定时间戳)

Hudi Compact操作

没有 base file：走 copy on write insert 流程，直接 merge 所有的 log file 并写 base file
有 base file：走 copy on write upsert 流程，先读 log file 建 index，再读 base file，最后读 log file 写新的 base file

Flink 和 Spark streaming 的 writer 都可以 apply 异步的 compaction 策略，按照间隔 commits 数或者时间来触发 compaction 任务，在独立的 pipeline 中执行。

总结

通过对写流程的梳理我们了解到 HUDI 相对于其他数据湖方案的核心优势：

写入过程充分优化了文件存储的小文件问题，Copy On Write 写会一直将一个 bucket （FileGroup）的 base 文件写到设定的阈值大小才会划分新的 bucket；Merge On Read 写在同一个 bucket 中，log file 也是一直 append 直到大小超过设定的阈值 roll over。
对 UPDATE 和 DELETE 的支持非常高效，一条 record 的整个生命周期操作都发生在同一个 bucket，不仅减少小文件数量，也提升了数据读取的效率（不必要的 join 和 merge）。

hudi增删改查基础api

import org.apache.hudi.{DataSourceReadOptions, DataSourceWriteOptions}
import org.apache.hudi.common.table.HoodieTableConfig
import org.apache.hudi.config.HoodieWriteConfig
import org.apache.spark.sql.functions.{col, concat_ws}
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

import scala.collection.mutable

object HudiApiTest {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().enableHiveSupport().getOrCreate()

    /**
     * 写hudi
     * BULK_INSERT_OVERWRITE_OPERATION_OPT_VAL指定分区overwrite语意，
     * 或者通过DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY -> "date,hour"指定分区字段
     * mode必须是SaveMode.Append，SaveMode.Overwrite会覆盖整个表
     */
    val insertDF = spark.sql(
      """
        |select md5(concat('','.','dp_compliance','.','hoodie_test')) as id,'' as cluster_name,'dp_compliance' as database_name,'hoodie_test' as table_name,'20230518' as date,'00' as hour
        |union all
        |select md5(concat('','.','dp_compliance','.','hoodie_test2')) as id,'' as cluster_name,'dp_compliance' as database_name,'hoodie_test2' as table_name,'20230518' as date,'00' as hour
        |""".stripMargin)
    val configs = new mutable.HashMap[String, String]()
    configs += (HoodieTableConfig.HOODIE_TABLE_NAME_PROP_NAME -> "test_bytelake")
    configs += (HoodieTableConfig.HOODIE_DATABASE_NAME_PROP_NAME -> "dp_compliance_test")
//    指定分区字段
//    configs += (DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY -> "date,hour")
//    或者动态分区
    configs += (DataSourceWriteOptions.OPERATION_OPT_KEY -> DataSourceWriteOptions.BULK_INSERT_OVERWRITE_OPERATION_OPT_VAL)

    insertDF.write
    .format("hudi")
    .options(configs)
    .mode(SaveMode.Append)  //BULK_INSERT_OVERWRITE_OPERATION_OPT_VAL控制分区overwrite语意
    .save()

    /**
     * 查询数据
     */
    spark
      .read
      .format("hudi")
      .load("hdfs://harunava/home/byte_dw_compliance/warehouse/dp_compliance_test.db/test_bytelake/*/*")
      .show()

    /**
     * 更新数据
     * 更新数据和insert相同，hudi根据主键recordkey更新数据，保留最新的一条
     */
    val updateDF = spark
      .sql(
        """
          |select md5(concat('','.','dp_compliance','.','hoodie_test2')) as id,'' as cluster_name,'dp_compliance' as database_name,'hoodie_test3' as table_name,'20230518' as date,'00' as hour
          |""".stripMargin)
    updateDF.write
      .format("hudi")
      .options(configs)
      .mode(SaveMode.Append)  //BULK_INSERT_OVERWRITE_OPERATION_OPT_VAL控制分区overwrite语意
      .save()

    /**
     * 增量查询
     * 指定数据查询方式，有以下三种：
     * val QUERY_TYPE_SNAPSHOT_OPT_VAL = "snapshot"    -- 获取最新所有数据 , 默认
     * val QUERY_TYPE_INCREMENTAL_OPT_VAL = "incremental"  --获取指定时间戳后的变化数据
     * val QUERY_TYPE_READ_OPTIMIZED_OPT_VAL = "read_optimized"  -- 只查询Base文件中的数据
     */
    spark
      .read
      .format("hudi")
      .option(DataSourceReadOptions.QUERY_TYPE_OPT_KEY,DataSourceReadOptions.QUERY_TYPE_INCREMENTAL_OPT_VAL)
//      指定查询某个时间戳之前提交的数据，依据_hoodie_commit_time筛选
      .option(DataSourceReadOptions.BEGIN_INSTANTTIME_OPT_KEY,"20230520071825")
      .load("/home/byte_dw_compliance/warehouse/dp_compliance_test.db/test_bytelake/*/*/")
      .show()

    spark
      .read.format("hudi")
      .option(DataSourceReadOptions.QUERY_TYPE_OPT_KEY,DataSourceReadOptions.QUERY_TYPE_INCREMENTAL_OPT_VAL)
      //指定查询开始时间（不包含），“000”指定为最早时间
      .option(DataSourceReadOptions.BEGIN_INSTANTTIME_OPT_KEY, "00000")
      //指定查询结束时间（包含）
      .option(DataSourceReadOptions.END_INSTANTTIME_OPT_KEY, "20230520071825")
      .load("/home/byte_dw_compliance/warehouse/dp_compliance_test.db/test_bytelake/*/*/")
      .show()

    /**
     * 删除数据
     * 删除时根据分区和主键定位，都相同时删除数据
     */
    val deleteDF = spark.sql(
      """
        |select md5(concat('','.','dp_compliance','.','hoodie_test')) as id,'20230518' as date,'00' as hour
        |union all
        |select md5(concat('','.','dp_compliance','.','hoodie_test2')) as id,'20230518' as date,'01' as hour
        |""".stripMargin)

    deleteDF.write.format("hudi")
      //指定表名，这里的表明需要与之前指定的表名保持一致
      .option(HoodieTableConfig.HOODIE_DATABASE_NAME_PROP_NAME,"dp_compliance_test")
      .option(HoodieTableConfig.HOODIE_TABLE_NAME_PROP_NAME,"test_bytelake")
      //指定操作模式为delete
      .option(DataSourceWriteOptions.OPERATION_OPT_KEY,DataSourceWriteOptions.DELETE_OPERATION_OPT_VAL)
      //指定分区字段
      .option(DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY,"date,hour")
      //设置删除并行度设置，默认1500并行度
      .option("hoodie.delete.shuffle.parallelism", "2")
      .mode(SaveMode.Append).save()
  }
}

Hudi与Spark整合 API

计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
flutter 使用xcodebuild 命令打包ipa 肥肥呀呀呀 flutter
苹果打ipa包(注意苹果打包需要连接真机)方式一、1.先执行flutterbuildios生成framework2.执行命令xcodebuild-exportArchive-archivePathbuild/ios/Runner.xcarchive-exportOptionsPlistexportOptions.plist-exportPathbuild/ios/ipaexportOptions.
《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐洪显彦Lawyer
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐TBBKAnalysis关于淘宝“爆款”数据爬取与分析。具体分析见—项目地址:https://gitcode.com/gh_mirrors/tb/TBBKAnalysis在数字化时代的数据洪流中，每一个细微的数据点都蕴含着洞察未来的机遇。今天，我们要探讨的是一个独特且极具启发性的开源项目——TBBKAnalysis。该项目源自知乎上一
使用 DingoDB 创建自查询检索器的实战演示 fgayif python
DingoDB深入解析与实战演示DingoDB是一种分布式多模向量数据库，它结合了数据湖和向量数据库的特点，能够存储任何类型和大小的数据（如Key-Value、PDF、音频、视频等）。它具有实时低延迟处理能力，可以快速获取洞察并响应，还能高效进行即时分析和处理多模数据。在本教程中，我们将演示如何使用DingoDB向量存储来创建一个自查询检索器。技术背景介绍DingoDB的设计结合了数据湖的灵活性和
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结 dazhong2012 Hadoop hdfs hadoop
一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir#递归创建目录hadoopfs-mkdir-p删除操作#删除文件hadoopfs-rm#递归删除目录和文件hadoopfs-rm-R从本地加载文件到HDFS#二选一执行即可hadoopfs-p
Java 大视界 -- 基于 Java 的大数据实时流处理中的窗口操作与时间语义详解（135）青云交大数据新视界 Java 大视界 java 大数据大数据实时流处理窗口操作时间语义滚动窗口滑动窗口
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
oracle cdc logminer与oracle xstream 24k小善 java 大数据 flink
以下为OracleCDC技术中XStream与LogMiner的核心差异解析，结合技术背景、实现原理、性能表现等维度进行系统化对比。一、技术背景与定位差异LogMiner：官方日志分析工具的非正式应用最初设计用于数据库管理员（DBA）审计和分析历史日志，非专为CDC场景优化[1][9][16]。通过解析归档日志（ArchiveLog）或在线日志（OnlineRedoLog）提取变更记录，采用轮询机
题解 | 牛客周赛 Round 49 DEF Java题解 han_xue_feng java
面试又黄了反正不是什么喜欢的工作[牛泪]面试又黄了反正不是什么喜欢的工作2024秋招数据开发第一波面试题露出#字节##滴滴##大数据##面经##秋招#引流字节阿里巴巴腾讯百度美团美团后端暑期实习体验——实习的一天早上：8点半出门坐地铁，9点下地铁到惠新西街南口地铁站，出地铁站坐班车（这一点还是不错的），9点30深圳阿里实习day1领工牌mac，认工位mentor，配环境看文档，七点就润了。看各个文
Search after解决ES深度分页问题 Elastic开源社区 elasticsearch 大数据 search after 深度分页 ES
文章目录1、search_after的作用和意义2、search_after的工作原理3、search_after的使用方法4、注意事项5、与传统分页的对比6、总结search_after是Elasticsearch中用于实现深度分页的一种机制。相比于传统的from和size分页方式，search_after更适合处理大数据集的分页查询，因为它避免了深度分页带来的性能问题。1、search_aft
第七章Solr：企业级搜索应用 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
第七章Solr：企业级搜索应用1.背景介绍1.1搜索引擎的重要性在当今信息时代,数据量呈指数级增长,海量数据中蕴含着极其宝贵的信息和知识。然而,如何快速、准确地从大数据中检索出所需的信息,一直是企业和组织面临的巨大挑战。传统的数据库查询方式已经无法满足现代搜索需求,因此高效的搜索引擎应运而生。1.2什么是SolrApacheSolr是一个高性能、可扩展、云就绪的企业级搜索平台,由Apache软件基
金融租赁系统的创新发展与市场竞争力提升探讨红点租赁系统开发其他
内容概要随着经济的快速发展，金融租赁系统逐渐成为金融市场中不可或缺的一环。它不仅提供了灵活的资金解决方案，还促进了企业的资本结构优化与资源配置效率。因此，了解该系统的市场背景与发展现状至关重要。在现今环境下，新兴技术如人工智能、大数据和区块链等正加速推动金融租赁的创新。通过这些技术，不仅可以优化业务流程，提升运营效率，还可以增强风险管理能力。例如，利用数据分析可以实时监测租赁资产的风险，从而采取相
csv转为utf8编码_中文的csv文件的编码改成utf8的方法 John Sheppard csv转为utf8编码
直奔主题：把包含中文的csv文件的编码改成utf-8的方法：啰嗦几句：在用pandas读取hive导出的csv文件时，经常会遇到类似UnicodeDecodeError:'gbk'codeccan'tdecodebyte0xa3inposition12这样的问题，这种问题是因为导出的csv文件包含中文，且这些中文的编码不是gbk，直接用excel打开这些文件还会出现乱码，但用记事本打开这些csv则
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S