滴普科技

利用jemalloc解决flink的内存溢出问题

前言：

遇到一个Linux系统 glibc内存分配导致的OOM问题，根源是内存回收出现问题，导致碎片太多，内存无法回收，系统认为内存不够用了。
涉及到以下知识点：
1、Linux中典型的64M内存区域问题
2、glibc内存分配器ptmalloc2的底层原理
3、glibc的内存分配原理（Arean、Chunk、bins等）
4、malloc_trim对内存回收的影响

1、问题描述

前段时间做POC，在测试的过程中发现一个问题，使用Flink集群Session模式反复跑批处理任务时，集群某些节点TaskManger总是突然挂掉。
查看挂掉节点的系统日志发现原因是：操作系统内存被耗尽，触发了系统OOM，导致Flink TaskManager进程被操作系统杀掉了，下图：

从图二可以看到，taskManager进程已经占了67%的内存40多G内存，继续跑任务还会继续增加

2、配置

2.1 测试环境及配置

测试使用的版本如下所示：
Flink 1.14.3
Icberg 0.13.1
Hive 3.1.2
Hadoop 3.3.1
jdk1.8.0_181
FLink Standalone配置
jobmanager.rpc.address: 127.127.127.127
jobmanager.rpc.port: 6123
env.java.opts: “-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/home/bigdata/dump.hprof”
jobmanager.memory.process.size: 2000m – flink JM进程总内存
jobstore.expiration-time: 36000 – 已完成任务保留时间，每个任务会消耗50M内存
taskmanager.memory.process.size: 22000m – Flink TM进程总内存
taskmanager.numberOfTaskSlots: 22
parallelism.default: 100
taskmanager.network.sort-shuffle.min-parallelism: 1 – 默认使用sort-shuffle，flink 1.15之后默认就是1
taskmanager.network.blocking-shuffle.compression.enabled: true – 是否启用压缩
taskmanager.memory.framework.off-heap.size: 1000m
taskmanager.memory.framework.off-heap.batch-shuffle.size: 512m
execution.checkpointing.interval: 60000
execution.checkpointing.unaligned: true – 启用未对齐的检查点，这将大大减少背压下的检查点时间
execution.checkpointing.mode: AT_LEAST_ONCE – 配置数据处理次数，至少一次可以减少背压，加快处理速度
io.tmp.dirs: /home/testdir – 临时文件存储位置，批处理和流处理，要注意磁盘空间是否够用
execution.checkpointing.checkpoints-after-tasks-finish.enabled: true – 打开已完成job不影响checkpoint
可以看到，在配置中，此TaskManager分配的内存为22G，实际上通过TOP看到的结果已经达到了40+G。

4、定位过程

4.1 查看内存占用情况

经过初步定位发现，在调用icebergStreamWriter的时候内存会猛涨一下，任务跑完之后，这块多出来的内存并不会回收，怀疑是申请了堆外内存做缓存，用完之后未释放
首先通过阿里的Arthas看一下内存情况

curl -O https://arthas.aliyun.com/arthas-boot.jar

java -jar arthas-boot.jar

[INFO] arthas-boot version: 3.5.5
[INFO] Process 142388 already using port 3658
[INFO] Process 142388 already using port 8563
[INFO] Found existing java process, please choose one and input the serial number of the process, eg : 1. Then hit ENTER.

[1]: 142388 org.apache.flink.runtime.taskexecutor.TaskManagerRunner
[2]: 2161 org.apache.ranger.authentication.UnixAuthenticationService
[3]: 142577 org.apache.flink.table.client.SqlClient
[4]: 170692 org.apache.hadoop.hdfs.server.datanode.DataNode
[5]: 170900 org.apache.hadoop.yarn.server.nodemanager.NodeManager
[6]: 73912 org.apache.flink.table.client.SqlClient
[7]: 141982 org.apache.flink.runtime.entrypoint.StandaloneSessionClusterEntrypoint

然后输入1，Enter

然后输入dashboard即可看到当前内存情况

可以发现进程的堆内存只有6.3G，非堆也很小，加起来不到6.5G，那另外30多G内存被谁消耗了，查看JVM内存分配，如下所示

堆（Heap）：eden、metaspace、old 区域等
线程栈（Thread Stack）：每个线程栈预留 1M 的线程栈大小
非堆（Non-heap）：包括 code_cache、metaspace 等
堆外内存：unsafe.allocateMemory 和 DirectByteBuffer申请的堆外内存
native （C/C++ 代码）申请的内存
还有 JVM 运行本身需要的内存，比如 GC 等。

初步怀疑这块内存应该是被native内存或者堆外内存消耗掉了
堆外内存可以使用NMT(Native Memory Tracking (NMT) )工具进行查看
NMT必须先通过VM启动参数中打开，不过要注意的是，打开NMT会带来5%-10%的性能损耗。
-XX:NativeMemoryTracking=[off | summary | detail]

off: 默认关闭

summary: 只统计各个分类的内存使用情况.

detail: Collect memory usage by individual call sites.

flink的NMT开关应该设置在flink-conf.yaml中，如下
env.java.opts: “-XX:+HeapDumpOnOutOfMemoryError -XX:NativeMemoryTracking=detail”，再次多次执行任务之后，查看结果：
[root@node11 ~]# jcmd 46538 VM.native_memory
46538:

Native Memory Tracking:

Total: reserved=14674985KB, committed=13459465KB

            Java Heap (reserved=10657792KB, committed=10657792KB)
                      (mmap: reserved=10657792KB, committed=10657792KB)

                Class (reserved=1184412KB, committed=149916KB)
                      (classes #17919)
                      (malloc=27292KB #30478)
                      (mmap: reserved=1157120KB, committed=122624KB)

               Thread (reserved=389173KB, committed=389173KB)
                      (thread #378)
                      (stack: reserved=387392KB, committed=387392KB)
                      (malloc=1243KB #1910)
                      (arena=538KB #739)

                 Code (reserved=262665KB, committed=81641KB)
                      (malloc=13065KB #20566)
                      (mmap: reserved=249600KB, committed=68576KB)

                   GC (reserved=417087KB, committed=417087KB)
                      (malloc=27699KB #650)
                      (mmap: reserved=389388KB, committed=389388KB)

             Compiler (reserved=779KB, committed=779KB)
                      (malloc=648KB #1797)
                      (arena=131KB #18)

             Internal (reserved=1729717KB, committed=1729717KB)
                      (malloc=1729685KB #79138)
                      (mmap: reserved=32KB, committed=32KB)

               Symbol (reserved=27077KB, committed=27077KB)
                      (malloc=24416KB #216304)
                      (arena=2661KB #1)

Native Memory Tracking (reserved=6055KB, committed=6055KB)
(malloc=459KB #6453)
(tracking overhead=5596KB)

          Arena Chunk (reserved=228KB, committed=228KB)
                      (malloc=228KB)

堆外内存占用很少，远远达不到TaskManager进程占用的大小。
因为 NMT 不会追踪 native （C/C++ 代码）申请的内存，如压缩解压部分，到这里基本已经怀疑是 native 代码导致的。

4.2 使用jemalloc分析内存分配情况

分析代码无果，决定使用内存分析工具来分析一下到底是什么占用这么多内存。
找到了一篇文档，如下：
https://www.evanjones.ca/java-native-leak-bug.html

4.2.1 安装和配置 jemalloc

./configure --enable-prof
make
make install
然后在/etc/profile中配置一下：
export LD_PRELOAD=/usr/local/lib/libjemalloc.so

备注：
如果要生成分析文件需要多加一条配置：
export MALLOC_CONF=“prof:true,prof_prefix:/home/bigdata/jeprof.out,lg_prof_interval:30,lg_prof_sample:20”
参数 lg_prof_interval:30，其含义是内存每增加 1GB（2^30，可以根据需要修改，这里只是一个例子），就输出一份内存 profile。这样随着时间的推移，如果发生了内存的突然增长（超过设置的阈值），那么相应的 profile 一定会产生，那么我们就可以在发生问题的时候，根据文件的创建日期，定位到出问题的时刻，内存究竟发生了什么样的分配

执行source /etc/profile

4.2.2 测试内存

4节点的集群，为其中两台配置了jemalloc，另外两台不变。
重新启动flink集群，开始跑批处理作业，跑了几轮之后发现了异常情况。
如下图所示：其中两台节点配置了jemalloc，另外两台仍旧使用Linux默认的ptmalloc。跑了几个任务之后其中打开jemalloc节点的TaskManager内存占用非常正常，内存暴涨之后，待任务结束就能降下来。但是使用glibc malloc的节点的TaskManager内存一直上涨。

联想到jemalloc的一个特征就是可以减少内存碎片，查了下资料，发现是glibc内存碎片导致的假性内存OOM。

5、Glibc内存管理

参考资料：
https://yuhao0102.github.io/2019/04/24/%E7%90%86%E8%A7%A3glibc_malloc_%E4%B8%BB%E6%B5%81%E7%94%A8%E6%88%B7%E6%80%81%E5%86%85%E5%AD%98%E5%88%86%E9%85%8D%E5%99%A8%E5%AE%9E%E7%8E%B0%E5%8E%9F%E7%90%86/
https://zhuanlan.zhihu.com/p/452291093

目前开源社区公开了很多现成的内存分配器（Memory Allocators，以下简称为分配器）：

dlmalloc – 第一个被广泛使用的通用动态内存分配器；
ptmalloc2 – glibc 内置分配器的原型；
jemalloc – FreeBSD ＆ Firefox ，脸书所用分配器；
tcmalloc – Google 贡献的分配器；
libumem – Solaris 所用分配器；…

Linux 的早期版本采用 dlmalloc 作为它的默认分配器，但是因为 ptmalloc2 提供了多线程支持，所以后来 Linux 就转而采用 ptmalloc2 了。多线程支持可以提升分配器的性能，进而间接提升应用的性能。
在 dlmalloc 中，当两个线程同时 malloc 时，只有一个线程能够访问临界区（critical section）——这是因为所有线程共享用以缓存已释放内存的「空闲列表数据结构」（freelist data structure），所以使用 dlmalloc 的多线程应用会在 malloc 上耗费过多时间，从而导致整个应用性能的下降。

5.1 内存管理结构

在 ptmalloc2 中，当两个线程同时调用 malloc 时，内存均会得以立即分配——每个线程都维护着单独的堆，各个堆被独立的空闲列表数据结构管理，因此各个线程可以并发地从空闲列表数据结构中申请内存。这种为每个线程维护独立堆与空闲列表数据结构的行为就「per thread arena」。

在glibc malloc中主要有 3 种数据结构，分别是：

malloc_state ——Arena header—— 一个 thread arena 可以维护多个堆，这些堆另外共享同一个 arena header。Arena header 描述的信息包括：bins、top chunk、last remainder chunk 等；
heap_info ——Heap Header—— 一个 thread arena 可以维护多个堆。每个堆都有自己的堆 Header（注：也即头部元数据）。什么时候 Thread Arena 会维护多个堆呢？一般情况下，每个 thread arena 都只维护一个堆，但是当这个堆的空间耗尽时，新的堆（而非连续内存区域）就会被 mmap 到这个 aerna 里；
malloc_chunk ——Chunk header—— 根据用户请求，每个堆被分为若干 chunk。每个 chunk 都有自己的 chunk header。

其中arena管理结构如下所示：
每一个arena都被malloc_state管理，malloc_state中包含了bins,toptrunk等重要信息

struct malloc_state
{
  /* Serialize access.  */
  __libc_lock_define (, mutex);

  /* Flags (formerly in max_fast).  */
  int flags;

  /* Set if the fastbin chunks contain recently inserted free blocks.  */
  /* Note this is a bool but not all targets support atomics on booleans.  */
  int have_fastchunks;

  /* Fastbins */
  mfastbinptr fastbinsY[NFASTBINS];

  /* Base of the topmost chunk -- not otherwise kept in a bin */
  mchunkptr top;

  /* The remainder from the most recent split of a small request */
  mchunkptr last_remainder;

  /* Normal bins packed as described above */
  mchunkptr bins[NBINS * 2 - 2];

  /* Bitmap of bins */
  unsigned int binmap[BINMAPSIZE];

  /* Linked list */
  struct malloc_state *next;

  /* Linked list for free arenas.  Access to this field is serialized
     by free_list_lock in arena.c.  */
  struct malloc_state *next_free;

  /* Number of threads attached to this arena.  0 if the arena is on
     the free list.  Access to this field is serialized by
     free_list_lock in arena.c.  */
  INTERNAL_SIZE_T attached_threads;

  /* Memory allocated from the system in this arena.  */
  INTERNAL_SIZE_T system_mem;
  INTERNAL_SIZE_T max_system_mem;
};

注意：

Main arena 无需维护多个堆，因此也无需 heap_info。当空间耗尽时，与 thread arena 不同，main arena 可以通过 sbrk 拓展堆段，直至堆段「碰」到内存映射段；
与 thread arena 不同，main arena 的 arena header 不是保存在通过 sbrk 申请的堆段里，而是作为一个全局变量，可以在 libc.so 的数据段中找到。

上述内存结构可以通过命令查看，如
使用pmap -x pid 查看内存的分布情况，发现有很多64M左右的内存区域，如图所示

5.2 内存分配过程

Linux下内存管理是由glibc库来与内核交互，即用户空间是通过glibc来进行的系统调用。glibc提供两种方式来申请内存，分别是brk和mmap，当通过malloc/new申请的内存小于M_MMAP_THRESHOLD(缺省128K)时，glic调用brk来申请内存，当要申请的内存大于M_MMAP_THRESHOLD时，glibc调用mmap来申请内存。这两种方式分配的都是虚拟内存，没有分配物理内存。在第一次访问已分配的虚拟地址空间的时候，发生缺页中断，操作系统负责分配物理内存，然后建立虚拟内存和物理内存之间的映射关系。

当调用 malloc 分配内存的时候，会先查看当前线程私有变量中是否已经存在一个分配区 arena。如果存在，则尝试会对这个 arena 加锁
如果加锁成功，则会使用这个分配区分配内存
如果加锁失败，说明有其它线程正在使用，则遍历 arena 列表寻找没有加锁的 arena 区域，如果找到则用这个 arena 区域分配内存。

当调用 free 接口释放内存时，会根据一定的策略缓存起来，或者返还系统。
因为 ptmalloc2 本来就是一个内存池，为了提高内存分配效率，避免用户态和内核态频繁进行交互，它需要通过一些策略，将部分用户释放(delete/free)的内存缓存起来，不马上返还给系统。而缓存起来的内存块，通过 fastbinsY 和 bins 这些数组维护起来，数组保存的是空闲内存块链表。
top 这个内存块指向 top chunk，它对于理解 glibc 从系统申请内存，返还内存给系统有着关键作用。

下图时一个内存分配过程，brk是将数据段(.data)的最高地址指针_edata往高地址推，完成虚拟内存分配；而通过mmap系统调用分配的内存是在堆和栈的中间空闲地址分配一块虚拟内存，这样释放时可以不受约束地自由释放。这样通过brk分配的内存是连续的一块空间，如下图中依次brk申请ABD内存，释放的时候，若高地址的内存不释放，低地址的内存是不能释放的，如下图(7)；而mmap申请的内存可以自由释放，如下图(6)。
参考：https://blog.csdn.net/u013259321/article/details/112031002

当通过brk释放的内存相邻的加起来达到M_TRIM_THRESHOLD(缺省128K)时，会进行内存紧缩，如下图，先释放B，B的内存并没有真正释放，再释放D时，B+D>128K，此时这一块内存组就会释放掉。

上述如图7所示就出现了内存碎片也叫内存空洞，就是这个导致了操作系统假性OOM。

5.3 内存碎片规避办法

glibc管理的内存唯一释放的条件是堆顶存在128k（M_TRIM_THRESHOLD）或以上的空闲区时才会释放，比如上图中只有D才有被归还系统的可能，B就老老实实成为内存空洞，虽然未来的分配还能用到，但释放不掉。
而有些32位条件下工作很好的程序，但是到64位后，这个阈值变大的原因（而物理内存其实并没有增大很多），因为总是到不了这个threshold，而总是有新的分配摞上来，这样就失去了释放的机会。
一般来说，通常的经验是
（1）glibc管理的内存绝大多数情况不会释放。因此编程时如果是小内存分配要尽快使用，尽快用完，尽快释放，不要停留，否则一直摞着，线性地址后面的就形成了空洞。
（2）如果是想内存总在控制中，可以分配大内存，自行管理释放和分配。不用的时候可以释放地很干净
（3）不要分配很小的内存比如几个字节，因为一次malloc至少分配16个字节，如果每次分配都很小，就太亏了。
（4）降低M_MMAP_THRESHOLD，可以让更多的分配走mmap，避免brk得总总问题，特别是64位机器的情况下。
（5）降低M_TRIM_THRESOLD,让堆顶的空闲内存更容易释放。
（6）定时调用malloc_trim()方法，将碎片的物理内存释放掉，等真正访问的时候，再触发缺页中断。
以上（4）（5）（6）都不可避免会增加系统缺页中断，影响系统性能，使用中需要慎重。

6、对比测试：

一共进行4轮测试，分别如下:

Linux默认的glibc malloc
配置MALLOC_MMAP_THRESHOLD_=8092
配置MALLOC_ARENA_MAX = 4
安装配置jemalloc

不同模式分别跑15次批处理，开始测试之前内存使用情况：

6.1 Glibc malloc测试

任务结束后，TM内存直接暴涨到60%

6.2 修改MALLOC_ARENA_MAX值

任务结束后，TM内存直接涨到36%，再跑就不再上涨
export MALLOC_ARENA_MAX=4

6.3 修改内存缓存池分配阈值

export MALLOC_MMAP_THRESHOLD_=8192
任务结束后，内存控制的最好，TM内存维持在20%+，平均速度稍微慢一点

6.4 jemalloc测试

需要安装jemalloc，但是性能最佳
任务结束后，内存控制的好，TM内存维持在20%+，平均速度非常好

7、结论

经过对比可以看到jemalloc性能和内存使用情况最优，但是稳定性需要测试一下海量数据的处理。

8、备注

可以使用三种方式来解决这种由于碎片太多导致系统OOM的问题：

8.1 配置jemalloc

下载 jemalloc https://github.com/jemalloc/jemalloc
解压 tar -xjvf jemalloc-5.2.1.tar.bz2
生成makefile文件 ./configure --enable-prof
make
make install
配置环境变量/etc/profile中

export LD_PRELOAD=/usr/local/lib/libjemalloc.so
export MALLOC_CONF=“prof:true,prof_prefix:/home/bigdata/jeprof.out,lg_prof_interval:30,lg_prof_sample:20”

source /etc/profile
启动flink集群

8.2 修改内存分配参数

在/etc/profile文件中配置 export MALLOC_MMAP_THRESHOLD_=8192
然后source /etc/profile
启动flink集群

该值默认的大小为128k，当申请的内存小于128k时，使用brk方式申请内存，free之后并不会立即释放，而是管理起来做内存池，大于128k时，使用mmap方式申请内存，free掉之后会立即还给操作系统
最优解需要根据实际情况进行测试。
备注：
既然堆内碎片不能直接释放，导致疑似“内存泄露”问题，为什么 malloc 不全部使用 mmap 来实现呢(mmap分配的内存可以会通过 munmap 进行 free ，实现真正释放)？而是仅仅对于大于 128k 的大块内存才使用 mmap ？
其实，进程向 OS 申请和释放地址空间的接口 sbrk/mmap/munmap 都是系统调用，频繁调用系统调用都比较消耗系统资源的。并且， mmap 申请的内存被 munmap 后，重新申请会产生更多的缺页中断。例如使用 mmap 分配 1M 空间，第一次调用产生了大量缺页中断 (1M/4K 次 ) ，当munmap 后再次分配 1M 空间，会再次产生大量缺页中断。缺页中断是内核行为，会导致内核态CPU消耗较大。另外，如果使用 mmap 分配小内存，会导致地址空间的分片更多，内核的管理负担更大。同时堆是一个连续空间，并且堆内碎片由于没有归还 OS ，如果可重用碎片，再次访问该内存很可能不需产生任何系统调用和缺页中断，这将大大降低 CPU 的消耗。因此， glibc 的 malloc 实现中，充分考虑了 sbrk 和 mmap 行为上的差异及优缺点，默认分配大块内存 (128k) 才使用 mmap 获得地址空间，也可通过 mallopt(M_MMAP_THRESHOLD, ) 来修改这个临界值。

8.3 修改MALLOC_ARENA_MAX

在/etc/profile文件中配置 export MALLOC_ARENA_MAX=4
然后source /etc/profile
启动flink集群

调试MALLOC_ARENA_MAX的数字就是在效率和内存消耗之间做选择. 使用默认的MALLOC_ARENA_MAX能获得最佳效率, 但是可能消耗更多的内存. 减少MALLOC_ARENA_MAX能减少内存使用, 但是效率可能稍微低一些.

9、名词解释

jemalloc:
jemalloc 是由 Jason Evans 在 FreeBSD 项目中引入的新一代内存分配器。它是一个通用的 malloc 实现，侧重于减少内存碎片和提升高并发场景下内存的分配效率，其目标是能够替代 malloc。jemalloc 应用十分广泛，在 Firefox、Redis、Rust、Netty 等出名的产品或者编程语言中都有大量使用。具体细节可以参考 Jason Evans 发表的论文《A Scalable Concurrent malloc Implementation for FreeBSD》
tcmalloc：
tcmalloc 出身于 Google，全称是 thread-caching malloc，所以 tcmalloc 最大的特点是带有线程缓存，tcmalloc 非常出名，目前在 Chrome、Safari 等知名产品中都有所应有。tcmalloc 为每个线程分配了一个局部缓存，对于小对象的分配，可以直接由线程局部缓存来完成，对于大对象的分配场景，tcmalloc 尝试采用自旋锁来减少多线程的锁竞争问题。
ptmalloc：
ptmalloc 是基于 glibc 实现的内存分配器，它是一个标准实现，所以兼容性较好。pt 表示 per thread 的意思。当然 ptmalloc 确实在多线程的性能优化上下了很多功夫。由于过于考虑性能问题，多线程之间内存无法实现共享，只能每个线程都独立使用各自的内存，所以在内存开销上是有很大浪费的。

10、参考文档

https://yuhao0102.github.io/2019/04/24/%E7%90%86%E8%A7%A3glibc_malloc_%E4%B8%BB%E6%B5%81%E7%94%A8%E6%88%B7%E6%80%81%E5%86%85%E5%AD%98%E5%88%86%E9%85%8D%E5%99%A8%E5%AE%9E%E7%8E%B0%E5%8E%9F%E7%90%86/
https://zhuanlan.zhihu.com/p/452291093

C#上位机软件———串口奥特曼12号 WPF c#
导入命名空间usingSystem.IO.Ports;//串口类SerialPort属于该命名空间string[]portStr=SerialPort.GetPortNames();//搜索当前设备下的串口//该方法为串口类的静态方法，调用方法类名+函数名类实例与参数初始化publicSerialPortsp=newSerialPort();DataBits：读写每个字节的标准数据位长度。数据位值
前端面试题木輮 javascript javascript 前端 vue.js
文章目录一、闭包（完）二、原型链（完）三、防抖和节流（完）四、Vue相关1、MVC和MVVM的区别2、v-model原理3、vue中的data为什么是一个函数？（面试常问）4、v-if和v-show的区别5、v-for中为什么要有key6、dist目录打包后过大，解决办法？7、watch和computed的区别8、子组件给父组件传递数据9、全局事件总线：可以实现任意组件间的数据传递10、Vue生命
PB 级别的大数据？百态老人大数据
在当今数字化时代，PB级别大数据正日益成为各领域关注的焦点。PB即佩他字节，1PB约等于1000TB或100万GB，代表着极为庞大的数据存储容量。中国科研团队在超大容量超分辨三维光存储研究中取得突破性进展。上海光学精密机械研究所与上海理工大学等科研单位合作，利用国际首创的双光束调控聚集诱导发光超分辨光存储技术，实现了点尺寸为54nm、道间距为70nm的超分辨数据存储，并完成了100层的多层记录，单
ADF动态内容的使用：基于文件名过滤和增量加载 t0_54coder 编程问题解决手册 flask python 后端个人开发
在使用AzureDataFactory(ADF)进行数据处理时，经常会遇到需要根据文件名中的日期进行过滤和增量加载的情况。本文将通过一个具体的例子，详细讲解如何在ADF中实现这一需求。背景介绍假设我们有一个FTP服务器，存储着每周更新的文件，这些文件的命名方式如下：a_2023-01-01.csvb_2023-01-01.csvc_2023-01-01.csv同时，这些文件也可能以.zip和.ok
腾讯云大数据套件TBDS与阿里云大数据能力产品对比奋力向前123 数据库 java 人工智能腾讯云大数据阿里云
前言博主在接触大数据方向研究的时候是在2016年，那时候正是大数据概念非常火热的一个时间段，最著名的Google的3篇论文。GoogleFS、MapReduce、BigTable，奠定了大数据框架产品的基础。Google文件系统，计算框架和存储框架。往后所有的大数据产品和过程域无一不是在三个模块的基础上进行搭建，迭代，完善。我们最开始使用的都是开源的产品，比如hadoop，HDSF，MAPRedu
关于Winform（.net6）使用efcore连接Oracle超时灰熊怪 c#.net
记录一下开发时遇到的小问题usingOracle.ManagedDataAccess.Client;引用这个是没错的但是NuGet包要引用.Core结尾这个包
【python Pandas】读取与存储hdf5文件人才程序员杂谈 python pandas 开发语言 python3.11 目标检测机器学习深度学习
文章目录Pandas读取与存储HDF5文件1.HDF5文件简介通俗的介绍：学术概念：2.读取HDF5文件2.1读取简单的HDF5文件2.2读取多个数据集2.3使用过滤条件读取数据2.4读取HDF5文件的所有数据集3.存储HDF5文件3.1存储简单的`DataFrame`到HDF5文件3.2追加数据到已有的HDF5文件3.3存储多个数据集3.4使用压缩存储数据3.5存储时不存储索引4.总结Panda
opencv 交叉编译测试逆商 OpenCV QT
1.源码test.cpp#include#include#include#include#includeusingnamespacecv;usingnamespacestd;intmain(intargc,char**argv){Matimage,image_gray;image=imread(argv[1],cv::IMREAD_COLOR);if(argc!=2||!image.data){c
R 语言必备十大资源后端
引言R是进行统计计算和数据分析的热门编程语言之一，广泛应用于数据科学家、研究者和统计学家之间，用于处理大数据、执行复杂分析和结果可视化。如果你是R的新手或希望提升你的R技能，这里有一些核心资源可以助你一臂之力，无论是从基础学起还是提高现有水平，包括官方站点、知名学府和互动式学习平台。1.R项目官网(r-project.org)R项目的官方网站是开启R学习之旅的首选，它提供免费的R软件、文档、教程和
x86汇编基础（AT&T语法） HugoVus Windows
以下面这段简单的汇编代码为例.section.data.section.text.globl_start_start:movl$1,%eaxmovl$4,%ebxint$0x80(注意是globl不是global；movl(MOVL)不是mov1(MOV一))将这段程序保存为demo.s，然后用汇编器as把汇编程序中的助记符翻译成机器指令（汇编指令与机器指令是对应的）生成目标文件demo.o。然后
Java NIO基础与实战：如何提升IO操作性能薛伟同学 Netty：高性能网络编程技巧 java nio
JavaNIO概述JavaNIO（新I/O）是Java提供的一个更为高效的I/O处理框架。JavaNIO（NewI/O）是对传统I/O（java.io）模型的改进，它引入了非阻塞I/O操作和面向缓冲区的数据读写方式，解决了传统I/O模型中的性能瓶颈。NIO的设计目标是使I/O操作更加高效，特别是在大数据量、高并发情况下，能够充分利用操作系统的底层I/O多路复用机制。JavaNIO的核心概念包括：B
COCO数据集是小果果蛋儿啊机器学习算法计算机视觉人工智能深度学习
官网地址：http://cocodataset.org/#downloadCOCO是一个大规模的物体检测、分割和描述数据集。COCO具有以下特点：物体分割上下文识别超像素材质分割33万张图片（超过20万张有标注）150万个物体实例80个物体类别91个材质类别每张图片有5个描述25万人的关键点COCO数据集是一个多用途的计算机视觉数据集，它支持多种任务，包括但不限于：物体检测（ObjectDetec
JavaScript 中内存泄漏的几种情况是什么，如何避免？程序员黄同学前端开发 JavaScript Java面试题 javascript 前端开发语言
一、全局变量泄漏（高频考点）问题场景：未使用var/let/const声明变量，或意外挂载到window对象//错误示例（创建全局变量）functioninitData(){cache=newArray(1000000)//隐式全局变量}//正确方案（严格模式+局部变量）'usestrict'functionsafeInit(){constlocalCache=[]//局部变量自动回收}防御建议：
信息技术革新引领时代变革 JiYan_xiaohei 业界资讯
信息技术革新引领时代变革一、信息技术的飞速发展1．信息技术的概念及重要性信息技术，即信息的获取、传输、存储、处理和应用等技术的综合，已经成为现代社会不可或缺的基础设施。信息技术的飞速发展极大地改变了人们的生活方式和工作模式，推动了社会进步。2．信息技术的快速发展现状近年来，人工智能、大数据、云计算等前沿技术不断突破，展现出强大的潜力。这些新技术的出现不仅改变了数据处理和分析的方式，还催生了新的产业
信息技术革新引领社会变革 JiYan_yellow 业界资讯
信息技术革新引领社会变革一、信息技术推动数字化转型随着信息技术的迅猛发展，我们正处在一个数字化的时代。信息技术在推动产业数字化转型方面发挥着重要作用。云计算、大数据、人工智能等先进技术的应用，使得企业能够实现更高效的生产和运营。例如，在制造业领域，智能制造技术能够提高生产效率和质量，降低运营成本。此外，信息技术还在促进供应链管理、市场营销等环节的数字化转型，为企业提供更广阔的发展空间。信息技术还深
人工智能之推荐系统实战系列(协同过滤,矩阵分解,FM与DeepFM算法) weixin_58351028 人工智能深度学习神经网络算法机器学习
一.推荐系统介绍和应用(1)推荐系统通俗解读推荐系统就是来了就别想走了。例如在大数据时代中京东越买越想买，抖音越刷越是自己喜欢的东西，微博越刷越过瘾。(2).推荐系统发展简介1)推荐系统无处不在，它是根据用户的行为决定推荐的内容。用户每天在互联网中都会留下足迹，这样就会越来越多的用户画像。2)为什么要推荐系统卖的好的商品就那几种，其它就不管了吗？答案是否定的。80%的销售来自20%的热门商品，要想
海南大学--学习资料--网络应用开发java web(胡祝华)-第3次作业解析（学长整理）创创大帝(水印很浅-下载的文档) 海南大学--学习资料--PHP HTML java web 前端 java html
海南大学–学习资料–网络应用开发javaweb(胡祝华)-第3次作业解析（学长整理）海南大学–学习资料–网络应用开发javaweb(胡祝华)-第3次作业解析（学长整理）海南大学–学习资料–网络应用开发javaweb(胡祝华)-第3次作业解析（学长整理）表单验证：1.在表单的源码中head部分用script导入了script/regcheckdata.js文件2.当点击提交按钮时，onSubmit=
【语义分割专题文章】 BoostingIsm Segmentation python
本栏聚焦在语义分割的相关算法，专栏内文章的代码均已实现。一、数据篇【遥感】【道路】篇：【语义分割】【专题系列】一、MassachusettsRoadsDataset马萨诸塞州道路数据集获取二、CNN篇Unet(2015)：【语义分割】【专题系列】二、Unet语义分割代码实战PSPNet(2017)：【语义分割】【专题系列】三、PSPNet语义分割代码实战Linknet(2017)FPN(Featu
MySQL的数据类型 HeyGopher 数据库数据库
MySQL的数据类型MySQL支持多种数据类型，包括数值型、字符串型、日期时间型、二进制型等。以下是MySQL常见的数据类型：数值型TINYINTSMALLINTMEDIUMINTINTBIGINTFLOATDOUBLEDECIMAL字符串型CHARVARCHARTINYTEXTTEXTMEDIUMTEXTLONGTEXTENUMSET日期时间型DATETIMEYEARDATETIMETIMEST
基于neo4j知识图谱+flask的大数据医疗领域知识问答系统（完整源码+源码解析+开发文档+视频讲解等资料 2401_84185074 neo4j 知识图谱 flask
1.classMedicalSpider::定义了一个名为MedicalSpider的类。2.def**init**(self)::这是类的构造函数，用于在创建类的实例时进行初始化。在初始化过程中，建立了与MongoDB数据库的连接，并选择了名为‘medical’的数据库和名为‘data’的集合。3.definsert\_data(self,data)::这是一个方法，用于插入数据到MongoDB
Python.pyecharts.charts折线图新旧版本对比详解！唔使般若 python
旧版本(0.5.10)实现frompyechartsimportLineline=Line("美国邮费阶梯图")datax=[1995,1996,1997,1998,1999,2001,2002,2003,2004,2005,2006,2007,2008,2009]datay=[0.32,0.32,0.32,0.32,0.33,0.33,0.34,0.37,0.37,0.37,0.37,0.39,
多级数组Tree如何做搜索前端tree算法递归
两种方案1、数组打平，根据搜索字符在打平数组里去filter出满足条件的node节点，但此时被筛选的节点只有子节点，然后再通过被筛选出的子节点去找对应的父节点，然后拿到结果后转成tree结构优点：思路简单，打平数组用了递归，好理解缺点：找父节点的时候相对麻烦。2、写一个递归算法，满足条件就返回tree比如有一个简单个treeconsttreeData=[{title:'a',children:[{
.NET Core中使用HttpClient模拟form-data格式数据提交步、步、为营 .netcore microsoft c#.net
一、引言在.NETCore开发的广阔天地里，与外部服务进行交互是极为常见的需求。而数据的传递作为交互的核心环节，其格式和方式的选择显得尤为重要。form-data格式作为一种在Web开发中广泛应用的数据编码类型，主要用于发送表单数据，其中既包含普通的文本字段，也支持文件上传，这一特性使其在众多场景中都扮演着关键角色。想象一下，在一个在线办公系统中，用户需要上传一份重要的项目文档，并附带一些关于文档
nodejs中xmldom的使用方法 jedi-knight web javascript 前端 node.js
xmldom的使用方法xmldom是nodejs下读取xml文件的优秀模块。使用npm安装，命令行如下npminstallxmldom使用步骤：（1）将字符串转换为可操作的对象const{DOMParser}=require('xmldom')vardoc=newDOMParser().parseFromString(xmlData.toString(),//这里是xml字符串，可以从文件中读取'
python urlencode编码董小宝的日常 Python python 开发语言
1、谁能告诉我python中urlopen函数data参数的作用和意义?2、怎么用python对qq登录界面写测试脚本3、如何用python写爬虫来获取网页中所有的文章以及关键词谁能告诉我python中urlopen函数data参数的作用和意义?1、urlopen函数的API：data参数data参数是可选的，如果使用，需要用bytes方法将参数转化为字节流编码，另外使用data后，请求方式就变成
centos7配置网络yum源及简单系统优化莫道桑榆晚~ Linux系统运维服务器运维 centos linux
一、配置网络yum源1.1确认主机能否连通外网用ping命令向百度发送4个包，查看有没有丢包[root@test1~]#ping-c4www.baidu.comPINGwww.a.shifen.com(153.3.238.102)56(84)bytesofdata.64bytesfrom153.3.238.102(153.3.238.102):icmp_seq=1ttl=52time=12.2ms
推荐几款常用测试数据自动生成工具（适用自动化测试、性能测试）旧游无处不堪寻测试工具 postman 测试用例单元测试 selenium 功能测试 jmeter
一、前言在软件测试中，测试数据是测试用例的基础，对测试结果的准确性和全面性有着至关重要的影响。因此，在进行软件测试时，需要生成测试数据以满足测试场景和要求。本文将介绍如何利用测试数据生成工具来快速生成大量的测试数据。二、测试数据生成工具今天给大家介绍四款常用的数据生成工具：Faker、Mockaroo、DataFactory、Jenerators。1、Faker:Faker是一个Python库，提
如何避免交叉验证中的数据泄露？奋进小青人工智能深度学习机器学习
大家好，我是小青在机器学习中，交叉验证（Cross-Validation）是一种常用的模型评估技术，目的是通过将数据集分割为多个子集，反复训练和验证模型，以便更好地估计模型的性能。然而，在交叉验证过程中，数据泄露（DataLeakage）是一个非常严重的问题，它会导致模型的评估结果过于乐观，进而使得模型在实际应用中表现不佳。什么是数据泄露数据泄露是指在模型训练过程中，模型不恰当地接触到了与验证集或
基于分布式架构的毕业设计题目50例 love_java_code 计算机专业毕业设计题目分布式架构系统架构
基于分布式架构的毕业设计题目1-10题1、基于分布式架构的网络考试系统的设计2、基于分布式架构的融合客户数据中心探讨3、基于分布式架构的内网监控系统的应用与研究4、基于分布式架构的铁路企业社会保障管理信息系统设计5、基于分布式架构打造证券交易新核心6、基于分布式架构的融合用户数据中心部署方案研究7、基于分布式架构的大数据建模实践8、基于分布式架构的通航运营管理系统研究9、基于分布式架构的网络流量分
数据清洗与预处理：提升数据质量的关键步骤 Echo_Wish 实战高阶大数据 python spark 大数据
数据清洗与预处理：提升数据质量的关键步骤在大数据时代，数据已成为企业和组织的重要资产。然而，数据的价值取决于其质量。高质量的数据可以支持有效的决策和精确的分析，而低质量的数据则可能导致误导性的结论和错误的决策。因此，数据清洗与预处理成为了数据分析过程中不可或缺的关键步骤。一、数据质量的挑战在实际应用中，数据通常来自多个来源，如传感器、日志文件、用户输入等。这些数据可能存在以下问题：缺失值（Miss
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class