SakamataZ

olap/clickhouse-编译器优化与向量化

本文主要结合15721和clickhouse源码来聊聊向量化，正好我最近也在用Eigen做算子加速，了解下还是有好处的。

提示编译器

提示编译器而不是复杂化简单的代码

什么时候使用汇编，什么时候使用SIMD？下面有几个基本原则：

如果编译器能知道怎么优化是最好的（绝大多数情况下），那么不要复杂化代码。
编译器的优势是聪明，但你的优势是知道的多，因此提示编译器而不是手写汇编/SIMD。
99%的情况下不要使用SIMD，如果你发现无法成功提示编译器，并且这里的性能_真的_很重要，那么可以使用SIMD，但是要注意跨平台的问题，并测试你的代码真的超过了-O3下的编译器（因为流水线和CPU性能问题，性能可能并没有提高）。
不要使用汇编，除非你找到了SIMD库的问题(https://www.intel.com/content/www/us/en/docs/intrinsics-guide/index.html)

Clickhouse目前的代码量超过百万行，使用SIMD的地方也只有七个文件，只有极少的处理跨平台的汇编代码：

编译器能进行的优化

下面就说一下最常用的Release（O2）和O3级别编译器采取的优化，这些优化都是可以被关闭的。

O2

-fauto-inc-dec：对自增和自减操作进行优化，将其转换为更高效的指令序列。
-fbranch-count-reg：使用寄存器来统计分支指令的执行次数，用于分支预测优化。
-fcombine-stack-adjustments：合并连续的堆栈调整操作，以减少不必要的指令。
-fcompare-elim：消除不必要的比较操作，减少程序的运行时间。
-fcprop-registers：通过寄存器传播常量的值，以减少内存访问。
-fdce：删除未使用的代码。
-fdefer-pop：推迟对堆栈的调整操作，以减少指令的数量。
-fdelayed-branch：推迟分支指令的执行，以减少流水线的停顿。
-fdse：进行死代码消除优化，删除不可达的代码。
-fforward-propagate：进行常量传播优化，将常量传播到使用该常量的代码中。
-fguess-branch-probability：根据先前的执行信息猜测分支指令的概率，以优化分支预测。
-fif-conversion：对if语句进行优化，将条件表达式转换为更简单的形式。
-fif-conversion2：进行更复杂的if语句优化，包括通过更改条件的计算顺序来提高性能。
-finline-functions-called-once：对只被调用一次的函数进行内联展开。
-fipa-modref：进行模块间引用分析优化，减少不必要的内存操作。
-fipa-profile：根据程序的执行信息进行优化。
-fipa-pure-const：将纯函数和常量传播进行优化。
-fipa-reference：进行引用分析优化，减少不必要的内存操作。
-fipa-reference-addressable：进行可寻址引用分析优化，减少不必要的内存操作。
-fmerge-constants：合并重复的常量，以减少内存的使用。
-fmove-loop-invariants：将循环不变式移动到循环外部，以减少循环迭代次数。
-fomit-frame-pointer：优化代码以减少堆栈帧的使用。
-freorder-blocks：重新排序基本块以优化执行路径。
-fshrink-wrap：将变量的生命周期范围缩小到最小，以减少内存的使用。
-fshrink-wrap-separate：在函数中单独进行缩小作用域的操作。
-fsplit-wide-types：将宽类型的变量分割为多个较窄的变量，以减少内存的使用。
-fssa-backprop：通过SSA（静态单赋值）形式的数据流分析来优化代码。
-fssa-phiopt：通过SSA形式的Phi函数优化来优化代码。
-ftree-bit-ccp：进行位级的常量传播优化。
-ftree-ccp：进行常量传播优化。
-ftree-ch：进行复杂表达式优化。
-ftree-coalesce-vars：合并变量来减少内存的使用。
-ftree-copy-prop：进行复制传播优化。
-ftree-dce：进行死代码消除优化。
-ftree-dominator-opts：进行支配关系优化。
-ftree-dse：进行死存储消除优化。
-ftree-forwprop：进行常量传播和复制传播的优化。
-ftree-fre：进行冗余表达式消除优化。
-ftree-phiprop：对Phi函数进行优化。
-ftree-pta：进行指针分析优化。
-ftree-scev-cprop：进行简单标量表达式和常量传播优化。
-ftree-sink：将表达式移动到循环外部，以减少循环迭代次数。
-ftree-slsr：进行简单局部标量替换优化。
-ftree-sra：进行标量寄存器分配优化。
-ftree-ter：进行三元表达式优化。
-falign-functions：强制函数在内存中按指定的对齐方式对齐。
-falign-jumps：强制跳转指令在内存中按指定的对齐方式对齐。
-falign-labels：强制标签在内存中按指定的对齐方式对齐。
-falign-loops：强制循环开始地址在内存中按指定的对齐方式对齐。
-fcaller-saves：在函数调用时，保存调用者寄存器的值，以便被调用函数可以修改这些寄存器的值。
-fcode-hoisting：将可能的计算移动到循环外部，以减少循环迭代次数。
-fcrossjumping：在不同的控制流路径中查找重复的代码块，并将其合并为一个共享的代码块。
-fcse-follow-jumps：在跳转指令后面的代码中进行公共子表达式消除。
-fcse-skip-blocks：跳过指定数量的基本块，以提高公共子表达式消除的效率。
-fdelete-null-pointer-checks：删除空指针检查，以提高代码的执行速度。
-fdevirtualize：对虚函数调用进行优化，将虚函数调用转化为直接调用。
-fdevirtualize-speculatively：假设虚函数调用的目标是唯一的，并将其转化为直接调用。
-fexpensive-optimizations：进行一些代价较高的优化，可能会增加编译时间。
-ffinite-loops：假设循环最多执行有限次数，进行一些循环优化。
-fgcse：进行全局公共子表达式消除，删除重复计算的代码。
-fgcse-lm：对循环进行公共子表达式消除，删除循环内重复计算的代码。
-fhoist-adjacent-loads：将相邻的加载指令移动到循环外部，以减少循环迭代次数。
-finline-functions：对函数进行内联展开，将函数调用处替换为函数体。
-finline-small-functions：对小函数进行内联展开。
-findirect-inlining：对间接函数调用进行内联展开。
-fipa-bit-cp：进行位级的常量传播优化。
-fipa-cp：进行常量传播优化。
-fipa-icf：进行间接代码优化，合并相似的间接调用。
-fipa-ra：进行间接寄存器分配优化。
-fipa-sra：进行间接寄存器分配优化，同时进行标量寄存器分配优化。
-fipa-vrp：进行值范围传播优化。
-fisolate-erroneous-paths-dereference：对错误路径上的指针解引用进行隔离。
-flra-remat：在循环中重新材料化值范围，以减少循环迭代次数。
-foptimize-sibling-calls：对兄弟函数调用进行优化。
-foptimize-strlen：对strlen函数进行优化。
-fpartial-inlining：对函数进行部分内联展开。
-fpeephole2：进行指令级别的优化。
-freorder-blocks-algorithm=stc：按指定的算法对基本块进行重新排序。
-freorder-blocks-and-partition：对基本块进行重新排序和分区，以提高指令级优化效果。
-freorder-functions：对函数进行重新排序，以提高指令级优化效果。
-frerun-cse-after-loop：在循环后重新运行公共子表达式消除。
-fschedule-insns：对指令进行调度以提高执行效率。
-fschedule-insns2 -fsched-interblock：对指令进行调度以提高执行效率。
-fstore-merging：合并存储操作，减少存储操作的数量。
-fstrict-aliasing：启用严格别名规则，优化代码对内存的访问。
-fthread-jumps：在多线程环境中，对线程间的跳转进行优化。
-ftree-builtin-call-dce：删除未使用的内建函数调用。
-ftree-pre：进行部分复写消除优化。
-ftree-switch-conversion：对switch语句进行转换优化。
-ftree-tail-merge：合并尾递归函数的调用。
-ftree-vrp：进行值范围传播优化。

O3

-fgcse-after-reload：在寄存器分配之后进行全局公共子表达式消除（GCSE）优化。
-fipa-cp-clone：通过复制函数来进行间接代码传播优化。
-floop-interchange：进行循环交换优化，改变循环的顺序。
-floop-unroll-and-jam：进行循环展开和循环合并的优化。
-fpeel-loops：将循环分解成多个部分，以减少循环迭代次数。
-fpredictive-commoning：通过提前计算和共享结果来进行预测性共享优化。
-fsplit-loops：将循环分割为多个部分，以便更好地利用指令级并行性。
-fsplit-paths：将控制流路径分割为多个部分，以便更好地利用指令级并行性。
-ftree-loop-distribution：将循环分布到多个线程或处理器上，以进行并行化处理。
-ftree-loop-vectorize：对循环进行向量化优化，以利用SIMD指令。
-ftree-partial-pre：进行局部部分预测优化，提前计算和共享部分结果。
-ftree-slp-vectorize：对循环进行超标量指令优化，将多条指令合并为一条指令。
-funswitch-loops：对循环进行开关优化，将循环展开成多个版本，通过开关语句来选择执行哪个版本。
-fvect-cost-model：使用向量化优化的成本模型进行优化。
-fvect-cost-model=dynamic：使用动态的向量化优化成本模型进行优化。
-fversion-loops-for-strides：对循环进行版本化优化，根据迭代步长来选择不同的版本进行执行。

直观感受一下

计算一个数字的二进制中有多少个 1

唯一的内存访问

显式告诉编译器数组是内存中的不同位置

void f(int *a, int *b, int *c) 
{
  *a += *c;
  *b += *c;
}

// f(int*, int*, int*):
// 	movl	(%rdx), %eax
// 	addl	%eax, (%rdi)
// 	movl	(%rdx), %eax
// 	addl	%eax, (%rsi)
// 	ret

void f(int * __restrict__ a, int* __restrict__ b, int* __restrict__ c)
{
  *a += *c;
  *b += *c;
}

//  f(int*, int*, int*):
// 	movl	(%rdx), %eax
// 	addl	%eax, (%rdi)
// 	addl	%eax, (%rsi)
// 	ret

显式告诉编译器忽略向量的循环依赖关系，作用和上面是一样的

除了可以用 __restrict 让编译器放心做 SIMD 优化外，还可以用 OpenMP 的这条指令来迫使编译器无视指针别名的问题，并启用 SIMD 优化。不过得给编译器打开 -fopenmp 这个选项。：

循环展开

循环展开现在编译器都会自动做了，有时候可能需要限制循环展开。
比如clickhouse里面的一段：

对小的循环体进行 unroll 可能是划算的，但最好不要 unroll 大的循环体，否则会造成指令缓存的压力反而变慢。

对齐

对齐的主要作用是使用SIMD向量化指令进行复杂的向量运算。
比如使用avx-512，将数据与64个字节对齐时可以通过_mm512_load_pd将数据直接加载到zmmm寄存器中，并在其上应用SIMD指令，然后通过_mm512 _stream_pd将其存储回。如果不进行大量的向量化计算，只会造成内存浪费。
相反，大多数情况下需要的是1字节填充来节省内存。
比如：

-ffast-math

https://stackoverflow.com/questions/7420665/what-does-gccs-ffast-math-actually-do

OLAP经常使用的SIMD操作

所谓的SIMD，就是用MMX指令集（64位SIMD寄存器）或者SSE/AVX/AVX512指令集（128位SIMD寄存器），做数据的并行化处理。

遮罩 Masking
排列
选择性加载 / 存储
压缩 / 扩展
选择性聚集 / 散开

遮罩

排列

对于每个通道，将索引向量中指定的偏移量处的输入向量的值复制到目标向量中。在 AVX-512 之前，数据库管理系统必须将数据从 SIMD 寄存器写入内存，然后再写回 SIMD 寄存器。而 AVX-512 指令集引入了新的 PERMUTE 操作，可以直接在 SIMD 寄存器内部完成元素重排，大大提高了性能。

blend:
在SIMD（Single Instruction, Multiple Data）编程中，Blend（混合）是一种操作，用于将两个向量按照指定的规则进行混合。混合操作通常是将两个向量的对应元素进行混合，生成一个新的向量。

选择性加载 / 存储

选择性加载从内存中读取满足特定条件的数据元素，而选择性存储将数据元素写回内存

压缩 / 扩展

用于减少数据存储需求和提高内存访问效率。
压缩操作将数据集中的冗余信息删除，减小数据的存储空间。扩展操作则是压缩的逆过程，将压缩后的数据还原为原始格式
这两种指令

选择性聚集 / 散开

用于重组数据的技术。
选择性聚集从一个数据集中提取满足特定条件的元素，并将它们组合成一个新的、更紧凑的数据集。
选择性散开是选择性聚集的逆操作，它将数据集中的元素根据特定条件分散到一个更大的数据集中。
这两种操作可以提高数据处理效率，特别是在需要对数据进行过滤、合并或分组等操作时。
Make the most out of your SIMD investments: counter control flow divergence in compiled query pipelines

Clickhouse

clickhouse里面针对三种SIMD指令集进行了优化，分别是__SSE2__、AVX、NEON

#ifdef __SSE2__
#include 
#endif

#if USE_MULTITARGET_CODE
#include 
#endif

#if defined(__aarch64__) && defined(__ARM_NEON)
#    include 
#      pragma clang diagnostic ignored "-Wreserved-identifier"
#endif

一共在代码里出现了17处。
所以，就算是OLAP这种CPU密集型的应用，手写SIMD也只是小部分情况。

memcpy

clickhouse重写了glibc的memcpy，这里作者提到：

如果用 -ftree-loop-distribute-patterns可能会导致编译器优化为自带的memcpy，而又会重新调用到重写的memcpy，导致递归调用，所以必须禁用掉。
用AVX512有两个问题：一个是降频，第二个是SSE切换AVX512的性能开销。
然后作者列了几个影响性能的因素：
1. 预取指令，因为预取指令的大小不确定，而且在ARM中性能比较差，所以这里没有预取
2. 对齐，这里使用不对齐的加载和对齐的存储
3. 循环展开次数，这里固定为8次
attribute((no_sanitize(“coverage”)))禁用行数统计
最后作者提到memcpy可能会在编译时被优化为循环赋值，使用**-fbuiltin-memcpy**

#include 

#include 


/** Custom memcpy implementation for ClickHouse.
  * It has the following benefits over using glibc's implementation:
  * 1. Avoiding dependency on specific version of glibc's symbol, like memcpy@@GLIBC_2.14 for portability.
  * 2. Avoiding indirect call via PLT due to shared linking, that can be less efficient.
  * 3. It's possible to include this header and call inline_memcpy directly for better inlining or interprocedural analysis.
  * 4. Better results on our performance tests on current CPUs: up to 25% on some queries and up to 0.7%..1% in average across all queries.
  *
  * Writing our own memcpy is extremely difficult for the following reasons:
  * 1. The optimal variant depends on the specific CPU model.
  * 2. The optimal variant depends on the distribution of size arguments.
  * 3. It depends on the number of threads copying data concurrently.
  * 4. It also depends on how the calling code is using the copied data and how the different memcpy calls are related to each other.
  * Due to vast range of scenarios it makes proper testing especially difficult.
  * When writing our own memcpy there is a risk to overoptimize it
  * on non-representative microbenchmarks while making real-world use cases actually worse.
  *
  * Most of the benchmarks for memcpy on the internet are wrong.
  *
  * Let's look at the details:
  *
  * For small size, the order of branches in code is important.
  * There are variants with specific order of branches (like here or in glibc)
  * or with jump table (in asm code see example from Cosmopolitan libc:
  * https://github.com/jart/cosmopolitan/blob/de09bec215675e9b0beb722df89c6f794da74f3f/libc/nexgen32e/memcpy.S#L61)
  * or with Duff device in C (see https://github.com/skywind3000/FastMemcpy/)
  *
  * It's also important how to copy uneven sizes.
  * Almost every implementation, including this, is using two overlapping movs.
  *
  * It is important to disable -ftree-loop-distribute-patterns when compiling memcpy implementation,
  * otherwise the compiler can replace internal loops to a call to memcpy that will lead to infinite recursion.
  *
  * For larger sizes it's important to choose the instructions used:
  * - SSE or AVX or AVX-512;
  * - rep movsb;
  * Performance will depend on the size threshold, on the CPU model, on the "erms" flag
  * ("Enhansed Rep MovS" - it indicates that performance of "rep movsb" is decent for large sizes)
  * https://stackoverflow.com/questions/43343231/enhanced-rep-movsb-for-memcpy
  *
  * Using AVX-512 can be bad due to throttling.
  * Using AVX can be bad if most code is using SSE due to switching penalty
  * (it also depends on the usage of "vzeroupper" instruction).
  * But in some cases AVX gives a win.
  *
  * It also depends on how many times the loop will be unrolled.
  * We are unrolling the loop 8 times (by the number of available registers), but it not always the best.
  *
  * It also depends on the usage of aligned or unaligned loads/stores.
  * We are using unaligned loads and aligned stores.
  *
  * It also depends on the usage of prefetch instructions. It makes sense on some Intel CPUs but can slow down performance on AMD.
  * Setting up correct offset for prefetching is non-obvious.
  *
  * Non-temporary (cache bypassing) stores can be used for very large sizes (more than a half of L3 cache).
  * But the exact threshold is unclear - when doing memcpy from multiple threads the optimal threshold can be lower,
  * because L3 cache is shared (and L2 cache is partially shared).
  *
  * Very large size of memcpy typically indicates suboptimal (not cache friendly) algorithms in code or unrealistic scenarios,
  * so we don't pay attention to using non-temporary stores.
  *
  * On recent Intel CPUs, the presence of "erms" makes "rep movsb" the most beneficial,
  * even comparing to non-temporary aligned unrolled stores even with the most wide registers.
  *
  * memcpy can be written in asm, C or C++. The latter can also use inline asm.
  * The asm implementation can be better to make sure that compiler won't make the code worse,
  * to ensure the order of branches, the code layout, the usage of all required registers.
  * But if it is located in separate translation unit, inlining will not be possible
  * (inline asm can be used to overcome this limitation).
  * Sometimes C or C++ code can be further optimized by compiler.
  * For example, clang is capable replacing SSE intrinsics to AVX code if -mavx is used.
  *
  * Please note that compiler can replace plain code to memcpy and vice versa.
  * - memcpy with compile-time known small size is replaced to simple instructions without a call to memcpy;
  *   it is controlled by -fbuiltin-memcpy and can be manually ensured by calling __builtin_memcpy.
  *   This is often used to implement unaligned load/store without undefined behaviour in C++.
  * - a loop with copying bytes can be recognized and replaced by a call to memcpy;
  *   it is controlled by -ftree-loop-distribute-patterns.
  * - also note that a loop with copying bytes can be unrolled, peeled and vectorized that will give you
  *   inline code somewhat similar to a decent implementation of memcpy.
  *
  * This description is up to date as of Mar 2021.
  *
  * How to test the memcpy implementation for performance:
  * 1. Test on real production workload.
  * 2. For synthetic test, see utils/memcpy-bench, but make sure you will do the best to exhaust the wide range of scenarios.
  *
  * TODO: Add self-tuning memcpy with bayesian bandits algorithm for large sizes.
  * See https://habr.com/en/company/yandex/blog/457612/
  */

__attribute__((no_sanitize("coverage")))
static inline void * inline_memcpy(void * __restrict dst_, const void * __restrict src_, size_t size)
{
    /// We will use pointer arithmetic, so char pointer will be used.
    /// Note that __restrict makes sense (otherwise compiler will reload data from memory
    /// instead of using the value of registers due to possible aliasing).
    char * __restrict dst = reinterpret_cast<char * __restrict>(dst_);
    const char * __restrict src = reinterpret_cast<const char * __restrict>(src_);

    /// Standard memcpy returns the original value of dst. It is rarely used but we have to do it.
    /// If you use memcpy with small but non-constant sizes, you can call inline_memcpy directly
    /// for inlining and removing this single instruction.
    void * ret = dst;

tail:
    /// Small sizes and tails after the loop for large sizes.
    /// The order of branches is important but in fact the optimal order depends on the distribution of sizes in your application.
    /// This order of branches is from the disassembly of glibc's code.
    /// We copy chunks of possibly uneven size with two overlapping movs.
    /// Example: to copy 5 bytes [0, 1, 2, 3, 4] we will copy tail [1, 2, 3, 4] first and then head [0, 1, 2, 3].
    // 不对齐的加载 两个重叠的movs
	if (size <= 16)
    {
        if (size >= 8)
        {
            /// Chunks of 8..16 bytes.
            __builtin_memcpy(dst + size - 8, src + size - 8, 8);
            __builtin_memcpy(dst, src, 8);
        }
        else if (size >= 4)
        {
            /// Chunks of 4..7 bytes.
            __builtin_memcpy(dst + size - 4, src + size - 4, 4);
            __builtin_memcpy(dst, src, 4);
        }
        else if (size >= 2)
        {
            /// Chunks of 2..3 bytes.
            __builtin_memcpy(dst + size - 2, src + size - 2, 2);
            __builtin_memcpy(dst, src, 2);
        }
        else if (size >= 1)
        {
            /// A single byte.
            *dst = *src;
        }
        /// No bytes remaining.
    }
    else
    {
        // 这里src和dst不可能同时128对齐，因此
        /// Medium and large sizes.
        if (size <= 128)
        {
            /// Medium size, not enough for full loop unrolling.

            /// We will copy the last 16 bytes.
            _mm_storeu_si128(reinterpret_cast<__m128i *>(dst + size - 16), _mm_loadu_si128(reinterpret_cast<const __m128i *>(src + size - 16)));

            /// Then we will copy every 16 bytes from the beginning in a loop.
            /// The last loop iteration will possibly overwrite some part of already copied last 16 bytes.
            /// This is Ok, similar to the code for small sizes above.
            while (size > 16)
            {
                _mm_storeu_si128(reinterpret_cast<__m128i *>(dst), _mm_loadu_si128(reinterpret_cast<const __m128i *>(src)));
                dst += 16;
                src += 16;
                size -= 16;
            }
        }
        else
        {
            /// Large size with fully unrolled loop.

            /// Align destination to 16 bytes boundary.
            size_t padding = (16 - (reinterpret_cast<size_t>(dst) & 15)) & 15;

            /// If not aligned - we will copy first 16 bytes with unaligned stores.
            if (padding > 0)
            {
                __m128i head = _mm_loadu_si128(reinterpret_cast<const __m128i*>(src));
                _mm_storeu_si128(reinterpret_cast<__m128i*>(dst), head);
                dst += padding;
                src += padding;
                size -= padding;
            }

            /// Aligned unrolled copy. We will use half of available SSE registers.
            /// It's not possible to have both src and dst aligned.
            /// So, we will use aligned stores and unaligned loads.
            __m128i c0, c1, c2, c3, c4, c5, c6, c7;

            while (size >= 128)
            {
                c0 = _mm_loadu_si128(reinterpret_cast<const __m128i*>(src) + 0);
                c1 = _mm_loadu_si128(reinterpret_cast<const __m128i*>(src) + 1);
                c2 = _mm_loadu_si128(reinterpret_cast<const __m128i*>(src) + 2);
                c3 = _mm_loadu_si128(reinterpret_cast<const __m128i*>(src) + 3);
                c4 = _mm_loadu_si128(reinterpret_cast<const __m128i*>(src) + 4);
                c5 = _mm_loadu_si128(reinterpret_cast<const __m128i*>(src) + 5);
                c6 = _mm_loadu_si128(reinterpret_cast<const __m128i*>(src) + 6);
                c7 = _mm_loadu_si128(reinterpret_cast<const __m128i*>(src) + 7);
                src += 128;
                _mm_store_si128((reinterpret_cast<__m128i*>(dst) + 0), c0);
                _mm_store_si128((reinterpret_cast<__m128i*>(dst) + 1), c1);
                _mm_store_si128((reinterpret_cast<__m128i*>(dst) + 2), c2);
                _mm_store_si128((reinterpret_cast<__m128i*>(dst) + 3), c3);
                _mm_store_si128((reinterpret_cast<__m128i*>(dst) + 4), c4);
                _mm_store_si128((reinterpret_cast<__m128i*>(dst) + 5), c5);
                _mm_store_si128((reinterpret_cast<__m128i*>(dst) + 6), c6);
                _mm_store_si128((reinterpret_cast<__m128i*>(dst) + 7), c7);
                dst += 128;

                size -= 128;
            }

            /// The latest remaining 0..127 bytes will be processed as usual.
            goto tail;
        }
    }

    return ret;
}

这里使用了一半的SSE寄存器（8个）来做，可能是考虑到32位平台上只有8个，而64位平台则可以进行展开。

有些实现还会用预取指令，比如韦大佬写的FastMemcpy，clickhouse里面也有完整代码作为benchmark https://github.com/skywind3000/FastMemcpy/blob/master/FastMemcpy.h

MergeTreeRangeReader

mergetree是clickhouse的列式存储结构，跟ORC很像，不过索引是分开存的（而且没有bloomfilter）。具体可以看https://bohutang.me/2020/06/26/clickhouse-and-friends-merge-tree-disk-layout/
这段代码是 ClickHouse 项目中的一段，它定义了一个名为 optimize 的方法，该方法在读取 ClickHouse 表的数据时优化读取的顺序和方式。具体来说，它在读取 ClickHouse 的 MergeTree 表时，对表中的数据进行预过滤，以减少读取的数据量，从而提高查询性能。https://github.com/ClickHouse/ClickHouse/blob/4279dd2bf11841d8f68bdea78f3d8668a2c4289b/src/Storages/MergeTree/MergeTreeRangeReader.cpp#L495
首先，它将 current_filter 和已有的 final_filter （如果存在）进行组合，创建一个新的过滤条件 filter，这个过滤条件将被应用在每个数据块的开头。
filter是一个PODArray

    using Filter = PaddedPODArray<UInt8>;

使用向量化的代码在https://github.com/ClickHouse/ClickHouse/blob/4279dd2bf11841d8f68bdea78f3d8668a2c4289b/src/Storages/MergeTree/MergeTreeRangeReader.cpp#L730
这段代码的作用就是计算两个地址之间0位的大小。
使用godbolt分析下：

这里很明显，因为是逐位次比较，编译器不知道中间位数的多少，如果引入表跳转会导致缓存行失效的问题，所以编译器只使用普通寄存器进行。
但是在clickhouse场景下，这两个地址之间往往差距很大，所以这里加了分支。
处理流程如下所示，每次处理128*4位

bytes64MaskToBits64Mask

https://github.com/ClickHouse/ClickHouse/blob/fc67d2c0e984098e492c1111c8b5e3c705a80e86/src/Columns/ColumnsCommon.h#L27C1-L27C1
这段代码就很简单，取64*64位的掩码到64位中。


/// Transform 64-byte mask to 64-bit mask
inline UInt64 bytes64MaskToBits64Mask(const UInt8 * bytes64)
{
#if defined(__AVX512F__) && defined(__AVX512BW__)
    const __m512i vbytes = _mm512_loadu_si512(reinterpret_cast<const void *>(bytes64));
    UInt64 res = _mm512_testn_epi8_mask(vbytes, vbytes);
#elif defined(__AVX__) && defined(__AVX2__)
    const __m256i zero32 = _mm256_setzero_si256();
    UInt64 res =
        (static_cast<UInt64>(_mm256_movemask_epi8(_mm256_cmpeq_epi8(
        _mm256_loadu_si256(reinterpret_cast<const __m256i *>(bytes64)), zero32))) & 0xffffffff)
        | (static_cast<UInt64>(_mm256_movemask_epi8(_mm256_cmpeq_epi8(
        _mm256_loadu_si256(reinterpret_cast<const __m256i *>(bytes64+32)), zero32))) << 32);
#elif defined(__SSE2__)
    const __m128i zero16 = _mm_setzero_si128();
    UInt64 res =
        (static_cast<UInt64>(_mm_movemask_epi8(_mm_cmpeq_epi8(
        _mm_loadu_si128(reinterpret_cast<const __m128i *>(bytes64)), zero16))) & 0xffff)
        | ((static_cast<UInt64>(_mm_movemask_epi8(_mm_cmpeq_epi8(
        _mm_loadu_si128(reinterpret_cast<const __m128i *>(bytes64 + 16)), zero16))) << 16) & 0xffff0000)
        | ((static_cast<UInt64>(_mm_movemask_epi8(_mm_cmpeq_epi8(
        _mm_loadu_si128(reinterpret_cast<const __m128i *>(bytes64 + 32)), zero16))) << 32) & 0xffff00000000)
        | ((static_cast<UInt64>(_mm_movemask_epi8(_mm_cmpeq_epi8(
        _mm_loadu_si128(reinterpret_cast<const __m128i *>(bytes64 + 48)), zero16))) << 48) & 0xffff000000000000);
#elif defined(__aarch64__) && defined(__ARM_NEON)
    const uint8x16_t bitmask = {0x01, 0x02, 0x4, 0x8, 0x10, 0x20, 0x40, 0x80, 0x01, 0x02, 0x4, 0x8, 0x10, 0x20, 0x40, 0x80};
    const auto * src = reinterpret_cast<const unsigned char *>(bytes64);
    const uint8x16_t p0 = vceqzq_u8(vld1q_u8(src));
    const uint8x16_t p1 = vceqzq_u8(vld1q_u8(src + 16));
    const uint8x16_t p2 = vceqzq_u8(vld1q_u8(src + 32));
    const uint8x16_t p3 = vceqzq_u8(vld1q_u8(src + 48));
    uint8x16_t t0 = vandq_u8(p0, bitmask);
    uint8x16_t t1 = vandq_u8(p1, bitmask);
    uint8x16_t t2 = vandq_u8(p2, bitmask);
    uint8x16_t t3 = vandq_u8(p3, bitmask);
    uint8x16_t sum0 = vpaddq_u8(t0, t1);
    uint8x16_t sum1 = vpaddq_u8(t2, t3);
    sum0 = vpaddq_u8(sum0, sum1);
    sum0 = vpaddq_u8(sum0, sum0);
    UInt64 res = vgetq_lane_u64(vreinterpretq_u64_u8(sum0), 0);
#else
    UInt64 res = 0;
    for (size_t i = 0; i < 64; ++i)
        res |= static_cast<UInt64>(0 == bytes64[i]) << i;
#endif
    return ~res;
}

从这个里面我们可以看出来，编译器对SIMD的支持确实弱了点，也难怪clickhouse向量化有这么大优势。
这里无论我用STL容器还是指针，加什么编译选项，都无法优化为SIMD指令。

Hash64Long

这段代码在
https://github.com/ClickHouse/ClickHouse/blob/7f675ddf80b60445c769797b73353f32a6ff6ce5/contrib/libfarmhash/farmhash.cc#L796
这段代码实现了farmhashxo::Hash64算法，用于给定输入字符串生成64位哈希值的哈希函数。

你可能感兴趣的:(clickhouse,linux,运维)

ORACLE数据库转国产阿里OceanBase数据库
1.BLOB类型修改将接口内oracle.sql.BLOB改为java.sql.Blob2.REGEXP_LIKE判断函数正则表达式中字符转义问题OB的正则表达式使用的是标准的Linux模式,oracle是黑盒子,在处理部分转义符([]+)的时候,Oracle无需使用转义符,OB务必使用转义符,加/转义处理,例如在regexp_like(t.xx,’^(+|[0-9]+)$’)改为regexp_l
Linux——Docker常用命令总结小懿程序员 Linux linux docker 运维
一、docker命令#-------------------------------------docker启动与关闭#启动dockersystemctlstartdocker#关闭dockersystemctlstopdocker#重启dockersystemctlrestartdocker#docker设置随服务启动而自启动systemctlenabledocker#-------------
linux 内核日志等级,Linux系统日志管理走神儿大神 linux 内核日志等级
8种机械键盘轴体对比本人程序员，要买一个写代码的键盘，请问红轴和茶轴怎么选？Linux系统中的日志记录了系统每天发生的各种各样的事情，你可以通过它来检查错误发生的原因，或者受到攻击时攻击者留下的痕迹。日志对于安全来说，非常重要。一、日志介绍日志主要包含以下内容：历史事件：时间，地点，人物，事件日志级别：事件的关键性程度，Loglevel系统中常见日志及说明：系统日志服务：CentOS5之前版本sy
linux 内核日志等级,Android--Linux kernel log级别修改 weixin_39625747 linux 内核日志等级
在我们开发过程中，内核的信息一开机就会很多，然后一直打个不停，很烦人，也不好看调试信息，更不好在串口终端输入相关的命令进行调试。那么有什么办法可以解决？1、在kernel中修改log默认等级,kernel-3.18/include/linux/printk.hstaticinlinevoidconsole_verbose(void)函数中的console_loglevel=CONSOLE_LOGL
Linux配置日志级别,linux之日志篇啦啦啦wr Linux配置日志级别
rsysloglinux系统中用来实现日志功能的服务称为rsyslog，是早期syslog服务的增强版本，默认情况下是自动安装，并启动的。1、启动服务[root@37-testlog]#servicersyslogstart2、配置文件[root@37-testlog]#more/etc/rsyslog.conf基本格式：facility.prioritylog_location[root@37-
linux 内核日志等级,Linux系统中日志级别详情侧颜杀最棒 linux 内核日志等级
日志信息分类1.等级由低到高：debug2.区别：debug级别最低，可以随意的使用于任何觉得有利于在调试时更详细的了解系统运行状态的东东；info重要，输出信息：用来反馈系统的当前状态给最终用户的；后三个，警告、错误、严重错误，这三者应该都在系统运行时检测到了一个不正常的状态。warn,可修复，系统可继续运行下去；Error,可修复性，但无法确定系统会正常的工作下去;Fatal,相当严重，可以肯
eBPF on Go techdashen golang 开发语言后端
本篇内容是根据2021年10月份#201eBPFandGo音频录制内容的整理与翻译eBPF（已有7年历史）是一个可以在Linux内核中运行代码的沙箱。它最初是一种构建防火墙的技术，随着时间的推移不断发展，包含一系列新功能。本期大家讨论了eBPF的起源及其工作原理，并深入研究了一些实际用例。虽然eBPF程序本身不是用Go（更像C）编写的，但我们将了解如何从Go代码与eBPF程序进行通信。过程中为符合
【Linux】修改日志等级方法 zclinux_ linux 运维服务器
修改日志等级方法1：修改kernel启动参数内核参数console=ttyS0或console=tty1控制日志输出到哪个终端，可以尝试修改它：编辑GRUB配置：sudovim/etc/default/grub找到GRUB_CMDLINE_LINUX，移除console=相关参数，或改成：GRUB_CMDLINE_LINUX="quietloglevel=3"quiet：禁止大部分启动消息logl
华为数通认证：适合谁的技术进阶之路？博睿谷IT99_ 华为服务器运维
在当今高度互联的世界里，数据通信网络构成了信息流动的基石。华为数通认证（HuaweiCertifiedICTAssociate/Professional/Expert-Datacom）正是华为公司推出的、针对数据通信网络领域构建、运维与优化的专业能力认证体系。一、划分三个层级，为不同阶段的从业者提供进阶路径1.HCIA-Datacom(华为认证ICT工程师-数据通信)：基础起点。聚焦于中小型网络的
weblogic 启动常见错误解决 ithadoop weblogic oracle oracle weblogic
以下是WebLogic启动常见错误及解决方案的图文汇总（基于最新实践整理）：一、控制台无法访问（端口冲突）现象：浏览器访问http://localhost:7001/console失败解决步骤：检查端口占用：netstat-an|grep7001#Linuxnetstat-ano|findstr7001#Windows若端口冲突，修改config.xml中的ListenPort或终止占用进程二、节
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？数据库
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
云效DevOps vs Gitee vs 自建GitLab的技术选型天机️灵韵编程语言开发工具开源项目 GIT
针对「云效DevOpsvsGiteevs自建GitLab」的技术选型，我们从核心需求、成本、运维、扩展性四个维度进行深度对比，并给出场景化决策建议：一、核心能力对比表能力维度云效DevOpsGitee自建GitLab（社区版/企业版）代码托管✅基础托管+深度集成✅优秀（国内最优GitHub替代）✅⭐完全自主可控CI/CD流水线✅⭐企业级流水线（开箱即用）⚠️基础CI（GiteeGo）✅高度灵活（需
srs+ffmpeg+flv.js查看实时监控 nov4th rtmp ffmpeg http-flv srs
一、Linux中搭建srs服务器1、在Linux中下载srsgitclonehttps://github.com/ossrs/srs#下载很慢可以使用下面的地址gitclonehttps://gitee.com/winlinvip/srs.oschina2、编译srs#进入trunk目录cdsrs/trunk#编译./configure&&make3、创建自己的flv配置文件，可以从官方给的去复制
Docker容器化在Linux系统的安装与初始化配置 python自动化工具 k8s容器 linux 容器
哈喽，大家好，我是左手python！安装DockerDocker是一个开源的容器化平台，允许开发者打包、分发和运行应用程序。安装Docker是使用容器化技术的第一步。本节将详细介绍在Linux系统中安装Docker的步骤。在Ubuntu/Debian系统中安装Docker在Ubuntu/Debian系统中安装Docker，可以使用以下命令：#更新包索引sudoaptupdate#安装必要的依赖su
unix:///var/run/supervisor/supervisor.sock no such file
在Linux系统中，如果你遇到/var/run/supervisor/supervisor.sock文件不存在的问题，这通常意味着Supervisor服务没有正确运行或者其配置文件没有正确设置来创建这个socket文件。下面是一些解决这个问题的步骤：检查Supervisor是否正在运行首先，你需要确认Supervisor服务是否已经启动。你可以使用以下命令来检查Supervisor的状态：sudo
Unix 时间戳天赐好车汽车电子车载以太网车载网络诊断测试那些事儿 unix 时间戳 UNIX时间戳
目录Unix时间戳：定义与应用解析**什么是Unix时间戳？****Unix时间戳的技术细节****Unix时间戳与人类可读时间的转换****1.命令行工具转换（以Linux为例）****2.编程语言示例****Unix时间戳的应用场景****Unix时间戳的优势与局限****扩展：其他时间表示法****实践：查看当前时间戳**Unix时间戳：定义与应用解析什么是Unix时间戳？Unix时间戳（U
如何在Ubuntu上运行Jar包？ wljslmz Linux技术 ubuntu jar linux
Java，一种广泛使用的面向对象编程语言，以其“编写一次，到处运行”的理念著称，是跨平台应用程序开发的首选。其核心优势在于Java虚拟机（JVM），它使得编写的Java代码能够在任何安装了JVM的设备上运行，无需重新编译。Ubuntu作为Linux发行版中的佼佼者，凭借其开源、稳定、易用的特性，成为了众多开发者部署Java应用的优选平台。Jar（JavaArchive）文件是一种归档文件格式，用于
Electron 菜单系统深度解析：从基础到高级实践斯~内克 Electron electron javascript 前端
一、Electron菜单体系架构1.1菜单系统的核心组成Electron的菜单系统由三大核心模块构成：应用菜单（ApplicationMenu）：位于窗口顶部的全局菜单栏（Windows/Linux）或系统菜单栏（macOS）上下文菜单（ContextMenu）：右键触发的上下文相关菜单托盘菜单（TrayMenu）：系统托盘区的弹出式菜单1.2多平台适配差异特性WindowsmacOSLinux菜
zabbix监控jmx 寰宇001 监控/自动化工具
介绍背景：目前公司用的主要语言就是java，然后在运维过程中会遇到频繁的内存溢出的情况，之前使用过elk日志分析系统可以实时的判断出内存溢出的情况，但是无法查看内存的使用情况，只能通过dump文件查看内存溢出的时候dump下来的文件去分析。这样也无法准确的判断出问题。zabbix可以监控java，并且将内存的使用情况实时的展现出来，这是一个不错的选择。JMX的全称是JavaManagementEx
ELK 8.14版本搭建 wyx学习k8s linux系统运维 elk
1.架构图2.基础环境准备：2.1关闭防火墙和selinux[root@localhost~]#setenforce0[root@localhost~]#sed-i's/SELINUX=enforcing/SELINUX=disabled/g'/etc/selinux/config[root@localhost~]#cat/etc/selinux/config#Thisfilecontrolsth
【Electron】vue+electron应用设置菜单姑老爷呀 electron vue.js javascript
一、前言本文主要介绍electron应用如何自定义菜单，以及在哪些地方可以使用Menu模块。一般情况menu只是设置给mac系统的，因为windows系统在应用做了无边框之后，是不会显示应用菜单的（这里Linux暂时不考虑）。点击查看Menu详情二、适用场景及实施1.应用内菜单自定义这个菜单是指的这里这里主要用到Menu的两个Api，分别是Menu.buildFromTemplate(templa
Linux云计算和云计算运维的区别! 老男孩IT教育 Linux 云计算
Linux云计算和云计算运维对于很多人来讲并不陌生，而且它们都涉及到云计算技术，那么二者之间有何区别?主要区别在于职责、技能要求、工作领域和发展趋势，接下来通过这篇文章来看看吧。职责与技能要求：Linux云计算的工作内容主要包括公司运维团队和运维系统的建设，制定并不断优化各项工作流程，深入了解各种云计算产品，建立运维规范，保证运维质量。此外，还需要熟练掌握Linux操作系统和相关命令行工具，以及网
从零到云：我在达内一年的Linux云计算培训之旅
博客简介本篇博文中，我将从学员身份去分享过去一年里在达内教育培训有关Linux云计算的学习经历和收获，旨在为那些渴望踏入云计算领域的初学者提供一份指南参考，同时也尝试把笔记内容进行整理输出并分享给大家。无论你是刚接触IT的新手，还是希望通过报名培训机构转型的职场人，希望这份笔记能为你揭示关于培训机构里的Linux云计算基础知识和实践技巧。大纲概览培训笔记将按照机构课程顺序由简入深进行分享，总共分为
2025年6月个人工作生活总结李迟打工人的知识库生活
本文为2025年6月工作生活总结。研发编码某国产操作系统curl下载sftp服务器文件问题记录场景：某国产系统curl版本信息：#curl--versioncurl7.71.1(x86_64-koji-linux-gnu)libcurl/7.71.1OpenSSL/1.1.1f-fipszlib/1.2.11brotli/1.0.7libidn2/2.3.0libpsl/0.21.1(+libid
OracleLinux 10 发布！UEK 8.1内核+ GCC强化+零停机补丁+量子加密，码农狂喜！
在RHEL10、AlmaLinux10和RockyLinux10相继亮相后，Oracle终于揭开了OracleLinux10的神秘面纱。这款专为企业级环境打造的操作系统，与RedHatEnterpriseLinux10实现了完全二进制兼容，同时带来了多项突破性升级，堪称企业IT基础设施的“性能怪兽”。一、关于OracleLinux操作系统OracleLinux是由Oracle公司开发的企业级Lin
袋鼠数据库工具 7.99.1 版已上线
袋鼠数据库工具是一款AI驱动的热门数据库系统客户端(MariaDB/MySQL/Oracle/PostgreSQL/Redis/SQLite/SQLServer/...)，支持建表、查询、模型、同步、导入导出等功能，支持Windows/Mac/Linux等操作系统，致力于打造一款好用、好玩、开发友好的开发者工具。重点特性介绍这个版本继续完善Redis支持，实现了Redis用户管理支持，实现了数据格
国外VPS环境中Linux系统内存压缩技术与交换效率优化指南 cpsvps linux 运维服务器
在云计算和虚拟化技术日益普及的今天，已成为许多企业和开发者的首选。Linux系统作为VPS的主流操作系统，其内存管理机制直接影响着服务器的性能表现。本文将深入探讨Linux系统在VPS环境下的内存压缩技术与交换效率优化策略，帮助用户更好地理解和管理服务器资源。国外VPS环境中Linux系统内存压缩技术与交换效率优化指南Linux内存管理基础与VPS环境特性在国外的VPS环境中，Linux系统的内存
海外VPS性能调优：Linux系统内核参数优化与网络延迟治理实践 cpsvps php 开发语言
在全球化业务部署的背景下，海外VPS的性能表现直接影响跨国服务的用户体验。本文将从Linux内核参数调优、TCP协议栈配置、文件系统缓存策略等维度，深入解析如何通过系统级优化降低跨国网络延迟，提升海外VPS的I/O吞吐量和并发处理能力，为跨境电商、国际游戏加速等场景提供技术解决方案。海外VPS性能调优：Linux系统内核参数优化与网络延迟治理实践一、海外VPS性能瓶颈的典型特征分析跨国网络环境下的
十个服务器中毒的常见特征及其检测方法群联云防护小杜安全问题汇总服务器运维零售安全网络
服务器作为企业的核心资源，其安全性至关重要。一旦服务器被病毒入侵，不仅会影响系统的正常运行，还可能导致数据泄露等严重后果。以下是十种常见的服务器中毒特征及其检测方法。1.系统性能下降病毒常常占用大量的CPU和内存资源，导致服务器响应速度变慢。检测代码示例（Linux）:#查看系统负载uptime#查看CPU使用情况top-b-n1|grepCpu(s)#查看内存使用情况free-m2.系统日志中出
linux高并发服务器 Little-Hu Linux网络编程服务器 linux 运维
多进程并发服务器使用多进程并发服务器时要考虑以下几点：父进程最大文件描述个数(父进程中需要close关闭accept返回的新文件描述符)系统内创建进程个数(与内存大小相关)进程创建过多是否降低整体服务性能(进程调度)server#include#include#include#include#include#include"wrap.h"voidfree_process(intsig){pid_t
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多