bryce1010

大数据应用的多层次概率数据结构设计和实现

以下内容为个人写报告用来整理思路，不是篇完成的博文，谢谢！

摘要

在某些特定的应用场景下，由于Count-Min Sketch的统计特性，造成的数据误差会比较大，针对这一问题，我们采用array of Count-Min Sketches来进行实验提高效率与数据的精度。本课题主要面向大数据集应用，研究基于概率数据结构上这些融合的计算精度、性能，上下界数学表达，课题将面向大数据集在不同的应用场景下，设计实现合理的Count-Min Sketch 或array of Count-Min Sketches，以理论分析和实验检验方案的合理性，具有理论研究价值和应用前景。

本课题主要研究基于概率数据结构，针对不同的应用场景来合理的设计array of Count-MinSketches，在提高大数据应用的性能问题的同时提高Count-Min Sketch的精度问题。

立项依据

互联网时代，一些原理简单，但使用广泛的应用，面对大数据时，性能成为一个极大挑战。像网站统计独立访客(unique visitor)，用户对网站的访问量，销量排名靠前的商品或店铺，一定销量范围的某商品，商品是否已上架等查询，可以抽象为对应的大数据计算----**基数(势)估计(Cardinality Estimation)**、**频度估计(Frequency Estimation)**、**Top-k 元素计算(Heavy Hitters)**、**Range Query**，**Membership Query**。这类大数据计算，在某些应用场景下，没必要要求百分百精确，可以基于概率数据结构进行设计和实现，获取时空性能的提升。本课题主要研究基于概率数据结构，针对不同的应用场景来合理的设计**array of Count-Min Sketches**，在提高大数据应用的性能问题的同时提高Count-Min Sketch的精度问题。
使用概率数据结构处理大数据的算法一些应用，算法和数据结构都比较确定，但针对一些特定的应用，使用单一的概率数据结构处理大数据在带来性能提升的同时会带来较大的精度损失，在面对这些特定的应用场景时，如何更好地进行性能与精度的平衡，都面临一些挑战，使用多层次的概率数据结构可以在提高大数据应用性能问题的同时进一步提高单一概率数据结构的精度问题。本课题主要面向大数据集的不同应用场景，基于概率数据结构或多层次概率数据结构设计相应的算法。例如基于签到数据的常见应用，比如兴趣区域统计、位置推荐等，均可以通过上述基本大数据应用实现。

研究内容

面向签到数据Heavy Hitters查询的Count-Min Sketch设计与实现
面向签到数据的Range Query的array of Count-Min Sketches设计与实现
面向签到数据的Frequency Estimation的array of Count-Min Sketches设计与实现。

研究目标

面向签到大数据查询的不同应用下的高时空效率概率数据结构以及层次概率数据结构的设计和实现，是实验证明可行的。
面向签到大数据的概率数据结构以及多层次概率数据结构的时空分析，是理论证明高效的。
针对不同的应用场景设计合理的概率数据结构保证处理签到数据集时精度和性能的平衡性。

拟解决的关键科学问题：
针对不同的应用场景设计合理的Count-Min Sketch和array of Count-Min Sketches结构保证精度和性能的平衡性，及其应用在签到大数据上的适用性问题。

研究过程记录

2017/12/9 基数估计

一、基数估计Cardinality Estimation

解读Cardinality Estimation算法（第一部分：基本概念）

基数的定义
简单来说，基数（cardinality，也译作势），是指一个集合（这里的集合允许存在重复元素，与集合论对集合严格的定义略有不同，如不做特殊说明，本文中提到的集合均允许存在重复元素）中不同元素的个数。
传统的基数计数实现
1. 基于B树的基数计数
2. 基于bitmap的基数计数
为了克服B树不能高效合并的问题，一种替代方案是使用bitmap表示集合。也就是使用一个很长的bit数组表示集合，将bit位顺序编号，bit为1表示此编号在集合中，为0表示不在集合中。例如“00100110”表示集合 {2，5，6}。bitmap中1的数量就是这个集合的基数。

显然，与B树不同bitmap可以高效的进行合并，只需进行按位或（or）运算就可以，而位运算在计算机中的运算效率是很高的。但是bitmap方式也有自己的问题，就是内存使用问题。

很容易发现，bitmap的长度与集合中元素个数无关，而是与基数的上限有关。例如在上面的例子中，假如要计算上限为1亿的基数，则需要12.5M字节的bitmap，十个链接就需要125M。关键在于，这个内存使用与集合元素数量无关，即使一个链接仅仅有一个1UV，也要为其分配12.5M字节。

由此可见，虽然bitmap方式易于合并，却由于内存使用问题而无法广泛用于大数据场景。

解读Cardinality Estimation算法（第二部分：Linear Counting）

最大似然估计，就是利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。
LC算法事实上是哈希函数加上bitmap的综合。
。LC算法虽然由于空间复杂度不够理想已经很少被单独使用，但是由于其在元素数量较少时表现非常优秀，因此常被用于弥补LogLog Counting在元素较少时误差较大的缺陷，实际上LC及其思想是组成HyperLogLog Counting和Adaptive Counting的一部分。

Linear Counting算法相较于直接映射bitmap的方法能大大节省内存（大约只需后者1/10的内存），但毕竟只是一个常系数级的降低，空间复杂度仍然为O(Nmax)O(Nmax)。

解读Cardinality Estimation算法（第三部分：LogLog Counting）

LogLog Counting却只有O(log2(log2(Nmax)))O(log2(log2(Nmax)))。例如，假设基数的上限为1亿，原始bitmap方法需要12.5M内存，而LogLog Counting只需不到1K内存（640字节）就可以在标准误差不超过4%的精度下对基数进行估计，效果可谓十分惊人。

基本算法
均匀随机化
与LC一样，在使用LLC之前需要选取一个哈希函数H应用于所有元素，然后对哈希值进行基数估计。H必须满足如下条件（定性的）：

1、H的结果具有很好的均匀性，也就是说无论原始集合元素的值分布如何，其哈希结果的值几乎服从均匀分布（完全服从均匀分布是不可能的，D. Knuth已经证明不可能通过一个哈希函数将一组不服从均匀分布的数据映射为绝对均匀分布，但是很多哈希函数可以生成几乎服从均匀分布的结果，这里我们忽略这种理论上的差异，认为哈希结果就是服从均匀分布）。

2、H的碰撞几乎可以忽略不计。也就是说我们认为对于不同的原始值，其哈希结果相同的概率非常小以至于可以忽略不计。

3、H的哈希结果是固定长度的。

以上对哈希函数的要求是随机化和后续概率分析的基础。后面的分析均认为是针对哈希后的均匀分布数据进行。

分桶平均
上述分析给出了LLC的基本思想，不过如果直接使用上面的单一估计量进行基数估计会由于偶然性而存在较大误差。因此，LLC采用了分桶平均的思想来消减误差。具体来说，就是将哈希空间平均分成m份，每份称之为一个桶（bucket）。对于每一个元素，其哈希值的前k比特作为桶编号，其中2k=m2k=m，而后L-k个比特作为真正用于基数估计的比特串。桶编号相同的元素被分配到同一个桶，在进行基数估计时，首先计算每个桶内元素最大的第一个“1”的位置，设为M[i]，然后对这m个值取平均后再进行估计，即：
n^=21m∑M[i]n^=21m∑M[i]
这相当于物理试验中经常使用的多次试验取平均的做法，可以有效消减因偶然性带来的误差。

下面举一个例子说明分桶平均怎么做。

假设H的哈希长度为16bit，分桶数m定为32。设一个元素哈希值的比特串为“0001001010001010”，由于m为32，因此前5个bit为桶编号，所以这个元素应该归入“00010”即2号桶（桶编号从0开始，最大编号为m-1），而剩下部分是“01010001010”且显然ρ(01010001010)=2ρ(01010001010)=2，所以桶编号为“00010”的元素最大的ρρ即为M[2]的值。

算法应用
误差控制

在应用LLC时，主要需要考虑的是分桶数m，而这个m主要取决于误差。根据上面的误差分析，如果要将误差控制在ϵϵ之内，则：

m>(1.30ϵ)2

内存使用分析

内存使用与m的大小及哈希值得长度（或说基数上限）有关。假设H的值为32bit，由于ρmax≤32ρmax≤32，因此每个桶需要5bit空间存储这个桶的ρmaxρmax，m个桶就是5×m/85×m/8字节。例如基数上限为一亿（约227227），当分桶数m为1024时，每个桶的基数上限约为227/210=217227/210=217，而log2(log2(217))=4.09log2(log2(217))=4.09，因此每个桶需要5bit，需要字节数就是5×1024/8=6405×1024/8=640，误差为1.30/1024−−−−√=0.0406251.30/1024=0.040625，也就是约为4%。

合并

与LC不同，LLC的合并是以桶为单位而不是bit为单位，由于LLC只需记录桶的ρmaxρmax，因此合并时取相同桶编号数值最大者为合并后此桶的数值即可。

本文主要介绍了LogLog Counting算法，相比LC其最大的优势就是内存使用极少。不过LLC也有自己的问题，就是当n不是特别大时，其估计误差过大，因此目前实际使用的基数估计算法都是基于LLC改进的算法，这些改进算法通过一定手段抑制原始LLC在n较小时偏差过大的问题。
总结：
首先对集合里的所有的element进行hash，假设hash函数服从均匀分布。
这种方案实践起来偶然因素影响太大，在小概率的情况下，带来较大的误差。所以要采取分桶平均的方法来平均误差。

class LogLogCounter {
    int H           // H is a design parameter, hash value的bit长度
    int m = 2^k         // k is a design parameter, 划分的bucket数
    etype[] estimators = new etype[m] // etype is a design parameter, 预估值的类型(ex,byte), 不同rank函数的实现可以返回不同的类型

    void add(value) {
        hashedValue = hash(value) //产生H bits的hash value
        bucket = getBits(hashedValue, 0, k) //将前k bits作为桶号
        estimators[bucket] = max(   //对每个bucket只保留最大的预估值
            estimators[bucket],
            rank( getBits(hashedValue, k, H) ) //用k到H bits来预估Cardinality
        )
    }

    getBits(value, int start, int end) //取出从start到end的bits段
    rank(value) //取出ρ(value)
}

2017/12/10
**解读Cardinality Estimation算法（第四部分：HyperLogLog Counting及Adaptive Counting）**

**Adaptive Counting**
Adaptive Counting（简称AC）在“Fast and accurate traffic matrix measurement using adaptive cardinality counting”一文中被提出。其思想也非常简单直观：实际上AC只是简单将LC和LLC组合使用，根据基数量级决定是使用LC还是LLC。具体是通过分析两者的标准差，给出一个阈值，根据阈值选择使用哪种估计。
完整的AC算法如下：

误差分析

因为AC只是LC和LLC的简单组合，所以误差分析可以依照LC和LLC进行。值得注意的是，当β<0.051β<0.051时，LLC最大的偏差不超过0.17%，因此可以近似认为是无偏的。


**HyperLogLog Counting**
基本算法

HLLC的第一个改进是使用调和平均数替代几何平均数。注意LLC是对各个桶取算数平均数，而算数平均数最终被应用到2的指数上，所以总体来看LLC取得是几何平均数。由于几何平均数对于离群值（例如这里的0）特别敏感，因此当存在离群值时，LLC的偏差就会很大，这也从另一个角度解释了为什么n不太大时LLC的效果不太好。这是因为n较小时，可能存在较多空桶，而这些特殊的离群值强烈干扰了几何平均数的稳定性。


偏差分析

根据论文中的分析结论，与LLC一样HLLC是渐近无偏估计，且其渐近标准差为：

SEhllc(n^/n)=1.04/m−−√SEhllc(n^/n)=1.04/m
因此在存储空间相同的情况下，HLLC比LLC具有更高的精度。例如，对于分桶数m为2^13（8k字节）时，LLC的标准误差为1.4%，而HLLC为1.1%。

分段偏差修正

在HLLC的论文中，作者在实现建议部分还给出了在n相对于m较小或较大时的偏差修正方案。具体来说，设E为估计值：

当E≤52mE≤52m时，使用LC进行估计。

当52m130232E>130232时，估计公式如为n^=−232log(1−E/232)n^=−232log(1−E/232)。

二、频率估计 Frequency Estimation

估计某个element的出现次数 
正常的做法就是使用sorted table或者hash table, 问题当然就是空间效率 
所以我们需要在牺牲一定的准确性的情况下, 优化空间效率

2.1 Frequency Estimation: Count-Min Sketch

这个方法比较简单, 原理就是, 使用二维的hash table, w是hash table的取值空间, d是hash函数的个数 对某个element, 分别使用d个hash函数计算相应的hash值, 并在对应的bucket上递增1, 每个bucket的值称为sketch, 如图

然后在查询某个element的frequency时, 只需要取出所有d个sketch, 然后取最小的那个作为预估值, 如其名

因为为了节省空间, w*d是远小于真正的element个数的, 所以必然会出现很多的冲突, 而最小的那个应该是冲突最少的, 最精确的那个

这个方法的思路和bloom filter比较类似, 都是通过多个hash来降低冲突带来的影响

伪代码如下：

#include 

using namespace std;



class CountMinSketch
{
    long  ewtimators[][]=new long[d][w];//d代表hash函数的个数，w代表hash table的取值空间
    long a[]=new long[d];
    long b[]=new long [d];

    long p;//hash参数

    //初始化hash family ，不同的hash函数中参数a,b不同
    void initializeHashes()
    {
        for(int i=0;ivoid add(long value)
    {
        for(int i=0;ivalue,i)]++;//简单的对每个nucket经行叠加
        }
    }
    long estimateFrequency(value)
    {
        long minmum=MAX_VALUE;
        for(int i=0;ivalue,i)]);//取最小值估计
        }
        return minmum;
    }
    hash(value,i)
    {
        return ((a[i]*value+b[i])mod p)mod w;//hash函数，a,b参数会变化
    }

};

优点, 简单, 空间效率显著优化

缺点, 对于大量重复的element或top的element比较准确, 但对于较少出现的element准确度比较差
实验, 对于Count-Min sketch of size 3×64, i.e. 192 counters total
Dataset1, 10k elements, about 8500 distinct values, 较少重复的数据集, 测试结果准确度很差
Dataset2, 80k elements, about 8500 distinct values, 大量重复的数据集, 测试结果准确度比较高

2.2 Frequency Estimation: Count-Mean-Min Sketch

原理也比较简单, 预估sketch上可能产生的noise 
怎么预估? 很简单, 比如1000数hash到20个bucket里面, 那么在均匀分布的条件下, 一个bucket会被分配50个数 那么这里就把每个sketchCounter里面的noise减去 最终是取所有sketch的median(中位数), 而不是min

class CountMeanMinSketch {
    // initialization and addition procedures as in CountMinSketch
    // n is total number of added elements

    long estimateFrequency(value) {
        long e[] = new long[d]
        for(i = 0; i < d; i++) {
            sketchCounter = estimators[i][ hash(value, i) ]
            noiseEstimation = (n - sketchCounter) / (w - 1)
            e[i] = sketchCounter – noiseEstimator
        }
        return median(e)
    }
}

3.2 Heavy Hitters: Stream-Summary

另外一种获取top的思路, 
维护一组固定个数的slots, 比如你要求Top-10, 那么维护10个slots 
当elements过来, 如果slots里面有, 就递增, 没有就替换solts中frequency最小的那个

这个算法没有讲清楚, 给的例子也太简单, 不太能理解e(maximum potential error)干吗用的, 为什么4替换3后, 3的frequency作为4的maximum potential error
我的理解是, 因为3的frequency本身就是最小的, 所以4继承3的frequency不会影响实际的排名,
这样避免3,4交替出现所带来的计数问题, 但这里的frequency就不是精确的, 3的frequency被记入4是potential error

The figure below illustrates how Stream-Summary with 3 slots works for the input stream {1,2,2,2,3,1,1,4}.

一下部分没看懂：

（讲得不够清晰，没讲清楚3是怎么被4取代的，也没说因子e是什么作用）

树1 树的同构 C++实现
树1树的同构C++实现#题目给定两棵树T1和T2。如果T1可以通过若干次左右孩子互换就变成T2，则我们称两棵树是“同构”的。例如图1给出的两棵树就是同构的，因为我们把其中一棵树的结点A、B、G的左右孩子互换后，就得到另外一棵树。而图2就不是同构的。图1图2现给定两棵树，请你判断它们是否是同构的。输入格式:输入给出2棵二叉树树的信息。对于每棵树，首先在一行中给出一个非负整数N(≤10)，即该树的结点
HTTP协议详细介绍
HTTP（HyperTextTransferProtocol，超文本传输协议）是用于在计算机网络中分发超文本信息的基础协议。它是万维网（WorldWideWeb）的核心协议之一，允许浏览器、服务器和其他应用程序之间的通信。HTTP是无状态的应用层协议，最初用于传输HTML文档，但现在几乎可以传输任何类型的数据。1.HTTP的基本概念1.1无状态协议HTTP是一个无状态协议，这意味着每个请求和响应都
判断树的同构 weixin_33681778 数据结构与算法
来源：大学mooc后的编程题（陈越《数据结构》）03-树1树的同构(25分)给定两棵树T1和T2。如果T1可以通过若干次左右孩子互换就变成T2，则我们称两棵树是“同构”的。例如图1给出的两棵树就是同构的，因为我们把其中一棵树的结点A、B、G的左右孩子互换后，就得到另外一棵树。而图2就不是同构的。图1图2现给定两棵树，请你判断它们是否是同构的。输入格式:输入给出2棵二叉树树的信息。对于每棵树，首先在
Android NFC 技术详解及 IC 卡读取实现 Monkey-旭 microsoft NFC IC卡 android java
NFC（NearFieldCommunication，近场通信）作为一种短距离高频无线通信技术，在移动支付、身份识别、数据传输等场景中应用广泛。在Android设备上，NFC功能可以实现与IC卡、标签、其他NFC设备的交互，其中“读取IC卡”是最常见的需求之一。本文将从技术原理到实际开发，全面讲解AndroidNFC技术及IC卡读取实现。一、AndroidNFC技术基础1.1什么是NFC？NFC是
多通路fpga 通信_FPGA高速接口PCIe详解 weixin_39597636 多通路fpga 通信
在高速互连领域中，使用高速差分总线替代并行总线是大势所趋。与单端并行信号(PCI总线)相比，高速差分信号(PCIe总线)可以使用更高的时钟频率，从而使用更少的信号线，完成之前需要许多单端并行数据信号才能达到的总线带宽。PCIe协议基础知识PCI总线使用并行总线结构，在同一条总线上的所有外部设备共享总线带宽，而PCIe总线使用了高速差分总线，并采用端到端的连接方式，因此在每一条PCIe链路中只能连接
Verilog实现FPGA串口通信详解 CodeMystic
本文还有配套的精品资源，点击获取简介：FPGA以其灵活性和高效性在数字信号处理和接口通信领域广泛应用。本文详细介绍了使用Verilog硬件描述语言实现FPGA串口通信的基础知识和设计流程。主要内容涵盖UART协议的理解、Verilog中UART模块的定义和实现、设计流程的步骤以及注意事项。通过掌握这些知识点，读者可以学习如何在FPGA上实现UART串口通信，这一技能对于嵌入式系统设计至关重要。1.
猪肚煲鸡，只靠一味香料，这汤却有异香鱼小编
温暖存在的唯一意义，是出现在寒冷的冬天。如同忙碌一日后，喝上的一口暖心鸡汤。∞得空的时间里，还是喜欢自己下厨来慰藉五脏六腑。今日炖汤吧！这个菜谱我酝酿了一周多，仍然不知道怎么渲染爱它的情感。光听名字就厉害的猪肚包鸡，是广东省的地方传统名菜，属于客家菜系，又名凤凰投胎。鲜嫩的鸡肉与粗犷的猪肚在白胡椒粒的牵线下相遇，随时间沉淀，造就了一口鲜掉眉毛的汤。一碗合格的猪肚鸡汤，精气神都在白胡椒粒里了。在这道
年轻人在城市里工作，租房时应该注意什么？九大问题值得你考量梓树花开
文/马梓开郑重声明：本文为作者原创作品，全网维权，侵权必究。因为工作关系，我曾经多次租房。话说对初入职场的年轻人来说，进入陌生城市工作，一旦落实好工作了，那租房通常是必须考虑的因素。在租房的时候应该留意哪些问题呢？作为一个曾经租房多次的人，我自认为有点经验，所以来说说个人看法。01阳光租房的首要条件，是要求阳光能够照进来。有人说，阳光怎么能是租房子的首要条件呢？能这么说话的人，一定是没有在城中村待
告别啃老，不做米虫，女性独立，一定要做到的3件事爱家心理
“妈，你就不能不干涉我？我自己事儿知道怎么办！”“我这都是为你好，你知道怎么办你还次次搞砸，那次不是我跟在你后边给你擦屁股。别乱想了照我说的做！”“我不！”母女两个怒目而瞪！小雨妈妈今年已经63岁了，小雨也年过三十，但是母女两个却经常因为小雨要穿什么衣服，在单位做什么事情儿吵闹不休。小雨觉得妈妈对自己干涉太多，妈妈则觉得自己吃过的盐比小雨流过的汗多，自己说的都是为小雨好。小雨却没有这个觉悟，觉得妈
iOS之BLE蓝牙SDK开发个人总结(基础篇) 大灰狼ios
最近一段时间一直在做公司的BLE蓝牙SDK，sdk主要负责外设和手机的连接以及数据通信。过程中遇到了一些比较有价值的问题，现在总结记录下。蓝牙开发使用系统框架#import使用[[CBCentralManageralloc]initWithDelegate:selfqueue:nil]初始化CBCentralManager对象。(设置CBCentralManagerDelegate为self，ni
WebSocket应用场景分析及实践 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介1996年，IETF（互联网工程任务组）提出了WebSocket协议，是一种低开销、多方通讯的网络传输协议。它的诞生标志着跨越式增长的Web服务爆发式增长时代到来。WebSocket作为新的通信协议标准化运用十分普遍，被各大浏览器厂商、服务器软件厂商以及各种开发者广泛采用，随之而来的就是各种应用场景需求浪潮。本文将从应用层面，以WebSocket为代表，剖析其一
2018-9-5晨间日记面朝大海_219d
今天是什么日子起床：就寝：天气：心情：纪念日：叫我起床的不是闹钟是梦想年度目标及关键点：本月重要成果：今日三只青蛙/番茄钟成功日志-记录三五件有收获的事务财务检视人际的投入开卷有益-学习/读书/听书健康与饮食今日步数：5000步今日锻炼：半小时今日饮食：蛋炒饭世界公认:最佳起床时间早上五点钟，说是一年分二十四节气，又把一天分为二十四个小节气，而早上五点是起来是升阳的，起床活动半小时可是再躺回去睡回
有声读物配音兼职app，有声书接单群都是哪里接单配音新手圈
一、有声读物配音兼职app的常规文章类大纲标题有声读物配音兼职app的介绍：有声读物配音兼职app是一种通过手机应用程序提供有声读物配音兼职的平台。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。用户可以在这些app上注册成为配音
2023年精选防脱洗发水全球十大品牌排行榜高省爱氧惠
生活中不少朋友可能也有同样的情况，头发又细又软，看起来软趴趴地贴在头皮上，让人看起来发量少得可怜，关键是头发本来就不多，各种防掉发的洗发水和“偏方”尝试很多都没用。其实不是没用，而是你没选对。防脱洗发水哪个牌子的效果好？2023防脱洗发水排行榜10强，拒绝加入秃头党，以下几款可作参考~1、露卡菲娅防脱生发液我之前就被脱发苦恼了好一段时间，每次洗头发都掉可多，轻轻一扯头发就断，真的可难受，后来也是无
基于YOLOv8的火灾智能检测系统设计与实现斟的是酒中桃深度学习人工智能 pyqt yolo
在各类安全事故中，火灾因其突发性强、破坏力大，一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等，存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展，基于计算机视觉的火灾检测方法凭借其实时性强、检测范围广等优势，逐渐成为研究热点。本文将简单介绍一款基于深度学习的火灾智能检测系统的设计与实现过程。一、系统整体设计本火灾智能检测系统旨在通过深度学习技术实现
MD编辑器基本使用方法斟的是酒中桃编辑器 Markdown
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导入导出导入欢迎使用Mark
孤独的守望者崩塌灬信仰
今天的我突然想提笔写点什么，但却又不知从何写起，那就随便写点什么吧。你有没有发现，突然有那么一瞬间，仿佛整个世界都窒息了，静止了。你会觉得有点怅然若失，像过了几个世纪那么漫长。图片发自App我也不知道你是不是，偶尔也有这样的感觉，想找个人聊聊天，却觉得有些心事不知道该说给谁听，通讯列表几十页，微信好友几百个，越翻反而越觉得孤独深重。尤其是当你一个人出去旅游的时候，这种感觉尤为强烈。在青岛的时候，路
什么是网关？网关有什么作用？红客597 智能路由器网络
1.网关1.1什么是网关？网关英文名称为Gateway，又称网间连接器、协议转换器。网关在网络层以上实现网络互连，是最复杂的网络互连设备，仅用于两个高层协议不同的网络互连。网关既可以用于广域网互连，也可以用于局域网互连。网关是一种充当转换重任的计算机系统或设备。使用在不同的通信协议、数据格式或语言，甚至体系结构完全不同的两种系统之间，网关是一个翻译器，与网桥只是简单地传达信息不同，网关对收
【图像分割】基于模糊聚类FCM和改进的模糊聚类算法实现CT图像分割matlab代码天天Matlab科研工作室图像处理 Matlab各类代码算法聚类 matlab
1简介医学影像分割的基本目标是将图像分割成不同的解剖组织，从而可以从背景中提取出感兴趣区域。因为图像的低分辨率和弱对比度，实现医学影像分割是一件具有挑战的任务。而且，这个任务由于噪声和伪阴影变得更加困难，这些干扰项可能是因器材限制、重建算法和患者移动等原因造成的。目前还没有通用的医学图像分割算法，算法的优点和缺点经常根据所研究的问题而变化。将分割概念具体到颅内出血CT图像上，就是将颅腔中的出血病灶
网易云精选热评（一）宋画婕
网易云精选热评【一】日子甜甜的，像清晨的柠檬水，像初冬的太阳，像梦里的大海，像第一次遇见你。（试着放过你）【二】当雨点打在你脸上，世界对立在你面前，我可以给你我温暖的怀抱，只为让你感受到我的爱。当夜幕降临，星辰渐显，你流下的泪无人擦拭时，我可以拥抱你，直至百万年后只为让你感受我的爱。我知道你心意并未决然，但我并不会责怪你，因为从我遇见你的那一刻，我心已知，你在我心中的位置。（SHIPCE）【三】春
2018-03-29 天父深深所爱的娜娜公主
耶稣，这些年我不知道你为我操了多少心，你有多担心我会信不下去。你又为我流了多少眼泪是我不知道的。我真的没有想到我会走到今天。上帝你看到了，娜娜学会发自内心的笑了，你看到了，娜娜可以走路了，你看到了娜娜可以好好吃饭了。我还可以正常上班了。这是我以前不敢想的。耶稣你也感受到了我的心跳正常了，我的表情不再木讷了。上帝阿爸我爱你(ღ‿ღ)。爸爸，接下来你还要好好爱我，没有你我连呼吸都不要，也要不起。。。。
走进群众，宣讲党史含糊
2021年是中国共产党成立的第100周年，过去一百年间，在中国共产党的领导下，中华民族创造了一个又一个奇迹，如今已经是世界上不容小觑的大国。为了让更多人了解党史，铭记党史，传承红色基因，水利学院学习党史暑期社会实践队将在接下来的半个月中积极宣传党史，让党的辉煌历史广为人知。7月10日，党史宣传活动正式启动，队长召开会议并对接下来的活动进行详细安排。团队成员共分为四组，从校园开始活动的起点，首先了解
“雨城”小景崖上的百合
第三章十年前的回忆一记得十年前那天他也是从大榕树下启程到小梅家里去的，他们俩分别之前就说好的，每年到了他们分别的日子，就让他到大榕树下照一张大榕树的照片让她母亲寄给她，顺便也让他去看看她的母亲。小梅的父亲在她很小的时候就去世了，母女俩就靠着几亩薄田和他父亲留下的十多桶蜜蜂艰难度日，她走了以后，家里就剩下母亲一个人。阳春三月，春光明媚，山花烂漫，一条清清的小溪从翠竹丛中钻出来，在阳光里尽情舒展着她那
03-树1 树的同构 CO₂ PTA 树的同构
03-树1树的同构（25分)给定两棵树，请你判断它们是否是同构的。输入格式:输入给出2棵二叉树树的信息。对于每棵树，首先在一行中给出一个非负整数N(≤10)，即该树的结点数（此时假设结点从0到N−1编号）；随后N行，第i行对应编号第i个结点，给出该结点中存储的1个英文大写字母、其左孩子结点的编号、右孩子结点的编号。如果孩子结点为空，则在相应位置上给出“-”。给出的数据间用一个空格分隔。注意：题目保
万豪杰读《小学教师与民主运动》有感小杰哥哥
不知道怎么回事，现在读书喜欢做导图，感觉结构不整明白就跟没读书似的。这篇文章一开始做的导图缺少逻辑思维，经过罗立老师的指导，粗略整理了一下感觉有点变好，不过肯定还有不足之处，欢迎批评指正！下面我就重点说一下自己的读书感受，一家之言，欢迎批评指正！1、惟其学而不厌才能诲人不倦。老师最忌固步自封，“这点知识太简单了，不用备课了”，“小学的知识我闭着眼都能教”……可是老师们，这点知识对我们来说是简单，但
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
奇葩二叔敬翔说
二叔，是爷爷的第五个孩子，爸爸是老大，中间是三位姑姑，二叔最小。自打我记事起，总觉得二叔跟正常人不一样，现在只能用奇葩一词来形容。听妈妈说，二叔是老小，可是对爷爷奶奶一点不尊重，不孝顺，甚至曾经打骂爷爷奶奶，为此估计父亲也多次训斥，可惜本性难改。当然根源应该还是在爷爷奶奶身上吧，一般老人都是溺爱老小的。当然，他对父亲和母亲也不尊重，父亲病重的时候，他总是无缘由的谩骂爸爸，父亲身体不好，只能心理干受
上海：一座流淌着时光与摩登的旅行秘境 peter_wang1 其他
上海：一座流淌着时光与摩登的旅行秘境当晨光穿透黄浦江面的薄雾，外滩的万国建筑群正缓缓苏醒。沙逊大厦墨绿色的金字塔形屋顶上，晨雾凝结的水珠顺着ArtDeco装饰线条滑落，坠入苏州河与黄浦江交汇的漩涡。哥特式尖顶的阴影里，晨练的老人舒展着太极招式，指尖划过和平饭店青铜旋转门的弧线，皮鞋踏过百年花岗岩的声响，与对岸陆家嘴玻璃幕墙上折射的第一缕阳光撞个满怀。这缕光掠过金茂大厦的塔尖，穿透上海中心大厦的阻尼
7-1 树的同构 studyovo_Hz hbu数据结构 c++算法数据结构
7-1树的同构分数20作者陈越单位浙江大学给定两棵树T1和T2。如果T1可以通过若干次左右孩子互换就变成T2，则我们称两棵树是“同构”的。例如图1给出的两棵树就是同构的，因为我们把其中一棵树的结点A、B、G的左右孩子互换后，就得到另外一棵树。而图2就不是同构的。现给定两棵树，请你判断它们是否是同构的。输入格式:输入给出2棵二叉树树的信息。对于每棵树，首先在一行中给出一个非负整数N(≤10)，即该树
特斯拉机器人来喽玉菲炫舞
特斯拉要出机器人了，名字叫optimus，听到这个消息我很是兴奋，但也因此和朋友争执了一番。我喜欢特斯拉，是因为我把埃隆·马斯克当成我的科技偶像。我看到特斯拉的机器人兴奋也是因为这个。大概三到五年之后量产售价不到2万美元，听到这里就很兴奋，这几年要努力赚钱，希望能成为第一批用户。为什么和朋友争执呢？我说以后我要成为他的第一批用户，朋友就说机器人有什么好的？我说当然好啦，他能够驾驶车辆，还能够拿起重
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_