mysonghushu

GC标记-清除算法

GC标记-清楚算法

面试官：什么是GC标记-清除算法？
我：就是由标记阶段和清除阶段组成的垃圾回收算法。
面试官：然后呢？
我: 我已经说完了啊。
面试官：下一位。
我: 我说错了吗？
面试官：你没有说错，但说的太少了。你能说说，标记的是啥？清除的是啥？
我：标记的是活动的对象，清除的是非活动的对象，也就是垃圾？
面试官：保安，你进来一下。把这个人拖出去。
我：先别拖，我会写伪代码。(摸摸的从自己包里拿出了纸和笔)。

伪代码

我：我写好了，你看。(把纸递给了面试官)

mark_sweep() {
    mark_phase()
    sweep_phase()
}

面试官：这也太简单了吧？
我：你别急，我先画一张图给你。

执行GC前堆的状态

我：这里的椭圆表示GC roots. 灰色的表示对象。这个对象是特指虚拟机里面的对象。
面试官：虚拟机的对象是啥？
我：你看，从概念上看，虚拟机里面的对象有两部分组成：对象头(Header)和域(Fields)。对象头就像是一列地铁的车头(假设地铁是单向的)。
里面存放了对象的类型，对象的大小，和GC运行相关的信息。域才是对象里面使用者真正能够访问的地方。既然是标记算法，就要在对象头里面搞一个
标记用于记录对象的状态。你看，下面的矩形表示堆，堆里面第一个对象没有被GC roots引用，所以是死去的对象，第二个对象有被GC roots引用，是活的对象。
而第三个对象不被GC root引用,是死了的对象。
面试官：你逗我吧？你说第三个对象是死了的对象？没有被GC roots引用的对象就不能活？
我：我没有逗你，第三个对象是死对象，不仅仅是因为他没有被GC root引用，还因为它没有在引用链（reference chain）上。引用链就是指自己没有被GC roots引用，但引用自己的对象有直接或间接被GC roots引用。而第三个对象虽然引用了第二个对象，但它本身没有在引用链上，就没有被程序所使用，把它当垃圾回收了，也不影响程序正常运行，就是死亡的对象。
面试官：哦，哦，哦。你说的对。
我: 第四个对象有被GC root引用。同时他的对象域里面有两个指针，分别指向第五个和第六个对象，这个叫引用链(reference chained). 我管它叫裙带关系，一人得到，鸡犬升天那种。第六个对象没有升天，所以死了。
面试官：听着是那么回事，就是感觉有怪味儿。
我：我没有工作，有味正常，你看我给你写个伪代码。

标记阶段伪代码

for(r : $roots) {
    mark(*r)
}

我：你看这个 $roots 表示所有的GC roots对象。擒贼先擒王，挽弓当挽强。我先找到所有GC roots 引用的对象。把他们都标记为存活状态。
面试官：那mark(*r)的伪代码，你能写一下么？

mark(obj) {
   if (obj.mark == FALSE) {
       obj.mark == TRUE
       for (child : children(obj)) {
          mark(*child)
       }
   }   
}

我：第二行，检查作为实参传递的obj是否已被标记，如果已经被标记了，证明已经被处理过了，我就不再处理了。这个情况叫做循环引用，你想象一下，第五个对象假如也是根对象的话，如果不加判断，是不是要被重复处理。所以加判断是为了避免重复进行标记。
面试官：那这个mark就是你说的标志位了？
我：是的，你看第三行。GC就像一个阎王一样，拿着一个大笔守候在奈何桥边，手里拿着GC-roots账本，能来的都已经是有后台有关系的GC-roots对象了。他就拿大笔一挥，在人家脑门子上画一个NIKE标记(Object header)。这还不算。还要盘查一下它有没有引用其他对象，凡是有关系的，一个一个的拎出来在脑门子上打钩。然后继续株连九族，说错了，是活连N族。
面试官：啥玩意儿？NIKE标记？
我：哦，就是一个对象头里面的标志位，用于记录对象是否存活。来来来，我给你看看他们的大脑儿门上的NIKE。

我：我再给你画个标记完后的图。

面试官：嗯，有那个内味儿了，你能算算花费的时间吗？
我：我们聊了大半个小时了吧。
面试官：我是问如何计算标记所有活动对象，花费的时间。
我：这个花费的时间嘛，当然是看活动对象的多少了，如果活动对象多，阎王爷标记花的时间就多,用数学的术语形容叫成正比例。而且阎王爷GC眼力劲儿不好，标记的时候要那些对象停止活动, 人间一秒，地府一年呀，他也没办法呀，担心这些对象在被标记的时候耐不住寂寞，发生对象找对象，对象甩对象，或者对象生对象之类乱七八糟的，又人之常情的事情，谁活着不是为了找对象，谈恋爱，生孩子呀？虽然不至于整个地府(堆：heap)都这样乱七八糟的，但只要是它清点的那一片区域，就要强制要求对象停止活动的。时间久了，对象们都憋不住了，那个闹腾啊，控制不住就直接憋死了，还让不让人爽了？阎王爷也是个爱琢磨的人，它发现找GC roots上的对象很快，搞“活连N族”，根据引用链找到所有间接引用的对象，就有点费时间,也在慢慢琢磨改进，这是后话。
面试官：你只说了阎王爷(GC)标记Roots对象，你能在聊聊上面“活连N族”的过程吗？也就是你说的标记对象生存状态的详细过程？
我: 这个嘛，据说阎王爷 GC 的时候，用到了深度优先搜索(depth-first search)和广度优先(breadth-first search)搜索。说什么深度优先比广度优先更能压低内存使用量。我没有品出来这个味。你帮我看看呢？

深度优先搜索(depth-first search)

我：感觉深度优先就是在遍历引用关系链表的时候，一杆子插到底，如果标记一个GC root的对象，就顺藤摸瓜把这个对应引用的一串对象全找出来，再处理顶上与他同级的兄弟对象，在兄弟对象的引用关系上又一杆子插到底。

广度优先搜索(breadth-first search)

我：而广度优先，我没有看懂。还想和上面的代码不符，管他的，至少我知道标记阶段经常用到的是深度优先搜索。

清除阶段

面试官：那你在聊聊清除阶段吗？
我：清除阶段结合垃圾收集器有关了(collector), collector 会遍历整个堆，回收没有打上标记的对象,释放它们占用的空间。
面试官：怎么个清除法？
我：我给你比划比划下伪代码。

清除阶段伪代码

执行合并的sweep_phase()函数

sweep_phase() {
  sweeping = $heap_start
  while(sweeping < $heap_end) {
     if(sweeping.mark == TRUE) {
        sweeping.mark = FALSE
     } else {
        // 你细品这两句代码
        sweeping.next = $free_list
        $free_list = sweeping
     }
     sweeping += sweeping.size
  }
}

我: 这里的sweeping.size. 表示一个存储对象大小，也就是对象占用字节数的域。他和mark域一样，也是需要事先在各对象头里面定义的。我这里用变量sweeping获取堆的开始地址( $heap_start)引用的对象, 遍历完堆中的所有对象，直到超出堆的结束地址($ heap_end)。对于每个对象，如果脑门上有个NIKE标记(对象头的mark域值为true)。恭喜这个对象，它活下来了，赶紧把脑门上的NIKE标记擦掉，表示是存活下来的对象。如果脑门上没有NIKE标记，我会先搞一个空闲指针。
面试官：啥空闲指针？
我：哦，我还是放一张图吧，不然编不下去了。

我：请看图，堆中第一个对象是死去的对象。空闲链表在图中，就是一个指针，他初始状态下指向了第一个死去的对象的起始地址。当它遍历到第三个死去的对象的时候。sweeping.next = $free_list这句代码。你品一下，$free_list就是第一个死去对象的起始地址。你可以想想一下，空闲链表就是一个菜市场卖肉的那种大铁钩，不过阎王爷人家用的是琵琶钩，带铁链那种，还记得新白娘子传奇里，许仙在端午节被白娘子变成蛇精吓死了那集吗？许仙的魂被黑白无常抓取了，用的就是带铁链的琵琶钩，这个琵琶钩有个好处，可以把死去的对象一个一个串起来，谁也别想跑，又方便，比用把每个人都看到，只要看好端头的那个就好了。阎王爷先用琵琶钩住第一个死去对象起始地址，当他发现第二个死去对象的时候，会再拿出一个琵琶钩(指针)，直接挂进第二个死去对象肩膀那块的肉里面(这里指代死去对象的域)。用另外一头挂到空闲链表挂的那个位置，也就是上一个死去对象的位置，经过这么一链接呀，就把新发现死去的对象和空闲链表上一次发现的死去对象连上了。然后再把指向上一个死去对象的琵琶钩，挂到新发现的死去对象的肩膀上，这样一来，就连上了。
面试官：太血腥了，你直接挂到人家肉里面。这样不好吧？也就是说，你直接在死对象域里面临时硬占了一个域(Field)存储指针，不好吧？之前不是说，域是程序访问的地方吗？也就是存储数据的地方吗？会不会破坏对象存储的信息。
我：没事，死都都死了，还操心个啥，反正在GC标记-清除法里面，死了的对象都活不了，你看菜市场卖的猪肉，上面挂个洞。也不影响销售呀。这样做主要是为了节省空间。不然还得在对象头上面开一个区域，太占空间了，划不来。
面试官：有道理。
我：后面的回收，你注意观察一下清除阶段处理完后，空闲链表的引用，他指向了最后一个死亡对象的头，最后一个死亡对象的域里面，又有一个指针指向了第三个对象的头，第三个对象的头，又指向了第一对象的头。像不像阴曹地府里面黑白无常抓到的一串鬼啊？
面试官：大白天的，你别说啥鬼呀鬼的，把老子整得提心吊胆的。说正事，你这就释放完啦？感觉怪怪的？
我：嗯，是有点怪怪的。你看，一块好好的内存，之前还热热闹闹的，搞得现在稀稀疏疏的了。剩下的区域，有的大，有的小，而且还不连续。用专业的说法就是：内存碎片太多了，如果想分配一个大一点的对象，根据对象的size在这些零散的对象里面找，不一定就能找到合适的，如果大点，还可以切分，如果都小了，就麻烦了，即使空闲内存总数足够大，但是因为被切分成的块都小于给定的对象大小，不扩容就要报内存溢出了。
面试官：虽然看上去稀稀疏疏的，但还好，人家没有另外搞一块内存区域。对了，你再说说分配吧。
我：我先撒泡尿，回来我们再继续面吧。
面试官：等等我，我们一起去。

厕所里面响起了一起嘘嘘的流水声,面试官和我隔着一个槽位各自嘘嘘,他们都把头看到墙，不敢斜视旁边的对方，以免尴尬。

分配

面试官：好了，我们继续吧。
我：我们聊到哪儿了？
面试官：内存分配。
我：哦，内存分配这事情归 mutator 管，这里的分配，特指将回收的垃圾进行再利用。还记得那一串儿死对象么。就是那个空闲链表。
面试官：记得，那玩意儿就是一个又一个死去的对象“手拉手“。
我: 哈哈哈哈，对，你说得太对了，就是那玩意儿，哪些死去的对象有的大，有的小，而且还必须挨个去访问。分配对象的时候，可麻烦了。
面试官：咋了？怎么个麻烦法？
我：别慌，你看我这里有小抄。
面试官：小抄？
我：哦，不不不，是笔记，笔记, 伪代码笔记。

new_obj()函数

new_obj(size) {
   chunk = pickup_chunk(size, $free_list)
   if (chunk != NULL) {
      return chunk
   } else {
      allocation_fail()
   }
}

面试官：你这个小抄上面的 chunk 是啥玩意儿啊？
我：chunk 特指为了分配对象而找的一块内存区域。这个 new_obj(size) 方法，就是创建对象用的。会根据传入的对象大小，调用 pickup_chunk(size, $free_list) 方法，
在空闲链表里面，也就是那堆死去的对象里面，找一个一样 size 的对象。
面试官：一样size？
我：对，就是指一样大的对象，或者指存放对象的存储空间 size 一样大。~~我盲猜这个大小是不包括对象头的。只是对象可访问域的大小。没有拷证过，假设他是对的~~ 。
面试官：感觉这个方法有点问题呀？
我：是有问题，我也是没有办法，本来就是个回收再利用的过程，我只能挨个去找大小一样的。找到了还好，直接返回，如果找不到，就只能调用 allocation_fail() 方法, 报告分配失败了。
面试官：能往细了说说 pickup_chunk(size, $free_list) 到底干了写啥不？
我：你大爷的，我刚才不是说了吗，pickup_chunk 函数就是用于遍历 $free_list，寻找等于size 的分块。
面试官：你大爷的! 你确定是只寻找等于size的分块(chunk)? 难道就不能奢侈点，返回一个大一点的分块。
我：能是能，但严格意义上还是不能，内存分配不能像我们平时写代码那样，大点小点无所谓。一服务程序，存活的实例对象上千上万，要是在分配的时候你多一点儿，我多一点儿，累积起来浪费的可就更多啦。所以即使返回来大于原来的块。也要根据要使用的大小进行精确切割，分成和 size 大小相同的块和去掉size后剩余大小的分块。并把剩余的分块返回空闲链表。
面试官：慢着，你说了精确切割成size大小的块。那你刚才是不是说错了，这个size不仅仅包括对象能访问的域，也包括它的头，不然分配的空间不够存储呀。
我：你说的有道理，可能我说错了，留着后面拷证吧。
面试官：感觉你还没有把 pickup_chunk(size, $free_list) 给说透。
我：我嘴巴都说干了，衣服都湿透了，你说我没有说透。你倒是来给我说个透。
面试官：你别激动，我是想说，在寻找分块的时候，可以采取哪些策略。
我：哦，好吧。这个要看负责分配内存的人(allocator)勤快不勤快了，如果他想偷懒，不想再分配上浪费过多的时间，在挨个找的过程中，只要找到一个死对象，它的大小大于等于给定的对象。就直接返回这个死对象曾经使用过的区块(chunk)。有人把这个方式叫 First-fit。就是返回发现的第一个大于等于size的分块。
面试官：还有其它策略吗？
我：有，有，有。如果 allocator 人勤快，本份，或者说有点强迫症。就会遍历完空闲链表，找出那一个大于等于size的最小分块，返回回去。这种方式叫 Best-fit,就是找到最好的意思。
面试官：这两种比较，哪个好一点呢？
我：如果只使用单存的空闲链表，当然是时间快的好啦，也就是Fist-fit。
面试官：还有其他方式没？
我：还有一个，叫 Worst-fit. 就是找出空闲链表中最大的分块，将其分割成 mutator 申请大小的块和分割后剩余的大小。目的是将分割后剩余的分块最大化，但因为Worst-fit很容易生成大量小的分块，所以不推荐。
面试官：在我看，Worst-fit很容易生成大量小的分块，Best-fit 和 First-fit 也存在切分。所以也会产生小的分块。小的分块随着时间的推移，感觉也是个隐患。
我: 嗯，是的，如果空闲链表里面的分块越来越小，越来越多，稍微大一点的对象，就找不到分块了。所以，需要一个合并分块的过程。
面试官：能不能聊一下合并分块的过程？
我：你等等，我找找我的小抄。

合并

我：你看，不同的分配策略，会产生大量小的分块，但如果他们是连续的，我们就能把所有连续挨在一起的小分块，合成一个大分块。这种“连接连续分块”的操作，就叫做合并(coalescing)
面试官：听起来有点意思，那他在什么时候进行呢？
我：在清除阶段, 这两行代码有点难懂，看下图，假设此时空闲链表指向第一个死对象，sweeping已经指向了第二个对象，发现它是死的。
他只要通过 sweeping = $free_list + $free_list.size 确定：上一个死亡对象加上自己的大小，得出的地址刚好是第二个死亡对象的起始地址。就证明了这两个死亡对象是连续的，就可以进行合并操作，而合并操作超级简单，只需要把第二个死亡对象占用的空间大小累加到第一个死亡对象上。然后忘了有第二个死亡对象这回事儿，不在第二个死亡对象上进行任何指针操作。就可以了。
面试官：我的乖乖，原来内存管理，是通过指针实现的。

sweep_phase() {
   sweeping = $heap_start
   while(sweeping < $heap_end) {
      if(sweeping.mark == TRUE) {
         sweeping.mark = FALSE
      } else {
         if (sweeping == $free_list + $free_list.size) {
             $free_lize.size += sweeing.size
         } else {
             sweeping.next = $free_list
             $free_list = sweeping
         }
      }
      sweeping += sweeping.size
   }
}

优点

面试官：那GC标记-清除算法，有哪些优点吗？
我：小抄上说的算法简单，实现容易。我觉得打脑壳。还可以拿这个算法和其他算法组合。根据不同的情况选择不同的收集算法。但是当我看了部分-标记算法，才知道这个要好理解太多了。
面试官：先不提那个 “部分-标记算法”，继续说说 GC标记清除算法 还有什么优点？
我：注意观察，阎王爷(GC)不管是在标记阶段，还是在移动阶段，并没有移动存活的对象，更没有把这个对象从一个地方复制到另外一个地方。不移动，就不需要另外找一块堆区域去存放它，太划算了，这也算是他的优点。换句话说，只要在复制过程中，满足对象不移动的算法，就叫做保守式算法，而保守式算法，和其他场景的 GC复制算法，标记-压缩算法，是不兼容的。因为GC标记-清除算法不会移动对象，就非常适合搭配保守式GC算法。

缺点

面试官：那GC标记-清除算法，有哪些缺点吗？
我：碎片化(fragmentation), 因为整个算法过程中都不移动对象，而且为了内存不浪费，请求多少size的对象，就会根据找到的chunk切割，产生新的分块。用得越久，细化的碎片就越多，虽然有合并，但是只能合并连续的碎片，万一碎片和碎片之间正好有活动的对象，就没法在不移动对象的前提下，跨过活动的对象合并两个间隔的分块了。碎片多了，即使这些碎片合起来的空间足够大，也不能给size大的对象分配。导致堆溢出了。并且，碎片越多，mutator的执行负担就越重。很可出现
瞎忙活，白忙活的情况。
面试官：有什么解决方法不？
我：有，可以压缩整理，以及BiBOP法。这个是另外的话题了，先不聊。
面试官：还有啥缺点？
我：还有一个缺点，也是因为碎片化导致的分配速度问题。
面试官：有什么解决方法不？
我：有倒是有，分配速度慢，很大的原因在于空闲链表的查询。要根据给定的大小去遍历查找，而把大小不同的空闲 chunk 放到一个链表里面，就像把一堆大小不同的苹果放在同一个杯状容器里面。找起来确实麻烦。可以通过 多个空闲链表(multiple free-list) 对 chunk 按大小不同进行分类。当然，BiBOP方法也可以提高速度。
面试官：还有啥缺点不？
我：与 写时复制技术(copy-on-write) 不兼容。
面试官：啥？写时复制技术(copy-on-write)?
我：嗯，写时复制技术，是在Linux等Unix系统上使用的技术。假设现在有一个进程，它有自己的内存空间，可以读取到对应的数据。在Linux中复制进程时，会使用 fork() 函数，而这里有个问题，有没有必要把该进程所使用的所有空间都复制一份。想象一下，如果我都复制，当然能满足要求，但是会增加时间开销和内存开销，如果我只复制这个进程里面的必要的信息，大部分的内存空间，fork出来的进程和原进程都使用同一个地址。
面试官：那写咋办？这样搞实际上是将内存空间共享了，如果用fork出来的进程进行写，岂不是把原来进程关联的对象也改了，串味了！
我：嗯，是串味了。不过也有解决的办法。就是不允许访问共享的空间。在重写时，要复制自己的私有空间，堆私有空间进行重写。换句话说，fork出来的进程在执行写的时候，必然导致空间的复制。而GC标记-清除法，需要标记对象存活状态标志位，就导致了不应该发生的复制。占用了内存空间，
让可以使用的内存空间减少了。
面试官：咋办？这么好的算法，不用怪可惜的？
我：也简单，用位图标记(bitmap marking)算法，换个地方记录对象存活状态，就避免写操作了。
面试官：你看，中午十二点了，要不先去吃个饭？我们回来再详细说说你说的多个空闲链表，BiBOP法和位图标记法。
我：嗯，我先去买罐红牛提提神儿。

多个空闲链表法

面试官：好了，继续聊聊多个空闲链表吧
我：我还累，等下一个空闲时间再聊吧。
面试官：振作点，再挤挤，我想把你榨干，请开始你的表演。
我：之前聊了单个空闲链表，在单个空闲链表中，对大的分块和小的分块进行了同样的处理，这增加了分配时查找固定大小空闲块的难度。如果我多弄几个空闲链表，把这些空闲链表的头指针存放到一个组数里面，数组的不同下标，对应的值存放着对应的空闲链表，而每个空闲链表上，都是相同大小的空闲块，那分配的时候岂不是爽歪歪？直接拿来用就好了，不用再找了。找什么找呀。大家同一个大小，用谁不是用呢？
面试官：把你小抄上面的图给我看看。
我：你咋知道我小抄上面有？
面试官：我知道你从哪里抄的呀。
我：(汗颜!!!)

只利用一个空闲链表的情况

利用多个空闲链表的情况

面试官：那到底要用多大的数组存这些空闲链表的头地址呢？也就是说，到底制造多少个空闲链表才合适？既然对象的大小是正整数，而没有最大的正整数，岂不是要搞一个很大的数组。和更多的指针？
我：你说的是理论上的可能性，在现实中，一般情况下，mutator 很少会申请非常大的分块。为了应对这种极少出现的情况而大量制造空闲链表，会占用过多的内存空间。
面试官：那怎么办？
我：给分块大小设定一个上限被，如果超了，就全部采用一个空闲链表处理。
面试官：使用多个空闲链表，你上面的代码不对，是不是要改一下？
我：哦，是的，需要修改 new_obj() 函数和 sweep_phase()函数。你看:

利用多个空闲链表的new_obj()函数

new_obj(size) {
   // WORD_LENGTH表示字长，在不同的机器上有不同的值。
   index = size / (WORD_LENGTH / BYTE_LENGTH)
   // 小于100的块
   if(index <= 100) {
      //如果数组对应的位置有空闲链表
      if($free_list[index] != NULL) {
         // 直接获取对应空闲链表的第一个分块chunk
         chunk = $free_list[index]
         // 空闲链表第一个死对象的next指针指向下一个死对象，把它赋值给空闲链表头，以让第二个死对象称为链表的第一个死对象，而第一个死对象完成移除操作
         $free_list[index] = $free_list[index].next
         // 返回找到的chunk
         return chunk
      }
   } else {
     // 大于100的情况，当做同一种情况处理。尝试获取分块
      chunk = pickup_chunk(size, $free_list[101])
      if(chunk != NULL) {
         return chunk
      }
   }
   allocation_fail()
}

利用多个空闲链表的sweep_phase()函数

sweep_phase() {
   // 每次清除，都把上一次保留的空闲链表清空。
   for(i : 2..101) {
      $free_list[i] = NULL
   }
  
   // 获取堆的起始地址 
   sweeping = $heap_start
  
   // 一直遍历完整个堆 
   while(sweeping < $heap_end) {
      // 如果是存活的对象
      if(sweeping.mark == TRUE) {
         // 重置标志
         sweeping.mark = FALSE
      } else {
         // 已经死亡的对象，获取它占用的内存大小，以(WORD_LEGNTH/BYTE_LENGTH)为单位
         index = size / (WORD_LENGTH / BYTE_LENGTH)
         // 小于100的情况
         if (index <= 100) {
            // 要回收的 sweeping 对象的next指针，指向空闲链表里存储的上一个死对象。 
            sweeping.next = $free_list[index]
            // 把空闲链表的头指针，指向这个新回收的对象。 
            $free_list[index] = sweeping
         } else {
            // 大于100的情况，把回收对象的next指针，指向特殊处理的空闲链表里面的第一个对象。
            sweeping.next = $free_list[101]
            // 把忒书处理的空闲链表头指针，指向新回收的sweeping对象。
            $free_list[101] = sweeping
         }
      }
      // 将 sweeping 的地址累加 回收对象sweeping的大小，以指向下一个对象。
      sweeping += sweeping.size
   }
}

BiBOP法(Big Bag Of Pages)

面试官：那BiBOP法有是什么意思？
我： BiBOP 是 Big Bag Of Pages 的缩写。
面试官：啥玩意？
我：将大小相近的对象整理成固定大小的块进行管理的做法
面试官：还是没懂。
我：就是先把堆分割成固定大小的块，让每个块只能配置同样大小的对象。它和多个空闲链表法的思想是一样的，多个空闲链表法，是用多个空闲链表，每个空闲链表存放同样大小的对象。这样对象通过链表串在了一起，可以想象成逻辑上是在一起了。而 BiBOP，像是提前给对划分了固定大小的区域。每个区域只能配置同样大小的对象。
面试官：你上个图吧。
我：我找找。

面试官：这样倒腾为啥呢？
我：提高内存的使用率，因为每个块中只能配置同样大小的对象，所以不可能出现大小不均的分块。
面试官：他能完全消除碎片吗?
我：不能，比如说分成的块全部用于2个字的块中，只有一两个活动对象。其他的字块空着，这种情况下，就不能算是有效利用了堆。这个情况下，更像是扩大了堆中内存块的最小存储单位，但由于分块的存在，本来连续的对象，离散的分到不同块去了。造成在多个块分散残留着同样大小的对象。反而会降低堆的使用率。

位图标记法(Bitmap Table)

面试官：对了，你有提到过位图标记法？
我：嗯，就是换了个地方标记。GC在死亡对象的头节点上打标记，必然会写内存。而这在Linux和Unix类的系统使用的写复制技术不兼容，导致内存压迫。那就换一个地方记录死亡的对象吧。把阎王爷(GC)在死亡对象脑门上打钩的方式，换成阎王爷拿一个小本本记录的方式。比如阎王爷(GC)要对这块堆里面对象进行回收了，他就搞一个位图表格(bitmap table).用这个位图表格来记录哪些对象死亡了。
面试官：别给我整哪些乌七八糟的，忍你很久了，好好说话不行么?
我：哦，那我对比一下吧，在单存的GC标记-清除算法中，用于标记的位是分配到各个对象的头中的。算法是把对象和头一并处理了，这导致跟写复制技术不兼容。
面试官：那到底什么是位图标记法？你倒是给个清晰的说法。
我：位图标记，就是只收集各个对象的标志并表格化，不跟对象一起管理。在标记的时候，不在对象的头里置位，而是在表格中的特定场所置位。
面试官：那个表格是啥？是相亲的时候填的表格么？
我：不是相亲登记表格，是位图表格(bitmap table). 位是标记为的意思，利用这个表格进行标记的行为称为“位图标记”。
面试官：还是没听明白，你到底说说他和相亲表格有啥不同？(面试官摸了摸头上剩余的几撮头发，又按了按脸上的青春痘，想起了自己单身很久了)。
我：位图表格的实现方式有多种，例如散列表格，树形结构，为了简单，我用整数型数组比划比划吧。

我：你看这个图，位图表格中的位置要和堆里的各对象切实对应。比如第一个对象是活的，第一个格子就是1，第3个对象因为被引用，也是活的，起始地址在第5个格子。所以位图表格的第5位就设置为1.
面试官：那到底如何标记呢？
我：你看，这个就是位图标记中的mark()函数

位图标记中的mark()函数

mark(obj) {
  // 那对象的起始地址，减去堆的起始地址，再除以字长，得到对象占用的字长
  // 这里WORD_LENGTH表示各机器中1个字的位宽(比如32位机器的WORD_LENGTH就是32)
  // obj_num 指的是从位图表格前面数起，obj的标志位在第几个。比如这里图2.11 中E的位置是9(从左往右).
  obj_num = (obj - $heap_start) / WORD_LENGTH
  // 得到行号 
  index = obj_num / WORD_LENGTH
  // 得到偏移量作为列号
  offset = obj_num % WORD_LENGTH
  // 如果位图中对应的位置没有标记
  if (($bitmap_table[index] & (1 << offset)) == 0) {
     //用或运算，将对应的位置设为1 
     $bitmap_tbl[index] |= (1 << offset)
     // 遍历对象，标记该对象引用的子对象
     for(child : chidren(obj)) {
        mark(*child)
     }
  }
}

我：我把要说的话，都写到注释里面了，再给张小抄图。
面试官：我好像明白你的意思了。

面试官：你整这么多门门道道儿，那位图标记法有什么优点吗？
我：最大的优点就是，与写时复制技术兼容。不会发生没必要的复制了。
面试官：虽然对象不会复制了，但是要对位图表格进行重写，这里还是会发生复制呀。
我：虽然会复制，但是位图表格非常小，所以即使被复制也不会有什么大的影响。
面试官：没有听明白
我：这个好比你想啃10个兔儿脑壳，之前是买10个兔子，会花很多钱。还有个方法就是，去专门卖兔儿脑壳的地方，只要花一只兔子的钱，就能买到10个兔儿脑壳了。
面试官：聊技术就聊技术，别把我口水整出来啦。它还有什么优点？
我：清除操作更加高效了，以往的清除操作都必须遍历整个堆，把非活动对象链接到空闲链表，同时取消活动对象的标志位。现在有了位图表格，把所有对象的标志位集合到了一处，所以可以快速消去标志位了。
面试官：怎么个快法？
我：哈哈哈，就你最会来事儿，我给你看看我的无敌小抄。

sweep_phase() {
  // 堆开始的地址
  sweeping = $heap_start
  index = 0
  offset = 0
  // 遍历整个堆
  while (sweeping < $heap_end) {
    // 用index找到对应的行，用偏移量和与运算判断对应的位是否为 0，为 0 表示该对象已经死了。
    if($bitmap_tbl[index] & (1 << offset) == 0) {
       // 将此对象链接到空闲链表
       // 对象已经死了，把发现的死对象的next指向链表头里面上一个死对象
       sweeping.next = $free_list
       // 在把链表的头指针指向新发现的死对象
       $free_list = sweeping
    }
    // 累加行索引
    index += (offset + sweeping.size) / WORD_LENGTH
    // 累加偏移量索引
    offset = (offset + sweeping.size) % WORD_LENGTH
    // 为了遍历堆,移到下一个对象地址
    sweeping += sweeping.size
  }
  
  // 已经把所有死对象都链接到空闲链表里面了，不需要位图表格里面的标志位了，遍历清空就好了。 
  for (i : 0..(HEAP_SIZE / WORD_LENGTH - 1)) {
     $bitmap_tbl[i] = 0
  }
}

面试官：看来位图标记法，只是在GC标记-清楚法里面，搞了一个位图，用来临时记录标记。
我：嗯，辅助记录一下，占空间少，清除快。
面试官：那有什么需要注意的地方吗？
我：需要注意对象地址和位图表格的对应。
面试官：如果有多个堆，并且对象地址不连续呢？
我：如果有多个堆，每个堆的地址不连续，就无法用单存的位运算求出标志位的位置了。
面试官：现实世界的虚拟机可能不止一个堆哦。
我：一个不够，我就给每个堆都准备一个位图表格，不就可以啦。

延迟清除法

面试官：对了，你之前说，清除操作所花费的时间，与堆大小成正比。
我：嗯，处理的堆越大，GC标记 - 清除算法所花费的事件就越长，结果就妨碍到mutator的处理了。
面试官：mutator是啥？
我：我也不知道，是提出这个算法的人搞出来的玄乎乎的词，意味改动者，在JVM里面复制分配内存的家伙。
面试官：这个不好办呀，假如用户跑的程序是自动驾驶系统，你突然给停了一会儿，岂不是要车毁人亡？而且GC标记-清除算法，就是为了减少最大停顿时间的。
我：可以用**延迟清除算法(Lazy Sweep)**缩减因清除操作而导致的 mutator 最大暂停时间。
面试官：能详细说说吗？
我：就是标记操作结束后，不一并进行清除操作，而是让它“延迟”一会，通过“延迟”来防止 mutator 长时间暂停。
面试官：说得云里雾里的，你到底在说啥？
我：我给你比划比划

new_obj()函数

new_obj(size) {
  // 在分配时，直接调用 lazy_sweep()函数进行清除操作
  chunk = lazy_sweep(size)
  // 如果能找到chunk,直接返回
  if (chunk != NULL) {
     return chunk
  }
 
  // 如果不能分配分块，就执行标记操作 
  mark_phase()
 
  // 再调用 lasz_sweep() 函数来分配分块 
  chunk = lazy_sweep(size)
  // 如果拿到了，就返回
  if (chunk != NULL) {
    return chunk
  }
  // 没有拿到，意味着堆上没有分块，mutalor 不能再进行下一步处理了。 
  allocation_fail()
}

面试官；这个 lay_sweep() 函数，看上去好神秘。
我：先看看伪代码吧

lazy_sweep(size)函数

lazy_sweep(size) {
  // 一直遍历堆
  while($sweeping < $heap_end) {
     // 活的对象把标志位复原
     if($sweeping.mark == TRUE) {
        $sweeping.mark = FALSE
     } else if ($sweeping.szie >= size) { //找到了大于等于所申请大小的分块
        // 记录找到的分块
        chunk = $sweeping
        // 把遍历指针跳过找到的分块大小，以指向下一个对象的起始地址
        $sweeping += $sweeping.size
        // 返回所找到的分块
        return chunk
     }
     // 没有找到，将sweeping指向下一个对象
     $sweeping += $sweeping.size
  }
  // 复原sweeping，指向堆首地址
  $sweeping = $heap_start
  // 返回空
  return NULL 
}

面试官：你说说呗
我：这里最关键的是全局变量 $sweeping。可以把他想想成一条听话的猎狗。标记过程就相当于猎人啪啪啪用猎枪一顿猛轰，搞死了一片对象。在分配的时候，你告诉 allocator, 找一个大小为2的分块。听话的猎狗(allocator)在空闲链表上一个一个往下找，如果找到了，就返回找到的分块。同时，他会待在所找到死对象的下一个死对象的首地址。等你再一次分配内存空间的时候，请注意，你没有进行标记操作，而是继续利用上一次标记操作的结果。猎狗(allocator)继续往前走，如果找到一个大于等于size的分块，good lucky. 省了一次标记过程。如果没有找到，让猎狗回到堆的起始位置。并返回为NULL。
面试官：这么看来，延迟清除法不是一下遍历整个堆
我：嗯，它只在分配时执行必要的遍历。所以可以压缩因清除操作儿导致的 mutator 的暂停事件，这就是 “延迟” 清除操作的意思。

有了延迟清除法就够了吗

面试官：延迟清除法有什么缺点？
我：最大的缺点就是清除的效果不均衡。

我：你看，活动的对象变成了活动对象堆，死的对象变成了垃圾堆。它们形成了一种邻接的状态。
面试官：有什么问题么？
我：如果在清除较多的部分时，能马上或得分块，所以能减少用户程序(mutator)的暂停事件。
面试官：这不是优点吗？我问题的是缺点
我：然而一旦程序开始清除活动对象周围，就会郁闷的，都是活的对象，怎么也找不到死的对象，也就无法获得分块，这就增加了 mutator 暂停的时间。
面试官：这种情况很少吧？
我：但是清理时间一会长，一会短的，就像神经刀一样，好的时候牛逼，发生的时候，只能MMP了。
面试官：还有什么办法可以提升？
我：(我看了看时间，居然面了这么久了…)。我不想面了。
面试官：为啥？
我：心累呀，面试造火箭。
面试官：我这还有其它问题没有问呢。请问 mysql的索引是怎么实现的？spring mvc 是啥？ redis用过没？消息队列用过没？
我：啥？？？我不知道。算了，不面了，我拿回自己的简历，拖着疲惫的身体走了出去。
面试官: (默默的在写下面试反馈：会点技术，就是骚味太重了。)

本故事纯属虚构，故事里面的知识点全属瞎扯蛋，请勿当真。

你可能感兴趣的:(算法)

【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
Redis 哨兵模式的选举算法是什么？少林码僧 redis sentinel
Redis哨兵模式中的选举算法主要用于在主节点出现故障时，从多个Sentinel节点中选出一个领导者（Leader）来执行故障转移操作。Redis哨兵的选举算法基于Raft算法的简化版本，但不完全等同于标准的Raft算法。以下是其主要过程：一、发现主节点故障当一个Sentinel节点主观地认为主节点不可达时（通常是在一定时间内没有收到主节点的PING回复），它会将主节点标记为主观下线（Subjec
Kafka 的消息压缩机制：优化存储与传输的利器阿贾克斯的黎明 java linq c#java
目录Kafka的消息压缩机制：优化存储与传输的利器一、消息压缩机制的重要意义1.减少存储成本2.提升网络传输效率二、Kafka常用的消息压缩算法1.GZIP压缩2.Snappy压缩3.前端展示压缩状态（Vue3+TS）在消息中间件的大家族中，Kafka以其卓越的性能而备受瞩目。其中，Kafka的消息压缩机制是一项非常重要的特性，它就像是一个高效的“压缩包”，在不损失数据内容的前提下，有效减少数据的
关于AI OS那点事大囚长科普天地大模型人工智能
AIOS（人工智能操作系统）作为面向智能时代的操作系统，其功能定位和架构设计与传统操作系统（如Linux、Windows、iOS等）存在显著差异。一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。上下文感知与切换：通过上下文管理器实现智能体交互状态的快照保存与恢复，解决LLM生
贪心算法之分发饼干努力小子 #刷题（简单难度）#贪心算法
假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值gi，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸sj。如果sj>=gi，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。注意：你可以假设胃口值为正。一个小朋友最多只能拥有一块饼干。示例1:输入:[1
JAVA刷Leecode-贪心算法-分配问题-分发饼干搬砖的水鱼 leetcode 算法 java python leetcode 贪心算法
JAVA刷Leecode-贪心算法算法思想分配问题-分发饼干（135，hard)算法思想采用贪心的策略，保证每次操作都是局部最优解，从而最终的结果是全局最优。贪心算法不是对所有问题都能得到整体最优解，选择的贪心策略必须具有无后效性，即某个状态以前的过程不会影响以后的状态，只和当前的状态相关。包括分配问题（455，135）和区间问题（435）；练习：605，452，763，122，406。分配问题-
【贪心算法】1、分发饼干念奕玥【Java】数据结构与算法 java leetcode 贪心算法
贪心算法或贪心思想采用贪心的策略，保证每次操作都是局部最优的，从而使最后得到的结果是全局最优的。可用于解决分配问题e.g.leetcode455分发饼干解题思路：目标：尽可能满足越多数量的孩子。根据目标，可以容易想到，先去满足胃口值小的孩子。为了尽量使饼干可以满足更多的孩子，所以要把饼干尺寸大于等于孩子胃口值的饼干中挑尺寸最小的饼干给孩子。满足了这个孩子之后，再采取同样的策略去考虑剩下的孩子，直到
流浪地球 - 华为OD机试真题(E卷、C++) 什码情况华为od c++算法数据结构面试机试
针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。有兴趣的同学可以扫码添加我们的微信（code5bug）了解，免费试课一下。题目描述流浪地球计划在赤道上均匀部署了N个转向发动机，按位置顺序编号为0~N。1).初始状态下所有的发动机都是未启动状态;2).发动机启动的方式分为”手动启动”和”关联启动”两种方式;3).如果在时刻1一个发动机被启动，下一个时刻
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
贪心算法-455分发饼干工大一只猿贪心算法算法
classSolution{public:intfindContentChildren(vector&g,vector&s){sort(g.begin(),g.end());sort(s.begin(),s.end());intcount=0;inti=g.size()-1;intj=s.size()-1;for(i;i>=0;i--){if(j>=0&&s[j]>=g[i]){j--;count
455. 分发饼干（贪心算法）穿过漫长林径 LeetCode
455.分发饼干题目描述：有一群孩子和一堆饼干，每个孩子有一个饥饿度，每个饼干都有一个大小。每个孩子只能吃一个饼干，且只有饼干的大小不小于孩子的饥饿度时，这个孩子才能吃饱。求解最多有多少孩子可以吃饱。示例1:输入:g=[1,2,3],s=[1,1]输出:1解释:你有三个孩子和两块小饼干，3个孩子的胃口值分别是：1,2,3。虽然你有两块小饼干，由于他们的尺寸都是1，你只能让胃口值是1的孩子满足。所以
贪心算法：分发饼干 AlphaFinance 求职面试
假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸s[j]。如果s[j]>=g[i]，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。示例1:输入:g=[1,2,3],s=[1,1]输出:1解释:
2021-11-12 455. 分发饼干（贪心算法） TABE_ 贪心算法 leetcode 算法
注：题目：假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸s[j]。如果s[j]>=g[i]，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。示例1:输入:g=[1,2,3],s=[1,1]输出
贪心算法（9）（java）最优除法奋进的小暄 java 贪心算法算法
题目：给定一正整数数组nums,nums中的相邻整数将进行浮点除法。例如，[2,3.4]->2/3/4.例如，nums=[2,3,4]，我们将求表达式的值“2/3/4"。但是，你可以在任意位置添加任意数目的括号，来改变算数的优先级。你需要找出怎么添加括号，以便计算后的表达式的值为最大值。以字符串格式返回具有最大值的对应表达式。注意:你的表达式不应该包含多余的括号。输入：【1000，100，10，2
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
机器臂运动控制算法工程师面试道亦无名面试算法人工智能机器学习
大厂的经验总结：一、基础概念理解请解释机器臂运动学正解和逆解的概念，并分别说明其用途。正解：已知机器臂各关节的角度（或位移），通过运动学模型计算出机器臂末端执行器在笛卡尔空间中的位置和姿态。用途在于可以根据给定的关节驱动值，预测末端的实际位置，用于运动仿真、路径验证等，比如在工业生产前模拟机器臂的动作是否能准确到达加工位置。逆解：已知机器臂末端执行器在笛卡尔空间中的期望位置和姿态，求解出各关节应处
Java高并发容器的内核解析：从无锁算法到分段锁的架构演进猿享天开开发语言 java
《Java高并发容器的内核解析：从无锁算法到分段锁的架构演进》本文将以JUC包核心容器为切入点，深入剖析ConcurrentHashMap在Java8中的64位Hash分段技术，解密LinkedBlockingQueue双锁队列设计的吞吐量秘密，并给出各容器在亿级流量场景下的性能压测对比与选型决策矩阵。一、BlockingQueue体系：生产者-消费者模式的工业级实现1.阻塞队列的四大行为矩阵行为
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
【大模型书籍PDF】从零开始大模型开发与微调：基于PyTorch与ChatGLM （推荐）_从零开始大模型开发与微调 pdf 喝不喝奶茶丫 pytorch 人工智能语言模型大模型转行大模型 AI大模型微调
今天又来给大家推荐一本大模型方面的书籍。本书使用PyTorch2.0作为学习大模型的基本框架，以ChatGLM为例详细讲解大模型的基本理论、算法、程序实现、应用实战以及微调技术，为读者揭示大模型开发技术。本书配套示例源代码、PPT课件。（书籍分享）
软考系统架构设计师考试学习和考试的知识点大纲，覆盖所有考试考点 DKPT #系统架构设计师系统架构学习
以下是软考系统架构设计师考试的知识点大纲，覆盖所有官方考点，分为基础知识、核心技术、系统设计、案例分析、论文写作五大模块，帮助系统性学习和备考：一、基础知识模块计算机组成与体系结构计算机硬件组成（CPU、内存、I/O设备）存储系统（Cache、RAID、虚拟内存）指令系统与流水线技术操作系统进程与线程管理（调度算法、死锁）内存管理（分页、分段、虚拟内存）文件系统与磁盘管理数据库系统关系数据库（SQ
单调栈详解【C/C++】ん贤算法单调栈算法 c++数据结构贪心算法
前言：了解过单调队列后，你会发现单调栈的思想其实挺简单...当然前提是要了解一下什么是栈(stack)。看待一个问题，从不同角度，也许能有不同的收获。在数学家眼中，单调栈本质上是一个严格或非严格维护的单调递增或单调递减的数学结构。其核心在于动态的维护动态递增或递减的有序关系。而对于算法工程师，他们首先关注单调栈的核心优势：O(n)的时间复杂度。在需要遍历序列，并纪录极值的情况下（如接雨水、每日温度
Caffeine vs Guava Cache：性能巅峰对决，谁才是 Java 本地缓存之王？ Julian.zhou Java 开发基础技能缓存 java 算法
CaffeinevsGuavaCache：性能巅峰对决，谁才是Java本地缓存之王？导语：在Java本地缓存的战场上，Caffeine和GuavaCache是开发者最常用的两大神器。但究竟谁的性能更胜一筹？为何Caffeine被称为“GuavaCache的终结者”？本文通过算法原理、并发性能、内存管理、实战测试四大维度，彻底揭秘两者的性能差异，文末附迁移指南和选型建议！一、核心差异：算法与淘汰策略
122. 买卖股票的最佳时机 II 请向我看齐 LeetCode 算法
题目分析LeetCode第122题是“买卖股票的最佳时机II”。题目描述为：给定一个数组prices，其中prices[i]是一支给定股票第i天的价格。设计一个算法来计算你所能获取的最大利润。你可以尽可能地完成更多的交易（多次买卖一支股票）。模式识别本题属于动态规划或者贪心算法的范畴。由于可以进行多次交易，且没有交易次数限制，所以可以通过比较相邻两天的价格，只要后一天价格比前一天高，就进行一次交易
二分查找算法 WH牛算法算法
目录1.二分查找算法的介绍1.1算法思路1.2算法模版1.2.1查找区间左端点1.2.1查找区间右端点2.模版题2.1数的范围2.2数的三次方根3.典题3.1机器人跳跃问题3.2分巧克力4.课后题1.二分查找算法的介绍1.1算法思路假设目标值在闭区间[l,r]中，每次将区间长度缩小一半，当l=r时，我们就找到了目标值。说人话：就是把答案所在的区间逐渐缩小，直到区间内只有答案。二分查找算法的时间复杂
搜广推校招面经五十四 Y1nhl 搜广推面经搜索算法 python 推荐算法机器学习人工智能
美团推荐算法一、手撕Transformer的位置编码1.1.位置编码的作用Transformer模型没有显式的序列信息（如RNN的循环结构），因此需要通过位置编码（PositionalEncoding）为输入序列中的每个位置添加位置信息。位置编码的作用是：提供序列位置信息：帮助模型理解输入序列中元素的顺序。保持唯一性和连续性：确保每个位置的位置编码是唯一的，且相邻位置的位置编码是连续的。1.2.位
搜广推校招面经五十三 Y1nhl 搜广推面经 python 机器学习人工智能推荐算法搜索算法算法
小红书推荐算法一、ESMM(EntireSpaceMulti-TaskModel)ESMM（EntireSpaceMulti-TaskModel）是一种用于解决推荐系统中多任务学习问题的模型。它由阿里巴巴团队提出，主要用于处理点击率（CTR）和转化率（CVR）的联合预测问题。1.1.背景在推荐系统中，CTR和CVR是两个重要的指标：CTR（Click-ThroughRate）：用户点击广告的概率。
EnerVerse：智元机器人提出首个机器人4D世界模型，在动作规划任务中达到SOTA水平强化学习曾小健机器人
EnerVerse：智元机器人提出首个机器人4D世界模型，在动作规划任务中达到SOTA水平PNP机器人PNP机器人2025年02月10日21:04上海本文来自：公众号智元机器人https://sites.google.com/view/enerverse，出于学术/技术分享进行转载，如有侵权，联系删文。EnerVerse的科研核心团队由智元机器人研究院的具身算法精英组成。黄思渊，作为上海交通大学与
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
【IT大学生必会的】 10 种图表线性回归 .Boss. 深度学习开发语言人工智能机器学习算法
这段时间，不少同学提到了一些图表的问题。每次在使用matplotlib画图，运用这些图表说明问题的时候，很多时候是模糊的，比如说什么时候画什么图合适？其实这个根据你自己的需求，自己的想法来就行。今天的话，我这里举例在线性回归中，最常用的一些图表，应该可以cover绝大多数情况了。其他算法模型适用的图表，咱们在后面再给大家进行总结~至于数据集，表现方式，大家可以根据我给出的代码继续调整即可！那么，在
分布式限流方案：基于 Redis 的令牌桶算法实现代码怪兽大作战后端分布式 redis 算法 java 令牌桶接口限流
分布式限流方案：基于Redis的令牌桶算法实现前言一、原理介绍：令牌桶算法二、分布式限流的设计思路三、代码实现四、方案优缺点五、适用场景总结前言在分布式场景下，接口限流变得更加复杂。传统的单机限流方式难以满足跨节点的限流需求，因此需要一种分布式限流方案。这里介绍一种基于Redis和Redisson实现的令牌桶算法分布式限流方案。一、原理介绍：令牌桶算法令牌桶算法是一种用于控制流量的经典算法，其基本
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla