lijiuyangzilsc

我们的龙芯2号

2003年10月16日深夜，喧嚣了一天的计算所北楼终于沉寂了下来，我独自坐在北楼105房间忐忑不安地等待着。刚才还有郑为民和一个学生跟我在一起，几分钟前我派他们到后面的芯片小楼取逻辑分析仪去了。与北楼隔着一个篮球场的芯片小楼里还有10来个课题组的弟兄，他们都象我一样忐忑不安地等待着。

　　17日凌晨0点30分，楼道里传来了有节奏的脚步声，在空旷而寂静的楼道里显得特别有力。脚步声越来越近，我的心一下子提了起来，咚咚的脚步声象敲在我的心上，因为我知道，我们的龙芯2号回来了。

　　105房间的门被推开，张珩风风火火地闯了进来，手里抱着一个方盒子。他是我专门派到上海去封装厂家取龙芯2号芯片回来测试的。我们小心翼翼地打开盒子，几十片龙芯2号芯片象等待检阅的士兵一样整齐地排列在专用的包装盒里。一个电话拨到芯片小楼，不到两分钟，105房间就聚集了六、七个人，他们都是下午刚刚成立的联调组的成员。

　　我挑了几个芯片，在用万用表对芯片进行一些简单的静态测试后，从中选了一个芯片放到子卡的插槽中盖好，并把子卡插到主板上。小心地按了一下电源开关，显示屏上没有动静，心里一阵紧张。试了几次后，换一个子卡，放上芯片后插到主板上，一按电源开关，显示屏一阵跳动，串串字符如约而至。我们一阵欢呼，刚才提到嗓子眼的心放回到心窝里先。

　　在启动了一个简单的BIOS系统以后，开始启动LINUX操作系统，一切都很顺利。1点10分，屏幕上出现了LINUX操作系统的登录提示符“login:”。在拿到芯片的40分钟后，刚才等待时的紧张心情一扫而光。我们赶快打电话到芯片小楼告诉在那里等候的其他同学。钟石强还给我的妻子发了个短信，今晚她也在等待我们的消息。几分钟后龙芯2号收到了出世后的第一个祝福。

　　4点30分，龙芯2号通过了其他的测试。我们用装有龙芯2号的计算机在我们CPU组的内部BBS上灌了龙芯2号出世后的第一瓢水，并发了几封EMAIL。我决定龙芯2号的第一次联调先告一段落，拿出放了很久的硅谷的一个朋友送的一瓶XO在芯片小楼的会议室里每人半纸杯庆祝了一下。喝完酒后大家兴致不减，根据事先的约定又打车到天安门广场看升国旗并去毛主席纪念堂向毛主席报告。今年是毛主席诞辰110周年，我们这款芯片的名字就叫MZD110。

　　6点25分，我们又一次站在天安门前的国旗杆下，看着红彤彤的国旗在国歌声中冉冉升起。去年在接受《东方之子》节目采访时，他们曾问我在龙芯1号研制成功后看升国旗时心里想什么，我那时真忘了想什么了。这次我试图去想一些有意义的事情，比如什么豪言壮语之类的。可是面对国旗，脑袋里一片空白，只是在国旗猛地串上杆顶的那一刹那，24小时前杨利伟走出神舟5号舱门冲大家挥手的画面突然出现在我脑海中，以至于在去前门吃早饭的路上这个画面还久久浮现在面前，挥之不去。

　　在2002年9月28日龙芯1号的发布会上，李国杰所长曾经引用《易经》中的话说：“万物生于有，有生于无”。如果说龙芯1号解决的是从0到1的问题的话，那么龙芯2号要解决的是从1到10的问题，即龙芯2号的性能至少是龙芯1号的10倍以上。事实上这也是我们在申请中科院知识创新工程重大项目和863计算机软硬件主题重点项目时唐志敏提的指标。在这两个项目厚厚的申请书和合同书中，我只记住了两个数字，一个是主频500MHz以上，一个是SPEC CPU2000的值达到300分以上。从承担项目之日起，这两个数字就象两个紧箍咒一样紧紧地箍在我的头上（我一直认为这个项目是863项目中立得最成功的项目之一，只用两个数字就把要做的事情表达得足够清楚了）。

　　从现在看来，主频500MHz以上还好办一些，下死工夫总是可以做到的，用0.13微米的工艺更是容易做到。难的是SPEC CPU2000的分值达到300分以上。所谓SPEC CPU2000，就是一组国际公认的标准测试程序，用这组程序在目标机器上运行，根据实际运行时间算出该计算机的运行速度指标。这种标准测试程序从SPEC CPU89、SPEC CPU92、SPEC CPU95、到 SPEC CPU2000已经发展了好几期。其中SPEC CPU2000覆盖的应用面最广，包括文件压缩、 FPGA布局布线、编译器、组合优化、国际象棋、文字处理、计算机视觉、编程语言、解释器、数据库、布局布线模拟器、量子动力学、浅水模型、三维势场求解、偏微分方程、三维图形库、计算流体动力学、图象识别/神经网络、地震波传播模拟、计算化学、数论/素数测试等等，光源代码就有上百万行。打分的标准是把这组程序在Sun公司一台300MHz的四发射Untra Sparc II 上运行的时间做为标准运行时间，其分值为100分，其它机器运行时间跟标准时间相比算出相应的分值。一般来说，现在较流行的四发射的主流RISC处理器象Alpha 21264、MIPS R12000、IBM Power III等在400MHz到500MHz的情况下SPEC CPU2000的分值可以达到300分左右，而Pentium III在800MHz时SPEC CPU2000的浮点分值才200多分。龙芯2号要达到300分，至少要与1GHz以上的PIII或PIV的性能相当。因此，虽然做500MHz虽然也不容易，但更难的是SPEC CPU2000的分值达到300分以上。

　　提高处理器的性能，提高主频和优化软硬件结构不可偏废，光强调主频和光强调结构都是不行的。就象要把100根木头从A地扛到B地，甲每10分钟一个来回，每次扛1根木头；乙每20分钟一个来回，每次扛4根木头；丙60分钟一个来回，每次扛6根木头。我们不能根据甲跑得快（主频高）就说甲的性能最高，也不能根据丙每次扛得最多（每拍执行的指令多）就说丙的性能最高，性能是一个综合的东西。当然，还有其它要考虑的因素，如甲乙丙三人每小时的报酬（处理器的功耗、面积）等。虽然龙芯1号的成功对我们来说是一个巨大的进步，但有一件事我一直深引以为恨，那就是龙芯1号的性能没有达到预想的目标。

　　虽然主频不低，但跑起程序来比起类似结构的RISC处理器以及相同主频的PII还有一些差距。SPEC CPU2000的分值也不高。我曾经整日整夜地泡在机房运行各种测试程序，并试图通过软件优化的方法提高性能。虽然取得了一些效果，但不理想。后来的性能分析表明，有些龙芯1号性能瓶颈其实完全是可以通过简单的优化克服的，可惜当时项目推进得太快，没有时间做充分的性能分析和优化。这件事使我极其郁闷，因此把性能分析不够作为龙芯1号设计过程的一个重要教训，并发誓在龙芯2号的设计中要一血前耻。知耻近乎勇，后来龙芯2号步步为营的性能分析果真为龙芯2号提高性能发挥了巨大作用。在中科院领导对我们承担的龙芯2号重大项目进行立项审查的会上，李老师、唐志敏和我在向院党组汇报后准备离开时，江院长追出来跟李老师说：“李院士，我就把宝压在你身上了”。在863计算机软硬件主题专家对我们承担的龙芯2号项目进行立项审查的会上，我做完报告后，专家组组长怀进鹏老师曾声色俱厉地说：“胡伟武，这个项目是863计算机软硬件主题最大的项目，完不成任务提头来见!”这两件事给我很大的触动，让我想起上甘岭战役前夕彭德怀曾对秦基伟说：“我们要对朝鲜的历史负责”。

　　龙芯2号的设计在龙芯1号tapeout前就开始筹划，主要是唐志敏和我围绕我们申请的中科院和863的项目进行调研并确立在2004年项目结束时SPEC CPU2000的分值达到300分的目标，并在此基础上确定64位结构和4发射的目标。根据项目目标及龙芯1号研制的经验和教训，我们确定了龙芯2号研制的如下三条设计原则。

　　一是充分发挥结构设计优势和软硬件协同的设计原则。即通过处理器中各个层次的并行性开发来提高性能。这些并行性包括指令级并行、数据级并行以及线程级并行。其中指令级并行主要是四发射结构的实现，即在指令流水线的任何一个阶段每拍都执行四条以上的指令。为了有效发挥多发射通路的效率，必须实现充分的乱序执行技术，减少指令间的互相等待。数据级并行性的开发主要是通过SIMD的技术实现向量指令。线程级并行性包括单处理器的多线程技术以及多处理器的多线程技术。龙芯2号在并行性开发上主要开发指令级并行技术，并通过把浮点部件与媒体处理共用的方法实现数据级并行的SIMD技术。软硬件协同主要指通过编译优化及硬件对编译器的支持提高性能，既不片面追求复杂的硬件大包大揽，也不把沉重的优化负担完全压在编译器身上。编译器对提高性能十分重要，我们曾有这样的体会：在同一台机器上，用不同编译器编译出来的同一个程序，运行时间竟相差75%。

　　二是以物理设计指导结构设计的原则首先，流水线的最大逻辑路径不是由体系结构设计的需要来确定，而是由物理设计的要求来确定。即先确定每一级流水线的最大延迟并在此约束下进行结构设计。其次，在做结构设计时，心中要有物理设计的概念，即要明白相应的逻辑在物理上是什么样的。在龙芯2号设计过程中，结构设计人员至少做到网表级。三是设计和实现方法上稳扎稳打的原则首先，重视Cycle-by-Cycle的C模拟器的设计并把C模拟器作为详细结构设计的文档是我们在龙芯1号开发过程中形成的一条最重要的经验，即“可执行的结构设计”的概念。在设计初期就通过充分的仿真与验证不仅不会影响进度，而且会加快进度。此外，龙芯2号的功能设计和物理设计也分成几步。第一步，还是采用标准单元设计，只在很有限的局部做全定制（如寄存器堆），主频200-300MHz以上，功能上不实现二级CACHE，争取尽快完成流片。第二步，功能上增加二级CACHE接口或/及DDR接口等，物理设计上使用更多的宏单元，但设计方法还是基于标准单元的方法，主频在300-400MHz以上。第三步，功能上增加对多处理器系统的支持，在更多的地方使用全定制单元或使用全定制流程，主频争取在400-500MHz以上。龙芯2号最后的流片将以全定制为主。

　　龙芯2号的设计包括结构设计、逻辑设计以及物理设计三个阶段，这三个阶段互相重叠，其中结构设计阶段和龙芯1号的设计也有所重叠。龙芯2号的结构设计断断续续地进行了好几个月。刚开始是在2002年四、五月份在进行龙芯1号物理设计的同时对龙芯2号的系统结构进行了初步的考虑。在对市场上的主流处理器如Alpha 21264、MIPS R10000、Ultra Sparc III、Power III、HP PA8700、PIV、IA64等及学术界的主要工作进行调研的基础上基本确定了龙芯2号的寄存器重命名、动态调度以及运算部件的架构。到六、七月份随着龙芯1号物理设计和系统开发工作的展开，龙芯2号的结构设计几乎停了下来。那时候我们组一共只有二、三十号人，很多人员的工作都是重叠的，根本没有力量同时做两件事情。

　　在2002年7月中旬龙芯1号tapeout之后，利用等待芯片回来的时间把龙芯2号的结构设计再次提上日程。7月15日研究生部的靳晓明老师打电话叫我到在四川广元召开的研究生学术研讨会上做个特邀报告，本来应该是徐志伟老师做的报告，徐老师临时有事去不了因此派我救场。唐志敏已经告诉靳老师我刚tapeout一个芯片，应该有空，所以推也推不掉。开完会后还要去九寨沟，需要三、四天才能回来。我走之前临时决定把龙芯2号的部分设计人员带到广元，准备在路上对龙芯2号的结构进行讨论。我和中科院研究生院的两位老师一起坐火车头天走，安虹老师、张福新和范东睿坐飞机第二天走，几乎同时到的广元。那时候我女儿正在放暑假，我爱人在龙芯1号tapeout之后刚到一个公司上班，因此我把6岁的女儿也一起带上了。

　　后来的事实证明我临走前做的决定是十分正确的，在广元和九寨沟的几天效率极高，基本确定了龙芯2号的结构框架。那几天我们白天根据会务组的安排活动，晚上讨论龙芯2号的结构，并且根据讨论结果形成龙芯2号结构设计的初步文档，每天都到凌晨一、二点。由于处理器的寄存器重命名以及动态调度结构已经基本确定，因此讨论的重点是取指和访存部件的结构。

　　在从广元去九寨沟的路上我和范东睿坐在汽车的最后一排讨论龙芯2号的取指和译码部分的结构，汽车在路上颠簸了一整天，我们也讨论了一整天。取指与译码部分的设计空间很大，包括采用何种转移猜测算法、多发射情况下如何消除转移指令后面的延迟槽、取指及转移猜测是以指令为单位还是以发射块（四条指令）为单位、转移猜测是在取指还是在译码阶段进行、修正BHT和BTB的时机、如何提高指令CACHE的性能、以及指令TLB和数据TLB 的关系等。其中如何消除转移指令后面的延迟槽讨论的时间最长，主要是对传统的BTB方法和Alpha 21264中采用的line prediction方法进行反复的比较和分析。我从小就喜欢坐比较颠簸的汽车，汽车越颠精神越好，范东睿精神也不错，因此一路上效率极高。晚上8点汽车到达九寨沟时，龙芯2号的取指部分架构已基本确定。

　　访存部分的结构比取指部分复杂。一方面，它是与操作系统关系最密切的部分，其功能是否完善是支持通用操作系统的关键因素；另一方面，它是提高处理器性能的核心部件之一。如果CACHE访问效率不高，流水线的其它部分设计得再好也没有用。这一点在龙芯1号中我们已经有所体会。学术界与企业界都对如何提高访存性能作了大量研究，设计空间很大，核心问题包括如何降低流水线延迟、如何提高CACHE命中率和降低由于CACHE不命中引起的等待延迟、以及如何解决访存的RAW、WAR、和WAW相关等等。在随后的几天中，我们对这些方面进行了反复的权衡和讨论。直到在回北京的火车上才有比较粗的思路。

　　有意思的是，一路下来，我女儿看我们的工作，耳濡目染，对CPU设计也有了自己的心得。直到今天我问她什么是CPU，她还说“CPU就是在一张纸上画些方框，然后用线和箭头把这些方块连起来，再涂上点颜色，写上一些字，最后一烧，烧出一个亮晶晶的小方块”。

　　最近我女儿经常在用龙芯2号做的Linux PC上玩游戏。我告诉她这就是我们在九寨沟画的方框“烧”出来的，她感到很诧异。在2002年8月10日龙芯1号首片调试成功之后，龙芯2号的设计工作又慢了下来，全组的主要力量放在了龙芯1号的系统开发上面。虽然由于龙芯1号的系统开发和性能分析耽误了一些时间，但我自己在龙芯1号上玩了近一个月后有很大的收获。尤其是对性能和主频的关系有了更深入的认识。比如，对于有一些访存密集的应用，主板频率83MHz而CPU频率250MHz时的性能还不如主板频率100MHz而CPU频率200MHz的性能。现在想起来，一个处理器的性能就象一个城市的交通系统的吞吐率，可能由于某几处的堵塞而影响整个城市的吞吐率，只要把这几处疏通了，虽然花的力气不大，但吞吐率会极大地提高。2002年9月28日龙芯1号发布会后，龙芯2号的设计工作全面展开。10月2日，我带着张福新和李祖松到母校中国科大利用十一长假进行龙芯2号的C模拟器封闭开发，顺便向母校报告一下我们的工作。在科大借了半间原来的库房呆了一个多星期，基本完成了C模拟器的代码编写。在对结构进行细化的过程中发现了好多原来没有考虑到的问题。对于这些问题我们有时候争辩得很激烈。例如在转移猜错取消时需要判断正在执行的指令中哪些是该转移指令前面的，哪些是该转移指令后面的，张福新和李祖松的观点是参照MIPS R10000使用的方法，而我觉得那个方法太麻烦，希望有更简洁的方法。我们一直争论了两天，在争论的过程中互相启发，终于找到了一种简洁而高效的方法。

　　2002年10月8日回北京时龙芯2号的C模拟器已经基本成型。我们继续在我的办公室进行半封闭式的开发，主要是继续完善C模拟器并开始调试。那段时间我们每周只有二、四、六晚上休息，其它时间都在调试。调试过程中也调动组里的其它人写了不少测试向量。11月中旬在C模拟器中成功启动LINUX操作系统，开始对C模拟器进行性能优化以加快模拟速度并用C模拟器对龙芯2号的结构进行性能分析。

　　在此期间以及以后的几个月内，我们在C模拟器上运行了完整的SPEC CPU2000的几乎所有程序以及八十年代比较流行的性能测试程序dhrystone和whetdstone等，对龙芯2号的性能进行初步的分析。在运行上述程序过程中还发现了不少设计上的bug和考虑不周的地方。印象比较深刻的是由于访存操作的乱序执行导致两个或多个访存操作之间互相替换CACHE 块并引起死锁。另外一件印象比较深刻的是MIPS指令系统规定转移指令的延迟槽指令不能是转移指令，否则处理器的行为不确定，但我们在C模拟器中发现在我们的设计中如果转移指令的延迟槽指令也是转移指令时也会导致处理器死锁。虽然这是由错误的程序引起的，但也是结构设计考虑不周的地方，对于错误的程序我们可以给出错误的结果，但不能把机器搞死。

　　由于张福新和李祖松的加入，龙芯2号的C模拟器比龙芯1号完善很多，包括checkpoint在内的很多功能都加到模拟器中，此外，C模拟器的运算速度也大大提高了。张福新还顺手开发了不少小工具。

　　2002年11月底，我觉得C模拟器已经基本稳定，就召开了龙芯1号总结以及龙芯2号部署的会议，全面部署龙芯2号的RTL设计工作。

　　2002年12月初我们组建了RTL设计的队伍，由于我们人手有限，RTL编写的人员都是从各组抽调的，我自己也负责寄存器重命名和几个队列模块。龙芯2号的RTL设计大致可以分为三个阶段。

　　第一阶段为设计阶段。从12月初开始大家花了约半个月的时间了解龙芯2号的结构，同时我开始进行顶层模块的设计，主要是每个模块的互连关系、接口总线及触发器的定义。12月28日完成顶层模块的设计并启动各模块RTL的编写。由于有Cycle-by-Cycle的C模拟器作为参照，2003年1月14日就完成所有模块RTL的编写并编译通过，1月21日成功运行第一条指令。在此基础上，经过三天三夜的努力，到1月25日成功运行龙芯1号中使用的包括所有MIPS指令的一段功能测试程序。由于2002年春节没有放假，因此1月25日后全组放假。

　　第二阶段为联调阶段。春节后开始在RTL仿真环境上运行LINUX操作系统。经过连续一个多星期的努力，2月18日成功运行LINUX操作系统。在龙芯1号的联调过程中，在运行LINUX后，整个流水线的设计就基本上没有发现什么问题，只发现了部分与浮点有关的问题。但在龙芯2号中，运行LINUX后试图运行whetdstone时碰到了巨大的困难，甚至一度出现停滞不前的情况。因为错误出现在调用动态库的过程中，而且没有动态库的源代码无法调试。不得已我组织RTL编写人员于3月7日和8日进行了两天的封闭式自查。通过自查发现了大大小小20多个错误，使运行whetdstone的联调取得突破性的进展。后来我们又进行了两次封闭自查，只发现一、二处小错误。

　　第三个阶段为调整和优化阶段，这个阶段是龙芯2号逻辑设计的关键阶段。与联调阶段相比，优化阶段发现的bug较少，但根据对RTL进行综合以及用C模拟器进行性能分析的结果对整个设计的延迟、面积、性能进行了持续的优化。通过初步的优化，龙芯2号的延迟降低了一倍多，面积降低了30%以上，相同频率的性能提高了30%以上。在这个阶段的每一周都充满了激动人心的改进，深刻体会到精益求精的道理。孔子说“食不厌精”，处理器设计更是如此。用1%的工夫可以完成一个正确的设计，但需要用99%的工夫来优化它。

　　在龙芯2的RTL优化过程中，我们总结了三条经验。第一条是精益求精的经验。做一个正确的设计和做一个精品的设计是有很大区别的。为了做到精益求精，思想上要永不满足，执着改进。碰到复杂的问题，不能满足于用复杂的方法来解决，要努力把问题简单化再用简单的方法来解决。第二条经验是在执着于细节的理解和把握的同时退后一步进行的全局的观察和思考是十分必要的。在龙芯2号的优化中有很多都是在项目的推进过程中退后一步进行文档整理、看文章、或封闭自查时得到的启示。对设计的微观了解和宏观把握是不可偏废的。如果对设计的细节不做一定的了解，则在整理文档或看文章过程都比较虚，不会有灵感出现；反之，如果过于执着于细节，则可能只见树木，不见森林，忽略了一些大的改进。第三条经验是以事实为依据的经验。对设计进行持续的性能分析、物理综合、以及仿真验证为龙芯2号的改进和改正提供了大量了事实依据。在根据事实进行设计和改进时，一定要在大量的事实和数据的基础上（小量的、不具有代表性的不行）对事实进行深入的分析，弄清楚隐藏在这些事实后面的、本质的东西，这样做的设计和改进才是最优的。

　　与RTL设计和验证同时进行的是FPGA验证环境的建设。在这个方面我犯了个错误。由于觉得有了龙芯1号的FPGA验证的经验，龙芯2号的FPGA验证应该没有问题，因此只让范宝峡一个人负责FPGA验证工作。没想到由于龙芯2号的规模较大，设计也更加复杂，导致FPGA验证困难重重。主要困难是由于在一片FPGA中放不下，需要多片FPGA，而且多片FPGA之间互连信号太多需要在每片FPGA接口处进行倍频传输。此外由多发射引起的多端口寄存器堆也难以在FPGA中实现。到4月下旬我才意识到FPGA验证方面投入的力量很不够并加强了这方面的力量。直到6月下旬龙芯2号的第一个芯片tapeout之前的半个月，才完成FPGA验证工作并通过FPGA验证及时地发现了设计中的一个错误。

　　在进行处理器结构和逻辑设计的过程中，其它方面的工作也在同时展开，包括王剑和郑保建带领的龙芯1号系统的继续开发以及龙芯2号软件环境的开发，郑为民带领的龙芯2号主板的开发，许彤、赵继业、钟石强、张珩负责的物理设计和验证方法的总结和研究等等。

　　就在龙芯2号的RTL设计过程中，SARS在北京肆虐，并给我们极大的考验。那时候所里的政策是所里不统一放假，但各个部门可以根据自己的具体情况放假。我和唐志敏商量后决定我们采取一定的预防措施并适当减轻工作强度。我们要求凡是乘坐公共交通系统上下班的都不来上班，晚上9点前必须下班，每天的中饭和晚饭由室里统一安排在办公室吃。至于外界的来访，所里早就不允许进入北楼了。此外，所里和室里都给我们发放了有关的预防药物，我们自己也买了一些。在这段日子里，虽然我们的进度被迫放慢了一些，但依旧不断地向前推进。我在为全国人民面对灾难时众志成城战胜非典的精神所鼓舞的同时，也为全组在这么困难的情况下坚守岗位所感动。

　　2003年3月份我们开始部署龙芯2号中用到的一个9个端口的寄存器堆的全定制设计。为了保险，我们部署了两套方案来设计寄存器堆。首选方案是请一个大公司帮我们做这个寄存器堆，同时作为与中科院微电子中心的合作请微电子中心设计同样的寄存器堆作为备选方案。由于首次流片主要是对设计的正确性和结构性能进行验证，因此首次流片除了寄存器堆外还是用ASIC的设计方法，并准备用中科院EDA中心的Synopsys工具进行布局布线以减少购买EDA工具的费用，因此在5月份之前物理设计组的人员也对Synopsys的工具进行了进一步熟悉。2003年5月份开始龙芯2号的物理设计正式展开。从5月初到6月中下旬，我们对使用的方法和流程进行了反复的试验、比较和确定，尤其是关于是否使用层次化设计方法、使用何种Wireload Model、以及Floorplan的方案等进行了反复的试验和尝试，并最后确定方法和流程。到6月底时确定了布局布线的方案并基本完成了布局布线，与流片厂家TSMC联系好准备在7月10日前tapeout。本来一切都在“掌控之中”，但随后发生的两件事情却大大出乎我们的意料。

　　第一件事情是在6月底完成FPGA验证平台建设后，在用该平台运行SPEC CPU2000程序进行性能分析时有一个程序的浮点结果有时正确有时错误。由于其它程序都运行正确，而且操作系统对虚地址CACHE支持部分还有bug，因此刚开始我没有认为RTL有问题。7月2日下午，张福新在机房中说了一句话：“我觉得还是RTL有问题”，这句话使我心烦意乱，放下正在看的布线工具文档，决定要把这个事情搞清楚。在随后的几十个小时中，我们使用FPGA验证、C模拟器、以及RTL仿真对这段出错的程序进行追踪。终于在7月4日早上找到了一个RTL的bug。好在问题只涉及局部的设计，我们修改完RTL后通过手工修改网表花了一天就完成了ECO的布局布线。

　　一波未平、一波又起。刚想歇会儿，负责全定制寄存器堆仿真的王林楠报告说寄存器堆不能正常工作。我刚开始不相信，因为为我们设计寄存器堆的C公司是业内非常有名的大公司。但不同的仿真结果都说明寄存器堆有问题。我们花了两三天才说服C公司的设计人员认识到设计错误并且改正过来。此后我们又对寄存器堆做了更多的仿真，并跟一个工具的bug斗争了几天几夜。在此期间，微电子中心的黄令仪老师给了我们极大的支持，否则我们不会这么快对寄存器堆的设计有深入的了解。

　　由于这两件事情的发生，到7月14日我们终于把龙芯2号的第一个设计tapeout到TSMC时，我们已经连续在机房不分昼夜地干了十几天。但由于在临tapeout前曾经发现寄存器堆设计的问题，因此tapeout之后也不敢松懈，继续对寄存器堆进行分析和仿真。由于EDA工具对较大规模的模拟电路没有有效的支持，主要依靠设计者的经验，我们也请一些电路设计高手帮我们进行分析。经过一个多礼拜心惊肉跳的检查，在排除了一系列可能存在的问题后，最后一个关于电源地规划的问题成为我们关注的焦点，也成了我在此后的几十天中的一块心病。设计者似乎在这方面有疏忽，在最离谱的地方，几十毫安的电流只用了0.28微米的地线。我们与C公司的工程师联系时，他们觉得没有问题，反而说过多的电流会通过衬底流掉。这时候我们在很多高手的指点下已经对全定制设计有所了解，觉得这个问题比较严重，因此在与C公司反复交涉得不到他们的积极配合后决定起用备份方案，再做一个流片。刚好黄老师她们做的寄存器堆也已经完成了。我们把已经tapeout的第一个芯片叫做龙芯2号的A方案，把准备做的叫做B方案。

　　在我跟李老师和唐志敏提出再做一个流片后，他们提出这次可以在SMIC流片，因为刚好Artisan为SMIC做的库在6月份发布了。事实上，李老师在去年就提出龙芯2号在SMIC流片，我不干。这次我也是不大愿意，因为我那时对SMIC不了解。李老师说，我们自己希望别人支持民族产业，用我们的芯片；而我们自己不支持大陆厂家，怎么行。我还是不愿意。后来有一次在所里培训时碰到李老师又说起了这件事。他说：“不管SMIC的工艺怎么样，总得有人去试，大不了不成功，下次再来”。我说：“要的就是您这句话”。因此就定下来8月份在SMIC流片。

　　我们在7月30日下午拿到SMIC的库，那时侯离tapeout只有两个星期了，而且SMIC的库还存在不少问题，我们不得不一边发现并修改库的bug一边把物理设计向前推进。这真是做得最辛苦的一次物理设计，连续的熬夜搞得我们吃饭也没胃口，每天只在晚饭时吃一顿。室里的刘凤芹老师看我们不去食堂吃饭，每天早上都熬一些紫米粥来给我们喝，我爱人有时候晚上也给我们熬些鱼汤什么的。8月10日下午布完线后心里塌实了一些，我和钟石强、杨旭去四环志新桥边上的一个粥铺吃晚饭，才觉得饿坏了。吃完后数数桌上竟有17个空盘子，出来时撑得腰都弯不下来，三人一路走回中关村。

　　布完线后我们又根据分析的结果做了些手工调整修复信号完整性问题和进一步降低延迟，并修复了DRC和天线的问题。到8月12日中午LVS经过几次修改也基本通过，我们觉得差不多了。那天正是农历七月半，因此在加上guard ring后趁计算机做最后的LVS检查时我和钟石强、杨旭去天安门广场瞻仰毛主席去，可惜那天下午纪念堂没开，我们只好绕纪念堂一圈回来，路上猛然想起今年是毛主席诞辰110周年，于是约定把明天tapeout的这个芯片的起名叫MZD110。

　　回到所里时没想到刚才LVS运行的结果还是有错。于是赶快对刚加的guard ring进行检查。guard ring是围绕芯片最外边的一圈保护环，奇怪的是加上guard ring后LVS检查就显示芯片里边的逻辑有错，去掉guard ring后再检查芯片里边的逻辑又没错。那天晚上一直在找这个问题，黄老师也跑过来帮我们一起找。第二天天亮后就要tapeout了，但一直到后半夜还搞不定。眼看时间一分一秒地过去，真是又困又累又着急，几乎要放弃。快天亮时王林楠重做的guard ring做好了，又折腾了几次LVS检查终于通过，这时候清晨的阳光已斜斜地照进机房。把文件传给SMIC后我们又取回来再做一次LVS和DRC。计算机在运行时，我和杨旭斜靠在椅子上等待。杨旭说：“昨天晚上真怕睡着，我有时候靠在椅子上歇一会儿，看见你们躺下了就赶忙起来，怕咱们三人都睡着了就不知道睡到什么时候了”。这句话让我十分感动，因为昨晚最困的时候我自己也是一直用这个念头强撑着不敢闭眼。那时候我们已经连续十几天没有正常休息而且莫名其妙的问题搞得我心力交瘁，我第一次感到人的体能是有极限的，人的精神是会崩溃的，真想一觉睡过tapeout的时间算了。我仰头看着天花板，好不让杨旭看见我的眼泪，很动情地说：“杨旭，你有这样的责任心，以后在我们这里肯定前途无量”。杨旭是刚从微电子中心毕业后到我们这里来工作的，他还没有到所里报到，就先来跟我们一起苦熬。

　　我经常把我们课题组比做一个硬骨头连队，把自己比做连长。在龙芯1号流片成功后，我这个连长得到了很多本来应该属于全连的荣誉，包括获得“中国青年五四奖章”并受到总书记的接见，而每天跟我一起冲锋陷阵的兄弟们什么也没有。我真是愧对他们。

　　去年在龙芯1号tapeout之后，我曾经说，我觉得三个都能成，如果两个成功也可以接受，如果只有一个成功我会觉得比较失败，如果全部不成功那就没有天理了。但龙芯2号tapeout之后，我对A方案和B方案都没有必胜的信心。但不管最后结果怎么样，有两点是肯定的。一是全组已经尽了最大努力，Godson-2的设计比Godson-1辛苦得多，难度大得多。在龙芯1号发布会后龙芯2号的工作才全面铺开，10个月后我们就完成了这么复杂的设计，没有全组兄弟们玩命的工作是不可能做到的。二是即使流片不成功，我们已经有了很好的基础，以前的至少90%的工作没有白费，即使这次不成以后总会成功的。

　　9月5日下午我在丝毫没有准备的情况下收到了龙芯2号的A方案的芯片，当晚我组织了联调，虽然在加电后很快就能够启动一个简单的BIOS系统，但系统运行得很不稳定。在连续三天的调试后，我们虽然得到了一些有用的结论，如验证了跨时钟域的信号握手机制，但一直无法让系统稳定运行，因此我决定终止继续联调并给李老师和唐志敏发EMAIL报告了这一情况。

　　虽然由于寄存器堆的问题我已经对A方案的流片不抱太大的希望，但真正面对这个结果时还是很难受。那阵子我经常坐在机房里，痴痴地看着寄存器堆的版图发呆；或者独自呆在办公室，想想过去一年中我们在实验室里度过的日日夜夜，龙芯1号发布后我们立即马不停蹄地展开龙芯2号的设计甚至在非典期间也不敢松懈。龙芯2号的设计比龙芯1号复杂得多，连续的加班也惨烈得多。在这段日子里，我自己每周的工作时间都在80小时以上，而课题组的不少同学比我还多。多少次为了一个小问题而夜不能寐，多少次为了一个小细节而殚精竭虑；每一个进步的脚印都充满了汗水，每一点进展都是心血的凝聚。竟得到这样一个结果，心里十分难受。

　　我和唐志敏十几年的兄弟，基本上是心意相通的，点滴的想法我都跟他讨论，点滴的进展和挫折他也都知道，有些大的决策一起做出。因此，A方案流片的失败，我跟他还是坦坦然的。虽然李老师见到我象没事似的（也许他觉得这样会让我少些压力），但这样让我更不安，本来我希望他骂我一通或者安慰我一下，可惜没有。这段日子我觉得最对不住的还是邓书记。在我们研制龙芯2号的日子里，她给了我们很多的特殊照顾，包括我们的办公环境以及我自己和课题组里员工和学生的生活条件，我一直说书记是我们的活菩萨。因此这段日子我自己都觉得不好意思见她，有时候在路上碰到，我就远远地绕开走。

　　由于龙芯2号A方案的流片失败，我们更加迫切地等待B方案流片的结果。这种等待有时候让我坐卧不宁，必须时时刻刻地找事情做心里才好受一些。因此在这个阶段我们对龙芯2号B方案的结构和RTL继续进行优化（真算是化悲痛为力量）。不仅延迟又降低了0.5ns，而且通过对存储层次的改进，相同主频下性能也提高了很多。

　　在SMIC完成流片后，我们得到了封装厂家的大力支持，以最快的速度完成了封装。我又派专人去上海立等芯片的封装结束并把芯片直接取回来，这种在煎熬中等待的日子我是一刻也不想过了。好在天道酬勤，在拿到芯片的40分中内我们就用龙芯2号把操作系统启动了起来。此后，我们又化了大约三个礼拜针对龙芯2号虚地址CACHE和猜测执行的特点把操作系统搞稳定。

　　现在，基于龙芯2号的Linux-PC已经稳定运行了一个多月。目前的龙芯2号最高频率为300MHz，功耗1W-2W，成品率约为80%左右。在性能方面，在联调的第一天我们只把龙芯2号的主频调到133MHz时已经明显感觉到比266MHz的龙芯1号还要快很多。龙芯1号不能胜任的许多应用，包括流媒体的软解压、GNU 2.4的支持、Mozilla浏览器、Open Office办公软件等重量级的应用，在龙芯2号中都能比较流畅地运行。尤其是流媒体的软解压，我曾经化了三天三夜进行软件优化来提高龙芯1号软解压的效果，但最后还是差一点；把龙芯1号勉强能软解压播放的一个mpeg文件在200MHz的龙芯2号上播放，只要23%的CPU。而对于标准的MP3播放，龙芯2号只要不到1%的CPU就应付裕如了。通过使用SPEC CPU2000对龙芯2号的性能分析表明，相同主频下龙芯2号的性能已经明显超过PII的性能，是龙芯1号的3-5倍。

　　我曾经终日坐在用龙芯2号做的计算机前，玩着各种游戏，使用各种重量级的软件来感受龙芯2号的性能。虽然对于有些大型的应用软件还感到有些迟钝，但我们的龙芯2号已经明显表现出她作为PC机中使用的CPU的资格和风范。每当我在龙芯2号上玩着LINUX PC中的各种游戏，想想一年前玩龙芯1号时觉得性能不理想时的郁闷心情，真是我这一年来最爽的体验。

　　龙芯2号的性能提高主要来自先进的结构设计，包括四发射和乱序执行结构的设计。而乱序执行的关键技术是龙芯2号结构设计的重点和难点，四发射的RISC结构如果没有乱序执行技术的支持是发挥不出效率的。例如典型的定点程序中平均每六、七条指令就有一条转移指令，意味着在四发射结构中每两拍就有一条转移指令。如果等转移指令的目标地址确定再进行后面的取指，意味着每取两拍指令就得等五、六拍甚至更多才能继续后面的取指。又如，做一个简单的加法需要两个操作数，而如果这两个操作数都需要从内存中（即主板上的内存条）取回来，那么在做这个加法之前，需要至少上百拍的时间为这个加法准备数据。指令乱序执行的核心思想就是减少各种相关引起的等待，充分发挥处理器的效率。

　　主要做法包括：（1）转移猜测，即在转移指令目标尚未确定的时候，根据过去转移指令执行的历史猜测该转移指令的转移方向和转移目标，并根据猜测的结果进行后续指令的取指，为处理器提供连续稳定的指令流。如果最后发现猜测错误，则取消猜错的转移指令后面的指令。（2）动态调度，即在前面的指令由于操作数未准备好而等待时，后面的操作数已经准备好的指令可以越过前面的指令先执行。（3）寄存器重命名，即指令运算后先写到一个临时的寄存器，等确定该指令不会被取消后再写到真正的目标寄存器中去。这样做的好处除了便于前面指令发生例外或转移猜错时取消外，还避免了由于两条指令写同一个寄存器时的等待。

　　此外，访存指令的乱序执行又有新的特征。除了通过增大CACHE和对CACHE进行有效的组织尽量提高CACHE命中率并降低CACHE访问的延迟外，还需要对访存指令进行乱序执行以提高效率。访存指令乱序执行的关键技术包括：（1）Non-blocking技术，即在前面的访存指令由于CACHE不命中进行长延迟的存储访问时，后面的指令可以继续访问CACHE。（2）Memory Disambiguation技术，即在存数和取数指令都乱序执行的情况下，保证取数指令都能取回它前面的最近一条对同一地址的存数指令所存的值。比如如果一条取数指令在一条存数指令之后且两条指令的地址相等，但取数指令先访问CACHE，也要保证取数指令取回该存数指令的值；又如如果一条取数指令在一条存数指令之前且两条指令的地址相等，但存数指令先访问CACHE，也要保证取数指令取回原来CACHE中的值，而不是存数指令新存的值。（3）Load Speculation技术，即在取数指令访问CACHE后，它前面的存数指令地址还没有确定（即取数指令从CACHE中取回的值有可能是错误的），先把取数指令从CACHE中取回的值送给后续的指令用，如果后来发现它前面的存数指令和该取数指令访问的是同一个单元，再取消该取数指令后面的指令。（4）Write Buffer技术，由于存数指令也是乱序执行的，存数指令所存的值不能立即写到CACHE或内存，而是要根据存数指令在程序中的次序写到CACHE或内存。

　　在乱序执行的结构中，虽然指令执行是乱序的，但开始和结束是有序的。指令在译码和寄存器重命名后就放在一个有序的队列中，由该队列来记录每一条指令的执行阶段并有序地结束指令。即指令在流水线中是有序进入、乱序执行、有序结束。

　　龙芯2号的主要结构特点包括，64位设计，7-10级流水线，包括取指、译码、重命名、发射、读寄存器、执行写回、提交等，其中乘除、浮点操作、以及访存操作在执行写回阶段需要多拍。四发射结构，最多可以有64条指令乱序执行。共有5个功能部件，包括定点ALU1（完成定点加减、逻辑、移位、转移），定点ALU2（完成定点加减、逻辑、移位、乘除），浮点ALU1（完成定点加减、转换、转移），浮点ALU2（完成乘除、开方），以及访存部件（完成访存、系统管理、数据传送）。通过对浮点指令fmt域的简单扩充，浮点部件可以执行完整的定点指令以及4路SIMD的媒体指令。在乱序执行方面，转移猜测使用混合预测+Gshare + BTB + RAS的转移猜测方式；通过物理寄存器到逻辑寄存器映射进行寄存器重命名，定点浮点寄存器堆各为64项；动态调度方面定点和浮点保留站各16项，Reorder Buffer为64项。

　　在存储管理方面，TLB为64项全相联，每项两页，页大小在4KB-4MB之间可变。此外，有一个独立的8项的指令TLB是数据TLB的子集。与龙芯1号一样，在TLB中增加可执行位，防止缓冲区溢出攻击。数据CACHE和指令CACHE各为32KB，二路组相联。最多允许32个访存操作的Non-blocking访问，访存相关在访存队列中通过全相联的查找解决，避免了象Alpha21264或MIPS R10000中碰到访存相关时需要重新发射。实现load-speculation，允许前面的store操作未确定的情况下执行load操作并返回结果。Cache失效时实现关键字优先访问，以减少访存等待，Uncached操作实现uncached accelerate算法加速I/O访问。

　　目前的龙芯2号只是我们所承担的项目的阶段性成果。它的作用主要体现在四个方面。一是对目前的处理器核设计进行验证；二是用于进行性能分析以及对性能分析方法的改进；三是验证新的物理设计方法和生产厂家；四是提前提供软件开发平台，为LINUX PC的正式推出做好准备。现在看来，这几个目的都达到了。

　　我们的下一步目标是在目前龙芯2号的基础上把性能再提高到现在的3-5倍，并利用明年完成的龙芯2号做一台每秒运算一千亿次的计算机。我还是博士生时唐志敏曾经带我到中科院网络中心去算题，有一次他隔着玻璃指着一台计算机对我说，这台就是从日本引进的计算机，现在系统管理的权限还在日本人手里，增加一个用户都要它们批准，什么时候我们自己做一台比它还快的计算机，就放在这台计算机边上，告诉它们这台机器就是用来做核模拟的。所以做一台自己的高性能机是我学生时期的梦想，虽然现在国内最快的高性能机已经达到每秒几万亿次，但我一定要圆这个梦。

　　计算所的一位研究员曾经说过，创新工作一个重要特征就是这个工作让人感到“狠”。我觉得，龙芯1号“狠”的地方就是进度快，从零开始，用了不到一年半的时间完成一个通用处理器的设计；而目前的龙芯2号“狠”的地方就是在结构上对性能的大幅提高。我相信，更“狠”的还在后头。

　　2003年11月30日于中国科大

你可能感兴趣的:(cpu,经验,龙芯,结构)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
ARM中断处理过程落汤老狗嵌入式linux
一、前言本文主要以ARM体系结构下的中断处理为例，讲述整个中断处理过程中的硬件行为和软件动作。具体整个处理过程分成三个步骤来描述：1、第二章描述了中断处理的准备过程2、第三章描述了当发生中的时候，ARM硬件的行为3、第四章描述了ARM的中断进入过程4、第五章描述了ARM的中断退出过程本文涉及的代码来自3.14内核。另外，本文注意描述ARM指令集的内容，有些sourcecode为了简短一些，删除了T
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
广州会刊小程序开发公司哪家好｜开发多少钱费用｜专业外包服务红匣子实力推荐
在选择广州会刊小程序开发公司时，有几个关键因素需要考虑。首先，您应该确定自己的需求和目标，以便找到最合适的开发公司。其次，您需要考虑公司的经验和专业知识。最后，您还应该考虑公司的信誉和口碑。开发-联系电话：13642679953（微信同号）首先，您应该明确自己的需求和目标。会刊小程序是一种用于展示会议信息和日程安排的应用程序。在选择开发公司之前，您应该明确自己的需求，包括功能要求、设计风格和用户体
数据结构之哈希表 X同学的开始数据结构数据结构散列表
哈希表(散列表)出现的原因在顺序表中查找时，需要从表头开始，依次遍历比较a[i]与key的值是否相等，直到相等才返回索引i；在有序表中查找时，我们经常使用的是二分查找，通过比较key与a[i]的大小来折半查找，直到相等时才返回索引i。最终通过索引找到我们要找的元素。但是，这两种方法的效率都依赖于查找中比较的次数。我们有一种想法，能不能不经过比较，而是直接通过关键字key一次得到所要的结果呢？这时，
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
那年你来了阿尔巴
你孕育在母亲的子宫里已经九个月了。看她大腹便便的样子，我想：我们的女儿一定是个胖姑娘啦。那时总是觉得你的母亲会生一个女儿，那些有着生育经验的妇人们都说肚子圆圆的是女孩，如果是男孩肚子则是尖尖的。转眼到了一朝分娩的时候，你在里面踢打的越来越频繁，使母亲不断的阵痛，你是真的想往这个世界吗？医生进病房来，边询问边抚摸，然后说：还早。阵痛一下平息了，你肯定是觉察到了那双手的陌生。我步出医院，漫行于元宵节前
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
4.C_数据结构_队列荣世蓥数据结构数据结构
概述什么是队列：队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点相关名词：队尾：写入数据的一段队头：读取数据的一段空队：队列中没有数据，队头指针=队尾指针满队：队列中存满了数据，队尾指针+1=队头指针循环队列1、基本内容循环队列是以数组形式构成的队列数据结构。循环队列的结构体如下：typedefintdata_t;//队列数据类型#defineN64//队列容量typ
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
Python入门之Lesson2:Python基础语法小熊同学哦 Python入门课程 python 开发语言算法数据结构青少年编程
目录前言一.介绍1.变量和数据类型2.常见运算符3.输入输出4.条件语句5.循环结构二.练习三.总结前言欢迎来到《Python入门》系列博客的第二课。在上一课中，我们了解了Python的安装及运行环境的配置。在这一课中，我们将深入学习Python的基础语法，这是编写Python代码的根基。通过本节内容的学习，你将掌握变量、数据类型、运算符、输入输出、条件语句等Python编程的基础知识。一.介绍1
光盘文件系统 (iso9660) 格式解析穷人小水滴光盘文件系统 iso9660 deno GNU/Linux javascript
越简单的系统,越可靠,越不容易出问题.光盘文件系统(iso9660)十分简单,只需不到200行代码,即可实现定位读取其中的文件.参考资料:https://wiki.osdev.org/ISO_9660相关文章:《光盘防水嘛?DVD+R刻录光盘泡水实验》https://blog.csdn.net/secext2022/article/details/140583910《光驱的内部结构及日常使用》ht
Spring MVC 全面指南：从入门到精通的详细解析一杯梅子酱技术栈学习 spring mvc java
引言：SpringMVC，作为Spring框架的一个重要模块，为构建Web应用提供了强大的功能和灵活性。无论是初学者还是有一定经验的开发者，掌握SpringMVC都将显著提升你的Web开发技能。本文旨在为初学者提供一个全面且易于理解的学习路径，通过详细的知识点分析和实际案例，帮助你快速上手SpringMVC，让学习过程既深刻又高效。一、SpringMVC简介1.1什么是SpringMVC？Spri
ARMV8体系结构简介：概述简单同学 ARMV8体系结构 ARMV8
1.前言本文主要概括的介绍ARMV8体系结构定义了哪些内容，概括的说：ARM体系结构定义了PE的行为，不会定义具体的实现ARM体系结构也定义了debug体系结构和trace体系结构ARM体系结构采用RISC指令集（1）长度一致的寄存器；（2）load/store架构，数据处理操作只能对寄存器内容进行处理，不会直接对内存的内容进行处理；（3）简单寻址方式，load/store地址来源于寄存器或指令域
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa