OneFlow深度学习框架

Jeff Dean：机器学习在硬件设计中的潜力

作者｜Jeff Dean

翻译｜沈佳丽、胡燕君、贾川

为什么芯片设计需要很长时间？能不能加速芯片设计周期？能否在几天或几周之内完成芯片的设计？这是一个非常有野心的目标。过去十年，机器学习的发展离不开系统和硬件的进步，现在机器学习正在促使系统和硬件发生变革。

Google在这个领域已率先出发。在第58届DAC大会上，Google AI负责人Jeff Dean分享了《机器学习在硬件设计中的潜力》，他介绍了神经网络发展的黄金十年，机器学习如何影响计算机硬件设计以及如何通过机器学习解决硬件设计中的难题，并展望了硬件设计的发展方向。

他的演讲重点在于Google如何使用机器学习优化芯片设计流程，这主要包括架构搜索和RTL综合、验证、布局与布线（Placement and routing）三大阶段。在架构搜索阶段，Google提出了FAST架构自动优化硬件加速器的设计，而在验证阶段，他们认为使用深度表示学习可提升验证效率，在布局与布线阶段，则主要采用了强化学习技术进行优化。

以下是他的演讲内容，由OneFlow社区编译。

神经网络的黄金十年

制造出像人一样智能的计算机一直是人工智能研究人员的梦想。而机器学习是人工智能研究的一个子集，它正在取得很多进步。现在大家普遍认为，通过编程让计算机变得“聪明”到能观察世界并理解其含义，比直接将大量知识手动编码到人工智能系统中更容易。

神经网络技术是一种非常重要的机器学习技术。神经网络一词出现于1980年代左右，是计算机科学术语中一个相当古老的概念。虽然它当时并没有真正产生巨大的影响，但有些人坚信这是正确的抽象。

本科时，我写了一篇关于神经网络并行训练的论文，我认为如果可以使用64个处理器而不是一个处理器来训练神经网络，那就太棒了。然而事实证明，我们需要大约100万倍的算力才能让它真正做好工作。

2009年前后，神经网络技术逐渐火热起来，因为我们开始有了足够的算力让它变得有效，以解决现实世界的问题以及我们不知道如何解决的其他问题。2010年代至今是机器学习取得显著进步的十年。

是什么导致了神经网络技术的变革？我们现在正在做的很多工作与1980年代的通用算法差不多，但我们拥有越来越多的新模型、新优化方法等，因此可以更好地工作，并且我们有更多的算力，可以在更多数据上训练这些模型，支撑我们使用更大型的模型来更好地解决问题。

在探讨设计自动化方面之前，我们先来看看一些真实世界的例子。首先是语音识别。在使用深度学习方法之前，语音识别很难得到实际应用。但随后，使用机器学习和神经网络技术，大幅降低了词语的识别错误率。

几年后，我们将错误率降低到5%左右，让语音识别更加实用，而现在，在不联网的设备里，我们都可以做到仅仅4%左右的错误率。这样的模型被部署在人们的手机里面，随时随地帮助人们识别自己的语音。

计算机视觉方面也取得了巨大的进步。2012年左右，Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton在ImageNet比赛中首次使用了AlexNet，错误率得到显著降低，并在当年夺得桂冠。

后一年的ImageNet比赛中，几乎所有参赛者都使用深度学习方法，研究人员则进一步放弃了传统的方法。其中，2015年，由何恺明等微软研究人员提出ResNet更进一步降低了错误率。

当时的斯坦福大学研究生Andrej Karpathy正在帮助运营ImageNet比赛，他想知道如果人工识别这项艰难的任务，错误率会是多少。在上千个类别中有40种狗，你必须能够看着一张照片说：“哦，那是一只罗威纳犬，不是一只大力金刚犬，或者其他品种的狗。” 经过一百个小时的训练，他将错误率降到了5%。

这是一项非常艰难的任务，将计算机识别错误率从2011年的26%降低到2017年的2%是一件很了不起的事，过去计算机无法识别的东西，现在已经可以识别。自然语言处理、机器翻译和语言理解中也经历了类似的故事。

此外，开源框架确实使世界各地的许多人能够应用机器学习技术，TensorFlow就是其中之一。

大约在2015年11月，我们开源了TensorFlow以及供Google内部使用的工具。TensorFlow对世界产生了相当大的影响，它已经被下载了大约5000万次，当然也出现了很多其他框架，比如JAX、PyTorch等等。

世界各地的人们能够将机器学习用于各种了不起的用途，例如医疗保健、机器人技术、自动驾驶等等，这些领域都是通过机器学习方法来理解周围的世界，进而推动领域的发展。

机器学习改变计算机设计方式

ML研究社区中的许多成功源自使用更多算力和更大的模型，更多的算力促进了机器学习研究领域中重要成果的产生。深度学习的发展正在深刻改变计算机的结构。现在，我们想围绕机器学习计算类型构建专门的计算机。

近年来，我们已经在Google做了很多类似的工作，其中TPU（张量处理单元）是我们构建定制处理器的一种方法，这些处理器专为神经网络和机器学习模型而设计。

TPU v1是我们第一个针对推理的产品，当你拥有经过训练的模型，并且只想获得已投入生产使用的模型的预测结果，那它就很适合，它已经被用于神经机器翻译的搜索查询、AlphaGo比赛等应用中。

后来我们还构建了一系列处理器。TPU v2旨在连接在一起形成称为Pod的强大配置，因此其中的256个加速器芯片通过高速互联紧紧连接在一起。TPU v3则增加了水冷装置。

TPU v4 Pod不仅可以达到ExaFLOP级的算力，它还让我们能够在更大的模型训练中达到SOTA效果，并尝试做更多的事情。

以ResNet-50模型为例，在8块P100 GPU上训练完ResNet-50需要29小时，而在2021年6月的MLPerf竞赛中，TPU v4 pod仅耗时14秒就完成了训练。但我们的目的不仅仅是在14秒内训练完ResNet，而是想把这种强大的算力用于训练其他更先进的模型。

可以看到，从一开始的29小时到后来的14秒，模型的训练速度提高了7500倍。我认为实现快速迭代对于机器学习非常重要，这样才能方便研究者试验不同想法。

基于机器学习的计算方式越来越重要，计算机也正在往更适应机器学习计算方式的方向上演进。但深度学习有可能影响计算机的设计方式吗？我认为，答案是肯定的。

机器学习缩短芯片设计周期

目前，芯片的设计周期非常长，需要几十甚至几百人的专业团队花费数年的努力。从构思到完成设计，再到成功生产，中间的时间间隔十分漫长。但如果将来设计芯片只需要几个人花费几周时间呢？这是一个非常理想的愿景，也是研发人员当前的目标。

如上图所示，芯片设计包含四个阶段：架构探索→RTL综合→验证→布局和布线。完成设计之后，在制作生产环节需要进行布局和布线（Placement & Routing），有没有更快、更高质量的布局和布线方法？验证是非常耗时的一步，能不能用更少的测试次数涵盖更多的测试项目？有没有自动进行架构探索和RTL综合的方法？目前，我们的芯片架构探索只针对几种重要的应用，但我们终将要把目光扩大。

布局与布线

首先，关于布局和布线，Google在2020年4月发表过一篇论文Chip Placement with Deep Reinforcement Learning，2021年6月又在Nature上发表了A graph placement methodology for fast chip design。

我们知道强化学习的大致原理：机器执行某些决定，然后接收奖励（reward）信号，了解这些决定带来什么结果，再据此调整下一步决定。

因此，强化学习非常适合棋类游戏，比如国际象棋和围棋。棋类游戏有明确的输赢结果，机器下一盘棋，总共有50到100次走棋，机器可以根据最终的输赢结果评定自己和对手的整套走棋方法的有效性，从而不断调整自己的走棋，提高下棋水平。

那么ASIC芯片布局这项任务能不能也由强化学习智能体来完成呢？

这个问题有三个难点。第一，芯片布局比围棋复杂得多，围棋有10^{360}种可能情况，芯片布局却有10^{9000}种。

第二，围棋只有“赢”这一个目标，但芯片布局有多个目标，需要权衡芯片面积、时序、拥塞、设计规则等问题，以找到最佳方案。

第三，使用真实奖励函数（true reward function）来评估效果的成本非常高。当智能体执行了某种芯片布局方案后，就需要判断这个方案好不好。如果使用EDA工具，每次迭代都要花上很多个小时，我们希望将每次迭代所需时间缩减为50微秒或50毫秒。

利用强化学习进行芯片布局的步骤如下：首先从空白底座开始，运用分布式PPO算法（强化学习的常用算法）进行设计，然后完成每个节点的布局放置，最后进行评估。

评估步骤使用的是代理奖励函数（proxy reward function），效果和真实奖励函数相近，但成本低得多。在一秒或半秒内就可以完成对本次布局方案的评估，然后指出可优化之处。

构建奖励函数需要结合多个不同的目标函数，例如线长、拥塞和密度，并分别为这些目标函数设定权重。

如上图所示，布局优化采取的是混合方式。强化学习智能体每次放置宏（macro），然后通过力导向方法（force-directed method）放置标准单元。

上图来自前面提到的Nature论文，展示了更多芯片架构的细节。

上图展示了一个TPU设计块的布局与布线结果。白色区域是宏，绿色区域是标准单元群（standard cell clusters）。

图中左边是人类专家完成的设计，从中可以看出一些规律。人类专家倾向于把宏沿边缘放置，把标准单元放在中间。一名人类专家需要6~8周完成这个布局，线长为57.07米。图中右边是由智能体（ML placer）完成的布局，耗时24小时，线长55.42米，违反设计规则的地方比人类专家略多，但几乎可以忽略。

可以看出，智能体并不像人类专家一样追求直线布局。为了优化布局，智能体更倾向于弧形布局。我们也希望能训练智能体高效地创造一些前所未有的布局方式。

为了实现这个目标，首先，我们运用强化学习算法优化某个芯片设计块的布局，期间需要经历上万次迭代；然后，重复前一步骤，在多个不同的设计块上预训练出一套布局规则，最终让算法在面对前所未见的新设计块时也能给出布局方案。

预训练好的策略有助于在推理时做更少的迭代，进行“零次（zero-shot）布局”。我们实际上还没有新算法来优化这个特定的设计，当然我们可以做数百次迭代以得到更好的结果。

上图展示了使用不同方法时的布局成本。蓝线表示不经过预训练的从头训练策略的布局成本，绿线表示用已预训练的算法优化新设计块的布局，X轴表示训练时间，可以看到，蓝线在经过20多小时的训练后方可大幅降低布局成本，此后仍需经过一段时间才能达到收敛。而绿线只用了极少的训练时间就达到了更低的布局成本并很快收敛。

最令我感到兴奋的是圈红部分。调优预训练策略在短时间内就可实现相当不错的布局，这种实现就是我所说的，在一两秒内完成芯片设计的布局。

上图展示了更详细的不同设计的情况。Y轴表示线长成本（越低越好）。绿色表示使用商业工具的线长成本，可以看到，从浅蓝色（零次布局）→蓝色（2小时微调）→深蓝色（12小时微调），线长成本越来越低。深蓝色一直比黄色的线长成本要低，因为通过12小时的微调能从其他设计中学到最佳布局。

上图中，左边和右边分别展示了从头训练的策略和经过微调预训练策略的芯片布局过程。每个小方块表示一个宏的中心，空白部分表示为标准单元预留的位置。可以看到，右边从一开始就将宏放在边缘，将大片中间区域留空。而左边则要经过很多次迭代才能形成这样的格局。

我们利用强化学习工具针对TPU v5芯片的37个设计块进行了布局与布线。其中，26个设计块的布局与布线质量优于人类专家，7个设计块的质量与人类专家相近，4个设计块的质量不如人类专家。目前我们已经把这个强化学习工具投入到芯片设计流程中了。

总的来说，用机器学习进行芯片布局与布线的好处包括：可以快速生成多种布局方案；即使上游设计有重大改动也可以迅速重新布局；大幅减少开发新ASIC芯片所需的时间和精力。

验证

接下来是芯片设计的验证阶段。我们希望用较少的测试次数覆盖多个测试项目。验证是阻碍芯片设计提速的主要瓶颈。据估计，芯片设计过程中，80%的工作量在于验证，而设计本身仅占20%。因此，验证技术的任何一点进步都会产生重大作用。

Google在2021年NeurIPS（神经信息处理系统大会）上发表了论文《Learning Semantic Representations to Verify Hardware Designs》，我们能不能运用机器学习生成在更短时间内覆盖更广状态空间的测试用例？

验证阶段的基本问题是可达性（reachability）。目前的芯片设计能否让系统达成需要的状态？我们的想法是，根据当前的芯片设计生成一个连续的表示，从而预测对系统的不同状态的可达性。

我们可以通过RTL将芯片设计抽象为一张图，然后运用基于图的神经网络去了解该图的特性，从而了解其对应芯片设计的特性，继而决定测试覆盖率和测试用例，这给了我们一个很好的设计的抽象表示。

当然，如何将这种方法应用到实际芯片设计中将是另外一个重要话题。用RTL生成图表示之后，我们在图神经网络中运用一种叫Design2Vec的技术进行深度表示学习，从而帮助我们作出预测。

目前，芯片的验证环节需要大量人力，例如，找bug、查找测试覆盖率漏洞、分析和解决bug等，还需要经历多次如上图所示的流程循环。我们希望上述步骤可以实现自动化，自动生成新的测试用例以解决重要的问题。

后来我们发现，可以把这个问题转化为一个监督学习问题。如果之前进行了一系列测试，并知道这些测试覆盖哪些测试点，就可以将这些数据用作监督学习中的训练数据。

然后，当出现新的测试点时，假设进行一个新的测试，我们需要预测这个测试能否覆盖新的测试点。我们希望能结合之前的训练数据以及芯片设计本身，来实现这种预测。

我们有两个Baseline，其中一个能够看到测试点（test points）和覆盖点（cover points）的数据，这是一个黑盒测试。

而Design2Vec除了能够处理上述数据外，还能处理实际设计、设计的图结构等等。如果你使用一半的测试点作为训练数据，并且设置多个大小不同的训练集，然后对其它测试点进行预测，那么将会得到非常出色的结果，即使是对于相对较少的覆盖点，也能泛化得非常好。相比之下，Baseline这种方法就不能对此进行很好地泛化。

但使用图神经网络来学习设计、覆盖率和测试属性的方法，实际上比NeurIPS论文中的其他所有Baseline都要好。

例如，我们常会遇到很多难以生成测试的覆盖点。工程师们发现使用RISC-V Design和TPU Design这两种不同的设计也很难为这些特定的覆盖点生成测试，于是我们又转向使用贝叶斯优化器来尝试生成测试。

上图右边这一列是贝叶斯优化器覆盖的不同测试点、覆盖点所需的模拟器调用数（simulator calls），中间一列是使用Design2Vec所需的模拟器调用数。从中可以看到，为覆盖这些有挑战性的覆盖点，Design2Vec生成的测试要少于贝叶斯优化器。所以Design2Vec非常好，相比之下它更快，能聚焦覆盖范围，还能节省在运行计算模拟器（本身很昂贵）上的开销。

验证是芯片设计在理论和实践上长期面临的一个挑战。我们认为，深度表示学习能够显著提高验证效率和质量，并且在设计中实现泛化。

即使设计发生了一些改变，这个新设计的版本也能运用之前在众多设计上训练出来的系统，提高验证效率。正如在布局与布线阶段，经过训练后的算法即使面对新设计也能够预测不同测试的覆盖点，以带来好的结果。

架构探索和RTL综合

在芯片设计中，另一个比较耗时的方面是要清楚你究竟想要构建何种设计。此时你需要做一些架构探索（architectural exploration），然后做RTL综合。目前计算机架构师和其他芯片设计师等具有不同专业知识的人花费大量时间来构建他们真正想要的设计，然后验证、布局和布线，那么我们可以学习自动做架构探索和综合吗？

现在我们正在研究的就是如何为已知的问题实行架构探索。如果我们有一个机器学习模型，并且想要设计一个定制芯片来运行这个模型，这个过程能否实现自动化，并提出真正擅长运行该特定模型的优秀设计。

关于这项工作，我们在arXiv发表了论文《A Full-stack Accelerator Search Technique for Vision Applications》，它着眼于很多不同的计算机视觉模型。另外一个进阶版本的论文被ASPLOS大会接收了《A Full-stack Search Technique for Domain Optimized Deep Learning Accelerators》。

这里要解决的问题是：当你设计一个机器学习加速器时，需要考虑你想在哪个加速器上运行什么样的机器学习模型，而且这个领域的变化非常之快。

上图中的红线是指引入的不同计算机视觉模型，以及通过这些新模型实现的ImageNet识别准确率提升。

但问题是，如果你在2016年想要尝试设计一个机器学习加速器，那么你需要两年时间来设计芯片，而设计出来的芯片三年后就会被淘汰。你在2016年做的决定将会影响计算，要保证在2018年-2021年高效运行，这真的很难。比如在2016年推出了Inception-v3模型，但此后计算机视觉模型又有四方面的大改进。

因此，如果我们能使设计周期变得更短，那么也许单个工作负载加速器能变得可用。如果我们能在诸多流程中实现自动化，那么我们或许能够得到正反馈循环，即：缩短机器学习加速器的上市时间，使其能更适合我们当下想要运行的模型，而不用等到五年后。

用机器学习探索设计空间

实际上，我们可以使用机器学习来探索设计空间。有两个因素影响加速器性能，一是设计中内置的硬件数据通道，二是工作负载如何通过编译器而不是更高级别的软件映射到该数据通道。通常，设计空间探索实际上只考虑当前编译器优化的数据通道，而不是协同设计的编译器优化和优化数据通道时可能会做的事。

因此，我们能否同时优化数据通道、调度（schedule）和一些编译器决策，并创建一个搜索空间，探索出你希望做出的共同设计的决策。这是一种覆盖计算和内存瓶颈的自动搜索技术，探索不同操作之间的数据通道映射和融合。通常，你希望能够将事物融合在一起，避免内存传输的每次内存负载中执行更多操作。

根本上说，我们在机器学习加速器中可能做出的设计决策创建了一种更高级别的元搜索空间，因此，可以探索乘法的脉冲列阵（systolic array）在一维或二维情况下的大小，以及不同的缓存大小等等。

如前所述，考虑编译器优化与硬件设计的协同设计也很重要，因为如果默认编译器不会更改，就无法真正利用处理器中底层设计单元的变化。实际上，不一定要考虑特定设计的所有效果和影响。

接下来看看这种方式产生的一系列结果，将这些结果与TPUv3芯片的baseline（上图蓝条）进行比较。实际上这是假定型TPUv3芯片，其中模拟器已停止了运行。我们已经将其缩小到了sub-10纳米工艺。我们还将研究TPUv3的软件效用，以及共同探索在设计空间中的编译器优化。

红条和蓝条表示的内容是一致的，但一些探索过的编译器优化不一定在蓝条中得以体现，而这里的绿条则表示的是为单一计算机视觉模型定制的假定型设计。EfficientNet-B0...B7表示相关但规模不同的计算机视觉模型。与蓝条baseline相比，（绿条的）Perf/TDP的改进大约在3到6倍之间。

那么除EfficientNet-B0...B7外，其他模型的情况如何？在此前所述的ASPLOS论文中提出更广泛的模型集，尤其是那些计算机视觉以外的BERT-seq 128和BERT-seq 1024等NLP模型。

实际上，定制化芯片不只是适用于单个机器学习模型，而是使其适用于一组机器学习模型。你可能不想使你的加速器芯片设计仅针对某一项任务，而是想涵盖你所关注的那一类任务。

上图的黄条代表为五种不同模型设计的定制化芯片，而我们想要一个能同时运行这五种模型（红色箭头所指）的芯片，然后就能看出其性能能达到何种程度。可喜的是，从中可以看到，黄条（单一负载）并不比绿条（多负载）的性能低多少。所以你实际上可以得到一个非常适合这五种模型的加速器设计，这就好比你对其中任何一个模型都进行了优化。它的效果可能不是最好的，但已经很不错了。

而且，如果你关注的点是性能而非Perf/TDP，得到的结果实际上会更好。所以结果如何取决于你关注的是什么，是绝对性能还是每瓦性能？在Perf//TDP指标中，性能结果甚至提升了2.6到8.8倍，而非Perf/TDP指标下的1.8到6.4倍。

因此，我们能够针对特定工作负载进行定制和优化，而不用构建更多通用设备。我认为这将会带来显著改进。如果能缩短设计周期，那么我们将能以一种更自动化的方式用定制化芯片解决更多问题。

当前的一大挑战是，如果了解下为新问题构建新设计的固定成本，就会发现固定成本还很高，因此不能广泛用于解决更多问题。但如果我们能大幅降低这些固定成本，那么它的应用面将会越来越广。

总结

我认为，在计算机芯片的设计过程中，机器学习将大有作为。

如果机器学习在合适的地方得以正确应用，那么在学习方法（learning approaches）和机器学习计算的加持下，芯片设计周期能不能缩短，只需要几个人花费几周甚至几天完成呢？我们可以用强化学习使得与设计周期有关的流程实现自动化，我认为这是一个很好的发展方向。

目前人们正通过一组或多组实验来进行测验，并基于其结果来决定后续研发方向。如果这个实验过程能实现自动化，并且能获取满足该实验正常运行的各项指标，那么我们完全有能力实现设计周期自动化，这也是缩短芯片设计周期的一个重要方面。

这是本次演讲的部分参考文献以及相关论文，主要涉及机器学习在芯片设计和计算机系统优化中的应用。

机器学习正在很大程度上改变人们对计算的看法。我们想要的是一个可以从数据和现实世界中学习的系统，其计算方法与传统的手工编码系统完全不同，这意味着我们要采取新方式，才能创建出我们想要的那种计算设备和芯片。同时，机器学习也对芯片种类和芯片设计的方法论产生了影响。

我认为，加速定制化芯片设计过程中应该将机器学习视为一个非常重要的工具。那么，到底能否将芯片设计周期缩短到几天或者几周呢？这是可能的，我们都应该为之奋斗。

（原视频：https://www.youtube.com/watch?v=FraDFZ2t__A）

其他人都在看

OneFlow v0.8.0正式发布
深度学习硬件的过去、现在和未来
Groq：从头设计一个张量流式处理器架构
AI加速器与机器学习算法：协同设计与进化
Hinton等谈DL十年；PyTorch落地Linux基金会
OneEmbedding:单卡训练TB级推荐模型不是梦
大模型训练难？效率超群、易用的“李白”模型库来了

欢迎体验OneFlow v0.8.0：GitHub - Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient.OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient. - GitHub - Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient.https://github.com/Oneflow-Inc/oneflow/

你可能感兴趣的:(前沿技术,神经网络,人工智能,机器学习,深度学习,硬件)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
ARM中断处理过程落汤老狗嵌入式linux
一、前言本文主要以ARM体系结构下的中断处理为例，讲述整个中断处理过程中的硬件行为和软件动作。具体整个处理过程分成三个步骤来描述：1、第二章描述了中断处理的准备过程2、第三章描述了当发生中的时候，ARM硬件的行为3、第四章描述了ARM的中断进入过程4、第五章描述了ARM的中断退出过程本文涉及的代码来自3.14内核。另外，本文注意描述ARM指令集的内容，有些sourcecode为了简短一些，删除了T
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
简单说说关于shell中zsh和bash的选择秋刀prince MacOS 小猿们的开发日常 bash
希望文章能给到你启发和灵感～如果觉得文章对你有帮助的话，点赞+关注+收藏支持一下博主吧～阅读指南开篇说明一、基础环境说明1.1硬件环境1.2软件环境二、什么是shell、bash、zsh?2.1bash2.2zsh三、选择Bash还是Zsh？四、一些常见问题开篇说明本篇主要简单说明一下，shell中bash和zsh的区别和选择；我们经常会把这两个搞混，不知道什么时候用哪一个，以及怎么使用；一、基础
ARM V8 base instruction -- Debug instructions xiaozhiwise Assembly arm
/**Debuginstructions*/BRK#imm16进入monitormodedebug，那里有on-chipdebugmonitorcodeHLT#imm16进入haltmodedebug，连接有外部调试硬件
ARMv8 Debug __pop_ ARMv8 ARM64 架构 linux 运维
内容来自DEN0024A_v8_architecture_PG.pdf本质ARMv8Debug是什么历史在ARMv4开始被引入,并已发展成一系列广泛的调试(debug1)和跟踪(trace)功能ARMv6和ARMv7-a新增了自托管调试(debug2)和性能评测(trace-enhance)ARMv8处理器提供硬件功能侵入式:调试工具能够对核心活动提供显著级别的控制非侵入式:以非侵入性方式收集有关
Android应用性能优化轻口味 Android
Android手机由于其本身的后台机制和硬件特点，性能上一直被诟病，所以软件开发者对软件本身的性能优化就显得尤为重要；本文将对Android开发过程中性能优化的各个方面做一个回顾与总结。Cache优化ListView缓存：ListView中有一个回收器，Item滑出界面的时候View会回收到这里，需要显示新的Item的时候，就尽量重用回收器里面的View；每次在getView函数中inflate新
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【Python搞定车载自动化测试】——Python实现车载以太网DoIP刷写（含Python源码）疯狂的机器人 Python搞定车载自动化 python DoIP UDS ISO 14229 1SO 13400 Bootloader tcp/ip
系列文章目录【Python搞定车载自动化测试】系列文章目录汇总文章目录系列文章目录前言一、环境搭建1.软件环境2.硬件环境二、目录结构三、源码展示1.DoIP诊断基础函数方法2.DoIP诊断业务函数方法3.27服务安全解锁4.DoIP自动化刷写四、测试日志1.测试日志五、完整源码链接前言随着智能电动汽车行业的发展，汽车=智能终端+四个轮子，各家车企都推出了各自的OTA升级方案，本章节主要介绍如何使
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
C++常见知识掌握 nfgo c++开发语言
1.Linux软件开发、调试与维护内核与系统结构Linux内核是操作系统的核心，负责管理硬件资源，提供系统服务，它是系统软件与硬件之间的桥梁。主要组成部分包括：进程管理：内核通过调度器分配CPU时间给各个进程，实现进程的创建、调度、终止等操作。使用进程描述符（task_struct）来存储进程信息，包括状态（就绪、运行、阻塞等）、优先级、内存映射等。内存管理：包括物理内存和虚拟内存管理。通过页表映
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
原力元宇宙：Web3时代下的虚拟现实融合与普通人逆袭的机遇口碑信息传播者
在数字化浪潮席卷全球的今天，一个崭新的概念——原力元宇宙，正以其独特的魅力吸引着越来越多的目光。作为元宇宙国际性的一个项目，原力元宇宙不仅融合了Web3第三代互联网的前沿技术，更将虚拟现实与现实生活紧密相连，为我们描绘出一幅前所未有的数字新世界画卷。13分钟视频内容讲明白原力元宇宙创富项目，中国区运营服务对接微信：ForceZen原力元宇宙，是一个时代的跨越，它代表着互联网技术的又一次革新。Web
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号