进一寸有一寸的欢喜077

Paper Reading : Fast, scalable generation of high-quality protein multiple sequence alignments us

0.简介

摘要中说道目前大多数都是使用渐进式路线启发式算法计算，但是对于成千上万个序列数据集时，这些方法可能已经到达瓶颈。难以保证在很大数量级数据上保证质量。本文介绍的clustal omega的新程序，它可以快速地对齐几乎任何数量的蛋白质序列，并提供精确的对齐。测试效果：在较小的测试用例中，包的精度与高质量的对齐器的精度相似。在更大的数据集上，clustal-omega在执行时间和质量方面优于其他包。Clustal Omega还具有强大的功能，可以向现有路线中添加序列并利用信息，从而使VastamountofFP在公共数据库（如PFAM）中重新计算信息。

1.介绍

对于长度为L的N个序列，精确计算N个序列之间最优对齐的方法具有 O(LN) [L的N次方]的计算复杂度，这使得即使是很小数量的序列也无法实现。大多数自动方法都是基于“渐进对齐”启发式（Hogeweg和Hesper，1984），它按照“导向树”中的分支顺序，对较大的子对齐中的序列进行对齐。这种方法的复杂度约为O（N2），通常可以使几千个中等长度的序列，但是很难使比对比这个大得多。渐进式方法是一种“贪婪算法”，在初始对准阶段所犯的错误在以后无法纠正。为了抵消这种影响，制定了一致性原则（Notredame等人，2000年）。这使得可以生产新一代更精确的对准器（例如T-Coffee（Notredame等人，2000））但是
以计算简便为代价。这些方法给出了5-10%更准确的对齐，如在基准上测量，但被限定为几百个序列。

在本报告中，我们介绍了一个名为clustal omega的新程序，它可以精确地对齐几乎任何大小的产品。我们已经用它在几个小时内在一个处理器上生成超过190000个序列的比对。在基准测试中，它明显比最广泛使用的、快速的方法更精确，并且在精度上与一些密集的慢速方法相当。它还具有强大的功能，允许用户重用其对齐，以避免在每次新序列可用时重新计算整个对齐。

逐步对准逼近标度的关键是用于生成指导树的方法。正常情况下，这需要将所有的N序列相互对齐，以满足 O(N2)的时间和内存要求。具有45万个序列的蛋白质家族正在出现，并将在各种大规模的基因组测序项目中变得普遍。目前，唯一一种能够对超过10000个序列进行常规比对的方法是mafft/parttree（katoh和toh，2007）。它速度很快，但会导致精度损失，必须通过迭代和其他启发式方法进行补偿。对于Clustal Omega，我们使用MBED的改进版本（Blackshields等人，2010年），其复杂性为O（N log n），并生成与传统方法一样精确的导向树。MBED的工作原理是将每个序列“嵌入”到一个N维的空间中，其中N与对数N成正比。然后用一个N元素向量替换每个序列，其中每个元素只是到N个“参考序列”。这些序列可以很快地聚类通过标准方法，如k-means或upgma。在clustal-omega中，然后使用非常精确的HHalign 包（so¨ding，2005）计算对齐，该包对齐了两个复杂的隐马尔可夫模型（eddy，1998）。

Clustal Omega具有许多功能，可以向现有路线添加序列，或使用现有路线帮助对齐新序列。一个创新是允许用户指定一个proﬁle HMM，该HMM来自于与输入集同源的序列的对齐。然后将序列与这些“外部文件”对齐，以帮助它们与输入集的其余部分对齐。已经有很多可用的HMM集合，来自许多资源，例如 Pfam (Finn et al, 2009) ，现在这些可以用来帮助用户对齐他们的序列。这里是否可以考虑将对齐比较好的序列先进行HMM，再使用profile HMM对其余部分对齐。

3.结果

3.1序列对齐的准确性

精度测量多序列对齐算法准确性的标准方法是使用参考对准的基准测试集，参照三维结构生成。在这里，我们展示了在三个基准上测试的一系列软件包的结果：BAliBASE (Thompson et al, 2005), Prefab (Edgar, 2004) and an extended version of HomFam (Blackshields et al, 2010)。对于这些测试，我们只使用所有程序的默认设置来报告结果，但有两个例外，这两个例外是为了允许 MUSCLE (Edgar, 2004) 和 MAFFT 调整HomFam中最大的测试用例。对于大于3000个序列的测试用例，我们使用–maxiter参数设置为2运行MUSCLE ，以便在合理的时间内完成对齐。其次，我们运行了几个不同的MAFFT 包程序。MAFFT (Katoh et al, 2002) 由一系列程序组成，这些程序可以单独运行，也可以通过设置了–auto标志自动调用脚本。当序列的数量和长度很小时，这个flag选择运行一个缓慢的、基于一致性的程序(L-INS-i)。当数字超过内置阈值时，使用传统的渐进式校准器(FFT-NS-2)。后者也是默认情况下运行的程序，如果调用MAFFT 时没有设置ﬂags 。对于非常大的数据集，必须在命令行上设置–part tree flag，然后使用非常快速的导向树计算。

BAliBASE 基准测试的结果如表I所示。BAliBASE 分为六个“参考值”。每个参考值都给出了平均分数，以及总运行时间和平均总列（TC）分数，这些分数给出了恢复的总对齐列的比例。1.0分表示与基准完全一致。mafft包有两行：MAFFT（auto）和MAFFT default。在大多数（203/218个）BAliBASE 测试用例中，序列的数量很小，脚本运行L-INS-i，这是一个使用一致性启发式 (Notredame et al, 2000) 的低精度程序，它也用在MSA probs (Liu et al, 2010), Probalign, Probcons (Do et al, 2005) 和 T-Coffee程序里。这些程序都只限于少量的序列，但往往给出精确的对齐。这明显反映在表一中的时间和平均得分上。这些包的时间范围从25分钟到22小时，准确度从55%到61%的栏正确。Clustal Omega同样的运行只需9分钟，但其准确度与Probcons和T-Coffee相似。
表的其余部分主要由使用渐进对齐的程序执行。其中一些速度非常快，但与基于一致性的程序和Clustal Omega相比，这种速度的精确度有了相当大的下降。这里最弱的项目是Clustal W (Larkin et al, 2007) ，其次是PRANK (Lo ¨ytynoja and Goldman, 2008)。PRANK的目的不是为了distantly related sequences，而是为了给系统发育工作提供良好的对齐，同时特别注意间隙。这些间隙位置不包括在这些试验中，因为它们往往在结构上不守恒。Dialign (Morgenstern et al, 1998) 不使用一致性或渐进对齐，而是基于查找最佳局部多重对齐。FSA (Bradley et al, 2009)使用成对排列和“序列退火”‘sequence annealing’的抽样，并且在过去已经被证明提供了良好的核苷酸序列排列。

The Prefab benchmark test results见表二。在这里，根据序列的一致性百分比将结果分为五组。总分情况大致在53%到73%。基于一致性的程序MSA probs,MAFFTL-INS-i,Probalign,Probconsand T-Coffee，是最精确但运行时间较长的程序。Clustal Omega接近于一致性程序的不精确性，但速度要快得多。然后，与MUSCLE, MAFFT, Kalign (Lassmann and Sonnhammer, 2005) 和 Clustal W的快速渐进式程序存在差距。

使用HomFam测试多达50000个序列的大型校准结果如表3所示。这里，每一个序列都由至少五个序列的基于 Homstrad (Mizuguchi et al, 1998)结构的序列的核心组成，然后将这些序列插入来自相应的同源pfam域的序列的测试集中（a test set of sequences from the corresponding, homologous, Pfam domain.）。这提供了要对齐的非常大的序列集，但测试仅在具有已知结构的序列上执行。只有一些程序能够提供这种大小的数据集的支持，我们将比较限制在 Clustal Omega, MAFFT, MUSCLE and Kalign。具有默认设置的MAFFT 有20000个序列的限制，我们只在表iii的最后一部分使用带有–part tree的MAFFT 。当获得超过3000个序列时，MUSCLE 会变得越来越慢。因此，对于大于3000个序列，我们使用了更快但不太准确的–maxiters 2设置的MUSCLE ，它将迭代次数限制为2次。总的来说，Clustal Omega很容易成为表iii中最精确的程序。运行时显示，MAFFT default和kalgin在较小的测试用例中运行得非常快，而MAFFT –part tree在最大的家族中运行得非常快。然而，随着序列数量的增加，Clustal Omega 表现确实很好。我们还有两个大于5万序列的测试用例，但是不可能从MUSCLE 或kalgin得到结果。这些也在补充信息中描述。

表三给出了用HomFam评估的四个程序的总运行时间。图1逐个解决了这些运行时。对于小家族来说，Kalign 速度很快，但不具有可伸缩性，总体来说，MAFFT 在所有测试用例大小上都比其他程序快，但Clustal Omega的伸缩性（最好？）相似。图1中的点表示具有不同平均序列长度和成对一致性的不同族。因此，可伸缩性趋势是模糊的，较大的点通常出现在较小的点之上。图三显示了可伸缩性数据，其中长度逐渐增加的子集仅从一个大家族中采样。这减少了成对一致度和序列长度的可变性。

图1Clustal Omega (red), MAFFT (blue), MUSCLE (green) and Kalign (purple) 与HomFam测试集序列数的比对时间。平均序列长度由点大小呈现。两个轴都有对数运算刻度。Clustal Omega 和Kalign在整个比较范围内都是以默认的速度进行的。MUSCLE用–maxiters 2进行 N>3000 个序列。MAFFT 使用–parttree运行N>10000个序列。

3.2 EPA

External proﬁle alignment Clustal Omega可以从a proﬁle HMM中读取来自先前存在的对齐的额外信息。例如，如果用户
希望对齐一组globin序列并已经拥有对齐的globin序列，此对齐可以转换为proﬁle HMM并与序列输入文件一起使用。这个HMM在这里被称为“外部proﬁle”，并以这种方式被称为“外部proﬁle alignment”（epa）。在EPA过程中，输入集中的每个序列都与外部文件对齐。然后将来自外部文件的伪计数信息逐位置传输到输入序列。理想情况下，这将与特定蛋白质或感兴趣的领域（如在宏基因组项目中使用的领域）的大型精选比对一起使用。每次发现新的序列时，应仔细维护并将其用作EPA的外部文件，而不是将输入序列从头开始对齐。Clustal Omega还可以使用传统对齐方法将序列与现有对齐对齐。用户可以将序列逐个添加到路线或将一组对齐的序列与路线对齐。

在本文中，我们用两个例子来说明EPA方法。首先，我们从上一节中获取94个 HomFam测试用例，并使用对应的 Pfam HMM 来实现EPA。在EPA之前，测试用例的平均准确度是正确对齐的Homstrad 位置的0.627，但是在EPA之后，它上升到0.653。这是图2A中测试用例的测试用例图。每个点是一个测试用例，使用EPA将Clustal Omega的TC分数与该分数相对应。第二个例子如图2b所示。在这里，我们取所有的BAliBASE 参考集，并使用Clustal Omega将它们正常对齐，得到正确对齐的0.554列的基准结果，如表1所示。对于EPA，我们使用基准参考对齐它们自身作为外部设施。结果现在跳到0.857列正确。这是一个超过30%的跳跃，虽然它不是一个有效的测量方法，与其他程序比较， Clustal Omega准确度，但它确实说明了EPA在外部比对中使用信息的潜在能力。

3.3迭代

EPA也可用于简单的迭代方案中。一旦从一组输入序列生成MSA，就可以将其转换为HMM，并用于EPA 来帮助重新调整输入序列。这也可以与完全重新计算导向树相结合。在图3中，我们展示了HomFam中每个测试用例的一次和两次迭代的结果。该图被绘制为所有测试用例的运行平均TC分数，其中N使用对数刻度在水平轴上绘制。对于一些较小的测试用例，迭代实际上会产生有害的影响。然而，一旦你得到了近1000个或更多的序列，就会出现一个明显的趋势。你拥有的序列越多，迭代的效果就越有利。对于更大的测试用例，应用两次迭代将变得越来越有利。这一结果证实了EPA作为一项总体战略的有效性。它也证实了在对齐大量序列时的困难，但给出了一个部分解决方案。它还提供了一个非常简单但有效的迭代方案，不仅用于指导树迭代（如许多包中所使用的），而且用于路线本身的迭代。

4.讨论

自20世纪80年代中期以来，MSA方法的主要突破是逐步对齐和一致性的使用。另外，最近的研究关注的是基准测试集的速度或准确度。速度的提高是显著的，但是，除了两个主要的例外，这些方法基本上仍然是O(N2) ，并且不能扩展到大于1万个序列的数据集。这里使用的两个例外是这里使用的mBed和MAFFT Part Tree，Part Tree速度更快，但要牺牲准确性，至少从这里的基准判断是这样的。第二组最新进展涉及准确性。这往往侧重于基准测试的结果，这是一个潜在的有争议的问题 (Aniba et al, 2010; Edgar, 2010)。我们现有的基准测试集范围有限，并且严重偏向于单域球状蛋白。这有可能导致方法在基准上表现良好，但在实际情况中不那么灵活或有用。提高准确性的一个发展是招募额外的同源物来大量增加输入数据集。这对于基于一致性的方法和小数据集似乎很有效。然而，似乎在没有进一步发展的情况下，以这种方式获得的额外精度是有限度的。额外的序列也可能带来噪声，并大大增加了计算问题的复杂性。这可以部分通过迭代来确定，但是，EPA对高质量的参考比对可能是一个更好的解决方案。这也增加了对可视化这种大型路线的方法的需求，以便检测问题。

第二个发展重点是使用外部信息，如RNA结构 (Wilm et al, 2008) 或蛋白质结构预测(Pirovano et al, 2008)。EPA是一种新的方法，它允许用户利用他们自己的或公开可用的对齐方式中的信息。它不会强制新序列完全遵循旧的对齐方式。新的序列通过渐进排列相互对齐，但外部文件中的信息有助于提供序列中每个位置最有可能出现哪些氨基酸的信息。大多数方法试图从蛋白质进化的一般模型中预测这一点，并以二级结构预测为基础。在本文中，我们已经证明，即使使用来自Pfam 的批量生产的校准作为外部配置，对于一个大型通用测试用例集的准确性也会有小幅度的提高。这为用户提供了一组新的可能性，可以利用大型的、公开可用的对齐中包含的信息，并鼓励数据库提供商提供高质量的对齐。Clustal X 取得巨大成功的原因之一是非常友好的图形用户界面 (GUI)。然而，由于基于web的服务的广泛可用性（gui由基于web的前端服务器提供），这并不像过去那样重要。此外，还有一些非常高质量的对齐查看器和编辑器，如Jalview (Clampetal,2004)和Seaview(Gouyetal,2010)，它们读取 Clustal Omega输出或可以直接调用 Clustal Omega。

5.材料和方法

Clustal Omega的材料和方法是根据GNU Lesser通用公共许可证授权的。源代码以及Linux、FreeBSD、Windows和Mac（Intel和PowerPC）的预编译二进制文件可在http://www.clustal.org上找到。Clustal Omega仅作为命令行程序提供，它使用GNU样式的命令行选项，还接受ClustalW样式的命令选项，以便向后兼容并轻松集成到现有管道中。Clustal Omega是用C和C++编写的，它使用了许多优秀的免费软件包。我们使用了
Sean Eddy的Squid库（http://selab.janelia.org/software.html）用于Sequence I/O，允许使用多种文件格式。我们使用David Arthur的K-Means++代码（Arthur和Vassilvitskii，2007）快速聚类序列向量。fast UPGMA和导向树处理程序的代码来自MUSCLE (Edgar, 2004).。我们使用OpenMP 库来实现成对距离和对齐匹配状态的多线程计算。Clustal Omega的API文档是源代码的一部分，此外还可以从http://www.clustal.org/omega/clustalo-api/获得。所有算法的详细信息见随附的补充信息。使用的基准是BAliBASE 3 (Thompson et al, 2005), PREFAB 4.0 (posted March 2005) (Edgar, 2010)和使用来自PFAM（版本25）和Homstrad（截至2011-06-13）的序列的新构建的数据集（Homfam）（Mizuguchi等人，1998年）。

比较的程序可以从以下网址获得：

ClustalW2, v2.1 (http://www.clustal.org) 
DIALIGN 2.2.1 (http://dialign.gobics.de/) 
FSA 1.15.5 (http://sourceforge.net/projects/fsa/) 
Kalign 2.04 (http://msa.sbc.su.se/cgi-bin/msa.cgi) 
MAFFT6.857(http://mafft.cbrc.jp/alignment/software/source.html) 
MSAProbs 0.9.4 (http://sourceforge.net/projects/msaprobs/ﬁles/) 
MUSCLE version 3.8.31 posted 1 May 2010 (http://www.drive5. com/muscle/downloads.htm) 
PRANKv.100802,2August2010(http://www.ebi.ac.uk/goldman-srv/ prank/src/prank/) 
Probalign v1.4 (http://cs.njit.edu/usman/probalign/) 
PROBCONSversion1.12(http://probcons.stanford.edu/download.html) 
T-Coffee Version 8.99 (http://www.tcoffee.org/Projects_home_ page/t_coffee_home_page.html#DOWNLOAD).

补充信息

补充信息可在分子系统生物学网站（www.nature.com/msb）上获得。

【微信小程序】富文本rich-text的图片预览效果的几种方法 Lana学习中微信小程序微信小程序小程序
前言使用原生小程序开发，实现在富文本rich-text中的图片预览效果的几种方法对比。update:因为方案3wxparser后续没有再维护，解析微信公众号文章时会出现排版错误的问题。作为插件也很难二次开发。换成mp-html了1.正则+wx.previewImage（有明显不足）一个不需要用额外组件或插件的方法：思路：使用正则把图片的url进行剖离出来，push进一个数组中，点击富文本组件，运行
小程序 rich-text 标签解析图片过大的问题解决無名356 小程序 css3 前端 css
产生问题的原因就是通过此标签的样式不能使用css样式。因为数据直接解析，那么我们可以修改或者处理这个数据来解决问题解决方法，通过修改数据中的文本内容中的img标签的内联样式来实现formatGoodsData(data){letcontent=data.goods_contentcontent=content.replace(/\pdf 不是扫描件，但却无法搜索关键词【问题尝试解决未果记录】 Lauren_Lu pdf
一、不是扫描件但不能搜索的原因1.情况一：文字被转成了“图形文字”有些PDF文件虽然看起来像是文字，其实是图片或者矢量图格式，不能直接搜索。2.情况二：PDF被加密有些PDF设置了“内容复制/提取”权限受限，即使你能阅读，但不能搜索、复制或选择文字。这通常是加密的一种表现。3.情况三：PDF嵌入了字体，但不是真正的文本有时PDF作者用的特殊软件或字体，会让文字显示正常，但实际上是不可识别的字符二、
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
微信小程序＜rich-text＞支持里面图片点击放大二豆是富婆微信小程序小程序
使用渲染类似下面的html代码：宠物友好xxx提供宠物友好服务，具体请见下图wxml：js放大图片方法：//富文本图片点击预览showImg(e){letcontentimg=e.target.dataset.nodes;letimgs=contentimg.match(/]+>/g);//把img所有节点的图片选择出来letarrImg=[];//遍历标签拼拿到你的图片的src里面的内容放在我们
C++正则表达式语法 Coding小公仔 c/c++c++正则表达式开发语言
在C++中，正则表达式是处理文本模式匹配和字符串操作的强大工具。C++11及以后的标准库提供了头文件，支持正则表达式的使用。下面是C++正则表达式的核心语法规则和用法：一、基本正则表达式语法1.普通字符直接匹配自身，例如：a匹配字符a。2.元字符（需转义）具有特殊含义的字符，需用反斜杠\转义（在C++字符串中需用双反斜杠\\）。.：匹配除换行符外的任意字符。^：匹配字符串的开头。$：匹配字符串的结
Markdown编辑器写文章方法 Joel Jin 笔记
Markdown编辑器欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导入导出导入欢迎使用Mar
Unity脚本--01-脚本书写规则-脚本生命周期-脚本调试-常用API 秦果开发语言
一、脚本书写规则脚本：.cs的文本文件类文件作用：附加到游戏物体中，定义游戏对象行为指令的代码与C#类的区别：脚本只有字段和方法，没有自动属性和构造函数publicintA{get{returna;}set{a=value;}}属性定义了在unity中不会显示publicLifecycle(){Debug.Log("构造函数")//b=Time.time;}不要在脚本中写构造函数，因为不能在子线程
一些unity知识点乌趣 unity c#游戏引擎
变量类型Animatora:定义animator组件类型变量LayerMaska：定义存储图层的变量Texta：定义文本变量，如UI的TextLineRenderer：定义保存LineRenderer组件的变量（画线用的）Material:定义保存材质的变量使用UI和场景管理的方法时记得usingUnityEngine.UI;usingUnityEngine.SceneManagement;pub
Prompt Engineering for Large Language Models 三月七꧁ ꧂ 论文合集llm+prompt prompt 语言模型人工智能自然语言处理 pdf javascript 前端
题目大型语言模型的快速工程简介随着OpenAI的ChatGPT和Google的Bard等软件的普及，大语言模型（LLM）已经渗透到生活和工作的许多方面。例如，ChatGPT可用于提供定制食谱，建议替换缺失的成分。它可用于起草研究提案、用多种编程语言编写工作代码、在语言之间翻译文本、协助政策制定等等（Gao2023）。用户通过“提示”或自然语言指令与大型语言模型进行交互。精心设计的提示可以带
Linux I/O 文件操作详解：从系统调用到实际工程应用平凡灵感码头 linux学习 linux 运维服务器
一、写在前面在Linux或任何类Unix操作系统中，文件是一切的核心——无论是硬盘上的文本文件，还是串口设备、GPIO寄存器、甚至网络接口，几乎都被抽象为“文件”。理解Linux下的I/O文件操作机制，不仅是嵌入式开发的基础，也是进行系统编程与底层控制的关键。二、I/O的本质：一切皆文件Linux将外设抽象成文件的方式，统一了对各种资源的操作模型。你可以用open打开串口设备/dev/ttyS0，
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
Python实战：自动在知乎回答点赞并采集内容的高阶爬虫教程 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 okhttp 学习
✨写在前面：为什么做知乎自动化操作？知乎作为中国领先的知识问答平台，拥有大量结构化内容。对于研究舆情分析、情绪识别、用户画像，甚至产品舆情反馈采集的用户来说，如何自动获取知乎内容并进行交互行为（如点赞、回答），是一个非常实用的能力。本文将手把手带你用Python完成以下目标：✅自动登录知乎✅自动搜索某个关键词下的热门问题✅自动点赞高质量回答✅自动采集回答内容（文本、点赞数、评论数等）✅自动保存为本
Shell 编程之正则表达式与文本处理器
目录一：正则表达式二：基础正则表达式1.基础正则表达式示例（1）查找特定字符（2）利用中括号“[]”来查找集合字符（3）查找行首“^”与行尾字符“$”（4）查找任意一个字符“.”与重复字符“*”（5）查找连续字符范围“{}”2.元字符总结3.扩展正则表达式二：文本处理器1.sed工具（1）输出符合条件的文本(p表示正常输出)（2）删除符合条件的文本(d)（3）替换符合条件的文本（4）迁移符合条件的
RAG 调优指南：Spring AI Alibaba 模块化 RAG 原理与使用 ApacheDubbo spring 人工智能架构 Spring AI RAG
>夏冬,SpringAIAlibabaContributorRAG简介什么是RAG（检索增强生成）RAG（RetrievalAugmentedGeneration，检索增强生成）是一种结合信息检索和文本生成的技术范式。核心设计理念RAG技术就像给AI装上了「实时百科大脑」，通过先查资料后回答的机制，让AI摆脱传统模型的"知识遗忘"困境。️四大核心步骤1.文档切割→建立智能档案库核心任务:将海量文档
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
Ruby 字符串（String） froginwe11 开发语言
Ruby字符串（String）引言在编程语言中，字符串是处理文本数据的基础。Ruby作为一种动态、面向对象的语言，提供了丰富的字符串处理功能。本文将详细介绍Ruby中的字符串（String）类型，包括其基本用法、操作方法以及高级特性。字符串的基本概念在Ruby中，字符串是由一系列字符组成的序列。这些字符可以是字母、数字、标点符号等。字符串是不可变的，这意味着一旦创建，其内容就不能被修改。创建字符串
Linux命令行基础：常用命令与技巧 m0_73843831 chrome 前端 Linux 命令行常用命文件操作权限管理
1.Linux命令行概述Linux命令行（也称为终端或Shell）是Linux操作系统中与用户交互的文本界面。通过命令行，用户可以执行各种任务，如文件管理、进程控制、系统配置等。相比图形用户界面（GUI），命令行具有更高的效率和灵活性，尤其适用于服务器管理和自动化任务。本文将涵盖以下内容：常用命令文件与目录操作权限管理进程管理命令行技巧2.常用命令2.1文件与目录操作ls功能：列出当前目录下的文件
HTML页面设计——动态照片环
#前端开发##html超文本标记语言结构学习他的标签##css美化页面其实一部分的网站首页应用了照片环的原理，使得页面看起来更加美观，这里为大家分享一个简单的照片环编写。一、准备好以下素材：二、新建一个HTML文件，这里就取名“01-照片环”好了。三、现在开始编写具体内容，照片环说白了就是几个照片构成的所以body只要写就可以了，编写的时候注意图片的格式是.jpg、.png还是.gif(动态图)。
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
Linux journal 日志大小限制与管理详解 XMYX-0 linux 运维服务器
文章目录Linuxjournal日志大小限制与管理详解journal日志的默认存储位置journal日志大小限制配置查看当前日志占用情况手动清理日志文件按大小清理日志按时间清理日志按文件数清理日志journald日志机制原理简析（适当加点原理）日志筛选与导出技巧（实用提升）按服务名筛选按时间范围查看日志导出日志为纯文本文件实时查看日志（类似`tail-f`）常见问题与踩坑提醒（经验+防踩坑）问题1
RPC与HTTP API对比漫谈网络 NetDevOps 智联空间 rpc http 网络协议
一、核心流程对比环节RPCHTTPAPI调用方式调用远程函数/方法（如userService.getUser(123)）调用远程端点（如GET/users/123）参数传递通过序列化直接传递编程语言对象通过URL参数、Header或Body传递结构化数据网络传输通常基于TCP/UDP+二进制协议（如gRPC的HTTP/2）基于HTTP/HTTPS文本协议数据封装由框架自动处理序列化/反序列化需手动
Linux 设备树详解：从概念到实战 Jay_515 Linux 学习嵌入式 linux 设备树
关键词：设备树（DeviceTree）、DTS、DTC、DTB、嵌入式Linux驱动开发为什么需要设备树？在旧版Linux内核中，硬件信息（如内存映射、外设地址、中断号等）直接硬编码在内核源码中。这导致：内核臃肿，需为不同硬件编译不同版本硬件变动需重新编译内核代码冗余严重（一个board-*.c文件对应一块开发板）设备树（DeviceTree）的引入彻底解决了这一问题！它通过描述硬件拓扑结构的文本
深入了解SIP架构与多媒体通信协议亜恵恵阿由 SIP架构 SDP协议 RTP协议 MGCP协议 RTSP协议
深入了解SIP架构与多媒体通信协议背景简介在现代网络通信中，会话发起协议（SIP）已成为关键的组件，特别是在VoIP和多媒体通信领域。SIP不仅支持音频和视频通信，还通过各种协议和架构实现复杂的通信场景。本文将对SIP相关的关键技术进行分析，探讨它们在实时通信中的作用和意义。会话描述协议（SDP）SDP是一种文本协议，用于在SIP会话初始化时发送必要的多媒体信息。它提供了关于会话名称、活动时间、交
XSL-FO 块：深入解析与最佳实践沐知全栈开发开发语言
XSL-FO块：深入解析与最佳实践概述XSL-FO（XSLFormattingObjects）是一种用于生成格式化文档的语言，它允许开发者将XML数据转换成PDF、HTML、PostScript等格式。在XSL-FO中，块（Block）是一个重要的概念，它定义了文档中的矩形区域，包括文本、图像、表格等。本文将深入解析XSL-FO块的相关知识，并分享一些最佳实践。XSL-FO块的定义与属性定义XSL
Python编程核心技能提升指南：从第2版到第3版月末刀戈
本文还有配套的精品资源，点击获取简介：《Python核心编程中文版》详细介绍了Python的基础和高级编程主题，适合不同层次的学习者。覆盖了正则表达式的使用、网络编程基础、互联网客户端协议应用、多线程编程技巧，以及GUI编程等核心模块。本书通过丰富的实例和详细的解析，帮助读者掌握文本处理、网络通信、并发任务处理和桌面应用开发的关键技能，为深入学习和专业实践提供全面支持。1.Python编程基础1.
字节放出了款多主体视频生成神器：MAGREF，能在复杂的场景中保持多个主体的连贯性和精确控制 | 生成的视频质量和效果看起来很高，人物、物体、背景都比较自然 lyzybbs 视频大模型音视频 opencv 目标检测机器学习人工智能计算机视觉语音识别
MAGREF：字节跳动多主体视频生成“黑科技”实战解读近年来，基于扩散模型的视频生成技术正掀起新一轮浪潮，然而在复杂场景下要同时保持多个主体的连贯性与高质量渲染，往往面临诸多挑战——人物与物体会发生遮挡错位、背景与动作衔接生硬、生成结果缺乏对文本提示的精准响应。字节跳动新近开源的MAGREF，通过“掩码引导”（mask-guided）机制为多主体视频合成带来了突破性提升：✅支持多达数主体的协同生成
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
打造高效富文本编辑体验：Vue3 + wangEditor5 自定义上传音频与视频皮熠艳
打造高效富文本编辑体验：Vue3+wangEditor5自定义上传音频与视频【下载地址】Vue3wangEditor5自定义上传音频与视频Vue3+wangEditor5自定义上传音频与视频本仓库提供了一个资源文件，详细介绍了如何在Vue3项目中使用wangEditor5富文本编辑器，并自定义扩展音频、视频、图片菜单功能项目地址:https://gitcode.com/open-source-to
Playwright 常用元素定位方式（基础版）阿福不是狗 Playwright python
Playwright常用元素定位方式（基础版）一、get_by_XXXXXget_by_role：根据元素角色进行定位,常用的参数有两个，第一个是角色名称role，第二个是元素的文本name。其他参数的解释大家可以参考源码注释。#获取页面名称为确定的按钮page.get_bt_role('button',name='确定')playwright有大量的角色可以供我们选择，下面是源码内的可定位的角色
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情