hanli0902

NGS分析流程

NGS实验步骤

核酸提取与检测、文库构建与文库检测、上机测序

生信分析步骤

1. 质量分析

fastqc、multiqc、SolexaQA

测序数据的质量好坏会影响我们的下游分析。但不同的测序平台其测序错误率的图谱都是有差别的。因此，非常建议在我们分析测序数据之前先搞清楚如下两个地方：

原始数据是通过哪种测序平台产生的，它们的错误率分布是怎么样的，是否有一定的偏向性和局限性，是否会显著受GC含量的影响等；

评估它们有可能影响哪些方面的分析；

2. 数据过滤

去除接头序列和低质量序列，常用工具：SOAPnuke、cutadapt、untrimmed、fastp、sickle、seqtk、Trimmomatic、Trim Galore（合并了FastQC和cutadapt）

3. 比对

使用BWA(exact match)软件把这些短序列和参考基因组进行对比, 确定短序列在基因组上的位置，生成*.sam文件。

4. 排序

用samtools等进行比对、排序、建索引，得到reads在参考序列中的位置及质量值，并进行数据格式的转换，得到*.bam文件。

5. Bam文件再处理

remove duplicates → indel realign → BQSR

remove duplicates

使用Picard软件把测序产生的冗余信息和噪声去掉，并对数据质量进行评价。

在制备文库的过程中，由于PCR扩增过程中会存在一些偏差，也就是说有的序列会被过量扩增。这样，在比对的时候，这些过量扩增出来的完全相同的序列就会比对到基因组的相同位置。而这些过量扩增的reads并不是基因组自身固有序列，不能作为变异检测的证据，因此，要尽量去除这些由PCR扩增所形成的duplicates，这一步可以使用picard-tools来完成。去重复的过程是给这些序列设置一个flag以标志它们，方便GATK的识别。还可以设置 REMOVE_DUPLICATES=true 来丢弃duplicated序列。对于是否选择标记或者删除，对结果应该没有什么影响，GATK官方流程里面给出的例子是仅做标记不删除。这里定义的重复序列是这样的：如果两条reads具有相同的长度而且比对到了基因组的同一位置，那么就认为这样的reads是由PCR扩增而来，就会被GATK标记。

indel realign

BWA采取exact match策略，在indel附近比对效果不好，需进行局部重新比对。一般来说，绝大部分需要进行重新比对的基因组区域，都是因为插入/缺失的存在，因为在indel附近的比对会出现大量的碱基错配，这些碱基的错配很容易被误认为SNP。还有，在比对过程中，比对算法对于每一条read的处理都是独立的，不可能同时把多条reads与参考基因组比对来排错。因此，即使有一些reads能够正确的比对到indel，但那些恰恰比对到indel开始或者结束位置的read也会有很高的比对错误率，这都是需要重新比对的。Local realignment就是将由indel导致错配的区域进行重新比对，将indel附近的比对错误率降到最低。可以使用GATK工具进行indel重新比对。

BQSR（Base Quality Score Recalibration）

BQSR是对bam文件里reads的碱基质量值进行重新校正，使最后输出的bam文件中reads中碱基的质量值能够更加接近真实的与参考基因组之间错配的概率。例如，在reads碱基质量值被校正之前，我们要保留质量值在Q25以上的碱基，但是实际上质量值在Q25的这些碱基的错误率在1%，也就是说质量值只有Q20，这样就会对后续的变异检测的可信度造成影响。还有，在边合成边测序的测序过程中，在reads末端碱基的错误率往往要比起始部位更高。另外，AC的质量值往往要低于TG。BQSR的就是要对这些质量值进行校正。使用GATK对重新比对的BAM文件做质量校准。

6. 获取突变

用GATK等得到.vcf文件，从中获取如外显子区域的数据，错义突变，热点突变，靶向药物相关的突变等感兴趣的突变信息。

7. 注释

使用Annovar对这些变异位点进行功能注释, 得到一个易于理解的变异位点列表。

相关格式	名称	类型	常见后缀
序列与质量分数	FASTA	文本	.fa/.fna/.fasta
序列与质量分数	FASTAQ	文本	.fq/.fastq
序列比对	SAM	文本	.sam
序列比对	BAM	二进制	.bam
序列组装	ACE	文本	.ace
	AFG	文本	.afg
	CAF	文本	.caf
突变	VCF	文本	.vcf
序列注释及可视化	BED	文本	.bed

Fasta

一种基于文本用于表示核苷酸序列或氨基酸序列的格式（.fa, .fasta, .fna）

每一条序列的第一行以“>”开头，而跟随“>”的是序列的ID号（即唯一的标识符）及对该序列的描述信息；

第二行开始是序列内容，序列短于61nt的，则一行排列完；序列长于61nt的，则每行存储61nt，最后剩下小于61nt的，在最后一行排列完；第二条序列另起一行，仍然由“>”和序列的ID号开始，以此类推。

Fastq

Fastq是基于文本的保存生物序列（通常是核酸序列）和其测序质量信息的标准格式(.fastq, .fq)。

第一行以“@”符号开头，后面紧跟一个序列的描述信息；

第二行是该序列的内容；

第三行以“+”符号开头，后面可以是该序列的描述信息，也可省略；

第四行是第二行中的序列内容每个碱基所对应的测序质量值。

这里我们假定碱基的测序错误率为p_error，质量值为Q，它们之间的关系如下：

Q = -10log(p_error)

SAM

SAM/BAM格式专用于存储基于参考序列的比对序列，SAM(Sequence Alignment Map)是“序列比对映射”的首字母缩写，是带有比对信息的序列文件（即告诉你这个reads在染色体上的位置等），用于储存序列数据。

下图表示read和参考基因组比对可能出现的情况，

Coor：坐标的简写，方便查看比对

ref:参考序列

r001/2表示paired end数据，

r003是嵌合read，

r004则是原序列打断后比对结果。

经过专门的比对软件，如BWA、BOWTIE2等，得到的SAM文件如下所示，需要研究的就是如下这几行。

第一部分：SAM Header(非强制)

@CO，任意的说明信息

@HD表示参考基因组的排序情况。

@PG记录运行的命令，以便你检查代码。对于GATK还需要提供@RG给出每个read所在group的信息，只要保证是独一即可。

@RG，比对上的序列（read）说明

@SQ是参考基因组的每一条序列的具体信息，命名和长度。

第二部分：联配必要信息

每一行包括十一项，通过Tab键分隔。

第一列：read name，read的名字通常包括测序平台等信息

eg.ILLUMINA-379DBF:1:1:3445:946#0/1

第二列：sum of flags，为flag的总和（整数）,

eg.16

flag取值如下：

1：代表这个序列采用的是PE双端测序

2：代表这个序列和参考序列完全匹配，没有错配和插入缺失

4：代表这个序列没有mapping到参考序列上

8：代表这个序列的另一端序列没有比对到参考序列上，比如这条序列是R1,它对应的R2端序列没有比对到参考序列上

16：代表这个序列比对到参考序列的负链上

32：代表这个序列对应的另一端序列比对到参考序列的负链上

64：代表这个序列是R1端序列， read1;

128: 代表这个序列是R2端序列，read2；

256：代表这个序列不是主要的比对，一条序列可能比对到参考序列的多个位置，只有一个是首要的比对位置，其他都是次要的

512：代表这个序列在QC时失败了，被过滤不掉了（# 这个标签不常用）

1024: 代表这个序列是PCR重复序列（#这个标签不常用）

2048: 代表这个序列是补充的比对（#这个标签具体什么意思，没搞清楚，但是不常用）

上面的这几个标签都是2的n次方，这样的数列有一个特点，就是随机挑选其中的几个，它们的和是唯一的，比如65 只能是1 和 64 组成，代表这个序列是双端测序，而且是read1假如说标记为以上列举出的数目，就可以直接推断出匹配的情况。假如说标记不是以上列举出的数字，比如说83=（64+16+2+1），就是这几种情况值和。

第三列：RNAME，比对到参考序列上的染色体号。若是无法比对，则是*

eg.chr1

第四列：position，read比对到参考序列上，第一个碱基所在的位置。若是无法比对，则是0

eg.36576599

第五列：Mapping quality，比对的质量分数，越高说明该read比对到参考基因组上的位置越唯一。

eg.42

第六列：CIGAR值，碱基匹配上的碱基数。

eg. 37M1D2M1I，这段字符的意思是37个匹配，1个参考序列上的删除，2个匹配

    #M match/mismatch

    #I insertion

    #D deletion

    #extended cigar

    #N gap

    #S substitution

    #H hard clipping

    #P padding

    #= sequence match

    #X sequence mismatch

注：第七列到第九列是mate(备注1)的信息，若是单末端测序这几列均无意义。

第七列：mate序列所在参考序列的名称，实际上就是比对到的染色体号，若是没有mate，则是*，同一个片段，用'='

eg.*

第八列：mate position，mate比对到参考序列上的第一个碱基位置，若无mate,则为0

eg.0

第九列：估计出的片段的长度，当mate序列位于本序列上游时该值为负值。Template的长度，最左边得为正，最右边的为负，中间的不用定义正负，不分区段（single-segment)的比对上，或者不可用时，此处为0；

eg.0

第十列：Sequence，就是read的碱基序列，如果不存储此类信息，此处为'*'，注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度;如果是比对到互补链上则对read进行了reverse completed

eg.CGTTTCTGTGGGTGATGGGCCTGAGGGGCGTTCTCN

第十一列：ASCII，read质量的ASCII编码。

eg.PY[[YY_______________QQQQbILKIGEFGKB

第三部分：可选信息

除了之前的11列必须要有的信息外，后面的其他列都是不同的比对软件自定义的额外信息，称之为标签（TAG)。

AS:i 匹配的得分

XS:i 第二好的匹配的得分

YS:i mate 序列匹配的得分

XN:i 在参考序列上模糊碱基的个数

XM:i 错配的个数

XO:i gap open的个数

XG:i gap 延伸的个数

NM:i 经过编辑的序列

YF:i 说明为什么这个序列被过滤的字符串

YT:Z

MD:Z 代表序列和参考序列错配的字符串

BAM

BAM是（SAM的）二进制格式,因为它是压缩的、所以数据量更小；因为它是有索引的，所以可以更快地访问它。

VCF(Variant Call Format)

#CHROM

POS

REF

ALT

QUAL

FILTER

INFO

FORMAT

Sample1

VCF文件分为两部分内容：以“#”开头的注释部分；没有“#”开头的主体部分。

CHROM和POS：代表参考序列名和variant的位置；如果是INDEL的话，位置是INDEL的第一个碱基位置。

ID：variant的ID。比如在dbSNP中有该SNP的id，则会在此行给出；若没有，则用’.'表示其为一个novel variant。

REF 和 ALT：参考序列的碱基和 Variant的碱基。

QUAL：Phred格式(Phred_scaled)的质量值，表示在该位点存在variant的可能性；该值越高，则variant的可能性越大；计算方法：Phred值 = -10 * log (1-p) p为variant存在的概率; 通过计算公式可以看出值为10的表示错误概率为0.1，该位点为variant的概率为90%。

FILTER：使用上一个QUAL值来进行过滤的话，是不够的。GATK能使用其它的方法来进行过滤，过滤结果中通过则该值为”PASS”;若variant不可靠，则该项不为”PASS”或”.”。

INFO：这一行是variant的详细信息。

FORMAT 和 NA12878：这两行合起来提供了’NA12878′这个sample的基因型的信息。’NA12878′代表这该名称的样品，是由BAM文件中的@RG下的 SM 标签决定的。

GT：样品的基因型（genotype）。两个数字中间用’/'分开，这两个数字表示双倍体的sample的基因型。0 表示样品中有ref的allele； 1 表示样品中variant的allele； 2表示有第二个variant的allele。因此： 0/0 表示sample中该位点为纯合的，和ref一致； 0/1 表示sample中该位点为杂合的，有ref和variant两个基因型； 1/1 表示sample中该位点为纯合的，和variant一致。

AD 和 DP：AD(Allele Depth)为sample中每一种allele的reads覆盖度,在diploid中则是用逗号分割的两个值，前者对应ref基因型，后者对应variant基因型； DP（Depth）为sample中该位点的覆盖度。

GQ：基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值，表示在该位点该基因型存在的可能性；该值越高，则Genotype的可能性越大；计算方法：Phred值 = -10 * log (1-p) p为基因型存在的概率。

PL：指定的三种基因型的质量值(provieds the likelihoods of the given genotypes)。这三种指定的基因型为(0/0,0/1,1/1)，这三种基因型的概率总和为1。和之前不一致，该值越大，表明为该种基因型的可能性越小。 Phred值 = -10 * log (p) p为基因型存在的概率。

基于 Elasticsearch 和 Milvus 的 RAG 运维知识库的架构设计和部署落地实现指南 ViniJack AI milvus 运维 rag 落地方案知识库
最近在整理一些业务场景的架构设计和部署落地实现指南先放一个【基于RAG的运维知识库(ElasticSearch+Milvus)的详细实现指南】，其中包含了详尽的技术实现细节、可运行的示例代码、原理分析、优缺点分析和应用场景分析。架构描述：基于RAG的运维知识库(ElasticSearch+Milvus)部署指南1.极其详细的部署步骤(包含详尽的技术实现细节和分步骤、可运行的示例代码-也只能给示例代
【量化金融自学笔记】--开篇.基本术语及学习路径建议花花 Show Python 量化金融自学笔记金融笔记学习
在当今这个信息爆炸的时代，金融领域正经历着一场前所未有的变革。传统的金融分析方法逐渐被更加科学、精准的量化技术所取代。量化金融，这个曾经高不可攀的领域，如今正逐渐走进大众的视野。它将数学、统计学、计算机科学与金融学深度融合，为我们提供了一种全新的视角去理解和探索金融市场的奥秘。作为一名对量化金融充满热情的自学者，我深知在这个领域中，每一步都充满了挑战与机遇。从最初对复杂数学公式的困惑，到逐渐掌握编
如何构建量化投资的多因子模型云策量化量化投资自动化交易程序化炒股量化炒股 miniQMT 量化交易 QMT 量化投资 deepseek
程序化炒股：如何申请官方交易接口权限？散户可以申请吗？程序化炒股(一)：申请官方接口权限程序化炒股(二)：股票实时、历史数据获取程序化炒股(三)：程序化下单及撤单程序化炒股(四)：查询交易订单及账户资产如何构建量化投资的多因子模型引言在量化投资的世界里，多因子模型是一种强大的工具，它可以帮助投资者从多个维度分析和预测股票或其他金融资产的表现。这篇文章将带你走进多因子模型的世界，让你了解如何构建一个
操作es聚合操作并显示其他字段_Elasticsearch 之聚合分析入门 weixin_39944595 操作es聚合操作并显示其他字段
本文主要介绍Elasticsearch的聚合功能，介绍什么是Bucket和Metric聚合，以及如何实现嵌套的聚合。首先来看下聚合(Aggregation)：什么是Aggregation？首先举一个生活中的例子，这个是京东的搜索界面，在搜索框中输入“华为”进行搜索，就会得到如上界面，搜索框就是我们常用的搜索功能，而下面这些，比如分类、热点、操作系统、CPU类型等是根据ES的聚合分析获得的相关结果。
python运行程序为什么会卡住_为什么我的 Python 程序卡住啦！ weixin_39808953
本文简答介绍在linux环境下如何利用gdb来分析卡住的程序，本文使用的Python为Cpython2.7，操作系统为Debian。阻塞在IO程序被卡住，很可能是程序被阻塞了，即在等待(wait)等个系统调用的结束，比如磁盘IO与网络IO、多线程，默认的情况下很多系统调用都是阻塞的。多线程的问题复杂一下，后面专门介绍。下面举一个UDPSocket的例子(run_forever_block.py)：
六自由度机器人正逆运动学 chase。机器人算法几何学
简介本文主要是对传统六自由度机器人进行正逆运动学求解，选取大族机器人Elfin05为分析的对象，开发语言是C++。（完善中）机器人正运动学机器人正运动学推导过程各关节坐标系确定的通用方法：坐标系的Z轴，与各关节的旋转中心轴线重合坐标系的X轴，与沿着相邻两个Z轴的公垂线重合坐标系的Y轴，可以通过右手定则来确定当相邻两个Z轴相交时，确定坐标系的方法如下：坐标系的Y轴，沿着第一个Z轴与下一个X轴相交的延
【硬件设计】DDR与HBM的功能、区别及未来发展分析 RunningCamel 硬件开发硬件设计 DDR HBM
目录一、功能与技术特性二、核心区别点对比三、未来发展趋势四、总结与展望一、功能与技术特性DDR的功能与演进DDR（DoubleDataRate）是一种动态随机存取存储器（DRAM），采用双倍数据传输率技术，每个时钟周期内可传输两次数据，显著提升传输效率。自1998年DDR1问世以来，其技术迭代至DDR5，带宽从2.1GB/s（DDR1）提升至6.4Gbps（DDR5），同时电压从2.5V降至1.1
Golang学习笔记_40——模版方法模式 LuckyLay Golang学习笔记 golang 学习笔记设计模式模板方法模式
Golang学习笔记_37——外观模式Golang学习笔记_38——享元模式Golang学习笔记_39——策略模式文章目录一、核心概念1.定义2.解决的问题3.核心角色4.类图二、特点分析三、适用场景1.文件解析系统2.设备初始化流程3.OTP验证系统四、Go语言实现示例输出结果五、高级应用1.钩子方法扩展2.组合模板方法六、与其他模式对比七、总结设计要点Go语言实现建议一、核心概念1.定义模板方
python数据分析之爬虫基础：爬虫介绍以及urllib详解 web13765607643 python 数据分析爬虫
前言在数据分析中，爬虫有着很大作用，可以自动爬取网页中提取的大量的数据，比如从电商网站手机商品信息，为市场分析提供数据基础。也可以补充数据集、检测动态变化等一系列作用。可以说在数据分析中有着相当大的作用！页面结构介绍这里主要介绍HTML的一些简单结构，需要一点前端的知识，可以根据情况直接跳过。Title姓名年龄性别张三18男铁锅炖大鹅小鸡炖蘑菇锅包肉奖励自己睡觉起床读书学习爬虫相关概念1、爬虫的概
基于Python豆瓣电影评论的数据处理与分析 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于Python豆瓣电影评论的数据处理与分析作者：禅与计算机程序设计艺术1.背景介绍1.1豆瓣电影评论数据的价值1.1.1反映观众观影偏好1.1.2影响电影市场走向1.1.3为推荐系统提供数据支持1.2Python在数据处理与分析中的优势1.2.1丰富的数据处理库1.2.2强大的数据分析和可视化能力1.2.3简洁高效的语法1.3本文的研究目的和意义1.3.1探索豆瓣电影评论数据的特点1.3.2实践
【Golang】Go语言Web开发之模板渲染景天科技苑 Go语言开发零基础到高阶实战 golang 前端开发语言 Go语言模板渲染模板渲染 golang模板渲染
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，Golang开发，PyQt5和Tkinter桌面开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flas
程序员未来的出路：行业趋势与职业发展分析 guzhoumingyue AI python
随着技术的发展和行业需求的变化，程序员的职业出路也在不断演变。以下是程序员未来可能的职业发展方向及具体建议：一、技术深耕路线AI与机器学习专家趋势：AI技术在各行业的应用日益广泛，从自动驾驶到智能客服，需求持续增长。技能要求：Python、TensorFlow、PyTorch、数据挖掘、算法优化。发展路径：从机器学习工程师做起，积累项目经验。深入研究深度学习、强化学习等前沿技术。成为AI架构师或数
在麻将 AI 的迷宫中，我用 Python 函数组合探寻最优解：精髓与穷举 fxrz12 AI 人工智能 python 开发语言
我，一个对人工智能充满热情的程序员，带着对麻将策略的浓厚兴趣，踏上了开发AI麻将服务器的征程。这不仅仅是一次技术挑战，更是一次对思维方式和问题解决能力的深度探索。麻将，这个看似简单的游戏，实则蕴含着无穷的策略和变化。AI需要在瞬息万变的牌局中，做出最优的决策，这需要它：洞察牌局：精准分析手牌，评估牌型的潜在价值。预判风险：计算打出某张牌可能带来的风险。布局未来：预测后续牌局的走向，制定长远策略。为
黑客工具介绍嗨起飞了网络安全网络安全网络攻击模型
渗透测试红队工具箱深度解析：6大核心工具实战指南法律声明：本文所有工具及技术仅限用于合法授权的安全测试，使用者需遵守《网络安全法》及相关法律法规，擅自攻击他人系统将承担刑事责任。一、Nmap：网络侦察的全能之眼1.1工具原理剖析Nmap（NetworkMapper）采用TCP/IP协议栈指纹识别技术，通过发送定制化数据包分析响应差异，精准识别主机存活状态、开放端口及服务版本。其脚本引擎（NSE）支
解锁Java在客户旅程映射中的无限潜力：从数据收集到优化的全方位指南墨夶 Java学习资料2 java python 开发语言
在当今竞争激烈的市场环境中，了解并优化客户的旅程成为企业成功的关键。通过客户旅程映射（CustomerJourneyMapping,CJM），企业能够识别出客户在与品牌互动过程中遇到的痛点，并据此改进服务。而Java作为一门强大的编程语言，其灵活性和广泛的应用场景使其成为实现这些目标的理想选择。本文将深入探讨如何使用Java进行客户旅程的分析与优化，并提供详尽的代码示例和最佳实践。第一部分：理解客
终端应用开发沉思录焦糖酒科技分享 javascript 前端框架
前言以下所有分析皆是从我的视角出发，探讨下我现行局势下觉得最有可能的实现且有未来发展前景的技术方案。由于本人没有啥开发经验，所以多是纸上谈兵，仅仅记录和分享下我个人想法。移动App的开发模式：在技术选型上，其实好久没这么犹豫过了，最近几天学到ReactNative，但迟迟没有全身心投入，就是在疑虑其和市面上的其他技术相比是否值得学习。目前移动应用开发有以下三条主要道路（原生H5混合）外加一个国内特
使用 Flink CDC 实现 MySQL 数据,表结构实时入 Apache Doris 一天两晒网 doris mysql flink doris flink cdc
背景现有数据库：mysql数据：库表较多，每个企业用户一个分库，每个企业下的表均不同，无法做到聚合,且表可以被用户随意改动，增删改列等，增加表分析：用户自定义分析，通过拖拽定义图卡，要求实时，点击确认即出现相应结果，其中有无法预判的过滤问题：随业务增长，企业用户越来越多，mysql压力越来越大，已经出现一些图卡加载过慢[mysqlsql]同步流程脚本读取mysql中需要同步的企业，在获取需要同步的
【力扣技巧之动态规划】力扣322：零钱兑换【C++】 The Gao LeetCode交流 c++数据结构算法动态规划 leetcode
原题给定不同面额的硬币coins和一个总金额amount。编写一个函数来计算可以凑成总金额所需的最少的硬币个数。如果没有任何一种硬币组合能组成总金额，返回-1。你可以认为每种硬币的数量是无限的。分析这道题是一道典型的动态规划的题目。对于动态规划的题目，我们一直说有五个过程，首先要找到状态，其次确定basecase，再者定义一个适宜采用动态规划的dp数组，然后要找到状态转移方程，最后求得题解。对于这
Terser 与 Esbuild 比较 TE-茶叶蛋前端项目性能优化 javascript
参考链接1.esbuild2.terser前言Terser为什么比esbuild压缩体积更小？原理分析terser之所以比esbuild产生的打包体积更小，主要是因为它提供了更高级的优化手段，包括作用域折叠（ScopeHoisting）、变量提升、代码混淆、AST级别优化、更多高级压缩策略，而esbuild的压缩主要是简单的语法转换和删除无用空格/换行符，缺少深入的AST级别优化。下面我们从代码优
代理 IP 行业现状与未来趋势分析跨境Kevin tcp/ip 网络 web安全
随着互联网的飞速发展，代理IP行业在近年来逐渐兴起并成为网络技术领域中一个备受关注的细分行业。它在数据采集、网络营销、隐私保护等多个方面发挥着重要作用，其行业现状与未来发展趋势值得深入探讨。目前，代理IP行业呈现出以下几个显著特点。一是市场需求持续增长。在大数据时代，企业对于数据的渴望日益强烈，数据采集工作需要大量的代理IP来突破网站限制，获取全面准确的信息。同时，网络营销从业者为了精准投放广告、
使用Selenium和bs4进行Web数据爬取和自动化(爬取掘金首页文章列表) 程序员霄霄软件测试 selenium 前端自动化软件测试功能测试自动化测试程序人生
前言：Web数据爬取和自动化已成为许多互联网应用程序的重要组成部分。本文将介绍如何使用Python中的两个强大库，即Selenium和BeautifulSoup，来实现自动化操作、网页数据提取以及网页内容分析。并以爬取掘金首页文章列表标题和url为例子进行讲解.安装和使用Selenium本文是在python环境下使用selenium，使用浏览器是火狐，系统是win10系统。python环境的配置这
搜索赋能：大型语言模型的知识增强与智能提升听吉米讲故事语言模型人工智能自然语言处理搜索引擎
引言近年来，大型语言模型（LLM）取得了显著的进展，并在各个领域展现出强大的能力。然而，LLM也存在一些局限性，尤其是在知识库方面。由于训练数据的局限性，LLM无法获取最新的知识，也无法涵盖所有领域的专业知识。为了克服这些局限性，LLM需要依赖外部搜索来增强性能和保证输出结果的可靠性。本文将深入探讨搜索技术如何增强LLM的能力，并分析不同搜索引擎对LLM输出结果的影响。大型语言模型知识库的局限性L
冒泡排序法小成喝橙汁补维C C 算法 c语言数据结构排序算法
题目：用起泡法（冒泡排序）对n个整数排序并输出从小到大排序后的结果。分析：冒泡排序（bubblesort）通过连续地比较与交换相邻元素实现排序。这个过程就像气泡从底部升到顶部一样，因此得名冒泡排序。在代码实现中，需要两个循环嵌套，外层循环用来进行控制比较的范围。内层循环则用来进行相邻元素的比较与交换。同时为了提高效率，可增设一个标志位来判断是否还需要继续往下进行排序。故经过优化后，冒泡排序的最差时
数学建模（6）——预测类模型目录 Ice-cream-AI 数学建模
预测模型是一类通过分析和建模历史数据来预测未来结果的算法或模型。这些模型广泛应用于各种领域，包括金融、医疗、市场营销、气象、制造业等。以下是一些常见的预测模型：1.回归模型线性回归（LinearRegression）：用于预测连续变量，通过拟合一个线性方程来最小化预测值和实际值之间的误差。多元线性回归（MultipleLinearRegression）：扩展线性回归模型，使用多个特征进行预测。岭回
芯麦GC1277与0CH477驱动芯片对比分析：电脑散热风扇应用的性能优势与替代方案青牛科技实业01 GLOBALCHIP 电脑单片机嵌入式硬件散热风扇科技智能插头
在电脑硬件领域，散热风扇的性能对于电脑的稳定运行至关重要。而驱动芯片则是决定散热风扇能否高效、稳定工作的关键因素之一。芯麦GC1277作为一款高性能的驱动芯片，逐渐成为电脑散热风扇等领域的热门选择，并可替代传统的0CH477/灿瑞芯片。芯麦GC1277与0CH477/灿瑞的详细对比性能参数：工作电压范围：GC1277的工作电压范围为2V-6V，而0CH477/灿瑞的工作电压范围为2.5V-5.5V
Python实用技巧：轻松上手自动化数据爬取与存储傻啦嘿哟 python 自动化开发语言
目录一、准备阶段：确定目标与安装工具1.确定目标网站2.安装Python及必要库二、编写爬虫程序：发送请求与解析网页1.发送HTTP请求2.解析网页内容三、处理反爬虫机制：应对挑战与策略1.设置请求头2.使用代理IP四、数据存储与处理：保存与分析数据1.存储为文本文件2.存储为数据库3.存储为Excel文件五、实战案例：爬取电商平台商品价格1.分析目标网站2.编写爬虫程序3.运行爬虫程序六、优化与
An Iterative Technique for the Rectification of Observed Distributions 论文阅读青铜锁00 论文阅读论文阅读
AnIterativeTechniquefortheRectificationofObservedDistributions-L.B.Lucy1.研究目标与实际意义1.1研究目标1.2实际意义2.新方法与公式分析2.1核心思路：基于贝叶斯定理的迭代框架2.1.1贝叶斯逆概率公式2.1.2迭代更新规则2.1.3多维推广2.2方法优势2.3对比传统方法3.实验验证3.1数值实验设计3.2关键结果4.雷
在 Spring Boot 中使用异步线程时的 HttpServletRequest 复用问题老友@ 后端 spring boot java 后端 request Tomcat 异步线程多线程
在SpringBoot中使用异步线程时的HttpServletRequest复用问题一、问题描述：异步线程操作导致请求复用时`Cookie`解析失败1.场景背景2.问题根源二、问题详细分析1.场景重现2.问题分析三、解决方案四、总结一、问题描述：异步线程操作导致请求复用时Cookie解析失败1.场景背景在一个Web应用中，通常每个请求都会有一个HttpServletRequest对象来保存该请求的
解决yarn安装依赖报错：certificate has expired at TLSSocket.onConnectSecure 吻等离子技术知识记录专栏网站架设专栏服务器 mysql
在使用npm或yarn等包管理器安装依赖时，可能会遇到一些常见错误。其中之一是SSL证书验证问题SSL证书过期错误信息：Error:certificatehasexpiredatTLSSocket.onConnectSecure问题分析：此错误表明在使用npm或yarn下载依赖包时，SSL证书已过期。SSL证书用于确保客户端与服务器之间的通信是加密的和安全的。如果证书过期，客户端将无法验证服务器的
ARCGIS进行容积率计算 sky J arcgis arcgis
空间分析——题目2容积率（PlotRatio/FloorAreaRatio/VolumeFraction）又称建筑面积毛密度，是指一个小区的地上总建筑面积与用地面积的比率。对于开发商来说，容积率决定地价成本在房屋中占的比例，而对于住户来说，容积率直接涉及到居住的舒适度，按照下列要求，计算建筑物容积率。一、数据说明（见“题目2”文件夹）GPS测量点.txt：使用GPS测量的建筑物点数据。地块.shp
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置