SpikeKing

PDB Database - ESM Atlas PDB 数据集的多维度分析与整理 (3)

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://blog.csdn.net/caroline_wendy/article/details/131095395

PDB 三大数据集的多维度分析与整理：

人工提交 - RCSB PDB：PDB Database - RCSB PDB 数据集的多维度分析与整理 (1)
算法预测 - AlphaFold DB：PDB Database - AlphaFold DB PDB 数据集的多维度分析与整理 (2)
算法预测 - ESM Metagenomic Atlas：PDB Database - ESM Atlas PDB 数据集的多维度分析与整理 (3)

ESM Metagenomic Atlas 数据集是一个包含了来自不同环境样本的微生物基因组序列的大型数据库。该数据集的目的是为了探索微生物的多样性和功能，以及它们与环境因素的相互作用，使用了高通量测序技术，对来自全球各地的土壤、水、空气等样本进行了深入的分析，该数据集为微生物生态学和环境科学提供了一个宝贵的资源。

1. ESM Metagenomic Atlas 介绍

官网：https://esmatlas.com/

数据网站：https://github.com/facebookresearch/esm/tree/main/scripts/atlas

数据规模1.08T

The ESM Metagenomic Atlas is a repository of over database of more than 600 million metagenomic protein structures predicted by ESMFold. We are releasing the 600+ million protein ESM Metagenomic Atlas, with predictions for nearly the entire MGnify90 database, a public resource cataloging metagenomic sequences.

ESM 宏基因组图谱是一个超过 6 亿个由 ESMFold 预测的宏基因组蛋白质结构的数据库。我们正在发布 600+ 百万蛋白质 ESM 宏基因组图谱，其中包含几乎整个 MGnify90 数据库的预测，这是一个宏基因组序列的公共资源目录。

2. High Confidence MGnify30 介绍

重要的是高置信度部分，即 High confidence MGnify30 structures，高置信度 MGnify30 结构：

The high confidence MGnify30 structures are built using this procedure:

MGnify90 is clustered down to 30% sequence similarity with mmseqs easy-linclust --kmer-per-seq 100 -cluster-mode 2 --cov-mode 1 -c 0.8.
- MGnify90 聚类到 30% 的序列相似性
Structures are filtered to >0.7 pTM and pLDDT.
Structures are sorted by pTM * pLDDT and the best from each cluster is chosen as the representative.

其中，FASTA文件：highquality_clust30.fasta，大约7.5G

>MGYP000000000040
MCGVYQSATFQATFFQYSYILHETLADIVVPDTIGGKIRKLRHSLNLAQMQFAKSIHRGFTTVTKWEQELTTTSEKALTNIIEIYKLQENYFDK
>MGYP000000000300
MSNTPDDKNFDIAGFLLAGNIMVKLVEKGVIDMRDANDIVARTRAAYTQRDSYKDESLGSDAEAYLDTLFNKLWASRPDAVGKK
>MGYP000000000306
MKESKIIAMELSIKALNEDFAYFRFGEHFSGFIHKTGNGCATIILDGGYLLGVYESADEALKGIAALGANILMAELKAGVSFSTYKSAYWPKNHNVH
>MGYP000000000315
MSLEMFQNQVRSTITELILKQSALFGAATGGAMMLGSEKTIGDYAEESSWKLIAGLVTARNAYSTAPVTAKEIEQILKRAPRFDWRMGPAKVNDGLLARINSSPEDAAAAISAQASQGIIEQQITQGLAALDACLSTNEKFSLAIAADSTAETGEITPKLSSFVKGRRAFGDAGQNIICWAINSDVYYSLVENDLFKNAEQLYKLGDISVFTDGLNGRFLVTDYVPSNTAYGMVNGAVIIDNGYQSKFVAQPQLGGESLTTMMQSEGEFKIAVKSYRIKSTLADTLANTVSITADQVKDPDNWEYVASDESRAQPGVKLTFTPKA
>MGYP000000000576
MSCSTVTVVRPRVWIGCLACYNEGRLVGEWVDAADAGDLTPDDLHGVPTTHEELWVFDLEGFPRGTGEMSPTASVPWGELFEEVGEAQWPALLAWVESGCYMADADGLPCVSDFEDAYQGEWDSFDDYAVQLAEDIGLTDGWPEDTQRYFNWDSWTRDLAFDYAVADASDGGVFVFRSC

默认聚类命令，参考 GitHub - MMseqs2: ultra fast and sensitive sequence search and clustering suite (超快速和灵敏的序列搜索和聚类套件)：

mmseqs easy-linclust --kmer-per-seq 100 --cluster-mode 2 --cov-mode 1 -c 0.8

easy-linclust：
- Linclust is a clustering in linear time. It is magnitudes faster but a bit less sensitive than clustering.
- Linclust 是一种线性时间聚类，比聚类快几个数量级，但是敏感度稍低一些。

--kmer-per-seq 100：
- Increasing the k-mers selected per sequence increases the sensitivity of linclust at a moderate loss of speed. Use the parameter --kmer-per-seq to set the number of k-mers selected per sequence. More k-mers per sequences results in a higher sensitivity.
- 增加每个序列选择的k-mer数量，可以提高linclust的灵敏度，但是稍微降低速度。使用参数 –kmer-per-seq 来设定每个序列选择的 k-mer 数量。每个序列的 k-mer 数量越多，灵敏度越高。
--cluster-mode 2：
- The second clustering algorithm is a greedy clustering algorithm (–cluster-mode 2), as used in CD-HIT. It sorts sequences by length and in each step forms a cluster containing the longest sequence and sequences that it matches. Then, these sequences are removed and the next cluster is chosen from the remaining sequences.
- 第二种聚类算法是一种贪婪聚类算法（--cluster-mode 2），与CD-HIT中使用的相同。按长度对序列进行排序，并且在每一步形成一个聚类，包含最长序列和匹配序列。然后，这些序列被移除，从剩余的序列中，选择下一个聚类。

--cov-mode 1：
- MMseqs2 has three modes to control the sequence length overlap “coverage”: --cov-mode (0) bidirectional, (1) target coverage, (2) query coverage and (3) target-in-query length coverage.
- MMseqs2有三种模式来控制序列长度重叠“覆盖率”：--cov-mode (0) 双向，(1) 目标覆盖率，(2) 查询覆盖率和 (3) 目标在查询长度覆盖率。

-c 0.8：
- With --cov-mode 1 -c [0.0,1.0] (target-cov mode) only sequences are clustered that have a sequence length overlap greater than X% of the target sequence. The target cov mode can be used to cluster protein fragments. To suppress fragments from becoming representative sequences, it is recommended to use --cluster-mode 2 in conjunction with --cov-mode 1. Default --cluster-mode is the greedy incremental clustering (by length).
- 使用 --cov-mode 1 -c [0.0,1.0] (目标覆盖率模式) 只有序列长度重叠大于目标序列的 X% 的序列才会被聚类。目标覆盖率模式，可用于聚类蛋白质片段。为了抑制片段成为代表性序列，建议使用 --cluster-mode 2 与 --cov-mode 1 结合使用。默认的 --cluster-mode 是贪婪增量聚类 (按长度)。

其他重要参数：

--min-seq-id 0.9：
- MMseqs2/Linclust and Linclust has three main criteria, inferred by a local alignment, to link two sequences by an edge:
- MMseqs2/Linclust 和 Linclust 有三个主要标准，通过局部比对推断，将两个序列通过一条边连接起来：
- (3) a minimum sequence identity (–min-seq-id [0,1]) with option --alignment-mode 3 defined as the number of identical aligned residues divided by the number of aligned columns including internal gap columns, or, by default, defined by a highly correlated measure, the equivalent similarity score of the local alignment (including gap penalties) divided by the maximum of the lengths of the two locally aligned sequence segments. The score per residue equivalent to a certain sequence identity is obtained by a linear regression using thousands of local alignments as training set.
- (3) 最小序列一致性 (--min-seq-id [0,1])，选项 --alignment-mode 3 定义成相同对齐残基数量除以对齐列数(包括内部间隔的列)，或者在默认情况下，由高度相关度量定义，局部比对的等效相似性得分(包括空位罚分) 除以两个局部比对序列片段长度的最大值。使用数千个局部比对作为训练集，通过线性回归，获得相当于某个序列同一性的每个残基的分数。
--db-load-mode 2：
- The touchdb module fetches the precomputed index database into memory and --db-load-mode 2 tells MMseqs2 to mmap the database instead of copying the whole precomputed index into memory. This saves, for a large database, minutes of copying from the storage system into RAM. However, this is less eﬀicient for large query sets.
- 模块 touchdb 将预先计算的索引数据库提取到内存中，--db-load-mode 2 告诉 MMseqs2 映射数据库，而不是将整个预先计算的索引复制到内存中。对于大型数据库，这可以节省从存储系统复制到 RAM 的时间。然而，这对于大型查询集来说效率较低。
mmseqs easy-linclust，三个参数，输入fasta，输出clusterRes，临时文件夹tmp

K-mer：

k-mer是指生物序列中长度为k的子串。通常，k-mer是指一个序列的所有长度为k的子序列，例如，序列AGAT有四个单体（A，G，A和T），三个2-mer（AG，GA，AT），两个3-mer（AGA和GAT）和一个4-mer（AGAT）。在计算基因组学和序列分析的背景下，k-mer主要由核苷酸（即A，T，G和C）组成，用于组装DNA序列12、改善异源基因表达123、在宏基因组样本中鉴定物种1 以及创建减毒疫苗1 。在蛋白质序列中，k-mer由氨基酸组成，可以用于表征蛋白质的特征和构建系统发育树。

MSI (minimum sequence identity)：

在蛋白质序列中，最小序列相似度是指两个序列之间的相同氨基酸的百分比。最小序列相似度是用于评估两个序列是否具有同源性或结构相似性的一个重要指标。一般来说，最小序列相似度越高，两个序列之间的结构和功能的保守性越高。在蛋白质序列聚类或同源建模的过程中，最小序列相似度可以作为一个筛选标准，以减少冗余和提高准确性。不同的聚类或建模方法可能有不同的最小序列相似度阈值，但是通常认为30%以上的序列相似度是可靠的。

MMSeqs2简介

MMseqs2: ultra fast and sensitive sequence search and clustering suite. MMseqs2 (Many-against-Many sequence searching) is a software suite to search and cluster huge protein and nucleotide sequence sets. MMseqs2 is open source GPL-licensed software implemented in C++ for Linux, MacOS, and (as beta version, via cygwin) Windows. The software is designed to run on multiple cores and servers and exhibits very good scalability. MMseqs2 can run 10000 times faster than BLAST. At 100 times its speed it achieves almost the same sensitivity. It can perform profile searches with the same sensitivity as PSI-BLAST at over 400 times its speed.

超快速和灵敏的序列搜索和聚类套件。MMseqs2（多对多序列搜索）是一个软件套件，用于搜索和聚类巨量蛋白质和核苷酸序列集。MMseqs2 是使用 C++ 实现的开源 GPL 许可软件，适用于 Linux、MacOS 和（作为测试版，通过 cygwin）Windows。该软件被设计为在多个内核和服务器上运行，并表现出非常好的可扩展性。MMseqs2 的运行速度比 BLAST 快 10000 倍。在其速度的 100 倍时，可以达到几乎相同的灵敏度。可以超过其 400 倍的速度执行与 PSI-BLAST 相同灵敏度的配置文件搜索。PSI，Position-Specific Iterative，位置特定的迭代。

整体的数据集，有36个压缩包，大约30G左右，命名方式如下：

highquality_clust30_00.tar.gz
highquality_clust30_01.tar.gz
highquality_clust30_02.tar.gz
highquality_clust30_03.tar.gz
...
highquality_clust30_36.tar.gz

解压tar.gz文件，需要提前mkdir，解压命令如下，单个文件解压时间 约1天 左右：

mkdir highquality_clust30
tar -xvf highquality_clust30_[00-36].tar.gz -C highquality_clust30/

解压之后，包括数字编号文件夹，000 - 999，文件夹编号表示最后3位的数字，例如992文件夹中的PDB文件：

MGYP003624135992.pdb
MGYP003624171992.pdb
MGYP003624208992.pdb
MGYP003624265992.pdb
MGYP003635273992.pdb

解压全部的数据集，约3600万：

nohup tar -zxf highquality_clust30_01.tar.gz -C ./highquality_clust30/ &
nohup tar -zxf highquality_clust30_02.tar.gz -C ./highquality_clust30/ &
...
nohup tar -zxf highquality_clust30_36.tar.gz -C ./highquality_clust30/ &

查看全部的解压流程，预计1天左右：

ps -aux | grep "tar -zxf"

3. Highquality Clust 30 抽样分析

以压缩包 highquality_clust30_36.tar.gz 为例，分析ESMFold预测宏基因组结构。highquality_clust30_36，包括1000个文件夹，997338个样本，则36个大约997338*36=36000000，约3600万。发布时间是2022-11-01，参考：

The first v0 version of the Atlas was released on November 1st 2022, corresponding to the sequences in the 2022_05 release of the MGnify protein database described here.

提取PDB的信息，例如：

,pdb,plddt,release_date,seq,len
0,MGYP000001592000,0.9167,2022-07-24,MKLSEFILLSESEKKWLVTHRASPLAQRTYPHLIVFLFQLEDYYVEAYCNIADKKIDEYRVLPNTNAIRHYLEAIPIDG,79
1,MGYP000002113000,0.8722,2022-07-24,MRFLIIDADADYRQLLRYHLEVEWPDAAIDELQPNGALALPERVRLGDTDLVLLGHPLAHERGFEWLSLLRSRTDCPPVILFAAESDEFLAVDALKAGAANFFPKARVRHNRLIDAVRAELHVGL,125
2,MGYP000002905000,0.8233,2022-07-24,FYRDEWPALRARHPDRFRLRLLFSRSRGERVTVEEVRREMEGFLDPATSLAFVCGPNRPREAAGPDGVRRREPGFCDLWCGSARRKQEGLLARVGFSPDRIRTEMW,106
3,MGYP000008090000,0.8254,2022-07-24,MMTDSVSGSVTGAYAAGQGDRAARFGIGQLVRHVLFDFRGVVFDIDPQFSDTEEWLLAIPEAVRPEKDQPFYHLLAENGDICYVAYASEGNLCPDDTGMPLRHPQAELIFERFENGRYLLKSRLAN,126

注意：在数据集中，有一些PDB是没有任何结构信息，只有文件头部，例如 MGYP003442707068.pdb：

HEADER                                            18-OCT-22                     
TITLE     ESMFOLD V0 PREDICTION FOR MGYP003442707068
REMARK   1                                                                      
REMARK   1 REFERENCE 1                                                          
REMARK   1  AUTH   ZEMING LIN, HALIL AKIN, ROSHAN RAO, BRIAN HIE, ZHONGKAI ZHU, 
REMARK   1  AUTH 2 WENTING LU, NIKITA SMETANIN, ALLAN DOS SANTOS COSTA, 
REMARK   1  AUTH 3 MARYAM FAZEL-ZARANDI, TOM SERCU, SALVATORE CANDIDO,
REMARK   1  AUTH 4 ALEXANDER RIVES                
REMARK   1  TITL   LANGUAGE MODELS OF PROTEIN SEQUENCES AT THE SCALE OF         
REMARK   1  TITL 2 EVOLUTION ENABLE ACCURATE STRUCTURE PREDICTION               
REMARK   1  REF                                                                 
REMARK   1  REFN                                                                
REMARK   1  PMID                                                                
REMARK   1  DOI    10.1101/2022.07.20.500902                                    
REMARK   1                                                                      
REMARK   1 LICENSE AND DISCLAIMERS                
REMARK   1 ESM METAGENOMIC STRUCTURE ATLAS DATA IS AVAILABLE UNDER
REMARK   1 A CC-BY-4.0 LICENSE FOR ACADEMIC AND COMMERCIAL USE.
REMARK   1 COPYRIGHT (C) META PLATFORMS, INC. ALL RIGHTS RESERVED.
REMARK   1 USE OF THE ESM METAGENOMIC STRUCTURE ATLAS DATA IS SUBJECT
REMARK   1 TO THE META OPEN SOURCE TERMS OF USE AND PRIVACY POLICY.

预处理 esm_metagenomic_atlas_pdb_36_997338_labels_997310.csv，由997338个PDB提取出997310个信息，空PDB是28，0.0028%。

具体信息，如下：

PDB样本总数: 997310
plddt range: 0.5519 ~ 0.9898
plddt分布: 60: 30, 70: 122794, 80: 465557, 90: 408929, sum: 997310
seq len range: 20 ~ 1279
len > 20: 997310, len < 20: 0
序列长度: 0: 302067, 100: 381539, 200: 193863, 300: 67256, 400: 29153, 500: 11832, 600: 5662, 700: 2989, 800: 1574, 900: 704, 1000: 671

pLDDT的分布：

序列长度的分布：

4. Highquality Clust 30 聚类合并

执行步骤：

遍历全部文件夹，统计样本数：36987928，即约3700万个PDB，目录文件4.1G，遍历一次约1.5h。
使用 highquality_clust30.fasta 聚类，输入36997632个PDB，比真实样本多9704个，输出22668950，预估9294269个高质量样本，即929万。
数据处理时间，提取pLDDT的值，以及序列，大约1周。

安装MMseqs2：

conda install -c conda-forge -c bioconda mmseqs2

再次进行聚类，设置--min-seq-id 0.3，聚类命令如下：

# 第1次聚类, 由 36997632 下降为 22668950
mmseqs easy-linclust highquality_clust30.fasta clusterRes tmp --min-seq-id 0.3 --kmer-per-seq 100 --cluster-mode 2 --cov-mode 1 -c 0.8  --db-load-mode 2

执行日志：

createdb highquality_clust30.fasta tmp/15932757348140161575/input --dbtype 0 --shuffle 1 --createdb-mode 1 --write-lookup 0 --id-offset 0 --compressed 0 -v 3 

Shuffle database cannot be combined with --createdb-mode 0
We recompute with --shuffle 0
Converting sequences
[36997614] 34s 585ms

Size of the sequence database: 36997632
Size of the alignment database: 36997632
Number of clusters: 31407973

Size of the sequence database: 31407973
Size of the alignment database: 31407973
Number of clusters: 22668950
...

输出3个文件：

clusterRes1_all_seqs.fasta
clusterRes1_cluster.tsv
clusterRes1_rep_seq.fasta   # 聚类输出文件

参考

How to Extract (Unzip) Tar Gz File
StackOverflow - How to check python anaconda version installed on Windows 10 PC?
编程随笔 - 服务器配置 Conda 和 Jupiter Lab 的环境
linux大文件压缩及解压需要注意问题
CSDN - No module named ‘torch_geometric‘解决办法
序列聚类（mmseqs2）
How could I “recreate” UniRef50/UniRef90 with MMSEQS2?
GitHub - easy-linclust # 420

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

PDB Database - ESM Atlas PDB 数据集的多维度分析与整理 (3)

1. ESM Metagenomic Atlas 介绍

2. High Confidence MGnify30 介绍

3. Highquality Clust 30 抽样分析

4. Highquality Clust 30 聚类合并

参考

你可能感兴趣的:(AI,for,Biotech,数据库,算法,知识图谱)