Better Bench

【2023年中国高校大数据挑战赛】赛题 B DNA 存储中的序列聚类与比对 Python实现

更新时间：2023-12-29

1 题目

赛题 B DNA 存储中的序列聚类与比对

近年来，随着新互联网设备的大量涌入和对其服务需求的指数级增长，越来越多的数据信息被产生与收集。预计到 2021 年，数据中心内部的IP流量将达到14.7 ZB，数据中心之间的流量将达到 2.8 ZB。如何储存与运输如此庞大的数据已经成为了难题。DNA存储技术是一项着眼于未来的具有划时代意义存储技术，正成为应对数据爆炸的关键技术之一。DNA存储技术指的是使用人工合成的脱氧核糖核苷酸（DNA）作为介质进行信息存储的技术，其具有理论存储量大、维护方便的优点。具体来说，DNA存储将计算机的二进制信息转换为四种碱基（腺嘌呤A、胸腺嘧啶T、鸟嘌呤G和胞嘧啶C）组成的DNA序列（相当于转换为四进制），之后合成为DNA分子干粉。需要读取信息时，将DNA分子进行PCR扩增（这步将会使得原有DNA序列进行扩增复制），之后使用测序仪测出DNA信息。然而在合成、测序等阶段会存在一定的错误，有概率随机发生碱基删除、增添或者替换。下图是某个序列合成测序后的示意图，可以看出由于发生了碱基删除、增添和替换，进而将ATGCATGC变成了AGCAATTC：

因此，对于我们设计好的DNA序列，实际生产测序出来后的序列会存在以下差异：

测序后的序列将比原始序列的数量多很多，因为原始序列会被随机扩增成很多条。
测序后的序列相比于原始序列有可能存在错误，包括某个碱基缺失、替换、或添加了某个未知碱基，甚至会出现断链。

针对以上两个特点，目前往往需要对测序后的序列进行聚类与比对。其中聚类指的是将测序序列聚类以判断原始序列有多少条，聚类后相同类的序列定义为一个簇。比对则是指在聚类基础上对一个簇内的序列进行比对进而输出一条最有可能的正确序列。通过聚类与比对将会极大地恢复原始序列的信息，但需要注意由于DNA测序后序列众多，如何高效地进行聚类与比对则是在满足准确率基础上的另一大难点。

“train_reference.txt”是某次合成的目标序列，其中第一行为序号，第二行为序列内容。通过真实合成、测序后读取到的测序序列文件为“train_reads.txt”，我们已经对测序序列进行了分类，该文件第一行为目标序列的序号，第二行为序列内容。

基于赛题提供的数据，自主查阅资料，选择合适的方法完成如下任务：

**任务 1：**观察数据集“train_reads.txt”、“train_reference.txt”，针对这次合成任务，进行错误率（插入、删除、替换、断链）、拷贝数方面的分析。其中错误率定义为某个碱基发生错误的概率，需要对不同类型的错误率分别进行分析。拷贝数定义为原始序列复制的数量。

**任务 2：**设计开发一种模型用于对测序后的序列“train_reads.txt”进行聚类，并根据“train_reads.txt”的标签验证模型准确性。模型主要从两方面评估效果：

（1）聚类后准确性（包括簇的数量以及簇内纯度）、（2）聚类速度（以分钟为单位）。

任务 3： “test_reads.txt”是我们在另一种合成环境下合成的测序文件（与 “train_reads.txt”的目标序列不相同），请用任务 2 所开发的模型对其进行聚类，给出聚类耗时以及“test_reads.txt”的目标序列数量，给出拷贝数分布图。

任务 4： 聚类后能否通过比对恢复原始信息也是极为关键的，设计开发一种用于同簇序列的比对模型，该模型可以针对同簇的DNA序列进行比对并输出最有可能正确的目标序列。请使用该工具对任务 3 中“test_reads.txt”的聚类后序列进行比对，并输出“test_reads.txt”最有可能的目标序列，并分析“test_reads.txt”的错误率。（请用一个“test_ref.txt”的文件记录“test_reads.txt”的目标序列，文件内序列的形式为：

AAAA……
AAAT……
AATA……
……
CCCC……

即序列只用回车间隔，不需要加其他符号，序列顺序按照从前到后，ATGC依次的顺序。此外，需要在论文中展示前十条目标序列的聚类结果。）

附件 1：train_reference.txt train数据集的正确序列
附件 2：train_reads.txt train数据集的合成测序后序列
附件 3：test_reads.txt test数据集的合成测序后序列

参考文献：

Dong Y, Sun F, Ping Z, et al. DNA storage: research landscape and future prospects[J]. National Science Review, 2020, 7(6): 1092-1107.
Fu L, Niu B, Zhu Z, et al. CD-HIT: accelerated for clustering the next-generation sequencing data[J]. Bioinformatics, 2012, 28(23): 3150-3152.

2 问题分析

2.1 问题一

定义一个函数来比较两个字符串序列，可以自己写for循环去比较，也可以使用字符串比较工具SequenceMatcher。

2.2 问题二

DNA序列的聚类可以采用基于字符串相似度的聚类方法，比如Levenshtein、SMITH-WATERMAN、N-gram方法、或基于序列编码（如k-mer计数）的机器学习聚类方法。

2.3 问题三

在问题二的基础上，对train_reads.xt和test_reads文件和k-mer词频矩阵进行聚类分析，以判断原始序列有多少条。统计每个簇中的序列数量，得到拷贝数分布图。

2.4 问题四

（1）同簇的DNA序列比对方法：对每个簇中的序列进行多数投票，多数序列中出现的碱基将被选为最终序列的对应位置的碱基.

（2）对于每个聚类簇，进行列方向的比对，也就是对于序列的每个位置，从属于该簇的所有序列中选取每个位置上最常出现的碱基作为该位置的最终碱基。

（3）对多数投票的结果，进一步进行相似性评分，比较每个簇的共识序列（从投票中获得的序列）与引用序列库（理想的序列）中的序列。

（4）对于找到的共识序列，将其结果按照聚类簇的索引排序并输出，以方便与目标序列文件(“test_ref.txt”)进行比对，来确定错误位置和错误率。

（5）改进角度：使用更加复杂的比对算法，例如全局比对、局部比对算法、Smith-Waterman、Needleman-Wunsch算法，这些算法考虑了插入、删除和替换，并能够为每种类型的差错提供权重。

3 Python实现

3.1 问题一

import pandas as pd
from difflib import SequenceMatcher
from collections import Counter
from pyecharts.charts import Bar, Pie
from pyecharts import options as opts

# 读取目标序列文件和测序序列文件
reference_seq_s = pd.read_csv('data/train_reference.txt',sep=' ',names=['ID','DNA_ref'])
reads = pd.read_csv('data/train_reads.txt',sep=' ',names=['ID','DNA'])
merged_df = pd.merge(reference_seq_s, reads, on='ID', how='inner')

# 初始化统计变量
insertion_errors = 0
deletion_errors = 0
replacement_errors = 0
chain_breaks = 0
copy_numbers = Counter()

# 定义一个函数来比较两个序列，并统计不同类型的错误
def analyze_sequence(ref_seq, test_seq):
    global insertion_errors, deletion_errors, replacement_errors, chain_breaks
    # 略
    for tag, i1, i2, j1, j2 in s.get_opcodes():
        if tag == 'replace':
            replacement_errors += max(i2 - i1, j2 - j1)
        elif tag == 'delete':
            deletion_errors += (i2 - i1)
        elif tag == 'insert':
            insertion_errors += (j2 - j1)
        elif tag == 'equal':
            pass  # No error
    if len(ref_seq) != len(test_seq):
        chain_breaks += 1

# 进行错误统计和拷贝数计算
for index, row in merged_df.iterrows():
    analyze_sequence(row['DNA_ref'], row['DNA'])
    copy_numbers[row['ID']] += 1


# 总的测序次数
total_reads = len(merged_df)

# 绘制错误率和拷贝数统计图
def create_charts():
    # 错误率统计图
    error_bar = (
        Bar(init_opts=opts.InitOpts(width="700px", height="500px"))
        .add_xaxis(['Insertion', 'Deletion', 'Replacement', 'Chain Breaks'])
        .add_yaxis('Errors', [insertion_errors, deletion_errors, replacement_errors, chain_breaks])
        .set_global_opts(title_opts=opts.TitleOpts(title="DNA Sequence Errors"))
    )
    
    # 拷贝数统计图
    copy_num_pie = (
        Pie(init_opts=opts.InitOpts(width="700px", height="500px"))
        .add("",
             [list(z) for z in zip([str(id) for id in copy_numbers.keys()], copy_numbers.values())],
             radius=["40%", "75%"],
        )
        .set_global_opts(title_opts=opts.TitleOpts(title="DNA Sequence Copy Numbers"),
                         legend_opts=opts.LegendOpts(orient="vertical", pos_top="15%", pos_left="2%"),
        )
        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    )
    
    return error_bar, copy_num_pie

# 创建和渲染图表
error_bar, copy_num_pie = create_charts()
error_bar.render("breakdown_of_errors.html")
copy_num_pie.render("dna_copy_numbers.html")

3.2 问题二

方法一：基于Levenshtein距离的聚类算法



import pandas as pd
from sklearn.cluster import AgglomerativeClustering
import Levenshtein
import time


# 读取数据
reference_seq_s = pd.read_csv('data/train_reference.txt', sep=' ', names=['ID', 'DNA_ref'])
reads = pd.read_csv('data/train_reads.txt', sep=' ', names=['ID', 'DNA'])

# 计算Levenshtein距离矩阵（由于计算量大，这里只示范计算前n个序列的距离矩阵）
n = len(reads)
distance_matrix = [[0] * n for _ in range(n)]
for i in range(n):
    for j in range(i+1, n):
       略。。。

# 聚类
start_time = time.time()
clustering_model = AgglomerativeClustering(affinity='precomputed', linkage='complete', n_clusters=None, distance_threshold=1.0)
clustering_model.fit(distance_matrix)
duration = time.time() - start_time

# 评估聚类结果，这里计算不同簇的数量
clusters = clustering_model.labels_
cluster_counts = pd.Series(clusters).value_counts()

import numpy as np
import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import dendrogram

# 画出树状图
def plot_dendrogram(model, **kwargs):
    children = model.children_
    distance = np.arange(children.shape[0])

    no_of_observations = np.arange(2, children.shape[0]+2)

    linkage_matrix = np.column_stack([children, distance, no_of_observations]).astype(float)

    dendrogram(linkage_matrix, **kwargs)

plt.figure(figsize=(15, 8))
plot_dendrogram(clustering_model, labels=range(len(reads)))
plt.ylabel("Distance")
plt.savefig('img/层次聚类.png',dpi=100)
plt.show()

方法二：基于SMITH-WATERMAN算法的聚类


import pandas as pd
import numpy as np
from sklearn.cluster import AgglomerativeClustering
import matplotlib.pyplot as plt
import itertools
# from Bio import pairwise2

# 数据读取
reference_seq_s = pd.read_csv('data/train_reference.txt', sep=' ', names=['ID','DNA_ref'])
reads = pd.read_csv('data/train_reads.txt', sep=' ', names=['ID','DNA'])

# SMITH-WATERMAN算法的实现
def smith_waterman_alignment(s1, s2, match_score=3, gap_cost=2):
    # 初始化得分矩阵
    A = np.zeros((len(s1) + 1, len(s2) + 1), int)
    
    for i, j in itertools.product(range(1, A.shape[0]), range(1, A.shape[1])):
        match = A[i - 1, j - 1] + (match_score if s1[i - 1] == s2[j - 1] else -match_score)
        delete = A[i - 1, j] - gap_cost
        insert = A[i, j - 1] - gap_cost
        A[i, j] = max(match, delete, insert, 0)
    
    return np.max(A)

# 编辑距离矩阵的计算
def compute_distance_matrix(reads):
    n_reads = len(reads)
    distance_matrix = np.zeros((n_reads, n_reads))
    
    for i in range(n_reads):
        for j in range(i+1, n_reads):
            alignment_score = smith_waterman_alignment(reads[i], reads[j])
            distance_matrix[i, j] = distance_matrix[j, i] = alignment_score # we use alignment score directly here
    
    return distance_matrix

# Run SMITH-WATERMAN on the dataset
distance_matrix = compute_distance_matrix(reads['DNA'].values)

# 聚类算法
def cluster_sequences(distance_matrix, n_clusters=2):
    # 使用层次聚类，可以使用其他聚类算法
    clustering = AgglomerativeClustering(n_clusters=n_clusters, affinity='precomputed', linkage='complete')
    # 使用 1 减 距离矩阵，是为了将距离转化为相似度
    clustering.fit(1 - distance_matrix)
    return clustering.labels_
# 聚类和评估
cluster_labels = cluster_sequences(distance_matrix)
reads['Cluster'] = cluster_labels


# 评估簇的纯度
def evaluate_cluster_purity(cluster_labels, actual_labels):
    contingency_table = pd.crosstab(cluster_labels, actual_labels)
    purity = np.sum(np.max(contingency_table, axis=0)) / np.sum(contingency_table.sum())
    return purity


# 可视化
def visualize_clustering(reads, cluster_labels):
    plt.figure(figsize=(12, 8))
    colors = ['r', 'g', 'b', 'y', 'c', 'm']
    for i in np.unique(cluster_labels):
        plt.plot(reads[reads['Cluster'] == i]['DNA'].index, [i] * sum(reads['Cluster'] == i), 'x', color=colors[i % len(colors)], label=f'Cluster {i}')
    plt.title('Clustering of DNA sequences')
    plt.xlabel('Sequence Index')
    plt.ylabel('Cluster ID')
    plt.legend()
    plt.show()

visualize_clustering(reads, cluster_labels)

方法三：对测序序列进行k-mer编码。使用CountVectorizer把序列的k-mer列表转换成词频（term frequency）矩阵。使用K-means算法对k-mer词频矩阵进行聚类，聚类数设置为原始序列数。

import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.feature_extraction.text import CountVectorizer
import matplotlib.pyplot as plt
import time

# 读取数据
reference_seq_s = pd.read_csv('data/train_reference.txt', sep=' ', names=['ID', 'DNA_ref'])
reads = pd.read_csv('data/train_reads.txt', sep=' ', names=['ID', 'DNA'])

# k-mer计数函数
def get_kmers(sequence, k=3):
    return [sequence[x:x+k] for x in range(len(sequence) + 1 - k)]

reads['kmers'] = reads['DNA'].apply(lambda x: get_kmers(x))

# 将k-mer列表转换为字符串（以便进一步转换为向量）
reads['kmers_str'] = reads['kmers'].apply(lambda x: ' '.join(x))

# 使用CountVectorizer生成k-mer的词频矩阵
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(reads['kmers_str'])

# PCA降维
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X.toarray())

# KMeans聚类
# 确定簇的数量为原始序列数
n_clusters = len(reference_seq_s['ID'].unique())
kmeans = KMeans(n_clusters=n_clusters)

start_time = time.time()

# 训练模型
kmeans.fit(X)
end_time = time.time()

# 计算总耗时
total_time = (end_time - start_time) / 60
print("聚类时间{:.2f} minutes.".format(total_time))

labels = kmeans.labels_
reads['cluster'] = labels
# 可视化结果
plt.figure(figsize=(8, 6))
plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=labels, cmap='rainbow', alpha=0.6, edgecolors='w', s=50)
plt.savefig('img/k-cluster.png',dpi=100)
plt.show()

3.3 问题三

import pandas as pd
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import CountVectorizer
import pyecharts.options as opts
from pyecharts.charts import Bar
import time

# k-mer计数函数
def get_kmers(sequence, k=3):
    return [sequence[x:x+k] for x in range(len(sequence) + 1 - k)]
# 读取数据
# reference_seq_s = pd.read_csv('data/train_reference.txt', sep=' ', names=['ID', 'DNA'])
reads = pd.read_csv('data/train_reads.txt', sep=' ', names=['ID', 'DNA'])
test_reads = pd.read_csv('data/test_reads.txt',names=['DNA'])

reads['kmers'] = reads['DNA'].apply(lambda x: get_kmers(x))
# 将k-mer列表转换为字符串（以便进一步转换为向量）
reads['kmers_str'] = reads['kmers'].apply(lambda x: ' '.join(x))
# 应用k-mer处理
test_reads['kmers'] = test_reads['DNA'].apply(lambda x: get_kmers(x))
test_reads['kmers_str'] = test_reads['kmers'].apply(lambda x: ' '.join(x))

# 使用CountVectorizer生成k-mer的词频矩阵
vectorizer = CountVectorizer()
# 先拟合训练数据
X_train = vectorizer.fit_transform(reads['kmers_str'])
# 再转换测试数据
X_test = vectorizer.transform(test_reads['kmers_str'])

from sklearn.decomposition import PCA
# 用PCA降维以便可视化（仅用于降维和可视化，并不用于聚类）
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X_train.toarray())
# KMeans聚类
start_time = time.time()
n_clusters = len(reads['ID'].unique())  
kmeans = KMeans(n_clusters=n_clusters)
# 训练模型
kmeans.fit(X_train)
clusters = kmeans.fit_predict(X_test)
end_time = time.time()
# 输出聚类耗时
print(f"Clustering Time: {end_time - start_time}")

# 统计每个簇的拷贝数
cluster_counts = pd.Series(clusters).value_counts().sort_index()

3.4 问题四

（1）方法一

from sklearn.decomposition import PCA
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import CountVectorizer
import time

# k-mer计数函数
def get_kmers(sequence, k=3):
    return [sequence[x:x+k] for x in range(len(sequence) + 1 - k)]
# 读取数据
# reference_seq_s = pd.read_csv('data/train_reference.txt', sep=' ', names=['ID', 'DNA'])
reads = pd.read_csv('data/train_reads.txt', sep=' ', names=['ID', 'DNA'])
test_reads = pd.read_csv('data/test_reads.txt',names=['DNA'])

reads['kmers'] = reads['DNA'].apply(lambda x: get_kmers(x))
# 将k-mer列表转换为字符串（以便进一步转换为向量）
reads['kmers_str'] = reads['kmers'].apply(lambda x: ' '.join(x))
# 应用k-mer处理
test_reads['kmers'] = test_reads['DNA'].apply(lambda x: get_kmers(x))
test_reads['kmers_str'] = test_reads['kmers'].apply(lambda x: ' '.join(x))
# 使用CountVectorizer生成k-mer的词频矩阵
vectorizer = CountVectorizer()
# 先拟合训练数据
X_train = vectorizer.fit_transform(reads['kmers_str'])
# 再转换测试数据
X_test = vectorizer.transform(test_reads['kmers_str'])
# 用PCA降维以便可视化（仅用于降维和可视化，并不用于聚类）
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X_train.toarray())
# KMeans聚类
start_time = time.time()
n_clusters = len(reads['ID'].unique())  
kmeans = KMeans(n_clusters=n_clusters)
# 训练模型
kmeans.fit(X_train)
clusters = kmeans.fit_predict(X_test)

# 比对模型的Python代码实现
import numpy as np
from collections import Counter
from typing import List

# 函数来计算多数投票后确定的序列
def consensus_sequence(seqs: List[str]) -> str:
    """
    采取多数投票法，返回一个列表中最可能正确的目标序列。
    :param seqs: 需要进行多数投票的一系列序列
    :return: 最可能正确的目标序列
    """
    # 将序列转置，以方便进行列方向投票
    transposed_seqs = list(zip(*seqs))
    consensus_seq = []
    
    # 对于每个位置，计算最常见的元素
    for column in transposed_seqs:
        counter = Counter(column)
        most_common = counter.most_common(1)[0][0]
        consensus_seq.append(most_common)
    
    return ''.join(consensus_seq)

# 根据聚类结果对序列进行聚类
clustered_seqs = {}  # 存储每个原始序列ID对应的所有序列
# 对测试数据聚类
for idx, cluster_id in enumerate(clusters):
    if cluster_id not in clustered_seqs:
        clustered_seqs[cluster_id] = []
    clustered_seqs[cluster_id].append(test_reads['DNA'][idx])

# 对于每个聚类，进行比对，并确定共识序列
consensus_seqs = {}
for cluster_id, seqs in clustered_seqs.items():
    consensus = consensus_sequence(seqs)
    consensus_seqs[cluster_id] = consensus
# 评估聚类质量和恢复的序列质量
reference_seqs = pd.read_csv('data/train_reference.txt', sep=' ', names=['ID', 'DNA'])

# 评估聚类质量和恢复的序列质量
reference_seqs = pd.read_csv('data/train_reference.txt', sep=' ', names=['ID', 'DNA'])
# 计算共识序列与目标序列的错误率
def calculate_error_rate(original_seq: str, new_seq: str) -> float:
    """
    计算恢复的序列与目标序列之间的错误率。
    
    :param original_seq: 原序列
    :param new_seq: 恢复的序列
    :return: 错误率
    """
    errors = sum(1 for orig, new in zip(original_seq, new_seq) if orig != new)
    return errors / len(original_seq)

# 错误率列表
error_rates = []
# 输出最可能正确的序列并计算错误率
for cluster_id, cons_seq in sorted(consensus_seqs.items()):
    original_seq = reference_seqs.loc[cluster_id,'DNA']
    error_rate = calculate_error_rate(original_seq, cons_seq)
    error_rates.append(error_rate)
    print(f"Cluster {cluster_id} Consensus: {cons_seq}, Error Rate: {error_rate}")

# 分析总体错误率
overall_error_rate = np.mean(error_rates)
print(f"总体错误率: {overall_error_rate}")

总体错误率：0.509

（2）方法二

from sklearn.decomposition import PCA
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import CountVectorizer
import time

# k-mer计数函数
def get_kmers(sequence, k=3):
    return [sequence[x:x+k] for x in range(len(sequence) + 1 - k)]
# 读取数据
# reference_seq_s = pd.read_csv('data/train_reference.txt', sep=' ', names=['ID', 'DNA'])
reads = pd.read_csv('data/train_reads.txt', sep=' ', names=['ID', 'DNA'])
test_reads = pd.read_csv('data/test_reads.txt',names=['DNA'])

reads['kmers'] = reads['DNA'].apply(lambda x: get_kmers(x))
# 将k-mer列表转换为字符串（以便进一步转换为向量）
reads['kmers_str'] = reads['kmers'].apply(lambda x: ' '.join(x))
# 应用k-mer处理
test_reads['kmers'] = test_reads['DNA'].apply(lambda x: get_kmers(x))
test_reads['kmers_str'] = test_reads['kmers'].apply(lambda x: ' '.join(x))
# 使用CountVectorizer生成k-mer的词频矩阵
vectorizer = CountVectorizer()
# 先拟合训练数据
X_train = vectorizer.fit_transform(reads['kmers_str'])
# 再转换测试数据
X_test = vectorizer.transform(test_reads['kmers_str'])
# 用PCA降维以便可视化（仅用于降维和可视化，并不用于聚类）
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X_train.toarray())
# KMeans聚类
start_time = time.time()
n_clusters = len(reads['ID'].unique())  
kmeans = KMeans(n_clusters=n_clusters)
# 训练模型
kmeans.fit(X_train)
clusters = kmeans.fit_predict(X_test)


import numpy as np
import pandas as pd
from collections import Counter

# Needleman-Wunsch算法实现
def needleman_wunsch(seq1, seq2, match_score=1, gap_cost=1, mismatch_cost=1):
    n = len(seq1)
    m = len(seq2)
    score_matrix = np.zeros((n+1, m+1))
    
    # Initialize score matrix and traceback paths
    for i in range(n+1):
        score_matrix[i][0] = -i * gap_cost
    for j in range(m+1):
        score_matrix[0][j] = -j * gap_cost
        
    # Fill in score matrix
    for i in range(1, n+1):
        for j in range(1, m+1):
            if seq1[i-1] == seq2[j-1]:
                match = score_matrix[i-1][j-1] + match_score
            else:
                match = score_matrix[i-1][j-1] - mismatch_cost
            delete = score_matrix[i-1][j] - gap_cost
            insert = score_matrix[i][j-1] - gap_cost
            score_matrix[i][j] = max(match, delete, insert)
    
    # Traceback to compute the alignment
    align1 = ""
    align2 = ""
    i = n
    j = m
    
    while i > 0 and j > 0:
        score_current = score_matrix[i][j]
        score_diagonal = score_matrix[i-1][j-1]
        score_up = score_matrix[i][j-1]
        score_left = score_matrix[i-1][j]
        
        if score_current == score_diagonal + (match_score if seq1[i-1] == seq2[j-1] else -mismatch_cost):
            align1 += seq1[i-1]
            align2 += seq2[j-1]
            i -= 1
            j -= 1
        elif score_current == score_left - gap_cost:
            align1 += seq1[i-1]
            align2 += "-"
            i -= 1
        elif score_current == score_up - gap_cost:
            align1 += "-"
            align2 += seq2[j-1]
            j -= 1
    while i > 0:
        align1 += seq1[i-1]
        align2 += "-"
        i -= 1
    while j > 0:
        align1 += "-"
        align2 += seq2[j-1]
        j -= 1
    
    return align1[::-1], align2[::-1]

# 从聚类结果中恢复出最可能的序列
def recover_sequence(cluster_seqs):
    # 序列长度可能不同，先找到最长的序列长度
    略
    return consensus_sequence

from functools import reduce
# 使用先前完成的KMeans结果clusters
# 假设clusters为序列的聚类结果，test_reads为相应的序列数据
cluster_dict = {i: [] for i in range(n_clusters)}
for i, cluster in enumerate(clusters):
    cluster_dict[cluster].append(test_reads['DNA'][i])

# 对每个簇进行比对，并且输出最可能正确的序列
consensus_sequences = {}
for cluster_id, seqs in cluster_dict.items():
    if len(seqs) > 1:
        # 使用reduce函数将同簇序列两两比对
        consensus = reduce(lambda x, y: recover_sequence([x, y]), seqs)
    else:
        # 如果簇内只有一个序列，则将其作为最可能的序列
        consensus = seqs[0]
    consensus_sequences[cluster_id] = consensus

# 将得到的“最可能正确的序列”写入到文件
with open('data/test_ref.txt', 'w') as f_out:
    for seq in consensus_sequences.values():
        f_out.write(seq + '\n')

4 完整代码

请看名片扣我

2023-7-29晨间日记木可柯98
今天是什么日子起床：9.00就寝：凌晨4点天气：台风天心情：焦虑任务清单昨日完成的任务，最重要的三件事：锻炼（羽毛球、撸铁）、看书、月复盘改进：1.在疯狂加班的这几个月里，终于找到时间锻炼了；2.在这高强度的工作中，你在不断地调整自己的工作方式和用几乎所有时间去按部就班处理琐碎事情，可能更多时候可以有选择性地做有意义地做事情，不一定要全盘接收！3.在更多做抉择的时候，会犹豫，不果断。4.在做紧急重
selenium后续！！ paid槮 selenium 测试工具
小项目案例:实现批量下载网页中的资源根据15.3.2小节中的返回网页内容可知,用户只有获取了网页中的图片url才可以将图片下载到*在使用selenium库渲染网页后,可直接通过正则表达式过滤出指定的网页图片，从而实现批量下载接下来以此为思路来实现一个小项目案例。项目任务实现批量下载人民邮电出版社官网中与Python相关的图书封面图片。项目实步骤步骤1，获取人民邮电出版社官网中与Python相关的图
参加网络学习收获心得临江253王馨卉
在七月份以及八月初的几次培训中，我分别接触了不同种类的教育媒介以及教学工具，刷新了我的教学观念。在此我想简单的对几次学习做一个分享。第一部分结合梁校长的讲解，首先刷新了我对PPT应用于教学过程中的认知，以前只觉得这就是代替板书的一种工具，简单明了就行，但是现在认识到设计一个PPT要注意到情境创设，化抽象为直观以及它交互练习的特别作用。根据单页PPT设计的要求，我对字体大小，多少以及颜色都进行了调整
网络编程中的 Protobuf 和 JsonCpp 全面解析筏.k c++asio网络编程网络开发语言 c++服务器
文章目录前言一、为什么需要序列化？序列化的好处：常见序列化格式包括：二、JsonCpp与Protobuf对比三、JsonCpp简介与示例（客户端通信）JsonCpp使用示例（客户端发送请求）：JsonCpp使用示例（服务器解析请求）：四、Protobuf简介与示例（服务器通信）定义消息格式（user.proto）编译生成代码：服务器端序列化&发送数据接收端解析数据五、使用建议总结前言在网络编程中，
2023-09-25 与非与你
01下个星期就要给表哥做伴娘了，再下个星期又要给一个好朋友做姐妹，今年不管是家人还是朋友都很多结婚了，自己的那种无措感又来了。看着别人结婚，自己已经没有当初那种想结婚的欲望了，只是觉得大家都长大了，从读书的年纪突然一下子就到了结婚生子的年纪。昨天和朋友四点半起床开车去海边看日出，一下车听到海浪声，那个风真的自由和快乐。我想如果结婚生孩子了，是否还有这样的机会说走就走的时候？是否还能像现在这么洒脱和
C#语法基础总结（超级全面）（二） inwith C#语法基础 c#开发语言
文章目录c#语法基本元素关键字操作符（operator）类型转换标识符（Identifier）语句try语句迭代语句（循环语句）索引器文本（字面值）五大数据类型引用类型：值类型：变量、对象与内存装箱和拆箱类类的实例化类的三大成员（属性、方法、事件）属性（property）方法（函数）方法参数值参数引用参数输出参数数组参数具名参数可选参数扩展方法（this参数）方法的重载构造器（constructo
Python爬虫博客：使用Selenium模拟登录并抓取需要身份验证的网站内容 Python爬虫项目 2025年爬虫实战项目 python 爬虫 selenium 信息可视化开发语言百度测试工具
引言在爬虫开发的过程中，我们常常遇到需要身份验证才能访问的网站。例如，很多社交媒体、新闻网站、电商平台等都要求用户登录才能访问一些特定内容。如何模拟登录并抓取这些需要身份验证的网页内容成为了一个非常重要且常见的需求。Selenium，作为一个强大的浏览器自动化工具，不仅可以模拟用户的浏览行为，还能够模拟用户输入用户名和密码、点击登录按钮等操作，突破了普通爬虫工具（如requests）无法处理的Ja
Docker架构深度解析：从核心概念到企业级实践
Docker架构深度解析：从核心概念到企业级实践一、Docker架构全景图1.1整体架构示意图二、核心组件深度解析2.1DockerDaemon工作机制三、镜像与容器原理3.1镜像分层结构3.2容器生命周期四、网络架构详解4.1网络模式对比4.2Bridge网络实现原理五、存储架构与实践5.1存储驱动对比5.2数据卷使用模式六、企业级实践方案6.1高可用架构设计七、安全最佳实践7.1安全防护体系八
如何解决pip安装报错ModuleNotFoundError: No module named ‘django’问题万粉变现经纪人全栈Bug解决方案专栏 pip django python numpy pycharm 后端 pandas
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘django’问题摘要在日常Django项目开发中，最常见的“拦路虎”之一就是ModuleNotFoundError:Nomodulenamed'django'。该异常通常在以下场景出现：在PyCharm2025中新建项目后，直接在Py
C#中的LINQ解析三千道应用题 C#学无止境 c#
本文仅作为参考大佬们文章的总结。LINQ（LanguageIntegratedQuery，语言集成查询）是C#中一项革命性的技术，它将查询功能直接集成到C#语言中，使开发者能够以声明式的方式查询各种数据源。LINQ提供了一种统一的语法来查询和操作不同类型的数据，包括内存中的集合、数据库、XML文档等，极大地简化了数据处理流程。一、LINQ概述与核心概念1.LINQ的定义与价值LINQ是.NETFr
2023-09-15 五角大楼探索生成式人工智能解决方案泰格
佳文砺道智库2023-09-1409:58发表于北京据“防务头条”网9月12日报道，美国研究机构“特殊竞争力研究项目”（SCSP）的一份报称告，如果美国想在制定生成式人工智能的开发和使用规范方面引领全球，就必须增加联邦研发支出，建立新的政府机构，或者改变现有的政府机构。生成式人工智能可以加速新药和网络安全解决方案的发现，从根本上实现更好的计算机网络，并提高公众的理解。但在对手手中，它可能会导致更多
Proto文件从入门到精通——现代分布式系统通信的基石（含实战案例）筏.k gRPC c++rpc 服务器
gRPC核心技术详解：Proto文件从入门到精通——现代分布式系统通信的基石（含实战案例）更新时间：2025年7月18日️标签：gRPC|ProtocolBuffers|Proto文件|微服务|分布式系统|RPC通信|接口定义文章目录前言一、基础概念：Proto文件究竟是什么？1.什么是Proto文件？2.传统通信vsProto通信二、语法详解：Proto文件的构成要素1.基本语法结构2.数据类型
CAS中的ABA问题
一、什么是CAS?CAS（compareandset）操作是多线程环境处理并发的原子操作，更新一个值前先比较，如果与预期值一样则更新，否则失败。CAS底层是通过汇编层面的原语调用cpu指令实现的，同时结合了内存屏障，具体依赖CPU的指令，如cmpxchg指令（X86架构）二、什么是ABA问题？现有线程t1和线程t2，共享变量str="A"①首先读取str，那么t1中缓存值为A，t2中缓存值也为A，
GEV/POT/Markov/点过程/贝叶斯极值全解析；基于R语言的极值统计学
极值统计学就是专门研究自然界和人类社会中很少发生，然而发生之后有着巨大影响的极端现象的统计建模及分析方法；在水文、气象、环境、生态、保险和金融等领域都有着广泛的应用。专题一、独立假设下的极值统计建模主要内容包括：1.广义极值模型.2.极小值的处理.3.广义Pareto模型.4.第r大次序统计量建模.5.R语言中极值统计学包.6.实例操作1-2.(提供案例数据及代码)专题二、平稳时间序列的极值统计建
Spring框架整合Redis哨兵模式的实战教程轩辕姐姐
本文还有配套的精品资源，点击获取简介：Spring框架作为Java企业级开发的重要组件，与Redis高性能键值数据库结合，特别是在其哨兵系统支持下，能实现Redis服务的高可用性。本文详细阐述了如何在Spring项目中整合Redis哨兵模式，包括依赖添加、配置哨兵系统、创建连接工厂、配置RedisTemplate以及异常处理等关键步骤。通过整合，可以确保应用数据存储和缓存的稳定性和连续性，适用于需
企业级3D TLC？看英特尔专家怎么说! weixin_33691817
也许有人会说，3DNAND有什么好说的，三星早在前年就发布了3DV-NAND，就是基于3DTLC设计的，48层，单Die容量256Gb;此后，SKHynix、东芝/闪迪、Intel/美光等豪门都开始涉足3DNAND产品。但需要提醒的是，在这里谈论的是企业级产品市场应用。考虑到频繁读写，以及企业级应用场景对可靠性、稳定性的需求，专业人士指出，这是完全不同的市场。顺便说一句：企业级闪存产品应用，2DM
元气森林哪个口味好喝？最好喝的口味不容你错过氧惠购物达人
元气森林现在口味可以说是非常丰富了，达到了10款左右，还不断地有新口味推出，可以根据个人的喜好选择自己适合的口味。购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面，送1:1超级补贴(邀请好友自购多少，你就推广得多少，非常厉害)，欢迎各位团队长体验！也期待你的加入。氧惠邀请码888999，注册就帮你推广
前后端分离场景下的用户登录玩法&Sa-token框架使用
两种方案的token、用户登录信息都存储在redis中！！方案一该方案是前端把token和token有效期一起加密存储到浏览器的localStorage中，每次请求时调用前端的getTokenIsExpiry()获取token并检查token是否过期，过期则remove并跳转登录页，这样前端有个问题就是前端也要知道token的有效期，需要和后端的token有效期保持一致，而后端则提供两个拦截器，分
【自学linux】计算机体系结构和操作系统第二章 java攻城狮k 跟着QS50自学编程 linux 系统架构 unix 服务器
操作系统第一讲-介绍操作系统本门课程使用unix和linux作为案例讲解操作系统是如何工作的。首先学习给虚拟机安装和管理一个典型的linux系统，虚拟机运行在windows下。我们讨论操作系统是什么、它们在计算机环境中的使用和用一点篇幅回顾一下Unix系统的历史。一、介绍1、什么是操作系统(operatingsystemorO/S)?一种典型的大型软件，允许计算机硬件用户：1）运行各式各样的软件(
关于Spring RestTemplate
一、概述RestTemplate是SpringFramework提供的一个同步HTTP客户端工具，用于简化与RESTfulAPI的交互。它封装了底层HTTP通信细节，提供了统一的API来发送各种HTTP请求（GET、POST、PUT、DELETE等），并自动处理响应数据的序列化和反序列化。二、依赖配置如果使用Maven项目，需要在pom.xml中添加以下依赖：xml org.springfram
【橘子分布式】Thrift RPC(编程篇) 当年明日分布式分布式 rpc 网络协议
一、简介之前我们研究了一下thrift的一些知识，我们知道他是一个rpc框架，他作为rpc自然是提供了客户端到服务端的访问以及两端数据传输的消息序列化，消息的协议解析和传输，所以我们今天就来了解一下他是如何实现这些功能，并且如何在实际代码中使用。我们需要搭建环境。1.安装Thrift作用：把IDL语言描述的接口内容，生成对应编程语言的代码，简化开发。我们已经介绍了在mac如何使用brew安装了。2
Day04_C语言网络编程20250716_sql语言大全 liujing10232929 C语言网络编程 c语言网络 sql
linux中sql语法大全：MYSQL数据库什么是数据库：关系型数据管理系统数据库的结构层次：数据库文件(后缀名.db)->表单->字段->存储的数据数据库里面针对数据的所有操作，都需要使用指令去实现MYSQL数据库特点：特别适合web的环境，和PHP结合非常好低版本的MYSQL依旧是开源软件，适合用来做二次开发先安装一下mysql安装前，检测是否安装了mysql:rpm–qa|grepmysql
基于生成对抗网络增强主动学习的超高温陶瓷硬度优化神经网络15044 深度学习算法仿真模型生成对抗网络学习人工智能
复现论文：基于生成对抗网络增强主动学习的超高温陶瓷硬度优化我将使用Python复现这篇关于使用生成对抗网络(GAN)增强主动学习来优化超高温陶瓷(UHTC)硬度的研究论文。以下是完整的实现代码和解释。1.环境准备和数据加载首先，我们需要准备必要的Python库并加载数据。importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimpor
【加解密与C】Rot系列(二)Rot13
Rot13简介Rot13（Rotateby13places）是一种简单的字母替换加密算法，属于凯撒密码（Caesarcipher）的特例。它将字母表中的每个字母替换为字母表中距离它13个位置的字母。例如，字母A替换为N，B替换为O，以此类推。由于英文字母有26个字符，Rot13的特点是加密和解密使用相同的算法。Rot13算法规则对字母表中的每个字母，进行如下替换：大写字母A-Z：A→N，B→O，…
学习笔记(39):结合生活案例，介绍 10 种常见模型宁儿数据安全 #机器学习学习笔记生活
学习笔记(39):结合生活案例，介绍10种常见模型线性回归只是机器学习的“冰山一角”！根据不同的任务场景（分类、回归、聚类等），还有许多强大的模型可以选择。下面我用最通俗易懂的语言，结合生活案例，介绍10种常见模型及其适用场景：一、回归模型（预测连续值，如房价）1.决策树（DecisionTree）原理：像玩“20个问题”游戏，通过一系列判断（如“面积是否>100㎡？”“房龄是否0.5就判为“会”
新生代与老年代中相关参数的设置 Shaw_Young
存储在JVM中的Java对象可以被划分为两类:一类是生命周期较短的瞬时对象,这类对象的创建和消亡都非常迅速另外一类对象的生命周期却非常长,在某些极端的情况下还能够与JVM的生命周期保持一致Java堆区进一步细分的话,可以划分为年轻带(YoungGen)和老年代(OldGen)其中年轻代又可以划分为Eden空间、Survivor0空间和Survivor1空间(有时也叫做from区、to区)配置新生代
投资总结之——2月投资总结，缩量震荡，利润回吐蛙声叫叫一家亲
“时间过得飞快，2023年过去了六分之一。2月份的行情没有了1月份让人回味的期待，指数走出的是缩量震荡下跌的行情，索然无味，对持仓缩水影响不少，青蛙君的资产收益从2月初创了新高后不断走下坡路。一样的剧本，3月的第一个交易日又是一波大涨，收益回来不少。整体收益资产整体配置比例为股票：可转债：基金：衍生品=5：7：4：2。资产收益展示启用净值法，并在月度净值基础上增加周净值，以便更客观地体现资产盈亏表
基于R、Python的Copula变量相关性分析及AI大模型应用梦想的初衷~ 环境气象人工智能 r语言 python
在工程、水文和金融等各学科的研究中，总是会遇到很多变量，研究这些相互纠缠的变量间的相关关系是各学科的研究的重点。虽然皮尔逊相关、秩相关等相关系数提供了变量间相关关系的粗略结果，但这些系数都存在着无法克服的困难。例如，皮尔逊相关系数只能反映变量间的线性相关，而秩相关则更多的适用于等级变量。大多数情况下变量间的相关性非常复杂，而且随着变量取值的变化而变化，而这些相关系数都是全局性的，因此无法提供变量间
2021-04-09 小渡艳辉
遇见新的自己—小渡见面会感悟四月的南沙，微风不燥，温暖和煦，红绿相应，清清明明。恰赶上清明节，然而心中的期待已冲淡了那份哀思，来自全国各地的几十个同学带着各自成长的烙印，或喜或悲，为遇见新的自己奔赴而来，齐聚南沙，参加本次小渡见面会暨本会团体心理成长工作坊。齐聚南沙我是带着清晰的目标—学习带领成长团体活动参加本次见面会的，所以一走进会场又是牟足劲的状态，然而第一个环节，回想对自己影响最大的一个人或
CCF编程能力等级认证GESP—C++1级—20250628
CCF编程能力等级认证GESP—C++1级—20250628单选题（每题2分，共30分）判断题（每题2分，共20分）编程题(每题25分，共50分)假期阅读值日单选题（每题2分，共30分）1、2025年4月19日在北京举行了一场颇为瞩目的人形机器人半程马拉松赛。比赛期间，跑动着的机器人会利用身上安装的多个传感器所反馈的数据来调整姿态、保持平衡等，那么这类传感器类似于计算机的()。A.处理器B.存储器
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

【2023年中国高校大数据挑战赛 】赛题 B DNA 存储中的序列聚类与比对 Python实现