SpikeKing

PDB Database - RCSB PDB 数据集 (2023.8) 的多维度信息统计

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/132297736

RCSB PDB 数据集是一个收集了蛋白质的三维结构信息的数据库，是世界蛋白质数据库（wwPDB）的成员之一，也是生物学和医学领域第一个开放访问的数字数据资源库。RCSB PDB 数据集不仅提供了来自蛋白质数据银行（PDB）档案的实验确定的3D结构，还提供了来自 AlphaFold DB 和 ModelArchive 的计算结构模型（CSM）。用户可以利用 RCSB PDB 数据集提供的各种工具和资源，根据序列、结构和功能的注释进行简单和高级搜索，可视化、下载和分析这些分子，并且在外部注释的背景下，探索生物学的结构视角。

数据维度，数据来源于 RCSB PDB 官网：

pdb_id，即 PDB 的唯一ID，统计 PDB 数量，203657，例如 8ETV。
chain_id，即从 PDB 中提取的链 ID，例如 [A,B,C,D,E,F,I,J]，包括蛋白质链与非蛋白质链。
file_path，即 PDB 文件路径，pdb8etv.ent.gz，ent表示entry。
seq，即序列列表，顺序与 chain_id 相对应，只包括20个真实氨基酸，不包括扩展氨基酸( protein_letters_3to1_extended)。
release_date，发布日期，即 1976-05-19 ~ 2023-07-26。
resolution，即结构分辨率，范围是 [0.48,70.0]
len，单体或复合物的序列长度，顺序与 chain_id 相对应，例如 [75,72,105,95,98,79,110,110]，其中，长度统计，len > 20: 201007, len < 20: 2650。
max_continuous_missing_res_len，其他指标，来自于 PDB 文件的 head，不太关注。
experiment_method，即解析的实验方法，目前已知是13种，例如 electron microscopy。
chain，真实的链名，来源于 PDB 作者提交，用于匹配之后的数据，与 chain_id，可能顺序不同，例如 ['J', 'I', 'F', 'E', 'D', 'C', 'B', 'A']
mol，链的类型，na 表示 nucleic acid，即核酸，包括RNA和DNA，protein 表示蛋白质，例如 ['na', 'na', 'protein', 'protein', 'protein', 'protein', 'protein', 'protein']，数量分布 {'na': 36136, 'protein': 599619, 'None': 26})。
seq_right，来源于 PDB 上传作者提供的序列，与 PDB 结构非对应关系，一般比结构的序列要更长。
name，PDB的名称，例如 Histone H3.3C，组蛋白。
pdb_type，用于表示的蛋白质类型，自定义，例如mul_protein_multimer。
num_chain 和 num_protein_chain，链数与蛋白质的链数，例如8.0、6.0，monomer: 73274, multimer: 115451, sum: 188725。

1. 发布日期 (Release Date)

PDB的发布日期(release_date)统计：

范围：1976-05-19 ~ 2023-07-26
具体间隔 5 年：1975: 53, 1980: 122, 1985: 190, 1990: 2506, 1995: 8087, 2000: 17725, 2005: 33063, 2010: 43030, 2015: 52988, 2020: 45893, sum: 203657

即：

2. 结构分辨率 (Resolution)

PDB的结构分辨率(resolution)统计：

分辨率的范围是 [0.48,70.0]
具体间隔 1 A：unknown: 14190, 0: 973, 1: 77252, 2: 86538, 3: 19727, 4: 2758, 5: 437, 6: 463, 7: 355, 8: 232, 9: 165, 10: 567, sum: 203657

即：

3. 蛋白质结构的序列长度 (Seq. Len.)

蛋白质的序列长度(Seq. Len.)，如果是多聚体 (Multimer)，则是多个链的长度之和。

序列长度范围：seq len range: 0 ~ 19350
小于20的序列长度：len > 20: 201007, len < 20: 2650
大于20的序列长度：0: 39201, 200: 55577, 400: 31714, 600: 18964, 800: 13927, 1000: 8989, 1200: 6316, 1400: 4838, 1600: 3468, 1800: 2844, 2000: 15169, sum: 201007

即：

4. 蛋白质结构的解析实验方法 (Experiment Method)

E: 8, EC: 220, EM: 13896, FD: 39, FT: 1, IS: 4, ND: 212, PD: 21, SN: 14117, SS: 78, TM: 7, XD: 175274, sum: 203877，数量203877多于203657，原因是同一个结构，由不同方法解析，SN表示溶液核磁共振与固体核磁共振之和，所以是 12 种方法。
XD (X-ray Diffraction) 是 X射线衍射；SN (Solution/Solid-state NMR) 是核磁共振；EM (Electron Microscopy) 是电镜，也包括冷冻电镜。
Top3 (XD\ SN \ EM) 占比 99.71%。

即：

关于实验方法(Experiment Method)，一共包括 13 种，同一个蛋白质结构，可以由多种方法共同解析，即：

Electron Crystallography: 电子晶体学
X-ray Diffraction: X射线衍射
Neutron Diffraction: 中子衍射
Solution Scattering: 溶液散射
Solution NMR: 溶液核磁共振
Solid-state NMR: 固体核磁共振
Powder Diffraction: 粉末衍射
Theoretical Model: 理论模型
Fluorescence Transfer: 荧光转移
Infrared Spectroscopy: 红外光谱
Electron Microscopy: 电子显微镜
EPR: 电子顺磁共振
Fiber Diffraction: 纤维衍射

5. 单链类型 (Chain Type)

单链类型主要区分是蛋白质单链，还是核酸 (Nucleic Acid, NA) 单链。

{'na': 36136, 'protein': 599619, 'None': 26}

6. 蛋白质类型 (PDB Name)

提取 PDB Name 中的关键词，去除无意义的标识，例如数字、subunit、protein、chain、dna、factor、family 等。

Top 10 的标识：cytochrome: 2325, dehydrogenase: 3616, glycoprotein: 1978, kinase: 9311, mitochondrial: 1965, polymerase: 3376, protease: 2234, receptor: 6952, reductase: 3746, synthase: 5246

关于 Protein Name 的 Top 10 的标识词，即：

kinase: 激酶
receptor: 受体
synthase: 合酶
reductase: 还原酶
dehydrogenase: 脱氢酶
polymerase: 聚合酶
cytochrome: 细胞色素
protease: 蛋白酶
glycoprotein: 糖蛋白
mitochondrial: 线粒体

7. 蛋白质链数 (Chain Num)

根据蛋白质链数 (Chain Num)，自定义的类型，主要是单体 (Monomer) 和多聚体 (Multimer)，以及根据链的类型，划分成不同类型。

full_protein_multimer: 115451, 全是蛋白质链的 Multimer 
protein_monomer: 73274, 蛋白质链的 Monomer
mul_protein_multimer: 6729, 含有 NA 与多个蛋白质链的 Multimer
one_protein_multimer: 3856, 含有 NA 与单个蛋白质链 的 Multimer
non_protein_multimer: 2774, 非蛋白质的 Multimer
non_protein_monomer: 1547, 非蛋白质的 Monomer
nan: 26, 未知
sum: 203657

一致性计算验证，monomer: 73274, multimer: 115451, sum: 188725，数量相同。

8. 压缩数据读取 (ent.gz)

关于 .ent 文件类型的说明：

在 Protein Data Bank 中，包括 .ent 和 .pdb 是两种相同的文件格式，都是用来存储生物大分子的三维结构信息的。ent 是 Protein Data Bank 的原始文件格式，而 pdb 是一种更通用的文件格式，被多种软件识别和处理。ent 和 pdb 的文件内容和结构都是一样的，只是文件扩展名不同而已，可以把 ent 文件的扩展名改为 pdb ，或者用一些转换工具来实现格式转换。ent 表示该文件是一个 entry (条目) 的文件。每个 entry 代表一个生物大分子结构，包含了原子坐标、序列信息、结构注释等数据，每个 entry 都有一个唯一的四位字母或数字代码，称为 PDB ID，例如，1A0A 是人类血红蛋白。

读取 ent.gz 文件，例如 pdb8etv.ent.gz 等。

def read_ent_gz(fpath):
    """
    读取 ent gz 文件
    """
    with gzip.open(fpath, 'rt', encoding='utf-8') as f:
        pdb_str = f.read()
    pdb_fh = io.StringIO(pdb_str)
    parser = PDBParser(QUIET=True)
    structure = parser.get_structure(None, pdb_fh)
    header = structure.header
    # ...

9. 统计脚本

支持数据统计与图表绘制，调用命令：

python scripts/rcsb_processor.py -i data/pdb_base_info_202308.csv -o mydata/res

即：

#!/usr/bin/env python
# -- coding: utf-8 --
"""
Copyright (c) 2022. All rights reserved.
Created by C. L. Wang on 2023/8/14
"""
import argparse
import ast
import collections
import gzip
import io
import os
import sys
from pathlib import Path

import numpy as np
import pandas as pd
from Bio.PDB import PDBParser
from matplotlib import pyplot as plt
from matplotlib.patches import Rectangle

p = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
if p not in sys.path:
    sys.path.append(p)

from myutils.protein_utils import get_seq_from_pdb
from myutils.project_utils import sort_two_list, sort_dict_by_value, mkdir_if_not_exist
from root_dir import ROOT_DIR


class RcsbProcessor(object):
    """
    RCSB数据库统计脚本
    """
    def __init__(self):
        pass

    @staticmethod
    def draw_resolution(data_list, save_path=None):
        """
        绘制分辨率，分辨率的范围是-1到10，划分11个bin
        其中，-1是empty、[1,2,3]是high、其余是low
        :param data_list:   数据列表
        :param save_path:   存储路径
        :return:  绘制图像
        """
        labels, counts = np.unique(np.array(data_list), return_counts=True)

        labels_str = []
        for vl in labels:
            if vl == -1:
                label = "empty"
            else:
                label = f"[{vl},{vl+1})"
            labels_str.append(label)
        labels_str.pop(-1)
        labels_str.append(f">={labels[-1]}")

        # 颜色设置
        cmap = plt.get_cmap('jet')
        empty, high, middle, low = cmap(0.2), cmap(0.4), cmap(0.6), cmap(0.8)
        color = [empty, high, high, high, middle, middle, low, low, low, low, low, low]
        graph = plt.bar(labels_str, counts, align='center', color=color, edgecolor='black')
        plt.gca().set_xticks(labels_str)

        handles = [Rectangle((0, 0), 1, 1, color=c, ec="k") for c in [empty, high, middle, low]]
        color_labels = ["empty", "high", "middle", "low"]
        plt.legend(handles, color_labels)

        # 绘制百分比
        count_sum = sum(counts)
        percentage_list = []
        for count in counts:
            pct = (count / count_sum) * 100
            percentage_list.append(round(pct, 2))
        i = 0
        max_height = max([p.get_height() for p in graph])
        for p in graph:
            width = p.get_width()
            height = p.get_height()
            x, y = p.get_xy()
            plt.text(x + width / 2,
                     y + height + max_height*0.01,
                     str(percentage_list[i]) + '%',
                     size=8,
                     ha='center',
                     weight='bold')
            i += 1

        # label设置
        plt.xlabel("Resolution")
        plt.ylabel("Frequency")

        # 尺寸以及存储
        fig = plt.gcf()
        fig.set_size_inches(10, 6)
        if save_path:
            plt.savefig(save_path, bbox_inches='tight', pad_inches=0.1)
        else:
            plt.show()
        plt.close()

    @staticmethod
    def draw_release_date(data_list, save_path=None):
        """
        绘制发布日期
        """
        labels, counts = np.unique(np.array(data_list), return_counts=True)

        labels_str = []
        for vl in labels:
            label = f"[{vl},{vl+5})"
            labels_str.append(label)
        labels_str.pop(-1)
        labels_str.append(f">={labels[-1]}")

        # 颜色设置
        graph = plt.bar(labels_str, counts, align='center', edgecolor='black')
        plt.gca().set_xticks(labels_str)

        # 绘制百分比
        count_sum = sum(counts)
        percentage_list = []
        for count in counts:
            pct = (count / count_sum) * 100
            percentage_list.append(round(pct, 2))
        i = 0
        max_height = max([p.get_height() for p in graph])
        for p in graph:
            width = p.get_width()
            height = p.get_height()
            x, y = p.get_xy()
            plt.text(x + width / 2,
                     y + height + max_height*0.01,
                     str(percentage_list[i]) + '%',
                     size=8,
                     ha='center',
                     weight='bold')
            i += 1

        # label设置
        plt.xlabel("Release Date")
        plt.ylabel("Frequency")

        # 尺寸以及存储
        fig = plt.gcf()
        fig.set_size_inches(12, 6)
        if save_path:
            plt.savefig(save_path, bbox_inches='tight', pad_inches=0.1)
        else:
            plt.show()
        plt.close()

    @staticmethod
    def draw_seq_len(data_list, save_path=None):
        """
        绘制序列长度
        :param data_list: 序列数据集
        :param save_path: 图像存储
        :return: None
        """
        labels, counts = np.unique(np.array(data_list), return_counts=True)
        labels_str = []
        for vl in labels:
            if vl == -1:
                label = "empty"
            else:
                label = f"[{vl},{vl+200})"
            labels_str.append(label)
        labels_str[-1] = f">{labels[-1]}"
        labels_str[0] = f"20~100"

        counts = list(counts)

        # label设置
        plt.xlabel("Seq. Len.")
        plt.ylabel("Frequency")

        # 颜色设置
        cmap = plt.get_cmap('jet')
        short, normal, long, v_long = cmap(0.2), cmap(0.4), cmap(0.6), cmap(0.8)
        color = [short, normal, normal, long, long, v_long, v_long, v_long, v_long, v_long, v_long]
        graph = plt.bar(labels_str, counts, align='center', color=color, edgecolor='black')
        plt.gca().set_xticks(labels_str)

        handles = [Rectangle((0, 0), 1, 1, color=c, ec="k") for c in [short, normal, long, v_long]]
        color_labels = ["short", "normal", "long", "very long"]
        plt.legend(handles, color_labels)

        # 绘制百分比
        count_sum = sum(counts)
        percentage_list = []
        for count in counts:
            pct = (count / count_sum) * 100
            percentage_list.append(round(pct, 2))
        i = 0
        max_height = max([p.get_height() for p in graph])
        for p in graph:
            width = p.get_width()
            height = p.get_height()
            x, y = p.get_xy()
            plt.text(x + width / 2,
                     y + height + max_height*0.01,
                     str(percentage_list[i]) + '%',
                     size=8,
                     ha='center',
                     weight='bold')
            i += 1

        # 尺寸以及存储
        fig = plt.gcf()
        fig.set_size_inches(16, 6)
        if save_path:
            plt.savefig(save_path, bbox_inches='tight', pad_inches=0.1)
        else:
            plt.show()
        plt.close()

    @staticmethod
    def draw_norm_bars(data_list, x_label, figure_size, save_path=None):
        """
        绘制通用的柱状图
        """
        labels, counts = np.unique(np.array(data_list), return_counts=True)
        counts, labels = sort_two_list(counts, labels)

        # 颜色设置
        graph = plt.bar(labels, counts, align='center', edgecolor='black')
        plt.gca().set_xticks(labels)

        # 绘制百分比
        count_sum = sum(counts)
        percentage_list = []
        for count in counts:
            pct = (count / count_sum) * 100
            percentage_list.append(round(pct, 2))
        i = 0
        max_height = max([p.get_height() for p in graph])
        for p in graph:
            width = p.get_width()
            height = p.get_height()
            x, y = p.get_xy()
            plt.text(x + width / 2,
                     y + height + max_height*0.01,
                     str(percentage_list[i]) + '%',
                     size=8,
                     ha='center',
                     weight='bold')
            i += 1

        # label设置
        plt.xlabel(x_label)
        plt.ylabel("Frequency")

        # 尺寸以及存储
        fig = plt.gcf()
        fig.set_size_inches(*figure_size)
        if save_path:
            plt.savefig(save_path, bbox_inches='tight', pad_inches=0.1)
        else:
            plt.show()
        plt.close()

    @staticmethod
    def show_value_counts(data_list):
        """
        显示数据统计量
        """
        labels, counts = np.unique(np.array(data_list), return_counts=True)
        label_res_str = ""
        for label, count in zip(labels, counts):
            label_res_str += f"{label}: {count}, "
        label_res_str = label_res_str[:-2]
        print(f"[Info] value_counts: {label_res_str}, sum: {sum(counts)}")

    def process_resolution(self, df, output_dir):
        """
        统计分辨率
        """
        mkdir_if_not_exist(output_dir)
        df_resolution_unique = df["resolution"].unique()
        df_resolution_unique = sorted(df_resolution_unique)
        print(f"[Info] resolution range: [{df_resolution_unique[0]},{df_resolution_unique[-1]}]")
        df_resolution = df["resolution"].fillna(-1).astype(int)
        df_resolution[df_resolution >= 10] = 10
        self.show_value_counts(df_resolution)
        self.draw_resolution(df_resolution, os.path.join(output_dir, "resolution.png"))

    def process_release_date(self, df, output_dir):
        """
        统计发布日期
        """
        mkdir_if_not_exist(output_dir)
        df_release_date = df["release_date"].unique()
        df_release_date = sorted(df_release_date)
        print(f"[Info] release_date {df_release_date[0]} - {df_release_date[-1]}")
        df["release_date_year"] = df["release_date"].apply(lambda x: int(str(x).split("-")[0]) // 5 * 5)
        df_release_date_year = df["release_date_year"]
        self.show_value_counts(df_release_date_year)
        self.draw_release_date(df_release_date_year, os.path.join(output_dir, "release_date.png"))

    def process_seq_len(self, df, output_dir):
        """
        统计序列长度
        """
        def func(x):
            if not isinstance(x, str):
                return 0
            return sum([int(i) for i in str(x).split(",")])

        df["len"] = df["len"].apply(lambda x: func(x))
        df_len_unique = df["len"].unique()
        df_len_unique = sorted(df_len_unique)
        print(f"[Info] seq len range: {df_len_unique[0]} ~ {df_len_unique[-1]}")

        df_len_all = df.loc[df['len'] >= 20]
        print(f"[Info] len > 20: {len(df_len_all)}, len < 20: {len(df.loc[df['len'] < 20])}")

        df_len = df_len_all["len"].astype(int)
        df_len[df_len >= 2000] = 2000
        df_len = (df_len / 200).astype(int)
        df_len = (df_len * 200).astype(int)
        self.show_value_counts(df_len)
        self.draw_seq_len(df_len, os.path.join(output_dir, "seq_len.png"))

    def process_experiment_method(self, df, output_dir):
        """
        统计实验方法
        """
        experiment_method = df["experiment_method"]
        data_list = []
        for ex_item in experiment_method:
            items = ex_item.split(";")
            for item in items:
                method = item.strip()
                sub_names = method.split(" ")
                sub_m = "".join([i[0].upper() for i in sub_names])
                data_list.append(sub_m)
        self.show_value_counts(data_list)
        self.draw_norm_bars(
            data_list=data_list, x_label="Experiment Method", figure_size=(12, 6),
            save_path=os.path.join(output_dir, "experiment_method.png"))

    def process_chain_type(self, df, output_dir):
        """
        统计链的类型
        """
        df_chain_type = df["mol"]
        data_list = []
        chain_type_dict = collections.defaultdict(int)
        for ct_item in df_chain_type:
            if not isinstance(ct_item, str):
                data_list.append("none")
                chain_type_dict["none"] += 1
                continue
            ct_item = ast.literal_eval(ct_item)
            for item in ct_item:
                c_type = item.strip()
                chain_type_dict[c_type] += 1
                data_list.append(c_type)
        print(f"[Info] chain_type: {chain_type_dict}")
        self.draw_norm_bars(
            data_list=data_list, x_label="Chain Type", figure_size=(8, 6),
            save_path=os.path.join(output_dir, "chain_type.png"))

    def process_pdb_name(self, df, output_dir):
        """
        统计 PDB 名称
        """
        df_name = df["name"]
        name_dict = collections.defaultdict(int)
        for item_str in df_name:
            if not isinstance(item_str, str):
                name_dict["none"] += 1
                continue
            items = item_str.split(" ")
            for item in items:
                name = item.strip().lower()
                if not name:
                    continue
                if name in ["subunit", "protein", "chain", "dna", "factor",
                            "alpha", "family", "light", "heavy", "class",
                            "putative", "uncharacterized", "domain", "domain-containing", "member",
                            "hypothetical", "channel"]:
                    continue
                if len(name) <= 4:
                    continue
                name_dict[name] += 1
        name_dict_data = sort_dict_by_value(name_dict)
        data_list = []
        for item in name_dict_data[:10]:
            for i in range(item[1]):
                data_list.append(item[0])

        self.show_value_counts(data_list)
        self.draw_norm_bars(
            data_list=data_list, x_label="PDB Name", figure_size=(18, 6),
            save_path=os.path.join(output_dir, "pdb_name.png"))

    def process_pdb_type(self, df, output_dir):
        """
        统计 PDB 的类型，主要是 Monomer 与 Multimer，自定义
        """
        data_list = list(df["pdb_type"])
        self.show_value_counts(data_list)
        self.draw_norm_bars(
            data_list=data_list, x_label="PDB Type", figure_size=(18, 6),
            save_path=os.path.join(output_dir, "pdb_type.png"))

    def process_chain_num(self, df, output_dir):
        """
        统计链数
        """
        num_chain_list = list(df["num_chain"])
        num_protein_chain_list = list(df["num_protein_chain"])
        data_list = []
        for num1, num2 in zip(num_chain_list, num_protein_chain_list):
            if num1 != num2:
                continue
            if num2 > 1:
                data_list.append("multimer")
            elif num2 == 1:
                data_list.append("monomer")
        self.show_value_counts(data_list)
        self.draw_norm_bars(
            data_list=data_list, x_label="Chain Num", figure_size=(6, 6),
            save_path=os.path.join(output_dir, "chain_num.png"))

    @staticmethod
    def read_ent_gz(fpath):
        """
        读取 ent gz 文件
        """
        with gzip.open(fpath, 'rt', encoding='utf-8') as f:
            pdb_str = f.read()
        pdb_fh = io.StringIO(pdb_str)
        parser = PDBParser(QUIET=True)
        structure = parser.get_structure(None, pdb_fh)
        model = list(structure.get_models())[0]
        # header = structure.header
        chain_ids = []
        for chain in model:
            chain_ids.append(chain.id)
        print(f"[Info] chain_id: {chain_ids}")
        # ...

    def process_profiling(self, csv_path, output_dir):
        """
        处理数据库文件
        """
        assert os.path.isfile(csv_path)
        np.random.seed(42)
        print(f"[Info] csv文件: {csv_path}")
        df = pd.read_csv(csv_path)
        print(df.info())
        df_pdb = df["pdb_id"].unique()
        rand_idx = np.random.randint(0, len(df_pdb))
        print(f"[Info] pdb num: {len(df_pdb)}, {df_pdb[rand_idx]}")
        print(f"[Info] chain id: {df['chain_id'][rand_idx]}")
        print(f"[Info] file path: {df['filepath'][rand_idx]}")

        # --------------- 测试 PDB 文件 --------------- #
        pdb_path = os.path.join(ROOT_DIR, "data", "pdb8etv.ent.gz")
        self.read_ent_gz(pdb_path)
        pdb_path = os.path.join(ROOT_DIR, "data", "pdb8etv.pdb")
        seq_str, n_chains, chain_dict = get_seq_from_pdb(pdb_path)
        print(f"[Info] protein chain ids: {chain_dict.keys()}")
        # --------------- 测试 PDB 文件 --------------- #

        seq = df["seq"][rand_idx]
        print(f"[Info] seq: {seq}")  # 序列
        seq_list = seq.split(",")
        true_seq_list = list(chain_dict.values())
        n_chain = len(true_seq_list)
        assert seq_list[0] == true_seq_list[0] and seq_list[n_chain - 1] == true_seq_list[n_chain - 1]

        seq_len = df["len"][rand_idx]
        print(f"[Info] len: {seq_len}")  # 序列长度

        max_continuous_missing_res_len = df["max_continuous_missing_res_len"][rand_idx]
        print(f"[Info] max_continuous_missing_res_len: {max_continuous_missing_res_len}")

        experiment_method = df["experiment_method"][rand_idx]
        print(f"[Info] experiment_method: {experiment_method}")  # 序列长度

        chain_names = df["chain"][rand_idx]
        print(f"[Info] chain: {chain_names}")
        mol = df["mol"][rand_idx]
        print(f"[Info] mol: {mol}")

        seq_right = df["seq_right"][rand_idx]
        print(f"[Info] seq_right: {seq_right}")  # 序列

        name = df["name"][rand_idx]
        print(f"[Info] name: {name}")

        pdb_type = df["pdb_type"][rand_idx]
        print(f"[Info] pdb_type: {pdb_type}")

        num_chain = df["num_chain"][rand_idx]
        num_protein_chain = df["num_protein_chain"][rand_idx]
        print(f"[Info] num_chain: {num_chain}, num_protein_chain: {num_protein_chain}")

        self.process_release_date(df, output_dir)   # 处理发布日期
        self.process_resolution(df, output_dir)     # 处理分辨率
        self.process_seq_len(df, output_dir)        # 处理序列长度
        self.process_experiment_method(df, output_dir)  # 实验方法
        self.process_chain_type(df, output_dir)  # 实验方法
        self.process_pdb_name(df, output_dir)  # PDB Name
        self.process_pdb_type(df, output_dir)  # PDB Type
        self.process_chain_num(df, output_dir)  # 判断 Monomer 或者 Multimer


def main():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "-i",
        "--input-file",
        help="the input file of pdb database profile.",
        type=Path,
        required=True,
    )
    parser.add_argument(
        "-o",
        "--output-dir",
        help="the output dir of charts.",
        type=Path,
        required=True
    )
    # rcsb_csv_path = os.path.join(ROOT_DIR, "data", "pdb_base_info_202308.csv")
    # output_dir = os.path.join(DATA_DIR, "res")

    args = parser.parse_args()

    input_file = str(args.input_file)
    output_dir = str(args.output_dir)
    mkdir_if_not_exist(output_dir)
    assert os.path.isfile(input_file) and os.path.isdir(output_dir)

    rp = RcsbProcessor()
    rp.process_profiling(input_file, output_dir)
    print("[Info] 全部处理完成! ")


if __name__ == '__main__':
    main()

输出日志：

[Info] csv文件: data/pdb_base_info_202308.csv
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 203657 entries, 0 to 203656
Data columns (total 17 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   Unnamed: 0                      203657 non-null  int64  
 1   pdb_id                          203657 non-null  object 
 2   chain_id                        203574 non-null  object 
 3   resolution                      189467 non-null  float64
 4   release_date                    203657 non-null  object 
 5   seq                             203574 non-null  object 
 6   len                             203574 non-null  object 
 7   max_continuous_missing_res_len  203574 non-null  object 
 8   experiment_method               203657 non-null  object 
 9   chain                           203631 non-null  object 
 10  mol                             203631 non-null  object 
 11  seq_right                       203631 non-null  object 
 12  name                            203631 non-null  object 
 13  pdb_type                        203631 non-null  object 
 14  num_chain                       203631 non-null  float64
 15  num_protein_chain               203631 non-null  float64
 16  filepath                        203657 non-null  object 
dtypes: float64(3), int64(1), object(13)
memory usage: 26.4+ MB
[Info] pdb num: 203657, 8etv
[Info] chain id: A,B,C,D,E,F,I,J
[Info] file path: /nfs_beijing_ai/pdb_origin_data/v2023.08/structures/et/pdb8etv.ent.gz
[Info] chain_id: ['A', 'B', 'C', 'D', 'E', 'F', 'I', 'J']
[Info] protein chain ids: dict_keys(['A', 'B', 'C', 'D', 'E', 'F'])
[Info] seq: LLIRKLPFQRLVREIAQDFKTDLRFQSSAVMALQEASEAYLVALFEDTNLAAIHAKRVTIMPKDIQLARRIRGER,RDNIQGITKPAIRRLARRGGVKRISGLIYEETRGVLKVFLENVIRDAVTYTEHAKRKTVTAMDVVYALKRQG,KTRSSRAGLQFPVGRVHRLLRKGNYAERVGAGAPVYLAAVLEYLTAEILELAGNAARDNKKTRIIPRHLQLAVRNDEELNKLLGRVTIAQGGVLPNIQSVLLPKK,KTRKESYAIYVYKVLKQVHPDTGISSKAMSIMNSFVNDVFERIAGEASRLAHYNKRSTITSREIQTAVRLLLPGELAKHAVSEGTKAVTKYTSAK,PHRYRPGTVALREIRRYQKSTELLIRKLPFQRLVREIAQDFKTDLRFQSSAVMALQEASEAYLVALFEDTNLAAIHAKRVTIMPKDIQLARRIRGERA,DNIQGITKPAIRRLARRGGVKRISGLIYEETRGVLKVFLENVIRDAVTYTEHAKRKTVTAMDVVYALKRQGRTLYGFGG,XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX,XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
[Info] len: 75,72,105,95,98,79,110,110
[Info] max_continuous_missing_res_len: 0,0,0,0,0,0,0,0
[Info] experiment_method: electron microscopy
[Info] chain: ['J', 'I', 'F', 'E', 'D', 'C', 'B', 'A']
[Info] mol: ['na', 'na', 'protein', 'protein', 'protein', 'protein', 'protein', 'protein']
[Info] seq_right: ['GGGAGTAATCCCCTTGGCGGTTAAAACGCGGGGGACAGCGCGTACGTGCGTTTAAGCGGTGCTAGAGCTGTCTACGACCAATTGAGCGGCCTCGGCACCGGGATTCTCCA', 'TGGAGAATCCCGGTGCCGAGGCCGCTCAATTGGTCGTAGACAGCTCTAGCACCGCTTAAACGCACGTACGCGCTGTCCCCCGCGTTTTAACCGCCAAGGGGATTACTCCC', 'DNIQGITKPAIRRLARRGGVKRISGLIYEETRGVLKVFLENVIRDAVTYTEHAKRKTVTAMDVVYALKRQGRTLYGFGG', 'PHRYRPGTVALREIRRYQKSTELLIRKLPFQRLVREIAQDFKTDLRFQSSAVMALQEASEAYLVALFEDTNLAAIHAKRVTIMPKDIQLARRIRGERA', 'KTRKESYAIYVYKVLKQVHPDTGISSKAMSIMNSFVNDVFERIAGEASRLAHYNKRSTITSREIQTAVRLLLPGELAKHAVSEGTKAVTKYTSAK', 'KTRSSRAGLQFPVGRVHRLLRKGNYAERVGAGAPVYLAAVLEYLTAEILELAGNAARDNKKTRIIPRHLQLAVRNDEELNKLLGRVTIAQGGVLPNIQSVLLPKK', 'RDNIQGITKPAIRRLARRGGVKRISGLIYEETRGVLKVFLENVIRDAVTYTEHAKRKTVTAMDVVYALKRQG', 'LLIRKLPFQRLVREIAQDFKTDLRFQSSAVMALQEASEAYLVALFEDTNLAAIHAKRVTIMPKDIQLARRIRGER']
[Info] name:  Histone H3.3C 
[Info] pdb_type: mul_protein_multimer
[Info] num_chain: 8.0, num_protein_chain: 6.0
[Info] release_date 1976-05-19 - 2023-07-26
[Info] value_counts: 1975: 53, 1980: 122, 1985: 190, 1990: 2506, 1995: 8087, 2000: 17725, 2005: 33063, 2010: 43030, 2015: 52988, 2020: 45893, sum: 203657
[Info] resolution range: [0.48,70.0]
[Info] value_counts: -1: 14190, 0: 973, 1: 77252, 2: 86538, 3: 19727, 4: 2758, 5: 437, 6: 463, 7: 355, 8: 232, 9: 165, 10: 567, sum: 203657
[Info] seq len range: 0 ~ 19350
[Info] len > 20: 201007, len < 20: 2650
[Info] value_counts: 0: 39201, 200: 55577, 400: 31714, 600: 18964, 800: 13927, 1000: 8989, 1200: 6316, 1400: 4838, 1600: 3468, 1800: 2844, 2000: 15169, sum: 201007
[Info] value_counts: E: 8, EC: 220, EM: 13896, FD: 39, FT: 1, IS: 4, ND: 212, PD: 21, SN: 14117, SS: 78, TM: 7, XD: 175274, sum: 203877
[Info] chain_type: defaultdict(<class 'int'>, {'na': 36136, 'protein': 599619, 'none': 26})
[Info] value_counts: cytochrome: 2325, dehydrogenase: 3616, glycoprotein: 1978, kinase: 9311, mitochondrial: 1965, polymerase: 3376, protease: 2234, receptor: 6952, reductase: 3746, synthase: 5246, sum: 40749
[Info] value_counts: full_protein_multimer: 115451, mul_protein_multimer: 6729, nan: 26, non_protein_monomer: 1547, non_protein_multimer: 2774, one_protein_multimer: 3856, protein_monomer: 73274, sum: 203657
[Info] value_counts: monomer: 73274, multimer: 115451, sum: 188725
[Info] 全部处理完成!

其他相关文章：

PDB Database - RCSB PDB 数据集的多维度分析与整理
PDB Database - AlphaFold DB PDB 数据集的多维度分析与整理
PDB Database - ESM Atlas PDB 数据集的多维度分析与整理

参考：

Applying Lambda functions to Pandas Dataframe
Python | Convert a string representation of list into list

你可能感兴趣的:(AI,for,Biotech,PDB,RCSB,Structure,Protein)

5（五）Jmeter监控服务器性能夜晚打字声工具 jmeter 服务器运维
下载安装插件需要安装插件：ServerAgent-2.2.1（链接：https://pan.baidu.com/s/1Tr63aKbzLuldBoRB5IR7Dg提取码：nyfk）JMeterPlugins-Standard-1.4.0（链接：https://pan.baidu.com/s/13af9OS4JDagg4RFhqxVVbg提取码：51ev）JMeterPlugins-Extras-1
k8s学习笔记（3）--- kubernetes核心技术概念梦谜 k8s基础知识 k8基本核心概念
kubernetes核心技术概念1.容器（Container）2.API对象3.集群（Cluster）4.Master5.Node6.Pod7.复制控制器（ReplicationController，RC）8.副本集（ReplicaSet，RS）9.部署(Deployment)10.服务（Service）11.任务（Job）12.定时任务（CronJob）13.后台支撑服务集（DaemonSet）
从 0 到万粉的 AI 公众号博主教程 hikktn 从0到万粉的AI公众号博主教程公众号
《从0到万粉的AI公众号博主教程》专栏简介作为一名深耕品牌领域二十余载的资深专家，我深刻感受到当下商业环境的剧变。去年，我开始探索AI技术在内容创作中的应用，短短4个月内，我的公众号突破万粉，这让我意识到AI时代带来的巨大机遇。在与众多职场人士交流的过程中，我发现很多人都面临着相似的困境：想要利用AI进行个人品牌升级，但不知如何入门？拥有专业积累，但难以转化为个人IP？尝试做自媒体，但始终无法突破
CAD二次开发之图纸特性字段AcDbDatabaseSummaryInfo 我的sun&shine CAD二次开发开发语言 c++
一、CAD接口类AcDbDatabaseSummaryInfo接口函数acdbGetSummaryInfo(pDb,pSum);addCustomSummaryInfo(key,value);acdbPutSummaryInfo(pSum);二、使用方法1.实现功能：在一张图纸中定义好字段，插入到另外一张图中，对应的字段会更新值。原图纸需要将对应位置写入字段的表达式例如%%%%%%%%新图纸在创建
如何用Function Calling解锁OpenAI的「真实世界」交互能力？（附Node.js 实战） hongkid AI编程
一、FunctionCalling：大模型的「手脚延伸器」1.1核心定义FunctionCalling是OpenAI在2023年6月13日推出的革命性功能（对应模型版本gpt-3.5-turbo-0613和gpt-4-0613），允许开发者通过自然语言指令触发预定义函数，实现大模型与现实世界系统的交互。如同给语言模型安装「手脚」，使其不仅能思考，还能执行具体操作。openai官方说明：https:
动态规划算法--找零方式大王算法数据结构和算法实战宝典算法动态规划 c++
一、问题介绍给定数组arr，arr中所有的值都为正数且不重复。每个值代表一种面值的货币，每种面值的货币可以使用任意张，再给定一个整数aim，代表要找的钱数，求所有的找零方法有多少种。二、算法思路枚举法，列出使用某张钞票n次的所有可能。1、暴力递归intprocess1(intn,intarr[],intindex,intrest){if(index==n)returnrest==0?1:0;int
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
AI学习资料|3月最新版可下载 2501_91122183 人工智能学习
AI学习资料：https://pan.quark.cn/s/d7452a3222d8都说AI是2025年新的风口，都想成为站在风口上的猪，可如何学习AI却成了拦住大多数人的第一道门槛。其实，学习AI很简单，你缺的只是一个信息差！这段时间，清华北大出品AI教学资料，火遍全网，从基础知识到实操应用，各种应用场景和进阶玩法讲解。即便是零基础新人也能轻松上手，从入门到精通。资料我已经帮大家整理好了，放在最
AI学习手册合集｜零基础入门宝典 2501_91234994 pdf
DeepSsek资料包：https://pan.quark.cn/s/2672e0be6178现在AI持续火热，越来越多的人开始使用AI辅助工作，大大提高了生产效率。甚至很多自由职业者，通过学习DeepSeek，在互联网淘金日入过万，登上热搜。普通人如何高效入门AI?清华团队亲自下场教学！自从第一弹AI学习手册《DeepSeek入门到精通》火了后，清华大学接连发布多版AI进阶资料，即便零基础也能轻
简单理解机器学习中top_k、top_p、temperature三个参数的作用无级程序员机器学习人工智能
在机器学习中，top_k、top_p和temperature是用于控制生成模型（如语言模型）输出质量的参数，尤其在文本生成任务中常见。然而，网上文章很多很全，但大多晦涩难懂，今天我们来用最简单的语言谈谈它们的具体作用：1.点菜式筛选法：top_k参数英文全称：top-k中文名称：前k个具体意义：top_k参数就像是你在餐厅点菜时，服务员只给你推荐菜单上前k名的招牌菜。在AI文本生成中，top_k参
openai-agents 中custom example agent ZHOU_CAMP oi_agents 人工智能
代码pipshowopenai-agentsName:openai-agentsVersion:0.0.4Summary:OpenAIAgentsSDKHome-page:https://github.com/openai/openai-agents-pythonAuthor:Author-email:OpenAILicense-Expression:MITLocation:d:\soft\ana
Python 向量检索库Faiss使用懒大王爱吃狼 python python 开发语言自动化 Python基础 python教程
Faiss（FacebookAISimilaritySearch）是一个由FacebookAIResearch开发的库，它专门用于高效地搜索和聚类大量向量。Faiss能够在几毫秒内搜索数亿个向量，这使得它非常适合于实现近似最近邻（ANN）搜索，这在许多应用中都非常有用，比如图像检索、推荐系统和自然语言处理。以下是如何使用Faiss的基本步骤和示例：1.安装Faiss首先，你需要安装Faiss。你可
云原生周刊丨CIO 洞察：Kubernetes 解锁 AI 新纪元 KubeSphere 云原生云原生 kubernetes 人工智能
开源项目推荐DRANETDRANET是由谷歌开发的K8s网络驱动程序，利用K8s的动态资源分配（DRA）功能，为高吞吐量和低延迟应用提供高性能网络支持。它旨在优化资源管理，确保K8s集群中的网络资源能够按需高效分配。DRANET采用Apache-2.0开源许可，鼓励社区贡献与扩展，是云原生环境下提升网络性能的创新解决方案。LazyjournalLazyjournal是一个用Go语言编写的终端用户界
深入解析深度学习中的过拟合与欠拟合诊断、解决与工程实践古月居GYH 深度学习人工智能
一、引言：模型泛化能力的核心挑战在深度学习模型开发中，欠拟合与过拟合是影响泛化能力的两个核心矛盾。据GoogleBrain研究统计，工业级深度学习项目中有63%的失败案例与这两个问题直接相关。本文将从基础概念到工程实践，系统解析其本质特征、诊断方法及解决方案，并辅以可复现的代码案例。二、核心概念与通熟易懂解释简单而言，欠拟合是指模型不能在训练集上获得足够低的误差。换句换说，就是模型复杂度低，模型在
【纯职业小组——思维】 Kent_J_Truman 蓝桥杯算法
题目思路第十五届蓝桥杯省赛PythonB组H题【纯职业小组】题解（AC）_蓝桥杯纯职业小组-CSDN博客代码#includeusingnamespacestd;usingll=longlong;intmain(){ios::sync_with_stdio(0);cin.tie(0);intt;cin>>t;while(t--){intn;llk;cin>>n>>k;unordered_maph;f
使用Ollama部署开源大模型好好学习 666 开源
Ollama是一个简明易用的本地大模型运行框架,可以一键启动启动并运行Llama3、Mistral、Gemma和其他大型语言模型。安装MacOS，Windows用户直接在官网下载页下载安装包即可。Linux系统运行如下命令安装curl-fsSLhttps://ollama.com/install.sh|sh使用Usage:ollama[flags]ollama[command]AvailableC
纯「牛马」的逻辑玩儿不转了！求职面试职场创业创业者
又在微信群里被「声讨」了，距离上次这等待遇也过去一段时间了，让人有点「怀念」呢～（别瞎想，我不是字母！）我想此刻趁这心情还未消散殆尽，把近期一直想说但没说的话先说一遍，也暂时不管它是否严谨了，看完想吐槽就尽管来吧！麻木的纯「牛马」们在2022年11月末，ChatGPT的横空出世拉开了AI时代的帷幕，迄今为止两年多过去了，相关基础设施和上层应用已经涌现并迭代了很多版本。在这期间，很多人都至少听说过几
01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员量子位
一个超越DeepSeekGRPO的关键RL算法出现了！用上该算法后，Qwen2.5-32B模型只经过RL训练，不引入蒸馏等其他技术，在AIME2024基准上拿下50分，优于相同setting下使用GRPO算法的DeepSeek-R1-Zero-Qwen，且DAPO使用的训练步数还减少了50%。这个算法名为DAPO，字节、清华AIR联合实验室SIALab出品，现已开源。论文通讯作者和开源项目负责人都
重塑家用机器人大脑！云鲸旗舰机型逍遥002搭载旭日5正式开售量子位
2025年3月20日，全球家庭清洁机器人明星品牌云鲸智能携最新一代旗舰机型——云鲸逍遥002，亮相中国家电及消费电子博览会（AWE）。该产品以”AI智能深度清洁“为核心，基于地瓜机器人全新一代旭日5智能计算芯片，推出首创的双目AI视觉感知自适应系统，以10TOPs的端侧算力与180万点/秒的3D稠密深度点云生成能力，为家庭场景带来毫米级障碍测距精度与语义级环境理解，是家庭清洁机器人智能化演进的又一
量子位招聘 | DeepSeek帮我们改的招聘启事量子位
关注前沿科技量子位未来同事，你好~这是一则招聘帖。如果你与我们志同道合，对AI大模型、具身智能、终端硬件、AI新媒体编辑感兴趣，我们正在招聘这些领域的原创作者。以下岗位均为全职，工作地点：北京中关村。岗位面向：社招、应届毕业生，所有岗位均可实习——表现出色均可转正加分项：乐于探索AI新工具，善用AI新工具；拥有解读论文的能力，能深入浅出讲解原理；有写代码能力；量子位长期读者。加入我们，你可以获得：
【2017-2025】Adobe Photoshop【PS】软件下载安装 adkjcbqvblq adobe photoshop ui
获取安装包https://pan.baidu.com/s/1NLUthiAyC2chlSEwbf1LRQ?pwd=4ppq1.起源与发展1.1初试啼声AdobePhotoshop的历史可以追溯到1987年，当时由托马斯·诺尔（ThomasKnoll）和他的兄弟约翰·诺尔（JohnKnoll）共同开发。托马斯在父亲的帮助下，开始了图像处理的编程尝试。他们的初始产品是一个用于Mac系统的程序，最初名为
AI巨浪中的安全之舵：天空卫士助力人工智能落地远航天空卫士人工智能安全数据安全网络安全大数据
"AI时代的安全战场，不在云端在本地；数据治理的胜负手，不在防御在认知。"近期，众多企业纷纷接入DeepSeek大模型，迅速推动了大型模型应用的广泛铺开。无论是在制造业、金融业，还是在医疗、教育等领域，DeepSeek大模型的应用都如火如荼，遍地开花，展现出了其广泛的应用前景和巨大的商业价值。顺势而来的是DeepSeek一体机以"低成本、高算力、私有化部署"的优势席卷企业市场。因为DeepSeek
如何使用YOLOv8在AI-TOD数据集上进行遥感目标检测，从安装依赖项、准备数据集、配置YOLOv8、训练和评估模型以及构建GUI应用程序展示检测计算机C9硕士_算法工程师人工智能 YOLO 目标检测遥感
如何使用YOLOv8在AI-TOD数据集上进行遥感目标检测，从安装依赖项、准备数据集、配置YOLOv8、训练和评估模型以及构建GUI应用程序展示检测文章目录1.安装依赖2.数据准备3.配置YOLOv83.1加载预训练模型或自定义模型4.训练模型5.评估模型6.构建GUI应用程序（可选）以下文字及代码仅供参考。遥感目标检测，AI-TOD数据集aitod，训练集11214张，测试集集14018，验证集
蓝桥杯---纯职业小组（c语言）写代码的熊萌新蓝桥杯 c语言哈希算法
问题描述在蓝桥王国，国王统治着一支由n个小队组成的强大军队。每个小队都由相同职业的士兵组成。具体地，第i个小队包含了bi名职业为ai的士兵。近日，国王计划在王宫广场举行一场盛大的士兵检阅仪式，以庆祝王国的繁荣昌盛。然而，在士兵们入场的过程中，一场突如其来的风暴打乱了他们的行列，使得不同小队的士兵混杂在一起，次序乱成一团，尽管国王无法知道每个士兵的具体职业，但为了确保仪式能顺利进行，国王打算从这些混
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南 m0_57781768 python langchain 搜索引擎
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南引言在人工智能和自然语言处理领域，利用大语言模型（LLM）构建复杂的问答（Q&A）系统是一个重要应用。检索增强生成（RetrievalAugmentedGeneration，RAG）是一种技术，通过将模型知识与额外数据结合来增强LLM的能力，使其能够回答关于特定源信息的问题。这些应用不仅限于公开数据，还可以处理私有数据和模
学习111 麋鹿叔叔学习
项目名称项目简介主要功能技术原理GitHub地址browser-use智能浏览器工具，让AI像人类一样操作浏览器，实现网页自动化网页浏览与操作、多标签页管理、视觉识别与内容提取、操作记录与重复执行、自定义动作支持、主流LLM模型支持为大语言模型服务的创新Python工具库GitHubEkoFellouAI推出的生产就绪型JavaScript框架，基于自然语言驱动创建智能代理支持所有平台，提供统一便
不用再当“技术宅“！这个AI神器让我5分钟变身人工智能达人阳光永恒736 AI工具人工智能 deepseek 一键包本地部署 AI资源
最近我在朋友圈刷到好多朋友都在玩AI画图、AI写诗，看得我心痒痒。可每次想自己试试，打开教程就被满屏的代码吓退——"Python环境配置"、"CUDA驱动安装"这些词比数学作业还让人头疼。直到我发现了一个叫DeepSeek本地部署一键包的神器，我的AI探索之旅终于变得像搭乐高一样简单！夸克网盘分享一、原来AI离我们这么近上周三放学路上，我看见隔壁班的小美用AI给自己照片生成古风造型，这让我突然意识
使用LangChain实现基于LLM和RAG的PDF问答系统张同学吧 langchain 语言模型
目录前言一.大语言模型(LLM)1.什么是LLM？2.LLM的能力与特点二、增强检索生成(RAG)三.什么是LangChain？1.LangChain的核心功能2.LangChain的优势3.LangChain的应用场景4.总结四.使用LangChain实现基于PDF的问答系统前言本文将介绍LLM和RAG的基本概念，并通过一个实际的代码示例，展示如何使用LangChain构建一个基于PDF文档的问
python将网银web工程转换成客户端electron工程案例银行金融科技人工智能机器学习 DeepSeek electron
以下是一个将网银Web工程转换为Electron客户端的技术方案，结合Python和Electron实现桌面端增强功能：bash#项目结构webank-electron/├──main/#Electron主进程代码│├──main.js│└──python_server.py├──renderer/#网页渲染进程│└──webank-web/#原始网银Web工程├──package.json└──
OpenAI Deep Research 要 200 美元/月？试试这 4 款免费开源平替！ surfirst LLM 人工智能开源 DeepResearch
引言随着AI研究代理（AIresearchagents）的兴起，越来越多的工具能够帮助用户快速获取信息、整理研究报告。OpenAI最近推出的DeepResearch便是一个典型代表，它能在几十分钟内完成原本需要人类数小时的多步骤研究任务。然而，DeepResearch并非唯一的选择，开源社区也提供了多个优秀的替代方案。如果你希望使用开源方案、获得更强的可定制性，或者避免依赖OpenAI，那么本文介
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite