SpikeKing

AI制药 - AlphaFold DB PDB 数据集的多维度分析与整理 (2)

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://blog.csdn.net/caroline_wendy/article/details/130118339

数据集：AlphaFold Protein Structure Database
下载地址：https://alphafold.ebi.ac.uk/download

AlphaFold DB 数据量，由最初214M，清洗高置信度为61M，再聚类为5M。

1. AlphaFold DB 官网

数据包含2个部分：

Compressed prediction files
UniProt

1.1 Compressed prediction files

The AlphaFold DB website currently provides bulk downloads for the 48 organisms listed below, as well as the majority of Swiss-Prot.

AlphaFold DB 网站目前提供下列 48 种生物以及大部分 Swiss-Prot 的批量下载。
Swiss Institute of Bioinformatics，瑞士生物信息学研究所，Prot -> Protein

UniProtKB/Swiss-Prot is the expertly curated component of UniProtKB (produced by the UniProt consortium). It contains hundreds of thousands of protein descriptions, including function, domain structure, subcellular location, post-translational modifications and functionally characterized variants.
UniProtKB/Swiss-Prot 是 UniProtKB（由 UniProt 联盟制作）的专业策划组件，包含数十万种蛋白质描述，包括功能、域结构、亚细胞定位、翻译后修饰和功能特征变异。

结构包括 PDB 和 mmCIF 两种类型，数据集包括：

Compressed prediction files for model organism proteomes，模型生物蛋白质组 的压缩预测文件
Compressed prediction files for global health proteomes，全球健康蛋白质组 的压缩预测文件
Compressed prediction files for Swiss-Prot，Swiss-Prot 的压缩预测文件
MANE Select dataset，MANE 选择数据集，MANE，Matched Annotation (匹配标注) from NCBI and EMBL-EBI

NCBI，The National Center for Biotechnology Information，国家生物技术信息中心
EMBL-EBI，European Molecular Biology Laboratory - European Bioinformatics Institute，欧洲分子生物学实验室 - 欧洲生物信息学研究所

目前版本最近是v4，下载地址：https://ftp.ebi.ac.uk/pub/databases/alphafold/

1.2 UniProt

全量数据集：Full dataset download for AlphaFold Database - UniProt (214M)，即2.14亿

数据集说明：

全量数据共214M个样本，保存为 1015808 tar 文件，共23TB，解压后得到3*214M个gz文件，再次解压后得到214M个cif和418M个json
每个样本共包含三个文件（1个cif，两个json）
- model_v3.cif – contains the atomic coordinates for the predicted protein structure, along with some metadata. Useful references for this file format are the ModelCIF and PDBx/mmCIF project sites.
- confidence_v3.json – contains a confidence metric output by AlphaFold called pLDDT. This provides a number for each residue, indicating how confident AlphaFold is in the local surrounding structure. pLDDT ranges from 0 to 100, where 100 is most confident. This is also contained in the CIF file.
- predicted_aligned_error_v3.json – contains a confidence metric output by AlphaFold called PAE. This provides a number for every pair of residues, which is lower when AlphaFold is more confident in the relative position of the two residues. PAE is more suitable than pLDDT for judging confidence in relative domain placements.

1.3 单个结构

You can download a prediction for an individual UniProt accession by visiting the corresponding structure page.

您可以通过访问相应的结构页面，下载单个 UniProt 新增的预测。

预测的单体PDB结构，例如AF-F4HVG8-F1-model_v4.pdb：

Chloroplast sensor kinase, chloroplastic：叶绿体传感器激酶, 叶绿体

在AF2 PDB中，Temperature factor (B factor) 温度因子的位置，就是pLDDT的预测值，即

MODEL        1                                                                  
ATOM      1  N   MET A   1     -15.359  18.253 -11.695  1.00 27.33           N  
ATOM      2  CA  MET A   1     -15.812  17.432 -12.846  1.00 27.33           C  
ATOM      3  C   MET A   1     -15.487  15.976 -12.539  1.00 27.33           C  
ATOM      4  CB  MET A   1     -15.064  17.802 -14.142  1.00 27.33           C  
ATOM      5  O   MET A   1     -14.426  15.760 -11.977  1.00 27.33           O  
ATOM      6  CG  MET A   1     -15.223  19.246 -14.625  1.00 27.33           C  
ATOM      7  SD  MET A   1     -14.329  19.504 -16.180  1.00 27.33           S  
ATOM      8  CE  MET A   1     -14.334  21.313 -16.299  1.00 27.33           C  
ATOM      9  N   LEU A   2     -16.290  14.967 -12.875  1.00 26.17           N  
ATOM     10  CA  LEU A   2     -17.714  14.928 -13.250  1.00 26.17           C  
ATOM     11  C   LEU A   2     -18.221  13.489 -12.989  1.00 26.17           C  
ATOM     12  CB  LEU A   2     -17.913  15.315 -14.736  1.00 26.17           C  
ATOM     13  O   LEU A   2     -17.420  12.559 -12.940  1.00 26.17           O  
ATOM     14  CG  LEU A   2     -18.870  16.504 -14.945  1.00 26.17           C  
ATOM     15  CD1 LEU A   2     -18.802  16.990 -16.390  1.00 26.17           C  
ATOM     16  CD2 LEU A   2     -20.319  16.141 -14.614  1.00 26.17           C

相对于：

2. 数据清洗

清洗规则：

序列长度在 [100, 1000]
全局pLDDT在 [90, 100]，即 Model Confidence Very High，来自于官网。
与 RCSB数据集去重

遍历一次需要：7775s = 2.15h，样本数量61775031个，7.6G的路径文件，以前2个字母，建立子文件夹。

即数据量由 214M 降至 61M，即由2.14亿降低为6177万

计算PDB的序列长度和pLDDT的值，例如ff文件夹的fffffffb38338e27427f7fef20b3c53f_A.pdb

获取每个原子的pLDDT，参考：BioPython - Bio.PDB.PDBParser：

def get_plddt_from_pdb(self, pdb_path):
    p = Bio.PDB.PDBParser()
    structure = p.get_structure('', pdb_path)
    for a in structure.get_atoms():
        print(f"[Info] plddt: {a.get_bfactor()}")
        break

获取每个残基的pLDDT，进而计算PDB中残基pLDDT的均值，作为PDB的pLDDT：

def get_plddt_from_pdb(self, pdb_path):
    p = Bio.PDB.PDBParser()
    structure = p.get_structure('input', pdb_path)
    plddt_list = []
    for a in structure.get_residues():
        b = a.get_unpacked_list()
        if len(b) > 0:
            plddt_list.append(b[0].get_bfactor())
    plddt = np.average(np.array(plddt_list))
    plddt = round(plddt, 4)
    return plddt

3. 数据聚类

清洗规则：

使用mmseq2对6000万进行聚类
与v3数据集（plddt>=90的部分）合并，参考 https://ftp.ebi.ac.uk/pub/databases/alphafold/v3/

即由6177万，降低为5040445，即504万，再与v3数据集合并去重，增加至5334594，即533万。

目前版本最近是v4。

4. 信息提取

数据集日志：GitHub deepmind/alphafold - AlphaFold Protein Structure Database

v3版本：2022.7.24，数据路径：gs://public-datasets-deepmind-alphafold

v4版本（最新版本）：2022.11.1，数据路径：gs://public-datasets-deepmind-alphafold-v4

整理数据维度，包括：[“pdb”, “plddt”, “release_date”, “seq”, “len”]，即

pdb：pdb的名称
plddt：置信度
release_date：pdb数据库时间
seq：完整序列
len：长度

具体展示：

id,pdb,plddt,release_date,seq,len
14,9bdf658ff3393c8f5dfeff062ccdef4a_A,90.6749,2022-07-24,MTDSVLDVTADALEQAGAHPHRLVVRQHGQVVGRRRWAPWSPDVPNLAYSCSKTFTSAAVGIAVNRGAFGYDDTLADLWPQACTANTGPVAKSMTVRNALSMSTGHSPEQ,110
11,9bd4cb263bc3b48600fde987daf04fc0_A,93.4367,2022-07-24,MPYADQQAMYDHIDELSQYNAELKSLRSADRVAFRNKYSGQFSMSEIIRRSQIQLKNLHKQRYEVYSDPTLTARQQAVRALMIELNMKKVVDRFYREYREKVGE,104
22,abdda3248f2a38fce73462bd5fd59058_A,91.7146,2022-07-24,DALPTFPDADAFSCIERELGLPLESIFSLISPSPIAAASLGQVYKAQLRYSGQTVAVKVQRPNIEEAVGLDFYLLRNLGFLINKYVDIITSDVVALIDEFARRVYQELNYVQ,112
27,abdda9fde54bdab0eb6bcb447c45f5f0_A,92.8079,2022-07-24,MPAWNVKLTDKIERTSDIISFRFEQPEDLTYLPGQFFFVYIPAEAGGNMMHHFSFSSSPSEPFIEFTTRIRDSPFKKRLNQLEIGTTVEIASVSGQFTLTEEMKKVVFICGGIGITAARSNIKWIIDSHSHSIVDIILLYGNRNYNNIAFKDELEKFTE,159
7,9bd4c9785ede507733f3786f9d20f190_A,94.2027,2022-07-24,MREEVLAAVLAADKELSRDEPEVAANIGKQLEHMGLTTWSISVRRRIRDAIARLEPKHIIQTGSGIGHLSAWILDHFEGSNGLEKFQIVEEGNRFAVILTRLCQRYDSVPTSIKVGAPSLLTSELKAWQISKIGD,135

源码

本源码，也可以复用于其他只有PDB文件，没有PDB信息的数据集中。

#!/usr/bin/env python
# -- coding: utf-8 --
"""
Copyright (c) 2022. All rights reserved.
Created by C. L. Wang on 2023/4/12
"""
import os
import sys
from multiprocessing.pool import Pool
from time import time

import numpy as np
import pandas as pd
from Bio.Data.PDBData import protein_letters_3to1_extended as d3to1_ex
from Bio.PDB import PDBParser
from tqdm import tqdm

p = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
if p not in sys.path:
    sys.path.append(p)

from myutils.project_utils import write_list_to_file, mkdir_if_not_exist, traverse_dir_files_for_large, \
    traverse_dir_files, read_file
from root_dir import DATA_DIR


class AfdbProcessor(object):
    """
    AlphaFold DB 数据集整理和分析
    """
    def __init__(self):
        self.out_dir = os.path.join(DATA_DIR, "alphafold_db")
        mkdir_if_not_exist(self.out_dir)

        # 输入
        self.alphafold_dir = "[AlphaFold DB dir]"
        self.full_pdb_dir = os.path.join(self.alphafold_dir, "[PDB dir]")
        self.pdb_name_path = os.path.join(self.alphafold_dir, "cluster_5M_from_uniprot.txt")

        # 输出
        full_prefix = "alphafold_db_pdb_all"
        self.all_pdb_format = os.path.join(self.out_dir, f"{full_prefix}" + "_{}.txt")

        # 读取PDB
        paths_list = traverse_dir_files(self.out_dir)
        is_traverse = False
        for path in paths_list:
            base_name = os.path.basename(path)
            if full_prefix in base_name:
                is_traverse = True
                break
        if not is_traverse:
            self.init_full_paths()  # 初始化全部路径
        else:
            print("[Info] 已经初始化完成PDB全部路径!")

    def init_full_paths(self):
        print(f"[Info] 初始化路径开始!")
        s_time = time()
        print(f"[Info] 数据集路径: {self.full_pdb_dir}")
        paths_list = traverse_dir_files_for_large(self.full_pdb_dir, ext="pdb")
        all_pdb_path = self.all_pdb_format.format(len(paths_list))
        print(f"[Info] 输出路径: {self.full_pdb_dir}")
        write_list_to_file(all_pdb_path, paths_list)
        print(f"[Info] 写入完成! {all_pdb_path}, 耗时: {time()-s_time}")

    @staticmethod
    def get_plddt_and_seq_once(pdb_path):
        p = PDBParser(QUIET=True)
        structure = p.get_structure('input', pdb_path)
        plddt_list = []
        for a in structure.get_residues():
            b = a.get_unpacked_list()
            if len(b) > 0:
                plddt_list.append(b[0].get_bfactor())
        plddt = np.average(np.array(plddt_list))
        plddt = round(plddt, 4)

        def_ids = ['I', 'Q', 'R', 'L', 'M', 'A', 'V', 'B', 'E', 'D', 'S', 'C',
                   'K', 'Y', 'X', 'J', 'T', 'F', 'G', 'W', 'H', 'P', 'Z', 'N']

        d3to1 = d3to1_ex
        seq_str_list = []
        for model in structure:
            for c_id, chain in enumerate(model):
                seq = []
                for residue in chain:
                    if residue.resname in d3to1.keys():
                        a = d3to1[residue.resname]
                        if a in def_ids:
                            seq.append(a)
                        else:
                            raise Exception(f"alpha not in default: {a}")
                    elif residue.resname == "HOH":
                        continue
                if not seq:
                    continue
                seq_str = "".join(seq)
                seq_str_list.append(seq_str)
        seq_str = seq_str_list[0]

        return plddt, seq_str

    @staticmethod
    def parse_af_pdb(param):
        """
        解析 AF PDB 文件
        """
        pdb_path, idx = param
        pdb_name = os.path.basename(pdb_path).split(".")[0]
        plddt, seq = AfdbProcessor.get_plddt_and_seq_once(pdb_path)
        seq_len = len(seq)
        release_date = "2022-07-24"  # v3
        pdb_data = [pdb_name, plddt, release_date, seq, seq_len]
        return pdb_data

    def process_cluster_file(self, data_path):
        """
        处理聚类文件
        """
        print(f"[Info] 数据文件: {data_path}")
        data_lines = read_file(data_path)
        print(f"[Info] 数据行数: {len(data_lines)}")
        file_name = os.path.basename(data_path).split(".")[0]

        # 单进程
        # pdb_data_list = []
        # for pdb_name in data_lines:
        #     pdb_path = os.path.join(self.full_pdb_dir, pdb_name[:2], pdb_name)
        #     pdb_data = self.parse_af_pdb(pdb_path)
        #     pdb_data_list.append(pdb_data)
        # column_names = ["pdb", "plddt", "release_date", "seq", "len"]
        # df = pd.DataFrame(pdb_data_list, columns=column_names)
        # out_csv = os.path.join(self.out_dir, f"{file_name}_labels_{len(pdb_data_list)}.csv")
        # df.to_csv(out_csv)
        # print(f"[Info] 写入完成: {out_csv}")

        # 多进程
        params_list = []
        for idx, pdb_name in enumerate(data_lines):
            pdb_path = os.path.join(self.full_pdb_dir, pdb_name[1:3], pdb_name)
            params_list.append((pdb_path, idx))
            # if idx == 50:  # Debug
            #     break

        pool = Pool(processes=40)
        pdb_data_list = []
        for res in list(tqdm(pool.imap(AfdbProcessor.parse_af_pdb, params_list), desc="[Info] pdb")):
            pdb_data_list.append(res)
        pool.close()
        pool.join()

        column_names = ["pdb", "plddt", "release_date", "seq", "len"]
        df = pd.DataFrame(pdb_data_list, columns=column_names)
        out_csv = os.path.join(self.out_dir, f"{file_name}_labels_{len(pdb_data_list)}.csv")
        df.to_csv(out_csv)
        print(f"[Info] 全部处理完成: {out_csv}")

    def process(self):
        self.process_cluster_file(self.pdb_name_path)  # 处理文件


def main():
    ap = AfdbProcessor()
    ap.process()


if __name__ == '__main__':
    main()

参考

StackOverflow - Iterate over a very large number of files in a folder
Convert a List to Pandas Dataframe (with examples)

《解锁华为黑科技：MindSpore+鸿蒙深度集成奥秘》程序猿阿伟华为科技 harmonyos
在数字化浪潮汹涌澎湃的当下，人工智能与操作系统的融合已成为推动科技发展的核心驱动力。华为作为科技领域的先锋，其AI开发框架MindSpore与鸿蒙系统的深度集成备受瞩目，开启了智能生态的新篇章。华为MindSpore：AI框架的创新先锋MindSpore自2019年诞生以来，迅速在AI领域崭露头角。它以其独特的设计理念和先进的技术架构，为开发者提供了全场景的AI开发支持。从设计理念上看，MindS
数字隐形盾牌：日常场景下的网络安全实践安全防护
一、网络威胁：潜伏在屏幕后的"数字劫匪"2025年全球每11秒发生一次勒索攻击，每天新增45万个钓鱼网站，你的手机里可能正躺着3-5个高危漏洞。这些数据揭示了一个残酷现实：我们正生活在一个"数字丛林时代"。三大致命威胁：钓鱼攻击升级版：骗子不仅伪造银行邮件，现在会克隆公司高管的微信，用AI模仿老板声音要求转账**Wi-Fi陷阱：**商场免费Wi-Fi可能在15秒内窃取你的支付密码，机场充电桩可能成
Alibaba Cloud Linux V3 新版发布，以安全为基石，为阿里云ECS九代实例注入 AI 新动力操作系统
在当今快速发展的云计算时代，企业和开发者们不断寻求更高效、更安全的解决方案来支持其业务的增长和创新。操作系统作为连接硬件与软件应用的桥梁，在云端环境中扮演着重要的角色，不仅管理着底层资源，还为上层应用提供了稳定可靠的执行环境。随着技术的进步，用户对性能、稳定性和安全性的要求也在不断提高。阿里云作为头部云服务商，也在不断提升用户体验。最近，官方团队推出了AlibabaCloudLinuxV3011版
浅谈StarRocks数据库简介及应用微笑的曙光（StevenLi）数据库数据库
StarRocks是一款高性能的实时分析型数据库，专为复杂的SQL查询提供极高的性能，尤其适用于数据分析场景。它是一款开源的新一代极速全场景MPP（MassivelyParallelProcessing，大规模并行处理）数据库，致力于构建极速和统一的分析体验。StarRocks兼容MySQL协议，用户可以使用MySQL客户端和常用的BI（BusinessIntelligence，商业智能）工具进行
HuggingFace下载模型并导入Ollama指南 Repetion_Maxumim embedding 语言模型人工智能自然语言处理 ai
此处以moka-ai/m3e-base模型下载为例。众所周知，HuggingFace仓库托管了诸多训练模型。DeepSeek官方也将完整满血版DeepSeek-R1:671B模型镜像托管在此仓库，但是目前国内无法直接从HugingFace下载。并且，一般为了快速部署，会选择Ollama这类管模型管理工具，类似Docker引擎一样，但是Ollama支持的模型镜像格式（如GGUF）HuggingFac
开源应用驱动企业新质生产力：Websoft9以EPP+AI+知识库助您领跑未来! 人工智能
开源应用驱动企业新质生产力：Websoft9以EPP+AI+知识库助您领跑未来在数字化转型加速的今天，企业新质生产力的核心已从传统资源投入转向技术驱动的效率革命。开源应用凭借其灵活性、成本优势和技术创新力，成为企业实现这一目标的关键引擎。作为开源技术与行业场景化落地的领航者，Websoft9通过企业应用平台（EPP）、AI智能引擎与知识库系统三位一体的解决方案，助力企业快速构建新一代生产力工具，实
用Python打造智能家居安防系统，让科技守护你的家 Echo_Wish Python 笔记 Python 算法 python 智能家居科技
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
Python 爬虫实战：游戏论坛评论数据抓取与游戏热度分析西攻城狮北 python 开发语言爬虫
一、引言随着电子游戏产业的飞速发展，游戏论坛成为了玩家交流心得、分享体验的重要平台。通过分析游戏论坛的评论数据，我们可以了解不同游戏的热度、玩家的评价以及游戏的受欢迎程度。本文将详细介绍如何使用Python爬虫技术抓取游戏论坛的评论数据，并进行游戏热度分析。二、项目背景与目标2.1项目背景游戏论坛如Steam社区、贴吧、NGA等，拥有大量的用户和丰富的评论数据。这些数据反映了玩家对不同游戏的评价和
《Operating System Concepts》阅读笔记：p309-p330 操作系统
《OperatingSystemConcepts》学习第29天，p309-p330总结，总计22页。一、技术总结1.Python中的并发编程(1)semaphoreclassthreading.Semaphore(value=1)。(2)conditionvariableclassthreading.Condition(lock=None)书上使用的是Java,因本人在开发工作中使用的是Pytho
如何进行OceanBase 运维工具的部署和表性能优化？ oceanbase
随着OceanBase数据库应用的日益深入，数据量不断攀升，单个表中存储数百万乃至数千万条数据的情况变得愈发普遍。因此，部署专门的运维工具、实施针对性的表性能优化策略，以及加强指标监测工作，都变得更为重要。以下为基于我们的使用场景，所采取的一些部署和优化措施分享。一、OCP部署升级1．OCP升级（1）4.2.1BP1升级到4.2.2，本来以为毫无波澜但是下载完毕一键包并完成前期准备工作启动后发现无
PDF合并工具，免费快捷开源。python脚本实例演示 zhangood pdf python 开源
主要功能：完全免费相当方便可以合并PDF合并后自动删除原始PDF可设置原始文件夹，和目标文件夹路径支持生成EXE可执行文件，可在非python环境运行通过python脚本编写的，先给大家看脚本，方便了解配置和学习。importosfromPyPDF2importPdfMergerfromosimportlistdirresource_path='D:/111111/'#设定源文件夹，把要合并的pd
MySql数据库等级考试学习分享3（Day7） weixin_53545579 学习
活动发起人@小虚竹想对你说：这是一个以写作博客为目的的创作活动，旨在鼓励大学生博主们挖掘自己的创作潜能，展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴，那么，快来参加吧！我们一起发掘写作的魅力，书写出属于我们的故事。我们诚挚邀请你参加为期14天的创作挑战赛！提醒：在发布作品前，请将不需要的内容删除。题目以下关于MySQL的叙述中，错误的是（）。OA、MySQL为多种编程语
Langchain链式开发：打造高效、可扩展的AI应用小南AI学院 langchain 人工智能软件工程
1.Langchain链是什么?Langchain是一个开源框架，专门用于开发基于大型语言模型(LLMs)的应用程序。它允许开发者将各种组件(如模型、数据源、工具等)连接在一起，构建复杂的AI应用程序。“链”(Chain)在Langchain中是一个核心概念，它代表了多个组件的有序连接，用于完成特定任务。2.Langchain链的职责是什么?Langchain链的主要职责包括：流程编排：管理多个组
git checkout 切换分支和版本回退禾仔仔 git git github gitlab
1、切换分支1.1基本gitcheckout切换分支gitcheckout-bbranch新建分支并切换相当于gitbranchgitcheckoutps：新建的本地分支是在当前分支的基础上拉取下来的，工作中，一般下载好工程，会自动创建master分支（现在github是main分支），其他远程分支可以通过gitbranch-a查看，然后gitcheckout，切换到要开发分支。1.2带参数git
JVM汇总篇 xk_一步一步来 JVM JVM汇总篇
转自：https://blog.csdn.net/wolf_love666/article/details/85712922书中内容来自于深入理解java虚拟机，作者周志明。会融合自己的知识和理解来记录下来，为了赚钱而奋斗！DayDayUp!!!前期准备：准备篇（一）内存管理内存如何划分、内存溢出的原因----点击这里内存分配和垃圾回收-----点击这里（二）虚拟机如何执行数据存储和访问（类文件结
Linux驱动开发IO操作之阻塞与非阻塞暗夜之眼007 Linux驱动驱动开发
阻塞IO当应用程序通过read读取或write写入设备文件的某些数据时，就会调用驱动程序的read或者write函数，此时可能会遇到没有数据可读或者写满的情况，这时如果驱动程序会进入睡眠，当有数据可读或者可写的时候唤醒再返回，我们称这种操作为阻塞IO。下图是阻塞式IO访问示意图：阻塞IO相关函数init_waitqueue_head函数init_waitqueue_head‌是Linux内核中用于
【Transformer-Hugging Face手册 07/10】微调预训练模型无水先生人工智能高级阶段人工智能综合 transformer 深度学习人工智能
微调预训练模型-目录一、说明二、在本机PyTorch中微调预训练模型。2.1加载数据2.2训练2.2.1使用PyTorchTrainer进行训练2.3训练超参数2.4评价2.5训练类三、使用Keras训练TensorFlow模型3.1为Keras加载数据3.2将数据加载为tf.data.Dataset3.3数据加载器3.4优化器和学习率调度器3.5训练循环3.6评价四、结论一、说明使用预训练模
草根版外卖避雷计划「数据库寄生 2.0」优化方案 cainiaojunshi 预算方案智慧城市
接上回计划省钱版【打败美团和饿了吗的机会越来越大了！#外卖避雷计划#】[特殊字符][特殊字符]-CSDN博客（含三端流程图+预算穿透表+风险应对）一、策划目标（草根版核心）实现单城外卖后厨监督轻量化：✅创作端：骑手/打假人扫码接单，视频自动同步（省90%录入时间）✅服务端：AI+算法自动跑批，日省2小时人工干预（年省2.22万）✅观看端：实时暴雷指数+悬赏助力，用户信任度提升40%✅终极目标：单城
输入10个数字，然后逆序输出。 |CXHAO| Python 数字反转数组循环字符输出
输入1234567890输出0987654321#includeusingnamespacestd;intmain(){inta[10];for(inti=0;i>a[i];}for(intj=9;j>=0;j--){cout<<a[j]<<'';}cout<<endl;return0;}
马斯克说的没错，DeepSeek确实厉害，但真正可怕的是... PPT百科人工智能 powerpoint ppt DeepSeek 马斯克
作者：PPT百科（PPTwiki.COM）发布日期：2025年2月25日“中国能做出DeepSeek这样的AI，我一点都不意外。”当马斯克在达沃斯论坛上说出这句话时，全球科技圈的目光再次聚焦到了这个中国AI独角兽身上。然而，这位“硅谷钢铁侠”的下一句话却耐人寻味：“但它还不是革命性的，我们的Grok3会更好。”马斯克的评价看似矛盾，实则揭示了AI竞争的核心逻辑——技术突破与市场落地的双重博弈。而D
Python虚拟环境和包管理，到底怎么选？ Python资讯站 python 开发语言 python学习编程学习虚拟环境搭建虚拟环境包包管理
包含编程资料、学习路线图、源代码、软件安装包等！【[点击这里]】！在Python开发中，虚拟环境和包管理工具是必不可少的利器。它们帮助我们隔离项目依赖，避免版本冲突，提高开发效率。然而，面对众多工具如"venv"、“virtualenv”、“conda”、“pipenv”、“poetry"和"uv”，许多开发者常常感到困惑：到底该选择哪一个？本文将从优势、使用方法和适用场景等方面，深度对比这些工具
Python包管理不再头疼：uv工具快速上手马岛 python uv 开发语言
Python包管理生态中存在多种工具，如pip、pip-tools、poetry、conda等，各自具备一定功能。而今天介绍的uv是Astral公司推出的一款基于Rust编写的Python包管理工具，旨在成为“Python的Cargo”。它提供了快速、可靠且易用的包管理体验，在性能、兼容性和功能上都有出色表现，为Python项目的开发和管理带来了新的选择。1.为什么用uv与其他Python中的包管
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
ESP32-S3一款专为人工智能物联网打造的芯片 LS_learner 嵌入式人工智能物联网嵌入式硬件
ESP32-S3是一款专为AIoT（人工智能物联网）市场打造的MCU（微控制器单元）芯片，集成了2.4GHzWi-Fi和Bluetooth5（LE）功能。以下是对ESP32-S3的详细介绍：一、核心性能处理器：搭载Xtensa®32位LX7双核处理器，主频高达240MHz。内存：内置512KBSRAM（静态随机存取存储器），同时支持更大容量的高速OctalSPIflash和片外RAM，用户可配置数
AI人工智能PPT内容案例参考 puerppt PPT模板人工智能PPT ppt
人工智能（AI）的PPT介绍内容提纲，可以帮助你在演示中全面而清晰地阐述AI的概念、历史、技术及应用。这些内容可以直接填入PPT的每一张幻灯片中，帮助你高效地介绍主题，文末精选了10套AI人工智能PPT模板，可下载幻灯片1：封面标题：人工智能（AI）的简介副标题：探索智能未来演讲者：你的名字日期：如2023年10月XX日幻灯片2：目录什么是人工智能人工智能的历史人工智能的基本技术人工智能的应用领域
从静态PPT到智能演讲——人工智能在演示文稿中的应用知来者逆智能算法人工智能 powerpoint LLM 大语言模型 GPT PPT
1.概述在这个信息过载的时代，能够吸引并持续吸引观众的注意力无疑成为了一项艰巨的任务。公众演讲领域正经历着一场由人工智能（AI）引领的革命。AI不仅在制作引人入胜的内容方面发挥作用，而且在分析演讲的传递方式上也起着关键作用，它正在彻底改变我们传递信息的传统模式。这篇深度博文将带您一探演示技术激动人心的未来，特别是聚焦于AI如何助力演讲者打造既具有影响力又富有吸引力的观众体验。从内容创作到演讲分析，
人工智能演讲PPT：普及这一篇就够了何秀琳Nessa
人工智能演讲PPT：普及这一篇就够了【下载地址】人工智能演讲PPT普及这一篇就够了人工智能演讲PPT：普及这一篇就够了欢迎来到本资源页面，这里提供一份精心制作的人工智能（AI）主题PPT，专为演讲、科普和学习场合设计项目地址:https://gitcode.com/Open-source-documentation-tutorial/12b6a欢迎来到本资源页面，这里提供一份精心制作的人工智能（A
利用python 执行统计模型: 渔好学 python
利用python执行统计模型:http://www.statsmodels.org/stable/index.html
适合企业内训的AI工具实操培训教程（37页PPT）（文末有下载方式）极客11 数字化
详细资料请看本解读文章的最后内容。资料解读：适合企业内训的AI工具实操培训教程在当今数字化时代，人工智能（AI）技术迅速发展，深度融入到各个领域，AIGC（人工智能生成内容）更是成为内容创作的新趋势，为企业提升效率、创新发展带来了新契机。这份培训教程聚焦多种AI工具，尤其是DeepSeek，为企业员工提供了全面的实操指导。AIGC指利用人工智能技术自动生成文本、图像、音频、视频等内容，让AI协助甚
Python广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84688466 程序员信息可视化 python 爬虫
如果需要联系我，可以在CSDN网站查询黄菊华老师在文章末尾可以获取联系方式Python****广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python广东广州二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟