lishaoan77

DeepChem教程10:从实验数据产生更可靠性的数据集

本教程我们来看一下如何从实验数据产生新的数据集。如我们将要看到的，产生数据集对象的机量只是一小部分过程。许多真实的数据集在它们适用于训练模型前需要清理和QA。

处理数据文件

假定你的实验室的同事给你数据。你想用这些数据来构建机器学习模型。你将如何变换这些数据到适合于创建机器学习模型的数据集呢？

从新的数据建立模型是有些挑战的。可能有些数据不是以便以使用的方式记录的。另外，有些数据有噪音。这通常随着大量外部变化的生物测定，收集样本的成本和困难而发生。这是个问题，因为你不想让你的模型拟合噪音。

因此，有两大挑战：

1.解析数据

2.数据去噪音

本教程，我们来看一下从药物测定实验的Excel电子表格中手工生成数据集。在深入学个例子之前，我们简单的回顾一下 DeepChem的输入文件处理和特征化能力。

输入格式

DeepChem支持多种输入文件。例如，可以接受的输入文件格式为.csv, .sdf, .fasta, .png, .tif及其它格式。加载特定的文件格式由相关的Loader类控制。例如，加载.csv文件使用CSVLoader类。这里有个适合于CSVLoader的.csv文件的要求。

有一列包含SMILES字串。
有一列包含实验测定值。
(选项)有一列包含唯一的化合物标识。

这里有一个潜在的输入文件的例子。

化合物IDs

测量的对数溶解度

mols/litre

SMILES

benzothiazole

-1.5

c2ccc1scnc1c2

这里" SMILES "包含SMILES字串，"测量的对数溶解度mols/litre "包含实验测量，"化合物IDs "包含化合物的唯一标识。

数据特征化

大部分的机器学习算法要求输入数据为矢量。然而来自药物发现的数据集通常是分子和相关的实验结果。要加载这数据，我们使用dc.data.DataLoader的子类如dc.data.CSVLoader 或 dc.data.SDFLoader。用户可以用dc.data.DataLoader子类来加载任意文件格式。所有的加载器必需传递dc.feat.Featurizer对象，它指明如何转换分子式到矢量。DeepChem 提供了不同的dc.feat.Featurizer子类。

解析数据

为了读取数据，我们要使用pandas 数据分析库。为了转换药物名称到SMILES字串，我们要用pubchempy。这不是标准的DeepChem依赖，但你可以用conda install pubchempy安装。

In [ ]:

!conda install pubchempy

In [1]:

import os

import pandas as pd

from pubchempy import get_cids, get_compounds

Pandas非常神奇，但是它不能自动的找到你感兴趣的数据。你可能需要通过GUI来查找。我们可以看一下LibreOffice渲染的数据集。

为了这个，我们要导入Image和os。

In [2]:

import os

from IPython.display import Image, display

current_dir = os.path.dirname(os.path.realpath('__file__'))

data_screenshot = os.path.join(current_dir, 'assets/dataset_preparation_gui.png')

display(Image(filename=data_screenshot))

我们看到感兴趣的数据在第二个表，包含于"TA ID", "N #1 (%)", and "N #2 (%)"列。

另外，看起来表格的大部分是人类可读的（多列表头、带空格的列标签和符号等）。这让纯净的dataframe对象的产生变得困难。基于这个原因，我们去掉一些不用的或不方便的东西。

In [3]:

import deepchem as dc

dc.utils.download_url(

'https://github.com/deepchem/deepchem/raw/master/datasets/Positive%20Modulators%20Summary_%20918.TUC%20_%20v1.xlsx',

current_dir,

'Positive Modulators Summary_ 918.TUC _ v1.xlsx'

)

In [4]:

raw_data_file = os.path.join(current_dir, 'Positive Modulators Summary_ 918.TUC _ v1.xlsx')

raw_data_excel = pd.ExcelFile(raw_data_file)

# second sheet only

raw_data = raw_data_excel.parse(raw_data_excel.sheet_names[1])

In [5]:

# preview 5 rows of raw dataframe

raw_data.loc[raw_data.index[:5]]

Out[5]:

注意实际的行头在第一行而不是第0行。

In [6]:

# remove column labels (rows 0 and 1), as we will replace them

# only take data given in columns "TA ID" "N #1 (%)" (3) and "N #2 (%)" (4)

raw_data = raw_data.iloc[2:, [2, 6, 7]]

# reset the index so we keep the label but number from 0 again

raw_data.reset_index(inplace=True)

## rename columns

raw_data.columns = ['label', 'drug', 'n1', 'n2']

In [7]:

# preview cleaner dataframe

raw_data.loc[raw_data.index[:5]]

Out[7]:

这种格式更接近我们的需求。

现在我们来看一下药物的名称并给它们SMILES字串（DeepChem要求的格式）

In [8]:

drugs = raw_data['drug'].values

For many of these, we can retreive the smiles string via the canonical_smiles attribute of the get_compounds object (using pubchempy)

In [9]:

get_compounds(drugs[1], 'name')

Out[9]:

[Compound(5281078)]

In [10]:

get_compounds(drugs[1], 'name')[0].canonical_smiles

Out[10]:

'CC1=C2COC(=O)C2=C(C(=C1OC)CC=C(C)CCC(=O)OCCN3CCOCC3)O'

然而，有些药物名有变化的空格和符号(·, (±),等)，有些名称无法被pubchempy读取。

对于这个任务，我们要用正则表达式做一些破解。而且，我们注意到，所有的离子以缩写形式需要扩展。基于这一原因我们使用字典，映射离子缩写到pubchempy可以识别的版本。

不幸的是，你可能有一些困难需要更多的破解。

In [11]:

import re

ion_replacements = {

'HBr': ' hydrobromide',

'2Br': ' dibromide',

'Br': ' bromide',

'HCl': ' hydrochloride',

'2H2O': ' dihydrate',

'H20': ' hydrate',

'Na': ' sodium'

}

ion_keys = ['H20', 'HBr', 'HCl', '2Br', '2H2O', 'Br', 'Na']

def compound_to_smiles(cmpd):

# remove spaces and irregular characters

compound = re.sub(r'([^\s\w]|_)+', '', cmpd)

# replace ion names if needed

for ion in ion_keys:

if ion in compound:

compound = compound.replace(ion, ion_replacements[ion])

# query for cid first in order to avoid timeouterror

cid = get_cids(compound, 'name')[0]

smiles = get_compounds(cid)[0].canonical_smiles

return smiles

现在我们正式的转换这些化合物到SMILES。这种转换需要花费几分种时间，所在可以喝一杯咖啡或一杯茶休息一下。注意这种转换有时会失败，所以下面我们要抛出错误处理。

In [12]:

smiles_map = {}

for i, compound in enumerate(drugs):

try:

smiles_map[compound] = compound_to_smiles(compound)

except:

print("Errored on %s" % i)

continue

Errored on 162

Errored on 303

[13]:

smiles_data = raw_data

# map drug name to smiles string

smiles_data['drug'] = smiles_data['drug'].apply(lambda x: smiles_map[x] if x in smiles_map else None)

[14]:

# preview smiles data

smiles_data.loc[smiles_data.index[:5]]

Out[14]:

很好，我们已经映射所有的名称到相应的SMILES编码。

现在我们来看一下数据，尽可能的去掉噪音数据。

数据去噪音

在机器学习中，我们知道一些免费的午餐。你要花点时间来分析和理解你的数据以框定你的问题并确定合适的模型框架。对于你的数据的处理取决于你从这个过程中得到的结论。

你需要问的问题有：

你要完成什么任务？

你的测定是什么？

数据的结构如何？

数据合理吗？

以前做了哪些尝试？

对于这个项目：

我想要建立一个模型来预测任一个小分子与离子通道蛋白的亲和力。

对于输入的药物，描述通道抑制的数据。

几百个药物，n=2

需要更仔细的检查数据集

这的蛋白没有。

可能会涉及作图。因此我们导入matplotlib和seaborn。我们也要看一下分子结构，所以我们导入rdkit。我们也可能使用seaborn。你可以用conda install seaborn命令安装。

In [15]:

import matplotlib.pyplot as plt

%matplotlib inline

import seaborn as sns

sns.set_style('white')

from rdkit import Chem

from rdkit.Chem import AllChem

from rdkit.Chem import Draw, PyMol, rdFMCS

from rdkit.Chem.Draw import IPythonConsole

from rdkit import rdBase

import numpy as np

我们的目标是建立小分子模型，所以我们要确保所有分子是小的。这可以通过SMILES字串的长度估计。

In [16]:

smiles_data['len'] = [len(i) if i is not None else 0 for i in smiles_data['drug']]

smiles_lens = [len(i) if i is not None else 0 for i in smiles_data['drug']]

sns.histplot(smiles_lens)

plt.xlabel('len(smiles)')

plt.ylabel('probability')

Out[16]:

Text(0, 0.5, 'probability')

有些看起来相当大，len(smiles) > 150。我们来看一下它们像什么。

In [17]:

# indices of large looking molecules

suspiciously_large = np.where(np.array(smiles_lens) > 150)[0]

# corresponding smiles string

long_smiles = smiles_data.loc[smiles_data.index[suspiciously_large]]['drug'].values

# look

Draw._MolsToGridImage([Chem.MolFromSmiles(i) for i in long_smiles], molsPerRow=6)

Out[17]:

正如怀疑的，没有小分子存在，所以我们要从数据集中移除它们。这里的假定是这些分子可以登记作为抑制剂仅因为它们是大的。它们更像立体的通道阻断剂而不是扩散和结合（那是我们感兴趣的）。

本教程移除不适合你的数据。

In [18]:

# drop large molecules

smiles_data = smiles_data[~smiles_data['drug'].isin(long_smiles)]

现在看一下数据集的数值结构。

首先检查一下NaNs。

In [19]:

nan_rows = smiles_data[smiles_data.isnull().T.any().T]

nan_rows[['n1', 'n2']]

Out[19]:

我不相信n=1，所在我会抛掉它。

然后我们检查n1和n2的分布。

In [20]:

df = smiles_data.dropna(axis=0, how='any')

# seaborn jointplot will allow us to compare n1 and n2, and plot each marginal

sns.jointplot(x='n1', y='n2', data=smiles_data)

Out[20]:

我们看到大部分数据包含在高斯分布的中心略小于0。我们看到一些活动数据点位于左下部，有一个在右上部。它们不同于大部分的数据。我们如何处理这些数据呢？

由于n1和n2代表相同的测量，理想情况下它们是取值相同的。这个图应该紧紧的对齐于对角线，而且皮尔逊相关系数应为1。我们看到实际上不是。这有助于我们发现错误的测量。

我们更仔细的看一下错误，作一下(n1-n2)分布图。

In [21]:

diff_df = df['n1'] - df['n2']

sns.histplot(diff_df)

plt.xlabel('difference in n')

plt.ylabel('probability')

Out[21]:

Text(0, 0.5, 'probability')

这看起来非常正态，我们通过scipy拟合正态来得到95%置信区间，并得到2倍标准偏差。

In [22]:

from scipy import stats

mean, std = stats.norm.fit(np.asarray(diff_df, dtype=np.float32))

ci_95 = std*2

ci_95

Out[22]:

17.75387954711914

现在我不相信置信区间外的数据，因此从数据框中删除这些数据点。例如，上面的图，至少有一个点的n1-n2 > 60，这是不要的。

In [23]:

noisy = diff_df[abs(diff_df) > ci_95]

df = df.drop(noisy.index)

sns.jointplot(x='n1', y='n2', data=df)

Out[23]:

现在数据看起来好很多！我们平均一下n1 和n2，并取误差为区间为ci_95。

In [24]:

avg_df = df[['label', 'drug']].copy()

n_avg = df[['n1', 'n2']].mean(axis=1)

avg_df['n'] = n_avg

avg_df.sort_values('n', inplace=True)

现在看一下误差区间排序的数据。

In [25]:

plt.errorbar(np.arange(avg_df.shape[0]), avg_df['n'], yerr=ci_95, fmt='o')

plt.xlabel('drug, sorted')

plt.ylabel('activity')

Out[25]:

Text(0, 0.5, 'activity')

现在我们来识别一下活性物合物。

就我的情况，这需要专业知识。在这一领域工作，咨询这一行业的教授，我对活性绝对值大于25的化合物感兴趣。这与我们想要建立模型的药物强度有关。

如果你不知道活性与非活性之间的如何划分，可以把它当作超参数来处理。

In [26]:

actives = avg_df[abs(avg_df['n'])-ci_95 > 25]['n']

plt.errorbar(np.arange(actives.shape[0]), actives, yerr=ci_95, fmt='o')

Out[26]:

In [27]:

# summary

print (raw_data.shape, avg_df.shape, len(actives.index))

(430, 5) (392, 3) 6

总结一下，我们已经：

去掉了与我们想要回答的问题无关的数据。（仅小分子）

去掉了缺失值。

确定的测定误差。

去掉了噪音数据点。

识别了活性物化合（通过专业知识来确定阀值

确定模型的类型，最终的数据集形式，以及合理的加载

现在，我们要用哪种模型框架？

假定我们有392个数据点且6个有活性，这数据将用于建立小数据one-shot分类器(10.1021/acscentsci.6b00367)。如果数据集有相似的特性，可以使用迁移学习，但现在还不行。

我们对数据框实施logic以转换到适合分类的二值形式。

In [28]:

# 1 if condition for active is met, 0 otherwise

avg_df.loc[:, 'active'] = (abs(avg_df['n'])-ci_95 > 25).astype(int)

现在保存文件。

In [29]:

avg_df.to_csv('modulators.csv', index=False)

现在转换数据框到DeepChem数据集。

In [30]:

dataset_file = 'modulators.csv'

task = ['active']

featurizer_func = dc.feat.ConvMolFeaturizer()

loader = dc.data.CSVLoader(tasks=task, feature_field='drug', featurizer=featurizer_func)

dataset = loader.create_dataset(dataset_file)

最后，通常以某种方法数值化的转换数据是有好处的。例如，有时候正态化数据是有用的，或者转换到零均值。这取决于手头的任务。DeepChem内置很多有用的转换，在deepchem.transformers.transformers基类中。

因为这是分类模型，而且活性的数值低，我将应用平衡转换。当我训练模型时我把这个转换器当作超参数。事实证明它提高了模型的性能。

In [31]:

transformer = dc.trans.BalancingTransformer(dataset=dataset)

dataset = transformer.transform(dataset)

现在我们保存平衡数据集对象到磁盘，然后重新加载它作为合理的检查。

In [32]:

dc.utils.save_to_disk(dataset, 'balanced_dataset.joblib')

balanced_dataset = dc.utils.load_from_disk('balanced_dataset.joblib')

你可能感兴趣的:(tensorflow,pytorch,深度学习)

在PyTorch框架上训练ImageNet时，Dataloader加载速度慢怎么解决？ cda2024 pytorch 人工智能 python
在深度学习领域，PyTorch因其灵活性和易用性而受到广泛欢迎。然而，在实际应用中，特别是在处理大规模数据集如ImageNet时，Dataloader的加载速度往往成为瓶颈。本文将深入探讨这一问题，并提供多种解决方案，帮助你在PyTorch框架上高效地训练ImageNet。1.问题背景ImageNet是一个包含超过1400万张图像的大规模数据集，被广泛用于图像分类任务的研究。在PyTorch中，D
ACNet：深度学习中的自适应卷积网络新星郎轶诺
ACNet：深度学习中的自适应卷积网络新星项目地址:https://gitcode.com/gh_mirrors/ac/ACNet在深度学习领域，卷积神经网络（CNN）一直是图像处理和计算机视觉任务的核心技术。然而，传统的固定大小的卷积核无法灵活适应不同区域的信息密度。针对这一问题，ACNet（AdaptiveConvolutionNetwork）项目应运而生，它引入了一种新型的自适应卷积层，旨在
自适应神经网络架构：原理解析与代码示例 chian-ocean 机器学习神经网络人工智能深度学习
个人主页：chian-ocean文章专栏自适应神经网络结构：深入探讨与代码实现1.引言随着深度学习的不断发展，传统神经网络模型在处理复杂任务时的局限性逐渐显现。固定的网络结构和参数对于动态变化的环境和多样化的数据往往难以适应，导致了过拟合或欠拟合的问题。自适应神经网络（AdaptiveNeuralNetworks,ANN）为此提供了一种新的解决方案，它可以根据数据特征和训练情况自动调整网络结构，从
全面解析NVIDIA显卡：从入门级到旗舰级显卡详解花千树-010 大模型人工智能算法智能电视
在选择显卡时，了解不同显卡的性能和适用场景是非常重要的。无论你是预算有限的入门用户，还是追求极致性能的游戏玩家，亦或是专业的内容创作者和深度学习研究人员，NVIDIA都有适合你的显卡。本篇博文将详细列举NVIDIA显卡的各项配置，从低到高逐一整理，并给出适用的使用场景。入门级显卡NVIDIAGeForceGT1030CUDA核心数:384基础频率:1227MHz加速频率:1468MHz显存:2GB
直播预告丨精度优于AlphaFold，基于深度学习实现生物大分子及其互作的三维结构预测
「MeetAI4S」系列直播第6期将于1月15日19:00准时开播，HyperAI超神经有幸邀请到了南开大学统计与数据科学学院教授郑伟，他本次分享的主题是「AlphaFold3王座未稳，来自学术界的反超：基于深度学习的生物大分子及其互作的三维结构预测」。蛋白质的功能取决于其独特的三维结构，近年来，基于深度学习等人工智能技术的蛋白质结构预测发展迅猛，AlphaFold甚至获得了2024年诺贝尔化学奖
AI代码生成工具的未来：杨立昆的洞见与AI革命前端
近年来，人工智能（AI）领域取得了令人瞩目的进展，特别是以大型语言模型为代表的AI技术，在自然语言处理、图像生成等领域展现出强大的能力。然而，深度学习先驱杨立昆（YannLeCun）却对现有的AI系统提出了尖锐的批评，他认为目前的AI系统“理解能力远不如猫”，缺乏对真实世界的理解和常识。这引发了人们对AI未来发展方向的思考，也为我们探讨AI代码生成工具，以及AI技术对人类社会的影响提供了新的视角。
AscendC从入门到精通系列（四）使用Pybind调用AscendC算子人工智能深度学习
如果已经通过AscendC编程语言实现了算子，那该如何通过pybind进行调用呢？1Pybind调用介绍通过PyTorch框架进行模型的训练、推理时，会调用很多算子进行计算，其中的调用方式与kernel编译流程有关。对于自定义算子工程，需要使用PyTorchAscendAdapter中的OP-Plugin算子插件对功能进行扩展，让torch可以直接调用自定义算子包中的算子，详细内容可以参考PyTo
【TVM 教程】内联及数学函数
ApacheTVM是一个端到端的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：TianqiChen尽管TVM支持基本的算术运算，但很多时候，也需要复杂的内置函数，例如exp取指函数。这些函数是依赖target系统的，并且在不同target平台中可能具有不同的名称。本教程会学习到如何调用这些target-spe
基于YOLOv5、YOLOv8和YOLOv10的自助售货机商品检测：深度学习实践与应用 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言自助售货机已经成为现代零售和自动化销售领域的重要组成部分。在自助售货机中，商品的检测与管理至关重要。通过精准的商品检测技术，售货机可以在商品售出后自动更新库存，并提供准确的商品信息反馈。然而，在复杂的环境下进行商品检测是一个具有挑战性的问题，尤其是在商品种类繁多、摆放方式多样以及光照条件变化较大的情况下。近年来，基于深度学习的目标检测算法，特别是YOLO（YouOnlyLookOnce）系列模
【分类】【损失函数】处理类别不平衡：CEFL 和 CEFL2 损失函数的实现与应用丶2136 AI 分类人工智能损失函数
引言在深度学习中的分类问题中，类别不平衡问题是常见的挑战之一。尤其在面部表情分类任务中，不同表情类别的样本数量可能差异较大，比如“开心”表情的样本远远多于“生气”表情。面对这种情况，普通的交叉熵损失函数容易导致模型过拟合到大类样本，忽略少数类样本。为了有效解决类别不平衡问题，Class-balancedExponentialFocalLoss(CEFL)和Class-balancedExponen
torch.utils.data.Dataset()和torch.utils.data.DataLoader() 我叫罗泽南深度学习 python
torch.utils.data.Dataset()和torch.utils.data.DataLoader()是Pytorch中处理数据集和批量加载数据的重要工具。下面将详细介绍它们的作用、用法，并通过一个简单的例子来演示如何使用它们。torch.utils.data.Dataset()Dataset是Pytorch数据加载的基类，用于表示一个数据集。用户可以继承Dataset类并实现其两个方法
交叉熵损失函数（Cross-Entropy Loss）我叫罗泽南深度学习人工智能
原理交叉熵损失函数是深度学习中分类问题常用的损失函数，特别适用于多分类问题。它通过度量预测分布与真实分布之间的差异，来衡量模型输出的准确性。交叉熵的数学公式交叉熵的定义如下：CrossEntroyLoss=−∑i=1Nyi⋅log(y^i)\begin{equation}CrossEntroyLoss=-\sum_{i=1}^{N}y_i\cdotlog(\hat{y}_i)\end{equati
AI大模型引领医疗变革：十大创新应用场景塑造智慧医疗新时代和老莫一起学AI 人工智能自动化数据库学习语言模型大模型
前言在人工智能技术的迅猛发展中，AI大模型以其无与伦比的数据处理能力和深度学习能力，正逐步成为医疗健康领域变革的引领者。本文旨在深入探讨AI大模型在医疗领域的十大创新应用场景，展示其如何显著提升医疗服务效率、赋能临床决策，并推动整个行业向智能化转型。一、智能化诊疗：精准辅助，提升诊断效率AI大模型凭借对海量医疗数据的深度分析，能够协助医生进行更为精准的诊断。例如，百度灵医大模型凭借强大的数据处理能
技术文档的精髓：规划布局、语言表达与更新维护重庆钢铁侠经验分享
本文将从技术文档的规划布局、语言表达以及更新与维护三个方面入手，探讨如何打造一份出色的技术文档，确保信息的系统性、连贯性以及时效性。一：技术文档的规划布局1.1确定文档的整体架构技术文档的规划布局是确保信息呈现系统性和连贯性的关键。首先，需要确定文档的整体架构，这包括章节设置和逻辑顺序。一个好的架构应该能够清晰地指导读者从入门到精通。章节设置：根据文档的目的和受众，合理设置章节。例如，对于深度学习
基于深度学习的推荐系统构建：Movielens 数据集 fresh的转码之路深度学习人工智能机器学习推荐算法
基于深度学习的推荐系统构建：Movielens数据集依赖环境代码语言：python3.11.5开发平台：pycharmtensorflow版本：2.18.0MovieLen1M数据及简介MovieLens1M数据集包含包含6000个用户在近4000部电影上的100万条评分，也包括电影元数据信息和用户属性信息。下载地址为：http://files.grouplens.org/datasets/mov
海外抖音技术深度解析：算法、AI与全球化的挑战神探阿航计算机产业科普与思考算法人工智能机器学习数据挖掘深度学习
引言2025年1月19日，在美国宣布暂停服务，这一事件引发了全球用户的广泛关注。作为全球最受欢迎的短视频平台之一，其成功离不开其强大的技术支撑，尤其是其个性化推荐算法和AI驱动的创作工具。然而，随着全球市场环境的变化，它面临的技术与运营挑战也日益凸显。本文将深入分析其技术核心、全球化运营中的挑战及其未来发展方向。核心：个性化推荐引擎其算法是其成功的关键，其核心在于个性化推荐引擎。该引擎采用深度学习
YOLOv8与Transformer：探索目标检测的新架构 AI架构设计之禅 AI大模型应用入门实战与进阶大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象。近年来，YOLO（YouOnlyLookOnce）系列算法以其高精度和高速度成为目标检测领域的佼佼者。最新版本的YOLOv8引入了Transformer架构，进一步
【强化学习】PyTorch-RL框架大雨淅淅人工智能 pytorch 人工智能 python 深度学习机器学习
目录一、框架简介二、核心功能三、学习环境配置四、学习资源五、实践与应用六、常见问题与解决方案七、深入理解强化学习概念八、构建自己的强化学习环境九、调试与优化十、参与社区与持续学习一、框架简介PyTorch-RL是一个基于PyTorch框架的深度强化学习项目。它充分利用了PyTorch的强大功能，提供了易于使用且高效的深度强化学习算法实现。该项目的主要编程语言是Python，旨在帮助开发者快速实现和
图像生成大模型：Imagen 详解转角再相遇 imagen python 深度学习计算机视觉
近年来，图像生成技术取得了显著进展，推动了计算机视觉和生成对抗网络（GAN）等领域的发展。Imagen是一个新兴的图像生成大模型，其在生成高质量、逼真图像方面表现出色。本文将详细讲解Imagen的基本原理、架构、训练流程及应用场景。1.Imagen的基本原理1.1什么是Imagen？Imagen是一种基于深度学习的图像生成模型，结合了自注意力机制（Self-attentionMechanism）和
【MySQL】Mysql数据库导入导出sql文件、备份数据库、迁移数据库程序员洲洲数据库数据库 mysql 导入导出sql sql文件备份迁移
本文摘要：本文提出了xxx的实用开发小技巧。作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。同时洲洲已经建立了程序员技术交流群，如果您感兴趣，可以私信我加入我的社群，也可以直接vx联系（文末有名片）v：bdizztt随时
实战千问2大模型第五天——VLLM 运行 Qwen2-VL-7B（多模态）学术菜鸟小晨千问多模型 qwen2 vl
一、简介VLLM是一种高效的深度学习推理库，通过PagedAttention算法有效管理大语言模型的注意力内存，其特点包括24倍的吞吐提升和3.5倍的TGI性能，无需修改模型结构，专门设计用于加速大规模语言模型（LLM）的推理过程。它通过优化显存管理、支持大模型的批处理推理以及减少不必要的内存占用，来提高多GPU环境下的推理速度和效率。VLLM的核心特点包括：显存高效性：VLLM能够动态管理显存，
qwenvl 代码中的attention pool 注意力池如何理解，attention pool注意力池是什么？ OpenSani AI 大模型计算机视觉语言模型 qwenvl LLM
qwenvl中的attentionpool如何理解，其实这就是一个概念的问题看qwenvl的huggingface的代码的时候，发现代码里有一个Resampler以及attn_pool，这和之前理解的连接池线程池表示资源复用的意思不太一样，查了一下：注意这里的pool和线程池连接池里面的pool不一样:深度学习中的池化：池化在深度学习中主要指通过滑动窗口对特征图进行下采样，提取最重要的特征，减少计
tf.function-＞ AttributeError: ‘double‘ object has no attribute ‘shape‘ 乔宇同学学习tensorflow
跑tensorflow时出现的bug,不使用tf.function没问题，一旦挂上装饰符，就报错，报错内容如下：Traceback(mostrecentcalllast):File"D:\Anaconda3\envs\tensorflow2\lib\site-packages\tensorflow_core\python\eager\function.py",line111,in_make_inp
计算机视觉与深度学习：使用深度学习训练基于视觉的车辆检测器（MATLAB源码-Faster R-CNN） ZhShy23 javascript 深度学习
在人工智能领域，计算机视觉是一个重要且充满活力的研究方向。它使计算机能够理解和分析图像和视频数据，从而做出有意义的决策。其中，目标检测是计算机视觉中的一项关键技术，它旨在识别并定位图像中的多个目标对象。车辆检测作为目标检测的一个重要应用，在自动驾驶、智能交通系统等领域有着广泛的应用前景。本文将介绍如何使用MATLAB和深度学习技术，特别是FasterR-CNN模型，来训练一个车辆检测器。文章目录一
GAN在图像增强中的应用实战指南码字仙子
本文还有配套的精品资源，点击获取简介：图像增强技术通过算法改善图像质量，GAN作为一种生成对抗网络，在此领域具有重要应用。通过生成器和判别器的对抗性训练，GAN可以生成逼真图像、修复低质量图像、扩增数据集并进行风格迁移。本项目将介绍如何使用Python及其相关库实现GAN图像增强，包括模型的构建、训练和评估。通过项目案例学习，你可以掌握GAN在图像增强中的实际应用，提高图像处理和深度学习的技能。1
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习模型推理速度/吞吐量计算(附代码） Scabbards_ 1500深度学习笔记深度学习人工智能
参考博文：https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247546551&idx=2&sn=f198b6365e11f0a18832ff1203302632&chksm=ebb70e63dcc0877569d1838b2391744be628bf6cbb6e203a49f855e0769ecbbbf5a9929fe2db&scene
PyTorch使用教程- Tensor包 Loving_enjoy 论文 pytorch 人工智能
###PyTorch使用教程-Tensor包PyTorch是一个流行的深度学习框架，它提供了一个易于使用的API来创建和操作张量（Tensors）。张量是一个多维数组，类似于NumPy中的ndarray，但它是基于GPU的，支持自动求导。本文将详细介绍PyTorch中的Tensor包，包括张量的创建、运算、形状变换、索引与切片、以及重要的张量处理方式。####一、张量的创建在PyTorch中，可以
ChatGPT详解 Loving_enjoy 实用技巧人工智能自然语言处理
ChatGPT是一款由OpenAI研发和维护的先进的自然语言处理模型（NLP），全名为ChatGenerativePre-trainedTransformer，于2022年11月30日发布。以下是对ChatGPT的详细介绍：###一、技术架构与原理1.**技术架构**：ChatGPT建立在Transformer架构之上，这是一种深度学习模型，特别适用于处理自然语言。其核心是自注意力机制，允许模型在
用TensorFlow.NET搭建一个全连接神经网络 chiyong7717 人工智能 c#python
在本文中，我们将学习如何在C＃中构建神经网络模型计算图。与线性分类器相比，神经网络的关键优势在于它可以分离不可线性分离的数据。我们将实现此模型来对MNIST数据集的手写数字图像进行分类。我们要构建的神经网络的结构如下。MNIST数据的手写数字图像有10个类（从0到9）。该网络具有2个隐藏层：第一层具有200个隐藏单元（神经元），第二层具有10个神经元（称为分类器层）。让我们一步一步地用代码来实现：
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement