RDKit | 基于RDKit的PandasTools加速数据分析

RDKit | 基于RDKit的PandasTools加速数据分析_第1张图片

       

        从RDKit的基本用法中看到了化学信息学中使用的各种概念。大多数情况下,流程中处理的化合物数据存储在列表或字典类型变量中,该变量是python或numpy数组的基本数据类型。

        另一方面,在使用python进行数据科学和探索性数据分析中,主流是使用pandas Series和DataFrame数据类型。这次,将通过学习如何使用pandas DataFrames处理RDKit Mol对象来填补这一空白。

 

Pandas

        pandas是一个用于处理数据的python库,它是在python数据科学中心提供数据类型以及随之而来的各种操作的库。它特别擅长处理数字数据和时间序列数据中的异常值和缺失值。虽然numpy只能处理统一数值数据的数组,但pandas具有可以处理不均匀数据的功能。

数据结构

  • Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series如今能保存不同种数据类型,字符串、boolean值、数字等都能保存在Series中。
  • Time- Series:以时间为索引的Series。
  • D

你可能感兴趣的:(RDKit,化学信息学与AI)