KAGGLE比赛分享-细胞赛(一)

比赛地址

赛题背景

在过去的十年中,单细胞基因组学的出现使得能够测量单细胞中的 DNA、RNA 和蛋白质成为可能。这些技术允许以前所未有的规模和分辨率研究生物学。结果包括早期人类胚胎发育的详细地图、新疾病相关细胞类型的发现以及细胞靶向治疗干预。此外,随着实验技术的最新进展,现在可以测量同一细胞中的多种基因组模式。
虽然多模态单细胞数据越来越多,但数据分析方法仍然稀缺。由于单个单元的体积小,测量结果稀疏且嘈杂。细胞之间分子采样深度的差异(测序深度)和批量处理细胞的技术效果(批处理效果)通常会压倒生物学差异。在分析多模态数据时,必须考
虑不同的特征空间,以及模态之间和批次之间的共享和独特变化。此外,当前用于单细胞数据分析的管道将细胞视为静态快照,即使存在潜在的动态生物过程。考虑时间动态以及状态随时间的变化是单细胞数据科学中的一个公开挑战。
一般来说,遗传信息从 DNA 到 RNA 再到蛋白质。 DNA 必须是可访问的(ATAC 数据)才能产生 RNA(GEX 数据),而RNA 又被用作模板来产生蛋白质(ADT 数据)。这些过程受到反馈的调节:例如,一种蛋白质可能会结合 DNA 以防止产生更多的 RNA。这种遗传调控是动态细胞过程的基础,使生物体能够发展和适应不断变化的环境。在单细胞数据科学中,动态过程已通过捕获生物过程进展的所谓伪时间算法进行建模。然而,将这些算法推广到同时考虑伪时间和实时仍然是一个悬而未决的问题。

竞赛主办单位 Open Problems in Single-Cell Analysis 是一项开源、社区驱动的工作,旨在标准化单细胞方法的基准测试。
Open Problems 的核心工作包括将现有挑战形式化为可衡量的任务、高质量数据集的集合、社区贡献方法的集中基准测试,以及以社区为中心的活动,这些活动将不同的方法开发人员聚集在一起以改进单细胞算法。他们很高兴与 Cellarity、Chan ,Zuckerbeg Biohub、Chan Zuckerberg Initiative、Helmholtz Munich 和耶鲁大学合作,看看通过跨学科合作预测遗传动力学随时间的变化可以取得哪些进展。
人体内大约有 37 万亿个细胞,它们都具有不同的行为和功能。了解单个基因组如何产生细胞状态的多样性是获得对组织如何在健康和疾病中发挥功能或功能障碍的机制洞察力的关键。您可以帮助解决单细胞生物学的这一基本挑战。随着时间的推移,能够解决预测问题可能会对基因调控如何影响血液和免疫细胞成熟时的分化产生新的见解。
KAGGLE比赛分享-细胞赛(一)_第1张图片

比赛目的

本次比赛的目标是预测随着骨髓干细胞发育成更成熟的血细胞,DNA、RNA 和蛋白质测量值如何在单个细胞中共同变化。您将开发一个模型,该模型在 300,000 个细胞时间过程数据集的子集上进行训练,该数据集来自四个人类供体的 CD34+ 造血干细胞和祖细胞 (HSPC),该数据集由以细胞为中心的药物研发公司 Cellarity 为本次比赛生成的五个时间点。在测试集中,取自数据集中不可见的较晚时间点,将向参赛者提供一种模态,并负责预测在同一单元格中测量的配对模态。这场比赛的额外挑战是测试数据将来自比训练数据中的任何时间点更晚的时间点。参赛者的工作将有助于加速跨细胞状态层映射遗传信息的方法的创新。如果我们能够从另一种模式中预测一种模式,我们可能会扩大我们对管理这些复杂监管过程的规则的理解。

比赛数据

KAGGLE比赛分享-细胞赛(一)_第2张图片

数据说明

细胞类型
为了帮助指导您的分析,我们使用以下论文中的信息基于 RNA 基因表达进行了初步的细胞类型注释:https /www.nature.com/articles/ncb3493 。请注意,细胞类型注释是一门不精确的艺术,将离散标签分配给连续数据的概念具有固有的局限性。您不需要在预测中使用这些标签;它们主要用于指导探索性分析。在数据中,有以下细胞类型:

MasP = 肥大细胞祖细胞
MkP = 巨核细胞祖细胞
NeuP = 中性粒细胞祖细胞
MoP = 单核细胞祖细胞
EryP = 红细胞祖细胞
HSC = 造血干细胞
BP = B 细胞祖细胞
文件和字段说明
元数据.csv
cell_id- 每个观察到的细胞的唯一标识符。
donor- 四个细胞捐赠者的标识符。
day- 进行观察的实验当天。
technology- 要么citeseq要么multiome。
cell_type- 上述细胞类型之一或其他hidden。
实验观察结果包含在几个大数组中。我们以 HDF5 格式提供这些数组。

多组
train/test_multi_inputs.h5 -使用默认输出(染色质可访问性)使用TF-IDF转换的 ATAC-seq 峰值计数log(TF) * log(IDF),行对应于细胞,列对应于测量可访问性水平的基因组位置,此处由10x References - 2020-A(2020 年 7 月 7 日)中提供的参考基因组 GRCh38 上的基因组坐标。
train_multi_targets.h5 - RNA 基因表达水平作为库大小标准化和log1p 转换的相同细胞计数。
CITEseq
train/test_cite_inputs.h5 - RNA库大小归一化和log1p 转换计数(基因表达水平),行对应于细胞,列对应于给出的基因{gene_name}_{gene_ensemble-ids}。
train_cite_targets.h5 - 已被dsb 标准化的相同细胞的表面蛋白水平。
分裂
数据拆分安排如下:

训练集仅包含来自捐赠者13176、31800和的样本32606。公共测试集仅包含来自捐赠者的样本27678。私人测试集包括来自所有四个捐赠者的样本。
对于 Multiome 样本,训练集仅包含来自 days 2、3、4和的样本7。公共测试集仅包含来自天2、3和的样本7。私人测试集仅包含来自 day 的数据10。
对于 CITEseq 样本,训练集仅包含来自 days 2、3和的样本4。公共测试集还仅包含来自天2、3和的样本4。私人测试集仅包含来自 day 的样本7。在任何拆分中都没有当天的10CITEseq 样本。

KAGGLE比赛分享-细胞赛(一)_第3张图片

您的任务是预测与测试集中输入相对应的标签。为了便于提交评分,我们只需要对 Multiome 数据的子集进行预测。该子集是通过对 30% 的 Multiome 行进行采样而创建的,并且对于每行,15% 的列进行采样。列的样本因行而异。所有的 CITEseq 标签都进行了评分。

evaluation_ids.csv - 从要评估的测试集中识别标签。它提供了从标签矩阵的cell_id/标识符到提交文件所需的连接键。gene_idrow_id
sample_submission.csv - 格式正确的示例提交文件。有关更多信息,请参阅评估页面。

需求

遵循分子生物学的中心法则:DNA --> RNA–>Protein,你的任务如下:

对于Multiome样本:给定染色质可及性,预测基因表达。
对于CITEseq样本:给定基因表达,预测蛋白质水平。

你可能感兴趣的:(kaggle,机器学习笔记,数据分析,知识图谱,分类,回归,聚类)