weixin_39839018

python sci数据_scanpy学习笔记:用Python分析单细胞数据

Scanpy 是一个基于 Python 分析单细胞数据的软件包，内容包括预处理，可视化，聚类，拟时序分析和差异表达分析等。本文翻译自 scanpy 的官方教程 Preprocessing and clustering 3k PBMCs[1]，用 scanpy 重现Seurat 聚类教程[2] 中的绝大部分内容。

0. scanpy 安装

Anaconda

# scanpyconda install-c bioconda scanpy# Leiden clustering packageconda install-c conda-forge leidenalg

安装 scanpy 时报错，搞了好久也没成功。。。重建环境也不行。

conda install-c bioconda scanpyCollecting packagemetadata(current_repodata.json): doneSolvingenvironment:failedwithinitial frozen solve. Retrying withflexible solve.Solvingenvironment:failedwithrepodatafromcurrent_repodata.json,willretry with nextrepodata source.Collecting packagemetadata(repodata.json): doneSolvingenvironment:failedwithinitial frozen solve. Retrying withflexible solve.Solvingenvironment:Foundconflicts! Looking forincompatible packages.Thiscan take several minutes. PressCTRL-C to abort.failedUnsatisfiableError: Thefollowing specifications were found to be incompatiblewitheach other:Output informat: Requested package -> Availableversions

PyPI

直接用 pip ，安装成功。

pip install scanpy[louvain]

Docker

docker pull fastgenomics/scanpy:1.4-p368-v1-stretch-slim

1. 载入数据

# 下载PBMC 数据集## 其实就是 Seurat 那个示例数据，之前下过就不用重复下了!mkdir data!wget http://cf.10xgenomics.com/samples/cell-exp/1.1.0/pbmc3k/pbmc3k_filtered_gene_bc_matrices.tar.gz -O data/pbmc3k_filtered_gene_bc_matrices.tar.gz!cd data;tar-xzf pbmc3k_filtered_gene_bc_matrices.tar.gz

importnumpyasnpimportpandasaspdimportscanpyassc

/Users/baozhiwei/anaconda3/lib/python3.7/site-packages/anndata/core/anndata.py:17: FutureWarning:pandas.core.indexisdeprecatedandwill be removedina future version. The publicclasses are availableinthe top-levelnamespace.frompandas.core.indeximport RangeIndex

# verbosity 的取值表示测试结果显示的详细程度，数字越大越详细## errors (0), warnings (1), info (2), hints (3)sc.settings.verbosity= 3# 输出版本号sc.logging.print_versions()# set_figure_params 设置图片的分辨率/大小以及其他样式sc.settings.set_figure_params(dpi=80)

scanpy==1.4.5.post3anndata==0.6.22.post1umap==0.3.10numpy==1.18.1scipy==1.4.1pandas==1.0.1scikit-learn==0.22.1statsmodels==0.11.0python-igraph==0.7.1

# 设置结果文件保存路径results_file= './pbmc3k.h5ad'

# 导入 10X 数据adata=sc.read_10x_mtx('./data/filtered_gene_bc_matrices/hg19/', # 包含有 `.mtx` 文件的目录var_names='gene_symbols', # 用 gene symbols 作为变量名 (variables-axis index)cache=True) # 使用缓存文件加快读取

...writing an h5ad cache file to speedup readingnexttime

scanpy 的结果文件是 AnnData 对象，意为 annotated data。AnnData 用了一些广义的单词来描述「细胞」和「基因」：将细胞称为观察值 observations ，将基因称为变量 variables 。AnnData 包括四个可以存储信息的区域：

•adata.X 存储 count matrix，数据类型为稀疏矩阵 scipy.sparse.csr.csr_matrix•adata.obs 存储关于 obervations(cells) 的 metadata，数据类型为 dataframe•adata.var 存储关于 variables(genes) 的 metadata，数据类型为 dataframe•AnnData.uns 存储后续附加的其他非结构化信息•adata.obs_names 和 adata.var_names index

细胞名和基因名可分别通过 adata.obs_names 和 adata.var_names 查看。 AnnData 对象可以像 dataframe 一样进行切片操作，例如，adata_subset = adata[:, list_of_gene_names]。

# 索引去重，若上一步中使用 `var_names='gene_ids'` 则这一步非必须进行# 其实也可以直接用 pandas 判断索引是否重复# adata.var_names.is_uniqueadata.var_names_make_unique()

adata

AnnData object withn_obs×n_vars= 2700 × 32738var: 'gene_ids'

2. 数据预处理

可视化所有细胞中计数最多的基因。

sc.pl.highest_expr_genes(adata,n_top=20, )

normalizing counts per cellfinished(0:00:00)

数据初筛

# 保留至少在三个细胞中表达的基因，保留至少包含 200 个基因的细胞sc.pp.filter_cells(adata,min_genes=200)sc.pp.filter_genes(adata,min_cells=3)

filteredout 19024genes that are detectedinless than3cells

标注线粒体基因并计算每个细胞中的线粒体基因比例。

mito_genes = adata.var_names.str.startswith('MT-')# 计算每个细胞中的线粒体基因比例# 使用`.A1` 将 numpy.matrix 转为一维数组 ndarrayadata.obs['percent_mito'] = np.sum(adata[:, mito_genes].X, axis=1).A1 / np.sum(adata.X, axis=1).A1# 把每个细胞的基因计数添加到 adata 中adata.obs['n_counts'] = adata.X.sum(axis=1).A1

方法二

还可以使用 pp.calculate_qc_metrics 来计算每个细胞中线粒体基因的数量，以及其他一系列 QC 数据。关于更多 preprocessing 的内容可参见文档[3]。

# 标记线粒体基因adata.var['mito'] =mito_genes

calculate_qc_metrics 函数会返回由两个 dataframe 组成的元组，一个是细胞的 QC 矩阵，另一个是基因的 QC 矩阵。

qc=sc.pp.calculate_qc_metrics(adata,qc_vars=['mito'])cell_qc_dataframe=qc[0]gene_qc_dataframe=qc[1]

cell_qc_dataframe.iloc[:4, :4]

gene_qc_dataframe.iloc[:4, :4]

用小提琴图可视化

sc.pl.violin(adata, ['n_genes', 'n_counts', 'percent_mito'],jitter=0.4, multi_panel=True)

可视化特征之间的关系。

sc.pl.scatter(adata, x='n_counts', y='percent_mito')sc.pl.scatter(adata, x='n_counts', y='n_genes')

adata

AnnData object withn_obs×n_vars= 2700 × 13714obs: 'n_genes', 'percent_mito', 'n_counts'var: 'gene_ids', 'n_cells'

过滤线粒体基因比例 > 5% 和基因总数 >2500 的细胞。

adata=adata[adata.obs.n_genes< 2500, :]adata=adata[adata.obs.percent_mito< 0.05, :]

adata

AnnData object withn_obs×n_vars= 2638 × 13714obs: 'n_genes', 'percent_mito', 'n_counts'var: 'gene_ids', 'n_cells'

标准化数据

sc.pp.normalize_total(adata,target_sum=1e4)

normalizing counts per cellfinished(0:00:01)

进行自然对数转换

sc.pp.log1p(adata)

可以将 AnnData 对象的 .raw 属性设置为经归一化和对数化的原始基因表达值，供之后的可视化分析使用。

adata.raw=adata

选择差异基因

sc.pp.highly_variable_genes(adata,min_mean=0.0125,max_mean=3,min_disp=0.5)

extracting highly variable genesfinished(0:00:00)-->added'highly_variable', booleanvector(adata.var)'means', floatvector(adata.var)'dispersions', floatvector(adata.var)'dispersions_norm', floatvector(adata.var)

这一步在 adata.var 中添加了四列内容(highly_variable，means，dispersions，dispersions_norm)。

sc.pl.highly_variable_genes(adata)

取出高度差异的基因。

adata=adata[:,adata.var.highly_variable]

校正细胞基因计数和线粒体基因比例的影响。

sc.pp.regress_out(adata, ['n_counts', 'percent_mito'])

regressingout ['n_counts', 'percent_mito']sparse inputisdensifiedandmay lead to high memoryusefinished(0:00:04)

数据缩放

sc.pp.scale(adata,max_value=10)

3. PCA

sc.tl.pca(adata,svd_solver='arpack')# svd_solver 指定奇异值分解 SVD 的方法

computing PCAwithn_comps= 50on highly variable genesfinished(0:00:00)

绘制碎石图，确定数据维度。

sc.pl.pca_variance_ratio(adata, log=True)

保存结果。

adata.write(results_file)

adata

AnnData object withn_obs×n_vars= 2638 × 1838obs: 'n_genes', 'percent_mito', 'n_counts'var: 'gene_ids', 'n_cells', 'highly_variable', 'means', 'dispersions', 'dispersions_norm'uns: 'log1p', 'pca'obsm: 'X_pca'varm: 'PCs'

4. 细胞聚类

为了重现 Seurat 的结果，我们使用下面的参数。

sc.pp.neighbors(adata,n_neighbors=10,n_pcs=40)

computing neighborsusing 'X_pca' withn_pcs= 40finished:added to`.uns['neighbors']`'distances',distancesforeach pair of neighbors'connectivities',weighted adjacency matrix(0:00:01)

sc.tl.leiden(adata)

runningLeidenclusteringfinished:found8clustersandadded'leiden',the cluster labels(adata.obs,categorical) (0:00:00)

非线性降维 UMAP

sc.tl.umap(adata)

computing UMAPfinished:added'X_umap',UMAP coordinates(adata.obsm) (0:00:04)

绘制聚类图

sc.pl.umap(adata, color=['leiden', 'CST3', 'NKG7'])

保存结果。

adata.write(results_file)

5. 找 marker gene

接下来计算每个 cluster 中高度差异基因的排名。默认，若之前已初始化 AnnData 的 .raw 属性，则使用会该属性。

t 检验

sc.tl.rank_genes_groups(adata, 'leiden',method='t-test')sc.pl.rank_genes_groups(adata,n_genes=25,sharey=False)

ranking genesfinished:added to`.uns['rank_genes_groups']`'names',sorted np.recarray to be indexedby groupids'scores',sorted np.recarray to be indexedby groupids'logfoldchanges',sorted np.recarray to be indexedby groupids'pvals',sorted np.recarray to be indexedby groupids'pvals_adj',sorted np.recarray to be indexedby groupids(0:00:00)

sc.settings.verbosity= 2 # reduce the verbosity

Wilcoxon 秩和检验

与 t 检验的结果非常相似。我们建议在文章中使用后者，参见 Sonison＆Robinson(2018)[4]。

sc.tl.rank_genes_groups(adata, 'leiden',method='wilcoxon')sc.pl.rank_genes_groups(adata,n_genes=25,sharey=False)

ranking genesfinished(0:00:02)

保存结果

adata.write(results_file)

逻辑回归

或者，也可以根据 Natranos et al. (2018)[5] 的建议使用逻辑回归对基因进行排名。本质区别在于，这里使用多元变量，而传统的差异检验是单变量。更多细节可参考 Clark et al. (2014)[6] 。

sc.tl.rank_genes_groups(adata, 'leiden',method='logreg')sc.pl.rank_genes_groups(adata,n_genes=25,sharey=False)

ranking genesfinished(0:00:03)

除 IL7R仅在 t 检验的结果中发现，以及仅在其他两种检验方法中发现的FCER1A以外，其他标记基因均可通过所有检验方法得到。

Louvain Group

Markers

Cell Type

IL7R

CD4 T cells

CD14, LYZ

CD14+ Monocytes

MS4A1

B cells

CD8A

CD8 T cells

GNLY, NKG7

NK cells

FCGR3A, MS4A7

FCGR3A+ Monocytes

FCER1A, CST3

Dendritic Cells

PPBP

Megakaryocytes

定义一个标记基因的列表，方便之后的分析。

marker_genes= ['IL7R', 'CD79A', 'MS4A1', 'CD8A', 'CD8B', 'LYZ', 'CD14','LGALS3', 'S100A8', 'GNLY', 'NKG7', 'KLRB1','FCGR3A', 'MS4A7', 'FCER1A', 'CST3', 'PPBP']

重新加载保存有 Wilcoxon 秩和检验结果的对象。

adata=sc.read(results_file)

显示每个 cluster 中排名前五的基因。

pd.DataFrame(adata.uns['rank_genes_groups']['names']).head(5)

显示每个基因在每一 cluster 中的对应 p 值。

result = adata.uns['rank_genes_groups']groups = result['names'].dtype.namespd.DataFrame({group + '_' + key[:1]: result[key][group]for group in groups for key in ['names', 'pvals']}).head(5)

cluster 与 cluster 之间进行比较。

sc.tl.rank_genes_groups(adata, 'leiden',groups=['0'],reference='1',method='wilcoxon')sc.pl.rank_genes_groups(adata,groups=['0'],n_genes=20)

ranking genesfinished(0:00:01)

还可用 sc.pl.rank_genes_groups_violin 进一步获得信息更丰富的图。

sc.pl.rank_genes_groups_violin(adata, groups='0', n_genes=8)

重新载入对象，将单一 cluster 与其他剩余的 cluster 进行比较。

adata=sc.read(results_file)

sc.pl.rank_genes_groups_violin(adata, groups='0', n_genes=8)

如果要比较某个基因在不同组之间的差异，可使用以下代码。

sc.pl.violin(adata, ['CST3', 'NKG7', 'PPBP'], groupby='leiden')

6. 标记细胞类型

new_cluster_names= ['CD4 T', 'CD14 Monocytes','B', 'CD8 T','NK', 'FCGR3A Monocytes','Dendritic', 'Megakaryocytes']adata.rename_categories('leiden',new_cluster_names)

sc.pl.umap(adata,color='leiden',legend_loc='on data',title='',frameon=False,save='.pdf')

WARNING:saving figure to file figures/umap.pdf

可视化 marker genes。

ax = sc.pl.dotplot(adata, marker_genes, groupby='leiden')

绘制不同细胞亚群中多个基因的小提琴图。

ax = sc.pl.stacked_violin(adata, marker_genes, groupby='leiden', rotation=90)

adata

AnnData object withn_obs×n_vars= 2638 × 1838obs: 'n_genes', 'percent_mito', 'n_counts', 'leiden'var: 'gene_ids', 'n_cells', 'highly_variable', 'means', 'dispersions', 'dispersions_norm'uns: 'leiden', 'leiden_colors', 'neighbors', 'pca', 'rank_genes_groups', 'umap'obsm: 'X_pca', 'X_umap'varm: 'PCs'

保存数据。

adata.write(results_file,compression='gzip')

引用链接

[1] https://scanpy-tutorials.readthedocs.io/en/latest/pbmc3k.html[2] http://satijalab.org/seurat/pbmc3k_tutorial.html[3] https://icb-scanpy.readthedocs-hosted.com/en/stable/api/index.html#module-scanpy.pp[4] https://doi.org/10.1038/nmeth.4612[5] https://doi.org/10.1101/258566[6] https://doi.org/10.1186/1471-2105-15-79

tensorflow sigmoid_cross_entropy_with_logits 函数解释及公式推导 CrazyWolf_081c
tensorflowsigmoid_cross_entropy_with_logits函数解释及公式推导tensorflow官方文档解释参考pytorch--BCELosspytorch--BCELoss解释参考定义在tensorflow/python/ops/nn_impl.py.功能：计算在给定logits和label之间的sigmoidcrossentropy。测量离散分类任务中的概率误差，
东莞正规亲子鉴定中心地址16家大全（附2024年鉴定地址）中检国权有限公司
东莞哪里可以做亲子鉴定？可以去东莞国权咨询，地址：东莞环球经贸中心1104。目前东莞市面上有很多声称可以做亲子鉴定的机构，其中也包括不少非正规机构，为了方便大家快速找到东莞本地正规亲子鉴定机构，本文分享了东莞亲子鉴定中心机构地址大全供大家参考，注意：排名顺序不分先后，部分机构不确定能否做亲子鉴定，还需要根据业务范围选择，数据来源于互联网。东莞正规亲子鉴定中心地址16家一、东莞正规亲子鉴定机构东莞正
uniapp基本使用 shadouqi uniapp uni-app
资料咸虾米视频黑马视频uniapp官方文档hbuilder1.uniapp页面生命周期1.1onLoad还拿不到dom适合接受上页的参数，联网取数据，更新data。相当于created和beforeCreated期间主要的作用是比如说获取url上的query参数*url:***/**?name=张三&age=18import{onLoad}from"@dcloudio/uni-app"onLoad
es6中的symbol基础知识藤原とラふ店丶 es6 前端 ecmascript
ES6中的Symbol是一种新的原始数据类型（PrimitiveDataType），它代表唯一的、不可变的值。它的主要目的是为了解决属性名冲突的问题，并为对象定义非字符串的属性键（Key）。以下是Symbol的核心特性和用法：1.创建Symbol使用Symbol()函数创建，每次调用都会返回一个独一无二的值：constsym1=Symbol();constsym2=Symbol();console
写一个空调风机时长统计系统
需求：通过python图形化程序需要实现空调风机的时长统计。界面功能介绍：该空调系统分为8页，通过右上角左右翻页的方式进行页面切换，翻页按钮是翻到最后一页后只能通过上一页往前面，同理第一页也是这样。做了颜色采样，采样而且每页的风机数量是不同的，灰色：#515151RGB:818181绿色：#1bf928RGB：2724940底色：#033047RGB：34871灰色是未开机状态、绿色是开机状态、底
超简单linux上部署Apache 悟空骑猪看电影 apache linux 运维网络
1.Apache是什么？Apache是世界上最流行的开源Web服务器软件，由Apache软件基金会维护。主要功能：接收客户端（如浏览器）的HTTP请求，返回网页、图片等静态/动态资源。特点：跨平台（Linux、Windows、macOS）模块化设计（按需加载功能）支持多语言扩展（PHP、Python等）高稳定性和安全性2.核心架构与工作原理多进程模型（MPM）Prefork：多进程模式，每个请求由
Apache IoTDB 集群数据迁移指南静默小音箱编程问题解决手册 apache iotdb 个人开发
随着物联网（IoT）设备的普及和数据量的激增，数据存储和管理的需求也随之增加。ApacheIoTDB作为一个专为时序数据设计的数据库系统，提供了从单机到集群的多种部署方案。最近，我将ApacheIoTDB从单机版本扩展到了集群版本，并遇到了一个有趣的问题：如何将一个集群的数据迁移到另一个集群？单机版本与集群版本的迁移对比在单机版本的ApacheIoTDB中，数据迁移非常简单。我们只需要将数据文件夹
TinyMCE富文本编辑器在Vue中的使用教程
介绍TinyMCE是一款功能强大的富文本编辑器，本教程将指导您如何在Vue项目中集成和使用TinyMCE编辑器，从基础使用到高级功能扩展。目录基础集成核心配置详解图片上传处理自定义功能扩展双向数据绑定样式定制常见问题解决vue项目实际应用1.基础集成安装依赖#yarnyarnaddtinymceyarnadd@tinymce/tinymce-vue#npmnpminstalltinymce-Snp
入门指南：Vue.js的基本概念和用法是小韩呀 vue.js javascript 前端
引言：Vue.js是一种流行的JavaScript框架，用于构建现代化的Web应用程序。它以其简洁易用的API和响应式的数据绑定而闻名，使得开发人员能够更轻松地构建交互性强大的用户界面。本文将介绍Vue.js的基本概念和用法，帮助初学者快速入门。一、Vue.js是一个轻量级、渐进式的JavaScript框架，用于构建用户界面。它的设计目标是通过尽可能简单的API，让开发者能够更高效地开发交互性强大
时序数据库的工业级对决：对比 Apache IoTDB 和 InfluxDB 时序数据说时序数据库 apache iotdb 数据库大数据开源
在数字化浪潮中，物联网（IoT）与工业大数据领域蓬勃发展，时序数据呈爆发式增长。时序数据库作为管理这类数据的核心工具，其性能、功能和适应性直接影响到整个系统的运行效率与价值实现。ApacheIoTDB和InfluxDB作为时序数据库领域的佼佼者，被广泛应用于各类场景。深入剖析二者区别，对开发者、企业架构师和数据管理者而言，不仅能为项目选型提供科学依据，还能助力挖掘数据的最大价值。一、诞生背景与社区
时序数据库IoTDB与OpenTSDB的对比分析时序数据说时序数据库 iotdb opentsdb 数据库大数据
在物联网与大数据场景下，时序数据库的选择对于系统性能、数据存储与分析能力至关重要。本文将围绕ApacheIoTDB与OpenTSDB这两款开源时序数据库进行对比分析，从分布式架构、部署易用性、分析与计算能力、性能表现以及产品迭代与维护情况五个关键维度展开，旨在为面临海量设备接入和实时数据分析需求的物联网架构师提供客观的技术选型参考。一、分布式架构‌ApacheIoTDB‌：IoTDB原生支持分布式
nestjs[一文学懂TypeORM在nestjs中的日常使用]
前提第一步：需要先了解nestjs中使用typeorm的引入和使用。参考官方：TypeORM集成第二步：熟悉typeorm文档了解与熟悉相关的api内容基础。学习步骤1.了解nestjs中引入typeorm并且配置引入相关库，参考前提-第一步在真实的项目中往往数据库信息都是放在配置文件中。其中Entities代表着数据表实体集，往往好多学习文档中都会开启自动扫描autoLoadEntities或者
nodejs关于后端服务开发的探究墨水白云 node.js
前提在当前的环境中关于webserver的主流开发基本上都是java、php之类的，其中javaspring系列基本上占了大头，而python之流也在奋起直追，但别忘了nodejs也是可以做这个服务的，只是位置有点尴尬，现在就来探究下nodejs做webserver的当前现状。nodejs简介Node.js是一个基于ChromeV8引擎的JavaScript运行环境。Node.js使用了一个事件驱
基于逻辑回归的图像二分类算法实现（Pytorch版）哎呦哥哥、图像分类 pytorch 逻辑回归分类
基于逻辑回归的图像二分类算法实现（Pytorch版）数据集模型代码数据集链接：FastFoodClassificationDataset我们只使用Burger和Pizza这两类。模型代码importtorchimporttorch.nnasnnfromtorchvision.models.utilsimportload_state_dict_from_urlmodel_urls={'resnet5
Python自动操作GUI神器PyAutoGUI 小菜菜-K PYTHON
日常使用计算机，命令行程序可以说是为批量操作文件而生，但作为普通用户，最多的还是通过鼠标键盘操作形形色色的图形界面程序。试想下面一个场景：有成千上万个文件，都需要通过图形界面进行同样的一套编辑、保存工作，靠手工一遍一遍地重复做，累死人不说，时间久了必然出现错误，作为程序猿，怎么能忍重复3次以上的工作，必须利用程序自动化。要想图形界面也能像命令行程序那样精确控制，就需要GUI自动化工具了。不得不赞P
React 最新版本（hooks写法）抬头第一眼，是天 React react.js javascript 前端
React目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录React目录前言一、指令jsx语法：需要注意的是：react的类名class变成了className，事件从onClick，因为class是react的内部关键字动态数据useState()相当于Vue3的ref（），reactive（）条件渲染列
Python练习（7）Python模块与方法：20道核心实战练习题（含答案与深度解析）（上）
目录引言基础篇（5题）练习1：模块导入方式对比练习2：模块别名应用练习3：条件导入模块练习4：模块搜索路径管理练习5：包结构初始化进阶篇（5题）练习6：模块重载机制练习7：类方法与静态方法区分练习8：魔术方法应用练习9：模块级变量作用域练习10：装饰器实现方法注册高级技巧篇（5题）练习11：动态模块导入练习12：命名空间包练习13：模块卸载陷阱练习14：元类方法控制练习15：上下文管理器方法实战案
实现高效协作的白板模式技术解析十三木
本文还有配套的精品资源，点击获取简介：白板模式是一种流行的交互方式，支持教育、协作和设计领域的实时合作。它类似于一个虚拟的白板，允许用户自由绘制、书写和标注。在软件层面，白板模式需要处理图形渲染、事件处理、实时数据同步、状态管理、文件导入导出、权限控制、界面设计、性能优化、安全性和跨平台支持等关键技术点。本篇将深入解析这些技术要点，以及如何综合运用它们来构建一个功能强大、用户体验良好且易于协作的白
python启动其他程序或命令（pandoc） SUN_SU3 python
编写python脚本时，有些功能由其他程序执行，直接在python脚本中启动对应的程序或命令执行即可，现记录用过的几种方法：查看程序的安装目录：whichpandoc1）subprocess:importsubprocessa=subprocess.Popen(['/opt/***/pandoc','/home/***/test.docx','-o','/home/***/test.html'])
谷歌引入开源全栈 AI 代理栈：借助 Gemini 2.5 和 LangGraph 实现多步网络搜索、反思与综合
对话式AI已迅速从基础聊天机器人框架中发展起来。然而，大多数大型语言模型（LLM）仍存在一个关键限制——它们仅依据静态训练数据生成回复，缺乏自我识别知识空白或执行实时信息综合的能力。因此，这些模型常常给出不完整或过时的答案，尤其在涉及不断演变或小众话题时。为解决这些问题，AI代理必须超越被动查询。它们需要识别信息空白，执行自主网络搜索，验证结果，并完善回复——有效模仿人类研究助手的工作方式。谷歌与
全国青少年软件编程(Python)等级考试四级考试真题2024年3月——持续更新..... owbc_ 电子学会（python）三四级考试真题及答案（持续更新）python 算法开发语言青少年编程
青少年软件编程（Python）等级考试试卷（四级）分数：100题数：38一、单选题(共25题，共50分)1.运行如下代码，若输入整数3，则最终输出的结果为？（）deff(x):ifx==1:s=1else:s=f(x-1)*xreturnsn=int(input(“请输入一个大于1的整数：”))print(f(n)+f(n-1))A.2B.4C.8D.16标准答案：C试题解析：由于f(3)=f(2
生成式 AI：从 “理解” 到 “创造” 的突破田园Coder 人工智能科普人工智能科普
1.生成式AI的定义：让AI从“识别”走向“创造”1.1什么是生成式AI生成式AI是一类能自主生成新内容（文本、图像、音频、视频等）的人工智能技术。与传统“判别式AI”（如人脸识别、垃圾邮件过滤，专注于分类和判断）不同，生成式AI的核心是“创造”——它能基于学习的规律，生成与训练数据相似但全新的内容。例如，判别式AI能判断“这是一幅梵高的画”，而生成式AI能模仿梵高的风格创作一幅全新的油画；判别式
写入P99延迟突破1秒含义 jiedaodezhuti hbase
写入P99延迟突破1秒‌”这个表述指的是在测量数据写入操作的延迟（响应时间）时，‌衡量尾部延迟的关键指标P99超过了1000毫秒‌。具体含义需要从以下几个方面理解：‌1.写入操作延迟：‌指数据成功写入存储系统（如数据库、文件系统、SSD等）所需的时间，即从发起写入请求到获得写入成功确认的时间间隔11。低延迟表示写入速度快，高延迟则表示写入缓慢。2‌.P99延迟：‌这是一个百分位数指标。它表示在测量
filebeat原理架构 jiedaodezhuti 架构
Filebeat是基于Golang开发的轻量级日志采集Agent，其核心架构设计围绕高效、可靠地采集与转发日志数据，主要组件和工作流程如下：‌一、核心架构组件‌‌输入(Inputs)‌负责监控指定的日志源（如文件路径、日志文件）。每个日志源由独立的‌Harvester（采集器）‌处理。‌Harvester（采集器）‌职责‌：逐行读取单个日志文件内容，将数据发送至处理引擎（Libbeat）。‌特性‌
【亲测免费】 PyPandoc 项目常见问题解决方案
PyPandoc项目常见问题解决方案基础介绍PyPandoc是一个为Pandoc提供的Python薄壳包装器。Pandoc是一个通用的文档转换工具，能够将标记格式的文档转换为多种格式。PyPandoc主要使用Python编程语言，旨在简化Pandoc在Python项目中的使用。新手常见问题及解决步骤问题1：如何安装PyPandoc问题描述：新手在使用PyPandoc时，首先需要了解如何正确安装。解
青少年人工智能Python编程水平测试四级模拟试卷9 试题解析编程小伙伴测评网 YCL 试题详解 python 开发语言少儿编程青少年编程算法数据结构排序算法
1、以下选项中，说法正确的是？（）A、条件1and条件2，表示条件满足其中1个即可B、条件1or条件2，表示2个条件需要同时满足C、and和or不能在一个条件表达式中同时使用D、andor一般和if语句搭配使用正确答案：D试题解析：and是逻辑与，同时满足结果才满足；or是逻辑或，满足一个结果就是满足；
青少年人工智能Python编程水平测试四级模拟试卷5 试题解析编程小伙伴测评网 YCL 试题详解 python 开发语言少儿编程青少年编程算法推荐算法
【单选题】（每题2分）1、运行下列代码后，输入4，输出的结果是？（）num_1=input()num_2="3"print(num_1+num_2)A、7B
十年老Python程序员：给我一个链接，没有我不能爬的视频，只有我顶不住的视频 IT孔乙己
一、写在前面真的，为什么别人发游戏这么多人看，我发了两次了加起来才一百个。算了算了，不整游戏了，反正你们也不爱看~python今天来试试把头条上扭腰上热门的那些妹子爬一爬，不知道我顶不顶得住~python二、准备工作1、使用的环境python3.8pycharm2021.2专业版2、要用的第三方模块seleniumrequestsparsel三、大致流程鉴于你们不喜欢我啰嗦，但是流程呢，我还是要给
Python中win32com的用法详解：自动化办公与COM交互的利器 detayun Python python 自动化交互 win32
在Python自动化办公场景中，win32com模块凭借其与WindowsCOM（ComponentObjectModel）的深度集成能力，成为操控MicrosoftOffice、工业设备甚至第三方软件的核心工具。本文将通过实战案例、技术细节和避坑指南，系统解析这一模块的核心用法。一、核心功能与安装配置1.1模块定位与优势win32com是pywin32扩展包的核心组件，其核心价值在于：跨软件交互
O (1) 空间搞定链表：穿针引线法核心技巧与例题无聊的小坏坏算法链表 c++算法
文章目录穿针引线法的核心思想基础应用：链表反转1.全链表反转2.部分链表反转高级应用：链表重排穿针引线法的设计模式常见问题解决方案1.K个一组反转链表2.环形链表检测在链表操作的世界里，"穿针引线"是一种优雅而高效的技巧，它通过精准的指针操作，像缝纫一样重新连接节点，解决各种复杂的链表问题。这种技巧不依赖额外数据结构，空间复杂度仅为O(1)，是算法面试中的必备技能。穿针引线法的核心思想指针即针线：
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本

python sci数据_scanpy学习笔记:用Python分析单细胞数据

你可能感兴趣的:(python,sci数据)