anndata

name: anndata description: 单细胞分析中注释矩阵的数据结构。在处理 .h5ad 文件或与 scverse 生态系统集成时使用。这是数据格式技巧——分析工作流程使用scanpy；对于概率模型，使用 scvi-tools；对于人口规模查询，请使用 cellxgene-census。 license: BSD-3-Clause license metadata: skill-author: K-Dense Inc.

概述

AnnData 是一个 Python 包，用于处理带注释的数据矩阵，存储实验测量值 (X) 以及观察元数据 (obs)、变量元数据 (var) 和多维注释（obsm、varm、obsp、varp、uns）。它最初是为 Scanpy 的单细胞基因组学设计的，现在可作为任何需要高效存储、操作和分析的注释数据的通用框架。

何时使用此技能

在以下情况下使用此技能：

创建、读取或写入 AnnData 对象
使用 h5ad、zarr 或其他基因组数据格式
进行单细胞RNA-seq分析
使用稀疏矩阵或支持模式管理大型数据集
连接多个数据集或实验批次
子集化、过滤或转换带注释的数据
与 scanpy、scvi-tools 或其他 scverse 生态系统工具集成

安装

uv pip install anndata

# With optional dependencies
uv pip install anndata[dev,test,doc]

快速入门

创建AnnData对象

import anndata as ad
import numpy as np
import pandas as pd

# Minimal creation
X = np.random.rand(100, 2000)  # 100 cells × 2000 genes
adata = ad.AnnData(X)

# With metadata
obs = pd.DataFrame({
    'cell_type': ['T cell', 'B cell'] * 50,
    'sample': ['A', 'B'] * 50
}, index=[f'cell_{i}' for i in range(100)])

var = pd.DataFrame({
    'gene_name': [f'Gene_{i}' for i in range(2000)]
}, index=[f'ENSG{i:05d}' for i in range(2000)])

adata = ad.AnnData(X=X, obs=obs, var=var)

读取数据

# Read h5ad file
adata = ad.read_h5ad('data.h5ad')

# Read with backed mode (for large files)
adata = ad.read_h5ad('large_data.h5ad', backed='r')

# Read other formats
adata = ad.read_csv('data.csv')
adata = ad.read_loom('data.loom')
adata = ad.read_10x_h5('filtered_feature_bc_matrix.h5')

写入数据

# Write h5ad file
adata.write_h5ad('output.h5ad')

# Write with compression
adata.write_h5ad('output.h5ad', compression='gzip')

# Write other formats
adata.write_zarr('output.zarr')
adata.write_csvs('output_dir/')

基本操作

# Subset by conditions
t_cells = adata[adata.obs['cell_type'] == 'T cell']

# Subset by indices
subset = adata[0:50, 0:100]

# Add metadata
adata.obs['quality_score'] = np.random.rand(adata.n_obs)
adata.var['highly_variable'] = np.random.rand(adata.n_vars) > 0.8

# Access dimensions
print(f"{adata.n_obs} observations × {adata.n_vars} variables")

核心能力

1. 数据结构

理解AnnData对象结构，包括X、obs、var、图层、obsm、varm、obsp、varp、uns和原始组件。

参见：references/data_structure.md，了解以下方面的全面信息：

核心组件（X、obs、var、图层、obsm、varm、obsp、varp、uns、raw）
从各种来源创建 AnnData 对象
访问和操作数据组件
内存高效实践

2. Input/Output 操作

以各种格式读取和写入数据，支持压缩、备份模式和云存储。

参见：references/io_operations.md了解以下详细信息：

原生格式 (h5ad, zarr)
替代格式（CSV、MTX、Loom、10X、Excel）
大型数据集的支持模式
远程数据访问
格式转换
性能优化

常用命令：

# Read/write h5ad
adata = ad.read_h5ad('data.h5ad', backed='r')
adata.write_h5ad('output.h5ad', compression='gzip')

# Read 10X data
adata = ad.read_10x_h5('filtered_feature_bc_matrix.h5')

# Read MTX format
adata = ad.read_mtx('matrix.mtx').T

3.串联

使用灵活的连接策略将多个AnnData对象与观察或变量组合起来。

参见：references/concatenation.md，了解以下内容的全面覆盖：

基本串联（对于观测值，axis=0，对于变量，axis=1）
连接类型（内部、外部）
合并策略（相同、唯一、第一、唯一）
使用标签跟踪数据源
惰性连接 (AnnCollection)
大型数据集的磁盘串联

常用命令：

# Concatenate observations (combine samples)
adata = ad.concat(
    [adata1, adata2, adata3],
    axis=0,
    join='inner',
    label='batch',
    keys=['batch1', 'batch2', 'batch3']
)

# Concatenate variables (combine modalities)
adata = ad.concat([adata_rna, adata_protein], axis=1)

# Lazy concatenation
from anndata.experimental import AnnCollection
collection = AnnCollection(
    ['data1.h5ad', 'data2.h5ad'],
    join_obs='outer',
    label='dataset'
)

4. 数据操作

有效地转换、子集、过滤和重新组织数据。

请参阅：references/manipulation.md，了解以下方面的详细指导：

子集化（按索引、名称、布尔掩码、元数据条件）
换位
复制（完整副本与视图）
重命名（观察、变量、类别）
类型转换（字符串到分类，sparse/dense）
Adding/removing 数据组件
重新排序
质量控制过滤

常用命令：

# Subset by metadata
filtered = adata[adata.obs['quality_score'] > 0.8]
hv_genes = adata[:, adata.var['highly_variable']]

# Transpose
adata_T = adata.T

# Copy vs view
view = adata[0:100, :]  # View (lightweight reference)
copy = adata[0:100, :].copy()  # Independent copy

# Convert strings to categoricals
adata.strings_to_categoricals()

5. 最佳实践

遵循内存效率、性能和再现性的推荐模式。

参见：references/best_practices.md，了解以下指南：

内存管理（稀疏矩阵、分类、支持模式）
视图与副本
数据存储优化
性能优化
使用原始数据
元数据管理
再现性
错误处理
与其他工具集成
常见陷阱和解决方案

主要建议：

# Use sparse matrices for sparse data
from scipy.sparse import csr_matrix
adata.X = csr_matrix(adata.X)

# Convert strings to categoricals
adata.strings_to_categoricals()

# Use backed mode for large files
adata = ad.read_h5ad('large.h5ad', backed='r')

# Store raw before filtering
adata.raw = adata.copy()
adata = adata[:, adata.var['highly_variable']]

与 Scverse 生态系统集成

AnnData 作为scverse生态系统的基础数据结构：

Scanpy（单细胞分析）

import scanpy as sc

# Preprocessing
sc.pp.filter_cells(adata, min_genes=200)
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, n_top_genes=2000)

# Dimensionality reduction
sc.pp.pca(adata, n_comps=50)
sc.pp.neighbors(adata, n_neighbors=15)
sc.tl.umap(adata)
sc.tl.leiden(adata)

# Visualization
sc.pl.umap(adata, color=['cell_type', 'leiden'])

Muon（多模态数据）

import muon as mu

# Combine RNA and protein data
mdata = mu.MuData({'rna': adata_rna, 'protein': adata_protein})

PyTorch 整合

from anndata.experimental import AnnLoader

# Create DataLoader for deep learning
dataloader = AnnLoader(adata, batch_size=128, shuffle=True)

for batch in dataloader:
    X = batch.X
    # Train model

常见工作流程

单细胞RNA-seq分析

import anndata as ad
import scanpy as sc

# 1. Load data
adata = ad.read_10x_h5('filtered_feature_bc_matrix.h5')

# 2. Quality control
adata.obs['n_genes'] = (adata.X > 0).sum(axis=1)
adata.obs['n_counts'] = adata.X.sum(axis=1)
adata = adata[adata.obs['n_genes'] > 200]
adata = adata[adata.obs['n_counts'] < 50000]

# 3. Store raw
adata.raw = adata.copy()

# 4. Normalize and filter
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, n_top_genes=2000)
adata = adata[:, adata.var['highly_variable']]

# 5. Save processed data
adata.write_h5ad('processed.h5ad')

批量集成

# Load multiple batches
adata1 = ad.read_h5ad('batch1.h5ad')
adata2 = ad.read_h5ad('batch2.h5ad')
adata3 = ad.read_h5ad('batch3.h5ad')

# Concatenate with batch labels
adata = ad.concat(
    [adata1, adata2, adata3],
    label='batch',
    keys=['batch1', 'batch2', 'batch3'],
    join='inner'
)

# Apply batch correction
import scanpy as sc
sc.pp.combat(adata, key='batch')

# Continue analysis
sc.pp.pca(adata)
sc.pp.neighbors(adata)
sc.tl.umap(adata)

使用大型数据集

# Open in backed mode
adata = ad.read_h5ad('100GB_dataset.h5ad', backed='r')

# Filter based on metadata (no data loading)
high_quality = adata[adata.obs['quality_score'] > 0.8]

# Load filtered subset
adata_subset = high_quality.to_memory()

# Process subset
process(adata_subset)

# Or process in chunks
chunk_size = 1000
for i in range(0, adata.n_obs, chunk_size):
    chunk = adata[i:i+chunk_size, :].to_memory()
    process(chunk)

故障排除

内存不足错误

使用支持模式或转换为稀疏矩阵：

# Backed mode
adata = ad.read_h5ad('file.h5ad', backed='r')

# Sparse matrices
from scipy.sparse import csr_matrix
adata.X = csr_matrix(adata.X)

文件读取速度慢

使用压缩和适当的格式：

# Optimize for storage
adata.strings_to_categoricals()
adata.write_h5ad('file.h5ad', compression='gzip')

# Use Zarr for cloud storage
adata.write_zarr('file.zarr', chunks=(1000, 1000))

索引对齐问题

始终在索引上对齐外部数据：

# Wrong
adata.obs['new_col'] = external_data['values']

# Correct
adata.obs['new_col'] = external_data.set_index('cell_id').loc[adata.obs_names, 'values']

其他资源

官方文档：https://anndata.readthedocs.io/
Scanpy教程：https://scanpy.readthedocs.io/
Scverse生态系统：https://scverse.org/
GitHub 存储库：https://github.com/scverse/anndata