Etapa 0.1 — Seleccion de genes semilla¶
Que problema resuelve este modulo¶
Antes de ejecutar CPCA, necesitamos definir un conjunto de genes semilla
(core clock genes) que sabemos que son ritmicos. Estos genes sirven como
referencia para la proyeccion circular inicial. Para ello usamos el fichero
core_genes.py que se encarga de la seleccion, validacion de la presencia de estos
genes en nuestra matriz de expresion.
CIRCUST incluye un catalogo predefinido de 12 genes reloj centrales: ARNTL, CLOCK, CRY1, CRY2, CSNK1D, CSNK1E, DBP, NPAS2, NR1D1, NR1D2, PER1, PER2, PER3, TEF.
Note
Existen otros conjuntos disponibles como el de Zhang et al. 2014 que recoge los siguientes: ARNTL, DBP, NR1D1, NR1D2, PER1, PER2, PER3, USP2, TSC22D3, TSPAN4 Ademas de en un futuro tener un modelo de seleccion automatica
Ejemplo de uso¶
from circust.core_genes import CoreGeneSelector
from circust.preprocessing import Preprocessor, load_expression_matrix
matrix = load_expression_matrix("data/raw/gtex_brain.csv")
prep = Preprocessor().run(matrix)
# Preset por nombre (circust,zhang...)
sel = CoreGeneSelector(preset="circust")
result = sel.select(prep.expr_norm)
result.genes # lista validada
result.missing # genes no encontrados en la matriz
# Lista personalizada
sel = CoreGeneSelector(custom_genes=["ARNTL", "DBP", "PER1", "PER2"])
result = sel.select(prep.expr_norm)
Referencia de la API¶
Ver circust.core_genes.