Saltar al contenido principal

Guía del Módulo: Datasets

El módulo de Datasets es el punto de entrada para todos los datos en DashAI. Todos los demás módulos — Modelos, Notebooks, Generativo — dependen de que un dataset esté cargado aquí primero. Esta guía cubre qué hace el módulo, cómo funcionan sus componentes y cómo sacar el máximo provecho de cada funcionalidad.


La Interfaz del Módulo de Datasets

La barra lateral izquierda lista todos los datasets y notebooks disponibles. Cada entrada de dataset muestra su nombre, cantidad de filas y cantidad de columnas de un vistazo. Al hacer clic en un dataset se abre su vista completa en el área principal.

El botón Nuevo Dataset/Notebook en la parte superior de la barra lateral es el punto de entrada tanto para cargar un nuevo dataset como para crear un nuevo notebook vinculado a uno existente.


Carga de Datos

DashAI admite cuatro formatos de archivo. Cada uno tiene un cargador de datos dedicado que controla cómo se analiza el archivo.

Formatos Admitidos y Cargadores de Datos

FormatoCargador de DatosExtensiones
CSVCSVDataLoader.csv
ExcelExcelDataLoader.xlsx, .xls
JSONJSONDataLoader.json

El flujo de carga es en línea — todo ocurre dentro de la página de Datasets sin navegar a otra página.

Inferencia de Tipos

Después de cargar un archivo, DashAI lee una cantidad configurable de filas (Filas de Inferencia, por defecto 1000) y asigna automáticamente un tipo semántico a cada columna: Categorical, Float o Integer. Estos tipos se utilizan en toda la plataforma — en las pestañas del Explorador, en el módulo de Modelos para verificar la compatibilidad de columnas, y en los convertidores de Notebook para filtrar las operaciones aplicables.

Puedes sobrescribir cualquier tipo inferido directamente en la vista previa de carga haciendo clic en el menú desplegable del encabezado de cada columna. Corregir los tipos en el momento de la carga previene problemas posteriores en experimentos y transformaciones.

Parámetros de CSVDataLoader

ParámetroPor defectoDescripción
Nombrenombre del archivoNombre para mostrar del dataset dentro de DashAI
Separador,Carácter que separa los valores de columna. Usa ; para exportaciones de Excel con configuración regional europea
EncabezadoinferFila que contiene los nombres de las columnas. infer detecta automáticamente; establece un número para archivos con filas de metadatos antes del encabezado
NombresNullSobrescribir los nombres de columnas manualmente
Codificaciónutf-8Codificación de caracteres del archivo. Usa latin-1 o ISO-8859-1 para archivos con caracteres acentuados
Valores NANullCadenas adicionales a tratar como valores faltantes (p. ej. "?", "N/A")

Parámetros de ExcelDataLoader

ParámetroPor defectoDescripción
Hoja0Índice basado en cero de la hoja a cargar
Encabezado0Índice de fila basado en cero del encabezado de columna
Usar columnasNullLista de columnas separadas por coma a cargar; Null carga todas
Omitir filasNullFilas a omitir al inicio de la hoja
N filasNullMáximo de filas a cargar; Null carga todas
NombresNullSobrescribir nombres de columnas
Valores NANullCadenas NA adicionales
Mantener NA por defectoReconocer cadenas NA integradas automáticamente
Valores verdaderosNullCadenas a interpretar como True booleano
Valores falsosNullCadenas a interpretar como False booleano

Parámetros de JSONDataLoader

ParámetroPor defectoDescripción
Nombrenombre del archivoNombre para mostrar
Clave de datosdataClave dentro del objeto JSON que contiene el arreglo de registros

El JSONDataLoader espera una estructura como { "data": [{...}, {...}] }. Cambia Clave de datos para que coincida con la clave real en tu archivo si difiere de data.


Explorador de Datasets (EDA)

Al hacer clic en un dataset se abre su panel EDA integrado — un conjunto de análisis automáticos que se ejecutan de inmediato sin ninguna configuración. El panel está organizado en seis pestañas.

Puntuación de Calidad

Un porcentaje que se muestra en la parte superior derecha de cada vista de dataset. Refleja la ausencia de problemas estructurales de calidad de datos. Una puntuación del 100% significa que no se detectaron columnas constantes, problemas de alta cardinalidad ni posibles columnas ID. Cualquier puntuación por debajo del 100% significa que la pestaña Calidad de Datos tiene hallazgos que vale la pena revisar antes del entrenamiento.

Pestaña de Descripción General

Muestra una tabla de Vista Previa del Dataset con las filas de datos reales. Hay cuatro controles de barra de herramientas disponibles:

  • COLUMNAS — mostrar/ocultar columnas específicas para enfocarse en lo que importa
  • FILTROS — aplicar filtros a nivel de fila para inspeccionar subconjuntos
  • DENSIDAD — alternar la altura de fila entre compacta y cómoda
  • EXPORTAR — descargar la vista actual

Las cinco tarjetas de resumen en la parte superior de cada vista de dataset ofrecen un chequeo inmediato de salud: Total de Filas, Total de Columnas, Tamaño del Archivo (MB), Filas Duplicadas y Valores Faltantes. Los valores distintos de cero en Filas Duplicadas o Valores Faltantes indican que puede ser necesario trabajar en la calidad de datos antes del entrenamiento.

Pestaña de Análisis Numérico

Para cada columna Float o Integer, DashAI calcula y muestra:

Estadísticas descriptivas: Media, Mediana, Desviación Estándar, Conteo de únicos

Métricas de distribución: Mínimo, Q1, Mediana, Q3, Máximo

Indicadores de forma: Asimetría, Curtosis, Conteo de valores atípicos, Rango

Diagrama de caja: Resumen visual de cinco números. Los valores atípicos aparecen como puntos más allá de los bigotes.

Alertas inteligentes: DashAI detecta patrones de distribución comunes y sugiere acciones automáticamente. Por ejemplo:

⚠️ Distribución sesgada a la derecha: Considera aplicar una transformación logarítmica.

Estas sugerencias son accionables — si ves una, el convertidor de Notebook correspondiente (p. ej., una transformación logarítmica) es el siguiente paso recomendado.

Pestaña Categórica

Para cada columna Categorical:

  • Valores Únicos — cuántas categorías distintas existen
  • Más Frecuente — el valor de categoría dominante
  • Conteo del Valor Principal — cuántas veces aparece el valor dominante
  • Distribución de Valores — gráfico de barras de todos los conteos de categorías
  • Proporción — gráfico circular que muestra la participación de cada categoría

Una distribución muy desequilibrada (donde una categoría domina) en tu columna objetivo es una señal para considerar convertidores de remuestreo (SMOTE, RandomUnderSampler) antes de entrenar modelos de clasificación.

Pestaña de Texto

Activa solo cuando existen columnas de tipo texto. Muestra estadísticas basadas en longitud por columna: Longitud Promedio, Longitud Mediana, Promedio de Palabras, Valores Únicos, Longitud Mínima/Máxima, Rango.

Aparece una advertencia de baja unicidad cuando una columna de texto tiene muy pocos valores distintos — esto generalmente significa que la columna fue clasificada incorrectamente como texto y debería ser Categorical. Corregir esto a nivel del dataset (volviendo a cargar el archivo) evita problemas posteriores.

Pestaña de Calidad de Datos

Reporta tres categorías de problemas estructurales:

ProblemaQué significaQué hacer
Columnas ConstantesCada fila tiene el mismo valor — ninguna información predictivaEliminar antes del entrenamiento
Alta CardinalidadUna columna categórica tiene un número inusualmente grande de valores distintosInvestigar — puede ser un campo de texto libre o una columna ID disfrazada
Posibles Columnas IDLa columna parece ser un identificador único de filaExcluir de las columnas de entrada del modelo

El panel de Patrones de Datos Faltantes muestra si los valores faltantes están distribuidos aleatoriamente o concentrados en columnas específicas. Los valores faltantes concentrados pueden indicar un problema sistemático de recolección de datos que vale la pena abordar antes del modelado.

Pestaña de Correlaciones

Calcula correlaciones de Pearson por pares entre todas las columnas numéricas. El gráfico de barras interactivo muestra cada par de columnas con barras codificadas por color (verde = positivo, rojo/rosa = negativo). Al pasar el cursor se muestra el valor exacto de correlación.

Las Correlaciones Fuertes (|r| > 0.5) se listan por separado — estas son las relaciones con mayor probabilidad de ser significativas. Una alta correlación entre dos características de entrada sugiere posible redundancia; una alta correlación entre una característica y la columna objetivo sugiere valor predictivo.


Notebooks

Los Notebooks son espacios de trabajo no destructivos vinculados a un dataset. Permiten aplicar secuencias de Exploradores (visualizaciones) y Convertidores (transformaciones) a una copia de trabajo de los datos, previsualizar el efecto de cada operación en tiempo real y guardar el resultado como un nuevo dataset.

El dataset original nunca se modifica. Todos los cambios están aislados en la copia de trabajo del notebook hasta que guardes explícitamente.

Herramientas de Explorador (pestaña EXPLORAR)

Los Exploradores generan visualizaciones y resúmenes estadísticos del estado actual de los datos. No modifican los datos. Los exploradores disponibles están organizados en cinco categorías:

CategoríaQué contiene
Inspección de Vista PreviaDescribir Dataset (tabla de resumen estadístico), Mostrar Filas (vista paginada de registros)
Análisis de RelacionesMapa de calor de densidad, Gráfico de dispersión múltiple, Gráfico de dispersión
Análisis EstadísticoMatriz de correlación, Matriz de covarianza
Análisis de DistribuciónDiagrama de caja, Distribución empírica acumulada, Histograma, Nube de palabras
Análisis MultidimensionalGráfico de columnas múltiples, Categorías paralelas, Coordenadas paralelas

Cada explorador tiene una configuración de dos pasos: primero seleccionar qué columnas incluir (alcance) y luego establecer los parámetros del explorador. Los resultados se renderizan en línea en la línea de tiempo del notebook debajo de la vista previa de datos.

Herramientas de Convertidor (pestaña CONVERTIR)

Los Convertidores modifican los datos. Cada uno se aplica a un conjunto configurable de columnas y filas, y la vista previa del dataset se actualiza inmediatamente después de que cada convertidor se ejecuta. Los convertidores disponibles están organizados en ocho categorías:

Preprocesamiento Básico

ConvertidorQué hace
NaN RemoverElimina filas que contienen al menos un valor faltante
Simple ImputerRellena valores faltantes con media, mediana, más frecuente o una constante
KNN ImputerRellena valores faltantes usando k-vecinos más cercanos
Missing IndicatorAgrega columnas binarias que marcan qué valores faltaban
Column RemoverElimina completamente las columnas seleccionadas del dataset
Character ReplacerReemplaza caracteres o cadenas específicas en columnas de texto

Codificación

ConvertidorQué hace
BinarizerMapea valores numéricos a 0 o 1 basándose en un umbral
Label BinarizerBinariza etiquetas en un esquema uno-contra-todos
Label EncoderCodifica etiquetas categóricas como enteros (para columnas objetivo)
One-Hot EncoderCrea una columna binaria para cada valor de categoría
Ordinal EncoderCodifica categorías como enteros ordenados

Escalado y Normalización

ConvertidorQué hace
Max Abs ScalerEscala cada característica por su valor absoluto máximo (rango: -1 a 1)
Min-Max ScalerEscala características a un rango especificado (por defecto: 0 a 1)
NormalizerEscala cada fila (registro) a norma unitaria

Reducción de Dimensionalidad

ConvertidorQué hace
Principal Component AnalysisReduce a n componentes explicando la máxima varianza
Incremental PCAPCA para datasets grandes procesados en lotes eficientes en memoria
Truncated SVDReducción basada en SVD, funciona con matrices dispersas
Fast ICAAnálisis de Componentes Independientes
Nystroem ApproximationAproxima un mapa de características del kernel para representación no lineal
Variance ThresholdElimina características con varianza por debajo de un umbral

Selección de Características

ConvertidorQué hace
Select K BestMantiene las K características con las puntuaciones estadísticas más altas
Select PercentileMantiene el X% superior de características por puntuación
Select FDRSelecciona características controlando la tasa de falsos descubrimientos
Select FPRSelecciona características por umbral de significancia del valor p
Select FWESelecciona características con corrección estricta de error por familia
Generic Univariate FilterSelector univariante configurable que combina puntuación y modo de selección

Métodos Polinomiales y de Kernel

ConvertidorQué hace
Polynomial FeaturesGenera términos polinomiales y de interacción a partir de las características de entrada
RBF SamplerAproxima un mapa de características de kernel RBF usando características de Fourier aleatorias
Additive Chi² SamplerAproxima el kernel chi-cuadrado aditivo para datos no negativos
Skewed Chi² SamplerVariante de la aproximación del kernel chi-cuadrado con un parámetro de desplazamiento

Remuestreo y Balanceo de Clases

ConvertidorQué hace
SMOTEGenera registros sintéticos de la clase minoritaria por interpolación
SMOTE-ENNSMOTE seguido de limpieza por Vecinos Editados más Cercanos
Random Under-SamplerElimina aleatoriamente registros de la clase mayoritaria para balancear el dataset

Preprocesamiento Avanzado

ConvertidorQué hace
TF-IDFConvierte texto en vectores de características TF-IDF (frecuencias de palabras ponderadas)
Bag of WordsConvierte texto en vectores de conteo de palabras sin procesar
TokenizerConvierte texto en secuencias de índices de tokens enteros
EmbeddingMapea secuencias de tokens a representaciones vectoriales semánticas densas

Guardar un Dataset Transformado

Cuando el notebook contiene las transformaciones que deseas, haz clic en GUARDAR COMO NUEVO DATASET. Esto crea un nuevo dataset independiente en DashAI con los datos en su estado actual. El nuevo dataset está disponible inmediatamente para experimentos sin afectar el dataset fuente.


Consejos

  • Usa la Puntuación de Calidad como verificación de salud de primera pasada antes de hacer cualquier análisis. Una puntuación por debajo del 100% siempre tiene una causa específica visible en la pestaña de Calidad de Datos.
  • Las Alertas Inteligentes en el Análisis Numérico son sugerencias priorizadas — abórdalas con el convertidor de Notebook correspondiente antes del entrenamiento para mejorar el rendimiento del modelo.
  • Construye pipelines de transformación en Notebooks de forma incremental: agrega un convertidor a la vez y verifica la vista previa antes de agregar el siguiente.
  • Los convertidores de remuestreo (SMOTE, RandomUnderSampler) solo deben aplicarse a la partición de entrenamiento, no al dataset completo — ten esto en cuenta al guardar un dataset transformado para usar en experimentos.
  • Para datos de texto, aplica TF-IDF o Bag of Words cuando trabajes con modelos de ML tradicionales (Regresión Logística, SVM, Random Forest). Los modelos neuronales que aceptan texto sin procesar (como DistilBERT) no requieren estos pasos de preprocesamiento.