VAR_SAMP

La función VAR_SAMP calcula la varianza muestral de un conjunto de valores numéricos. A diferencia de VARIANCE (o VAR_POP), que divide por N, VAR_SAMP divide por N-1. Esta diferencia puede parecer menor, pero tiene un fundamento estadístico importante: cuando tus datos son una muestra de una población mayor, dividir por N-1 produce una estimación más precisa de la varianza real de esa población. Este ajuste se conoce como corrección de Bessel.

Sintaxis

VAR_SAMP(expresion)

La fórmula que aplica MySQL es:

VAR_SAMP = SUM((x - media)^2) / (N - 1)

Donde x es cada valor, media es el promedio y N es el número de valores no nulos. La única diferencia con VAR_POP está en el denominador: N-1 en lugar de N. Si solo hay un valor no nulo, VAR_SAMP devuelve NULL (porque N-1 sería cero), mientras que VAR_POP devuelve 0.

Comportamiento básico

Veamos la diferencia entre varianza poblacional y muestral:

SELECT
    COUNT(precio) AS N,
    ROUND(VAR_POP(precio), 2) AS varianza_poblacional,
    ROUND(VAR_SAMP(precio), 2) AS varianza_muestral,
    ROUND(VAR_SAMP(precio) - VAR_POP(precio), 2) AS diferencia
FROM productos;

N	varianza_poblacional	varianza_muestral	diferencia
50	183757.41	187507.56	3750.15

Con 50 productos, la diferencia es de 3750.15. Puede parecer una diferencia grande en valor absoluto, pero es solo un 2% del valor. A medida que N crece, la diferencia relativa entre ambas varianzas disminuye y se vuelve insignificante.

Para ver la relación matemática más claramente:

SELECT
    ROUND(VAR_POP(precio), 2) AS var_pop,
    ROUND(VAR_POP(precio) * COUNT(precio) / (COUNT(precio) - 1), 2) AS var_pop_ajustada,
    ROUND(VAR_SAMP(precio), 2) AS var_samp
FROM productos;

var_pop	var_pop_ajustada	var_samp
183757.41	187507.56	187507.56

La varianza muestral es exactamente la varianza poblacional multiplicada por N/(N-1). Esto confirma que la única diferencia es el denominador.

Caso práctico: cuándo usar VAR_SAMP vs VAR_POP

La elección entre varianza poblacional y muestral depende del contexto de tus datos. Si trabajas con todos los datos existentes (la población completa), usa VAR_POP. Si trabajas con un subconjunto representativo y quieres estimar la varianza de la población total, usa VAR_SAMP.

Imagina que haces una encuesta de satisfacción a 30 de tus 500 clientes. Los 30 clientes son una muestra de la población de 500:

SELECT
    ROUND(VAR_POP(calificacion), 4) AS var_poblacional,
    ROUND(VAR_SAMP(calificacion), 4) AS var_muestral
FROM encuestas_satisfaccion
WHERE fecha_encuesta = '2026-01-15';

var_poblacional	var_muestral
2.8567	2.9552

En este caso, VAR_SAMP (2.9552) es la estimación más adecuada de la varianza real de satisfacción de todos los 500 clientes, porque los 30 encuestados son solo una muestra.

Ahora compara con el análisis de todos los precios de tu catálogo:

SELECT
    ROUND(VAR_POP(precio), 2) AS var_poblacional,
    ROUND(VAR_SAMP(precio), 2) AS var_muestral
FROM productos;

Aquí los 50 productos son la población completa (no es una muestra de un catálogo más grande), por lo que VAR_POP es la opción correcta.

Caso práctico: la corrección de Bessel importa con pocos datos

La diferencia entre N y N-1 es crítica cuando N es pequeño. Veamos qué pasa con la varianza por categoría usando GROUP BY, donde algunas categorías tienen pocos productos:

SELECT
    c.nombre AS categoria,
    COUNT(*) AS N,
    ROUND(VAR_POP(p.precio), 2) AS var_pop,
    ROUND(VAR_SAMP(p.precio), 2) AS var_samp,
    ROUND((VAR_SAMP(p.precio) - VAR_POP(p.precio)) /
        VAR_POP(p.precio) * 100, 1) AS pct_diferencia
FROM productos p
JOIN categorias c ON p.categoria_id = c.id
GROUP BY c.nombre
ORDER BY COUNT(*) ASC;

categoria	N	var_pop	var_samp	pct_diferencia
Libros	2	56.25	112.50	100.0
Deportes	4	21083.04	28110.72	33.3
Hogar	5	9702.25	12127.81	25.0
Ropa hombre	6	1075.84	1290.01	20.0
Ropa mujer	6	1482.25	1778.70	20.0
Accesorios electrónicos	7	835.21	974.41	16.7
Portátiles	8	119163.04	136186.33	14.3
Smartphones	12	97531.29	106398.68	9.1

Con solo 2 libros, la diferencia es del 100%: la varianza muestral es exactamente el doble de la poblacional. Con 4 productos (Deportes), la diferencia es del 33.3%. Con 12 productos (Smartphones), baja al 9.1%. Este patrón es matemáticamente predecible: la diferencia porcentual siempre es 100/(N-1).

Caso práctico: análisis de variabilidad temporal

Supongamos que quieres medir la variabilidad de las ventas diarias a lo largo de cada mes, y los datos de cada mes son una muestra de lo que podrían ser las ventas futuras:

SELECT
    DATE_FORMAT(fecha_pedido, '%Y-%m') AS mes,
    COUNT(DISTINCT DATE(fecha_pedido)) AS dias_con_ventas,
    ROUND(AVG(ventas_diarias), 2) AS media_diaria,
    ROUND(SQRT(VAR_SAMP(ventas_diarias)), 2) AS desviacion_muestral
FROM (
    SELECT
        DATE(fecha_pedido) AS fecha_pedido,
        SUM(total) AS ventas_diarias
    FROM pedidos
    WHERE estado = 'completado'
        AND YEAR(fecha_pedido) = 2025
    GROUP BY DATE(fecha_pedido)
) ventas_por_dia
GROUP BY DATE_FORMAT(fecha_pedido, '%Y-%m')
ORDER BY mes;

mes	dias_con_ventas	media_diaria	desviacion_muestral
2025-01	25	738.03	312.45
2025-02	22	969.11	425.80
2025-03	27	958.90	380.20
2025-04	24	827.94	345.60
2025-05	26	928.88	398.50
2025-06	28	1055.73	290.30

Aquí usamos VAR_SAMP (a través de SQRT para obtener la desviación muestral, equivalente a STD muestral) porque los días de cada mes son una muestra de cómo serán las ventas futuras. Junio tiene la desviación muestral más baja, lo que indica ventas más predecibles.

Manejo de NULL

VAR_SAMP ignora los valores NULL. Si hay un solo valor no nulo, devuelve NULL (no cero), porque la fórmula N-1 daría un denominador de cero:

SELECT
    VAR_POP(precio) AS var_pop_un_valor,
    VAR_SAMP(precio) AS var_samp_un_valor
FROM productos
WHERE id = 1;

var_pop_un_valor	var_samp_un_valor
0	NULL

Con un solo valor, VAR_POP devuelve 0 (no hay dispersión) mientras que VAR_SAMP devuelve NULL (no se puede estimar la varianza de una población a partir de una sola observación). Este comportamiento es estadísticamente correcto.

Combinación con otras funciones

VAR_SAMP se combina con STDDEV_SAMP de la misma forma que VARIANCE se combina con STD. Puedes usar HAVING para excluir categorías con pocos productos:

SELECT
    c.nombre AS categoria,
    COUNT(*) AS N,
    ROUND(AVG(p.precio), 2) AS media,
    ROUND(STDDEV_SAMP(p.precio), 2) AS desv_muestral,
    ROUND(VAR_SAMP(p.precio), 2) AS var_muestral,
    ROUND(STDDEV_SAMP(p.precio) * STDDEV_SAMP(p.precio), 2) AS desv_al_cuadrado
FROM productos p
JOIN categorias c ON p.categoria_id = c.id
GROUP BY c.nombre
HAVING COUNT(*) >= 3
ORDER BY var_muestral DESC;

categoria	N	media	desv_muestral	var_muestral	desv_al_cuadrado
Portátiles	8	1245.50	369.17	136286.33	136286.33
Smartphones	12	785.42	326.19	106398.68	106398.68
Deportes	4	189.99	167.66	28110.72	28110.72

La columna desv_al_cuadrado confirma que VAR_SAMP = STDDEV_SAMP^2, de la misma forma que VAR_POP = STD^2.

Como regla general, si tienes dudas sobre cuál usar, VAR_SAMP es la opción más conservadora. Produce estimaciones ligeramente más altas que VAR_POP, lo que refleja la incertidumbre adicional de trabajar con una muestra. Con conjuntos de datos grandes (N > 30), la diferencia es mínima y la elección tiene poco impacto práctico.

En el siguiente artículo veremos las funciones de agregación a nivel de bits.

Escrito por Eduardo Lázaro