Anteriormente, CMS implementó un método de eliminación de valores atípicos de Tukey al calcular la calificación de estrellas de los planes de medicamentos recetados (PDP) de Medicare Advantage (MA) y Medicare Parte D. Sin embargo, una regla final implementada en 2022 eliminó el uso de la eliminación de valores atípicos de Tukey de las medidas de calidad. Basado en datos históricos de 2020, El 17% de los planes MA tendrían calificaciones de estrellas más bajas en comparación con solo el 1% tendría calificaciones de estrellas más altas después de eliminar la eliminación de valores atípicos de Tukey. Esto plantea la pregunta, ¿qué es un Tukey Outlier?
Definiciones de valores atípicos de Tukey.
Los valores atípicos de Tukey son puntos de datos que se encuentran fuera del siguiente rango;
- {Q1 – k(IQR), Q3+k(IQR)}
Aquí Q1 y Q3 son el primer y tercer cuartil de los datos respectivamente e IQR es el rango intercuartílico (es decir, la diferencia entre el tercer y el primer cuartil). El término k es un multiplicador, que describe qué tan sensible le gustaría ser a los valores atípicos. John Tukey propuso que k = 1.5 indica un “valor atípico”, y k = 3 indica datos que están “lejos”.
¿Cuál es la probabilidad de que identifique un valor atípico con el método de Tukey?
La respuesta a esta pregunta depende de (i) qué tan amplio es su rango de Tukey (es decir, el valor de k) y (ii) la forma de su distribución. Andrey Akinshin creó simulaciones para responder a esta pregunta para las distribuciones Normal, Gumbel y exponencial. Los resultados están abajo. Como puede ver a continuación, las distribuciones no normales, especialmente las exponenciales, tienen muchas más probabilidades de tener un valor atípico observado utilizando el método de Tukey.


Como todos los valores atípicos, la identificación es clave, pero qué hacer con ellos depende del contexto. Si se trata de errores de datos o situaciones anómalas puras, es posible que desee eliminarlos. Por otro lado, si estos son solo valores atípicos que ocurren de vez en cuando, uno debe dejarlos en los datos y tratar de comprender mejor si hay un proceso de generación de datos que difiere del normal que podría generar estos valores. De cualquier manera, el método de Tukey es un método simple y útil para identificar valores atípicos, pero no le dice qué hacer con ellos una vez identificados.