IQR
IQR в статистике: как использовать межквартильный размах данных
Анализ данных без выявления выбросов и понимания распределения – всё равно что навигация без компаса в открытом море. Межквартильный размах (IQR) – это мощный статистический инструмент, который существенно повышает точность интерпретации данных и помогает выявлять аномалии, не поддаваясь влиянию экстремальных значений. В отличие от стандартного отклонения и среднего, IQR даёт более надёжную картину при работе с несимметричными распределениями и загрязнёнными данными. Освоив этот метод, вы сможете принимать более взвешенные решения, оперируя реальными фактами, а не искажённой статистикой.
Межквартильный размах (IQR): сущность и расчет
Межквартильный размах (Interquartile Range, IQR) — это мера разброса данных, определяемая как разница между третьим (Q3) и первым (Q1) квартилями распределения. Квартили делят упорядоченный набор данных на четыре равные части. Фактически, IQR охватывает центральные 50% данных, отсекая 25% нижних и 25% верхних значений.
Расчет IQR выполняется в три шага:
- Упорядочите данные по возрастанию
- Найдите первый квартиль (Q1) — медиану нижней половины данных
- Найдите третий квартиль (Q3) — медиану верхней половины данных
После этого IQR рассчитывается по формуле:
IQR = Q3 – Q1
Рассмотрим пример. Для набора данных [2, 4, 7, 10, 12, 15, 18, 21, 24]:
- Q1 = 7 (медиана значений 2, 4, 7, 10)
- Q3 = 21 (медиана значений 15, 18, 21, 24)
- IQR = 21 – 7 = 14
Ключевое преимущество IQR заключается в его робастности — устойчивости к выбросам и экстремальным значениям. В отличие от размаха (разница между максимальным и минимальным значениями), IQR не зависит от потенциально аномальных крайних точек данных.
Применение IQR для выявления выбросов в наборах данных
Выявление выбросов — одна из важнейших областей применения межквартильного размаха. Метод IQR для обнаружения аномалий отличается надежностью и относительной простотой реализации, что делает его практичным инструментом в арсенале каждого аналитика данных.
Стандартный метод определения выбросов с помощью IQR основан на построении так называемых "ограничительных усов" (fences):
- Нижний ус = Q1 – 1.5 × IQR
- Верхний ус = Q3 + 1.5 × IQR
Значения, выходящие за эти границы, считаются выбросами или аномалиями. Множитель 1.5 выбран эмпирически и является стандартным, однако в зависимости от области применения и чувствительности анализа, он может быть изменен на 2.0 или 3.0.
Преимущества метода IQR для выявления выбросов:
- Не требует предположений о распределении данных
- Устойчив к экстремальным значениям
- Прост в интерпретации и объяснении
- Работает эффективно при асимметричных распределениях
- Служит основой для создания box plot — удобного инструмента визуализации