Открыть главное меню

IQR в статистике: как использовать межквартильный размах данных

Анализ данных без выявления выбросов и понимания распределения – всё равно что навигация без компаса в открытом море. Межквартильный размах (IQR) – это мощный статистический инструмент, который существенно повышает точность интерпретации данных и помогает выявлять аномалии, не поддаваясь влиянию экстремальных значений. В отличие от стандартного отклонения и среднего, IQR даёт более надёжную картину при работе с несимметричными распределениями и загрязнёнными данными. Освоив этот метод, вы сможете принимать более взвешенные решения, оперируя реальными фактами, а не искажённой статистикой.

Межквартильный размах (IQR): сущность и расчет

Межквартильный размах (Interquartile Range, IQR) — это мера разброса данных, определяемая как разница между третьим (Q3) и первым (Q1) квартилями распределения. Квартили делят упорядоченный набор данных на четыре равные части. Фактически, IQR охватывает центральные 50% данных, отсекая 25% нижних и 25% верхних значений.

Расчет IQR выполняется в три шага:

  1. Упорядочите данные по возрастанию
  2. Найдите первый квартиль (Q1) — медиану нижней половины данных
  3. Найдите третий квартиль (Q3) — медиану верхней половины данных

После этого IQR рассчитывается по формуле:

IQR = Q3 – Q1

Рассмотрим пример. Для набора данных [2, 4, 7, 10, 12, 15, 18, 21, 24]:

  • Q1 = 7 (медиана значений 2, 4, 7, 10)
  • Q3 = 21 (медиана значений 15, 18, 21, 24)
  • IQR = 21 – 7 = 14

Ключевое преимущество IQR заключается в его робастности — устойчивости к выбросам и экстремальным значениям. В отличие от размаха (разница между максимальным и минимальным значениями), IQR не зависит от потенциально аномальных крайних точек данных.

Применение IQR для выявления выбросов в наборах данных

Выявление выбросов — одна из важнейших областей применения межквартильного размаха. Метод IQR для обнаружения аномалий отличается надежностью и относительной простотой реализации, что делает его практичным инструментом в арсенале каждого аналитика данных.

Стандартный метод определения выбросов с помощью IQR основан на построении так называемых "ограничительных усов" (fences):

  • Нижний ус = Q1 – 1.5 × IQR
  • Верхний ус = Q3 + 1.5 × IQR

Значения, выходящие за эти границы, считаются выбросами или аномалиями. Множитель 1.5 выбран эмпирически и является стандартным, однако в зависимости от области применения и чувствительности анализа, он может быть изменен на 2.0 или 3.0.


Преимущества метода IQR для выявления выбросов:

  • Не требует предположений о распределении данных
  • Устойчив к экстремальным значениям
  • Прост в интерпретации и объяснении
  • Работает эффективно при асимметричных распределениях
  • Служит основой для создания box plot — удобного инструмента визуализации