Gushina (обсуждение | вклад) |
Gushina (обсуждение | вклад) |
||
| Строка 1: | Строка 1: | ||
| − | == IQR в статистике: как использовать межквартильный размах данных == | + | ==IQR в статистике: как использовать межквартильный размах данных== |
<br /> | <br /> | ||
| − | == Межквартильный размах (IQR): сущность и расчет == | + | ==Межквартильный размах (IQR): сущность и расчет== |
Межквартильный размах (Interquartile Range, IQR) — это мера разброса данных, определяемая как разница между третьим (Q3) и первым (Q1) квартилями распределения. Квартили делят упорядоченный набор данных на четыре равные части. Фактически, IQR охватывает центральные 50% данных, отсекая 25% нижних и 25% верхних значений. | Межквартильный размах (Interquartile Range, IQR) — это мера разброса данных, определяемая как разница между третьим (Q3) и первым (Q1) квартилями распределения. Квартили делят упорядоченный набор данных на четыре равные части. Фактически, IQR охватывает центральные 50% данных, отсекая 25% нижних и 25% верхних значений. | ||
Расчет IQR выполняется в три шага: | Расчет IQR выполняется в три шага: | ||
| − | # Упорядочите данные по возрастанию | + | #Упорядочите данные по возрастанию |
| − | # Найдите первый квартиль (Q1) — медиану нижней половины данных | + | #Найдите первый квартиль (Q1) — медиану нижней половины данных |
| − | # Найдите третий квартиль (Q3) — медиану верхней половины данных | + | #Найдите третий квартиль (Q3) — медиану верхней половины данных |
После этого IQR рассчитывается по формуле: | После этого IQR рассчитывается по формуле: | ||
| Строка 15: | Строка 15: | ||
Рассмотрим пример. Для набора данных [2, 4, 7, 10, 12, 15, 18, 21, 24]: | Рассмотрим пример. Для набора данных [2, 4, 7, 10, 12, 15, 18, 21, 24]: | ||
| − | * Q1 = 7 (медиана значений 2, 4, 7, 10) | + | *Q1 = 7 (медиана значений 2, 4, 7, 10) |
| − | * Q3 = 21 (медиана значений 15, 18, 21, 24) | + | *Q3 = 21 (медиана значений 15, 18, 21, 24) |
| − | * IQR = 21 – 7 = 14 | + | *IQR = 21 – 7 = 14 |
Ключевое преимущество IQR заключается в его робастности — устойчивости к выбросам и экстремальным значениям. В отличие от размаха (разница между максимальным и минимальным значениями), IQR не зависит от потенциально аномальных крайних точек данных. | Ключевое преимущество IQR заключается в его робастности — устойчивости к выбросам и экстремальным значениям. В отличие от размаха (разница между максимальным и минимальным значениями), IQR не зависит от потенциально аномальных крайних точек данных. | ||
| − | == Применение IQR для выявления выбросов в наборах данных == | + | ==Применение IQR для выявления выбросов в наборах данных== |
Выявление выбросов — одна из важнейших областей применения межквартильного размаха. Метод IQR для обнаружения аномалий отличается надежностью и относительной простотой реализации, что делает его практичным инструментом в арсенале каждого аналитика данных. | Выявление выбросов — одна из важнейших областей применения межквартильного размаха. Метод IQR для обнаружения аномалий отличается надежностью и относительной простотой реализации, что делает его практичным инструментом в арсенале каждого аналитика данных. | ||
Стандартный метод определения выбросов с помощью IQR основан на построении так называемых "ограничительных усов" (fences): | Стандартный метод определения выбросов с помощью IQR основан на построении так называемых "ограничительных усов" (fences): | ||
| − | * Нижний ус = Q1 – 1.5 × IQR | + | *Нижний ус = Q1 – 1.5 × IQR |
| − | * Верхний ус = Q3 + 1.5 × IQR | + | *Верхний ус = Q3 + 1.5 × IQR |
Значения, выходящие за эти границы, считаются выбросами или аномалиями. Множитель 1.5 выбран эмпирически и является стандартным, однако в зависимости от области применения и чувствительности анализа, он может быть изменен на 2.0 или 3.0. | Значения, выходящие за эти границы, считаются выбросами или аномалиями. Множитель 1.5 выбран эмпирически и является стандартным, однако в зависимости от области применения и чувствительности анализа, он может быть изменен на 2.0 или 3.0. | ||
| Строка 34: | Строка 34: | ||
Преимущества метода IQR для выявления выбросов: | Преимущества метода IQR для выявления выбросов: | ||
| − | * Не требует предположений о распределении данных | + | *Не требует предположений о распределении данных |
| − | * Устойчив к экстремальным значениям | + | *Устойчив к экстремальным значениям |
| − | * Прост в интерпретации и объяснении | + | *Прост в интерпретации и объяснении |
| − | * Работает эффективно при асимметричных распределениях | + | *Работает эффективно при асимметричных распределениях |
| − | * Служит основой для создания box plot — удобного инструмента визуализации | + | *Служит основой для создания box plot — удобного инструмента визуализации |
Версия 10:19, 8 октября 2025
IQR в статистике: как использовать межквартильный размах данных
Межквартильный размах (IQR): сущность и расчет
Межквартильный размах (Interquartile Range, IQR) — это мера разброса данных, определяемая как разница между третьим (Q3) и первым (Q1) квартилями распределения. Квартили делят упорядоченный набор данных на четыре равные части. Фактически, IQR охватывает центральные 50% данных, отсекая 25% нижних и 25% верхних значений.
Расчет IQR выполняется в три шага:
- Упорядочите данные по возрастанию
- Найдите первый квартиль (Q1) — медиану нижней половины данных
- Найдите третий квартиль (Q3) — медиану верхней половины данных
После этого IQR рассчитывается по формуле:
IQR = Q3 – Q1
Рассмотрим пример. Для набора данных [2, 4, 7, 10, 12, 15, 18, 21, 24]:
- Q1 = 7 (медиана значений 2, 4, 7, 10)
- Q3 = 21 (медиана значений 15, 18, 21, 24)
- IQR = 21 – 7 = 14
Ключевое преимущество IQR заключается в его робастности — устойчивости к выбросам и экстремальным значениям. В отличие от размаха (разница между максимальным и минимальным значениями), IQR не зависит от потенциально аномальных крайних точек данных.
Применение IQR для выявления выбросов в наборах данных
Выявление выбросов — одна из важнейших областей применения межквартильного размаха. Метод IQR для обнаружения аномалий отличается надежностью и относительной простотой реализации, что делает его практичным инструментом в арсенале каждого аналитика данных.
Стандартный метод определения выбросов с помощью IQR основан на построении так называемых "ограничительных усов" (fences):
- Нижний ус = Q1 – 1.5 × IQR
- Верхний ус = Q3 + 1.5 × IQR
Значения, выходящие за эти границы, считаются выбросами или аномалиями. Множитель 1.5 выбран эмпирически и является стандартным, однако в зависимости от области применения и чувствительности анализа, он может быть изменен на 2.0 или 3.0.
Преимущества метода IQR для выявления выбросов:
- Не требует предположений о распределении данных
- Устойчив к экстремальным значениям
- Прост в интерпретации и объяснении
- Работает эффективно при асимметричных распределениях
- Служит основой для создания box plot — удобного инструмента визуализации