Представьте, что по одну сторону волейбольной сетки стоит семья из шести человек, а по другую — столько же аспирантов физфака. Распределения их возрастов выглядят так: 8 8 10 32 33 54 — сред. ≈ 24,2 23 23 24 24 25 27 — сред. ≈ 24,3 В среднем и тем и другим по 24 года с хвостиком. Но справедливо ли будет сказать, что играют команды примерно одного возраста? Вы наверняка согласитесь, что нет. Конечно, значения практически совпадают, но возраста членов семьи куда больше удалены от среднего, чем возраста аспирантов. В таких случаях говорят, что выборки различаются разбросом или изменчивостью. Если меры центральной тенденции отвечают на вопрос «Вокруг какого значения группируются данные?», то меры изменчивости — на вопрос «Как именно они группируются?» Все меры изменчивости можно условно разделить на два типа. Первый — показатели размаха, которые характеризуют «ширину» выборки без привязки к среднему. ● Вариационный размах — разница между минимальным и максимальным значениями. На примере этой простейшей меры уже видно, что наши волейбольные команды совсем не так похожи, как намекает центральная тенденция: размах возрастов внутри семьи — 46 лет, а внутри группы аспирантов — 4 года. ● Если выборку упорядочить, выкинуть по 10% значений с каждой стороны и посчитать разницу между новым минимумом и максимумом, получится децильный размах. Его очевидное преимущество перед вариационным — в защищённости от аномалий. ● Ещё один популярный показатель — квартильный размах — характеризует выборку по половине данных: без верхних и нижних 25%. Такой подход позволяет оценить разброс наиболее близких к среднему значений и часто оказывается репрезентативнее всего. Второй тип мер изменчивости — показатели отклонения. Их идея в усреднении разности между каждым элементом выборки и её средним значением. Проблема только в том, что сумма (а значит и среднее) отклонений всех элементов — по определению ноль. ● Именно здесь в игру вступает дисперсия: чтобы избежать взаимного сокращения положительных и отрицательных разностей, мы возводим каждую из них в квадрат и только потом усредняем. ● Правда, дисперсия иногда подводит своей неинтуитивностью. Например, в семейной команде она приблизительно равна 292 — это явно не то число, которое ожидаешь увидеть в графе «отклонение по возрасту». Чтобы вернуться к исходным единицам измерения, от дисперсии обычно переходят к её корню — среднеквадратическому (стандартному) отклонению. ● Есть и другой способ избежать нулевой суммы: усреднять не разности, а расстояния — то есть брать значения по модулю. Отклонение, которое получается в этом случае, называется средним линейным. Иногда изменчивость удобнее измерять не по абсолютным, а по относительным показателям. Например, по отношению к среднему размаха (коэффициент осцилляции) или стандартного отклонения (коэффициент вариации). Возвращаясь к нашим волейболистам, теперь мы можем сказать, что средний возраст членов семьи ≈ 24,2 ± 71%, а возраст аспирантов ≈ 24,3 ± 6%. Наглядный пример того, как меры центральной тенденции и изменчивости мало о чём говорят по отдельности, но вместе формируют весьма целостную картину. Друзья, оставляйте в комментариях пожелания: какие ещё статьи вам было бы интересно почитать? А если чувствуете, что пора бы перейти от теории к практике и стать, наконец, аналитиком, — приходите на курс :) #полезное@karpovcourses