0:00
[БЕЗ_ЗВУКА] Привет, это снова Евгений!
Добро пожаловать на урок по статистике!
Мы будем говорить о том, как по конечным выборкам оцениваются законы распределения
случайных величин, из которых они взяты.
Основной инструмент статистики — это статистики.
Пусть у нас есть выборка из случайной величины X объема n.
Будем обознать ее за X с верхним индексом n.
X1, X2, ..., Xn можно считать независимыми
одинаковыми копиями исходной случайной величины X.
Поэтому часто говорят, что выборка представляет собой совокупность
независимых одинаково распределенных случайных величин.
В англоязычной литературе это длинное словосочетание часто заменяется
аббревиатурой i.i.d.
Так вот статистикой называется любая функция от этой выборки.
Вообще говоря, вместо «любая» нужно говорить «измеримая»,
но мы договорились в этом курсе не упоминать о теории меры.
Всё! У нас есть все инструменты для того,
чтобы начинать что-то оценивать.
Давайте посмотрим, какие статистики используются для оценок по выборкам
законов распределения случайных величин различных классов.
Если мы имеем дело с дискретной случайной величиной, все довольно просто.
У нас есть множество ее значений,
и распределение задается функцией вероятности, то есть вероятностями,
с которыми дискретная случайная величина принимает все свои значения.
Если у нас есть выборка из этой случайной величины,
лучшие оценки для вероятностей из функции
вероятности — это частоты соответствующих событий на выборке.
Спасибо закону больших чисел — нам не нужно придумывать ничего очень сложного.
С непрерывными случайными величинами все немного сложнее.
Если случайная величина задается с помощью функции распределения,
оценить ее можно с помощью эмпирической функции распределения, которая
представляет собой среднее значение по всем элементам выборки индикаторов того,
что элемент выборки не превосходит аргумента функции x маленькое.
Эмпирическая функция распределения достаточно хорошо оценивает
теоретическую функцию распределения, особенно если выборка большая.
Естественно, чем больше выборка, тем лучше ваша оценка.
Вот так выглядит теоретическая функция стандартного нормального распределения
— красная линия.
Стандартным называется нормальное распределение со средним 0 и дисперсией 1.
А синяя ступенчатая линия — это эмпирическая функция распределения,
построенная по выборке объема 100.
Как вы видите, эти две линии достаточно похожи.
А еще непрерывные случайные величины могут задаваться своими плотностями.
Плотности — это, если помните, такие функции,
что интеграл от них по любому отрезку от a до b равен вероятности попадания
случайной величины в этот интервал.
Чтобы оценить плотность,
разобъем область определения случайной величины на интервалы одинакового размера.
Тогда число объектов выборки в каждом интервале будет
пропорционально среднему значению плотности на этом интервале.
Именно так устроена гистограмма.
Перед вами живая гистограмма, составленная из студенток университета Висконсин.
Они выставлены по росту, который измерен с точностью до дюйма.
Рост написан на листочке у девушки, стоящей в первом ряду.
Как видите, в этой выборке больше всего девушек ростом 5 футов 4 дюйма (это
примерно 165 см) и гораздо меньше девушек,
рост которых намного больше среднего или намного меньше среднего.
Это неудивительно, поскольку рост — это типичный пример
нормально распределенной случайной величины.
Рост определяется большим количеством случайных факторов,
которые действуют независимо,
и именно такие случайные величины хорошо описываются нормальным распределением.
А вот так выглядит гистограмма обычная.
Признак, который на ней показан,
— это продолжительность жизни крыс на строгой диете в днях.
По гистограмме прекрасно видны все особенности распределения данных.
Это распределение бимодальное.
Основной его пик приходится примерно на 1000 дней.
Но есть крысы, которые живут существенно меньше — около 400 дней.
Важный аспект работы с гистограммами — это правильный выбор числа интервалов.
Если вы возьмете интервалов слишком мало,
они будут слишком большие и гистограмма получится грубой.
По ней вы не сможете понять, что происходит в данных.
То же самое может произойти и в обратном случае.
Если вы возьмете слишком много интервалов,
в большую часть из них не попадет ни одного объекта выборки,
и гистограмма получится разреженной и тоже не очень информативной.
Этого недостатка лишены гладкие оценки плотности.
Это другой способ оценки плотности распределения.
Для их построения используется ядерное сглаживание.
Для того чтобы сделать такую оценку, вы должны взять окно ширины h и,
двигая это окно по числовой оси, вычислять в нем значение функции,
которая называется ядром.
Если вы не поняли ни слова из того, что я сказал, не расстраивайтесь.
В следующем курсе мы будем очень подробно говорить про ядерное сглаживание.
Пока вам нужно только знать,
как выглядят ядерные оценки для плотности распределения.
Перед вами оценка, построенная на тех же самых данных продолжительности жизни крыс.
Все особенности распределения на этой оценке также отражены.
Мы видим, что она бимодальная.
Соотношение пиков такое же, как и на гистограмме.
А вот все виды оценок распределения для нашей выборки
из стандартного нормального распределения.
На верхнем графике мы видим теоретическую плотность (это красная линия)
и гладкую оценку плотности, построенную по выборке объема 100 (это синяя линия),
а на нижнем графике — гистограмма.
Вообще говоря, гладкие оценки плотности и гистограммы несовершенны.
Никакой из этих инструментов не идеален, поэтому я рекомендую вам,
когда вы визуализируете данные, использовать и тот и другой способ.
Итак, в этом видео мы дали определение статистике и узнали,
какие статистики используются для оценок функции вероятности,
функции распределения и плотности распределения.
Далее вы получите ноутбук, в котором будут функции,
используемые для построения статистик, о которых мы говорили в этом видео.
А после этого мы поговорим о важных параметрах распределения и о том,
как их оценивать по выборкам.