[МУЗЫКА] [МУЗЫКА]
[ШУМ] Всем привет!
Сегодня мы начинаем новый модуль, который полностью посвящен согласию
— согласию нашей случайной величине и некоторому закону распределения.
Это очень важно, потому что очень много старт-методов предполагают согласие
нашей случайной величины некоторому закону распределения.
И они не работают либо работают,
если это предположение выполняется либо не выполняется.
Сегодня мы поговорим о гипотезе,
о согласии и когда мы можем с ней столкнуться.
Хоть когда на самом деле?
Например, вы хотите просто посчитать среднее по вашей выборке,
арифметическое среднее, не медиану, а именно арифметическое среднее.
И если у вас данные были бы нормальные,
то все прошло бы хорошо и мы получили бы действительно адекватную оценку среднего.
Однако если бы они были какие-нибудь экспоненциальные либо с выбросами,
то маловероятно, что у нас получился бы очень хороший результат.
Конечно, вы можете построить гистограмму вашей выборки и понять,
нормальна она либо ненормальная.
Но представьте, что у вас тысячи таких случаев — вам надо тысячу раз
строить гистограмму и проверять.
Конечно, нам проще будет автоматизировать,
так вот критерий согласия вам это все помогут сделать.
Кроме того, даже после построения гистограммы вы можете не понять,
какие у вас здесь данные.
То есть, допустим,
логнормальная очень похожа на нормальную в определенных условиях.
Но, как мы знаем, методы, которые основаны на нормальном распределении,
плохо работают на логнормальном.
И чтобы уйти от субъективной оценки — потому что один человек может сказать: да
здесь нормальные данные.
Да, нет, тут вообще не нормальные,
а логнормальные, или вообще экспоненциальные.
Чтобы от этого уйти, как раз и служит гипотеза о согласии и критерии согласия.
И если мы посмотрим на эту табличку, которую вы, надеюсь,
запомнили с прошлых лекций, то в этом модуле рассмотрим вот всю нижнюю часть вот
этой вот картинки, то есть гипотеза в виде распределения, простые, сложные.
И рассмотрим часть критериев согласия.
И в общем виде гипотеза о согласии выглядит следующим образом: у нас есть
некоторое предположение о принадлежности нашей случайной величины некоторому
распределению.
То есть у нас есть основная гипотеза и есть обычно альтернативная.
И здесь могут быть варианты.
Либо у нас есть конкретная альтернативная конкурирующая гипотеза, например,
у нас данные равномерные.
И мы проверяем: либо они нормальные, либо равномерные.
Либо у нас есть другая конкурирующая гипотеза о том,
что данные просто ненормальные, то есть какие угодно, но ненормальные.
Также все гипотезы о согласии делятся на два типа: это
простая гипотеза и сложная — все логично.
Вот простая гипотеза имеет вот такой вот вид, который говорит о том,
что мы проверяем предположения,
что наша случайная величина принадлежит вполне конкретному закону распределения
с заданными параметрами, то есть с точностью до параметра.
Например, мы проверяем нашу случайную величину, нашу выборку тому,
что она принадлежит нормальному распределению с параметрами 0 и 1.5.
Если бы у вас было распределение, допустим, тоже нормальное, допустим,
0 и 2, то гипотеза бы уже отверглась.
Вообще, такое, конечно, встречается редко, но, действительно, встречается.
Гораздо чаще встречается сложная гипотеза, когда мы проверяем гипотезу о том,
что наша случайная величина из некоторого семейства распределений,
то есть просто из нормального распределения — и не важно,
с какими параметрами — либо из экспоненциального.
Эта гипотеза является более сложной, потому что здесь также происходит еще и
оценка параметров по нашей исходной выборке.
То есть мы еще и там можем наделать ошибок.
Поэтому эта гипотеза довольно действительно сложная.
И также существует несколько типов критериев.
Например, существует общий критерий и специальный критерий.
Общие критерии характеризуются тем, что они могут принимать любые гипотезы,
допустим, о нормальности, о экспоненциальности,
о равномерности — вообще любые.
Им не важно, с каким законом распределения работать.
Возможно, они обладают несколько разной мощностью, но работают.
И мы рассмотрим такие критерий — такие критерии,
как типа Колмогорова — Смирнова, Андерсона — Дарлинга, Крамера — Мизеса, хи-квадрат.
Но, кроме того, существуют еще специальные критерии, допустим, нормальность,
такие как Шапиро — Уилка,
которые как раз проверяют только лишь нормальность данных и все.
Больше они нам помочь ничем не могут.
Однако считаются, что они обладают несколько большей мощностью — именно для
этих гипотез, для которых они были разработаны.
И на следующей лекции мы рассмотрим хи-квадрат.