[МУЗЫКА] [МУЗЫКА]
[БЕЗ_СЛОВ] В предыдущей лекции вы обсуждали
график «ящик с усами», который позволяет визуализировать распределение признаков,
которые измерены метрической шкалой, а также полезен для того,
чтобы сравнивать группы по вот такому вот метрически измеренному признаку.
В этой лекции мы остановимся на другом виде графика, который также незаменим
при исследовании распределений признаков, измеренных метрической шкалой.
Этот график называется диаграммой рассеяния,
или на английском языке — scatter plot.
Вы помните квартет Энскомба, который позволял нам увидеть распределения,
которые статистически по характеристикам одинаковые, а по виду — совершенно разные.
Кроме того, диаграмма рассеяния незаменима еще и для того, чтобы смотреть на
совместные распределения признаков, когда мы берем не один признак, а два, и
смотрим, есть ли какая-то закономерность в том, как эти значения встречаются вместе.
Для того, чтобы было понятно, давайте рассмотрим на примере с Нобелевской
премией по экономике, которая была выдана в 2015 году Энгусу Дитону,
который занимался много чем, в том числе одним из важных элементов его
исследований было исследование взаимодействия счастья и благосостояния.
Очень многие газеты писали тогда (разные газеты, интернет-издания) о том,
что Нобелевскую премию дали за то, что наконец-то доказали,
что счастье можно купить за деньги.
Фактически Дитон конечно же говорил не совсем об этом.
И сейчас вы на экране видите график, который отражает то, о чем говорил Дитон.
Речь идет о том, что есть взаимосвязь, и достаточно четко прослеживаемая, между
средним уровнем благосостояния страны и средним уровнем удовлетворенности жизнью.
Вот мы видим, что у нас облако такое вытянутое, да,
и чем более страна богатая в среднем, — по x отложено у нас ВНП на душу населения,
— тем более в среднем счастливо население.
Ну а здесь опять-таки все не так очевидно.
Во-первых, это не значит, что это счастье куплено за деньги.
Во-вторых, здесь речь идет не совсем о счастье.
Если присмотреться, то, что здесь измерено,
— это показатель удовлетворенности жизнью.
Вопрос звучит так: «Если оценивать в целом, насколько удовлетворены вы жизнью,
которую в настоящий момент ведете?» И исследования показывают,
— многие исследования, неоднократные, раньше и в настоящее время,
— что эти меры всегда связаны, что чем выше благосостояние,
тем в среднем более удовлетворены люди той жизнью, которую они ведут.
Эта вещь, оказывается, привязана к социально-экономическому положению.
Но если мы посмотрим на меру, которая измеряет счастье,
то есть это другой вопрос, вопрос, который задается прямо: «Насколько вы счастливы
в настоящий момент?», и предлагается просто оценить по шкале счастья,
о которой я говорила раньше, то здесь у нас картинка немножко другая.
Мы снова видим облако, это и есть диаграмма рассеяния, но здесь у нас уже
нет никакой закономерности в том, куда вытянуты данные.
То есть мы видим, что точки у нас разбросаны по всей поверхности,
ну не совсем по всей поверхности, но, в общем,
они разбросаны гораздо более бессистемно, чем в предыдущем случае.
Кроме того, у нас есть две страны, вот они сейчас выделены,
которые необъяснимы, которые самые бедные и при этом самые счастливые.
То есть это то, что вообще не попадает в ту тенденцию, о которой я говорила раньше.
Что это значит?
Это значит, во-первых, что, безусловно, счастье, пожалуй, нельзя купить за деньги.
Во-вторых, нужно внимательно относиться к тому, что мы видим на этих графиках.
Если мы эти две необъяснимые страны уберем и посмотрим на данные, будет казаться,
что ситуация немножечко приближается к тому,
что мы видели на графике удовлетворенности жизнью.
Но все равно, облако у нас более растянуто, больше похоже на шар,
и при этом сложно все-таки говорить о том,
что есть взаимосвязь между счастьем и уровнем благосостояния.
То есть здесь совершенно точно за вот этой вот взаимосвязью наверняка стоит
что-то еще.
И диаграмма рассеяния — это тот самый инструмент,
который позволяет нам это увидеть.
Если в первом случае мы видим вот это вот вытянутое облако, что в среднем, чем
страна в среднем богаче, тем более люди в ней в среднем более удовлетворены жизнью,
но когда мы посмотрим на счастье, мы видим, что вот есть у нас страны богатые,
но несчастные, есть у нас страны бедные, но необъяснимо счастливые,
и нельзя говорить о том, что не только что счастье можно купить за деньги,
но и о том, что оно с очевидностью связано с деньгами.
Кроме того, можно себе представить ситуацию,
как вот сейчас вы видите на экране, когда у нас есть вообще две группы.
Одна группа — это страны бедные относительно и относительно несчастные,
другая группа — это страны относительно богатые и относительно счастливые.
Нельзя сказать, что есть связь между счастьем и доходом,
а просто есть две разные группы стран, у которых почти наверняка стоит очень много
разных факторов за тем, почему у них вот такие вот характеристики.
Обобщим: что позволяет нам делать диаграмма рассеяния?
Во-первых, она позволяет визуализировать одномерные распределения,
что мы видели на примере квартета Энскомба.
То есть у нас есть распределения, разные формы, одинаковые статистические
параметры, но есть особенности, которые нам очень важно видеть, если мы хотим
разобраться, что, собственно, с этими распределениями происходит.
Во-вторых, она позволяет нам визуализировать совместные распределения.
То есть мы можем брать не один признак, а два, наносить одновременно значения этих
двух признаков, собственно, на две оси и на основе получившейся формы облака
строить какие-то предположения о том, связаны ли эти признаки между собой.
Мы еще пока не можем делать статистических заключений об этом, у нас о статистических
взаимосвязях будет отдельный курс, где мы будем подробно разбираться с тем, как
оценивать значимость взаимосвязей, какими инструментами пользоваться и так далее.
Но здесь мы можем предположительно, на основе вот этого вот именно визуального
анализа, что мы делали с деньгами и счастьем, мы можем предполагать,
есть ли взаимосвязь между признаками, если есть, то какая она и так далее.
Ну и наконец, мы можем выявлять какую-то структуру в наших данных.
То есть когда мы говорили с вами о мерах среднего, — помним, мы говорили,
что в распределении может быть одна мода или может быть несколько мод,
— то здесь та же самая ситуация.
Если у нас есть, например, не одна подгруппа, а несколько подгрупп, то
диаграмма рассеивания нам это покажет, как вот в случае с теми двумя сгустками стран.
Если мы видим какую-то такую ситуацию,
то мы уже на стартовом этапе можем анализировать не наши данные в целом,
чтобы они нас не вводили в заблуждение, а брать вот эти вот подгруппы,
которые выделяются как такие отличительные категории, и анализировать их отдельно,
чтобы нам лучше разбираться с тем, что происходит в наших данных.