[МУЗЫКА] [МУЗЫКА]
[МУЗЫКА] Ну что,
по поводу кластерного анализа нам осталось обсудить только графические инструменты.
Графические инструменты, которые касаются как построения кластеризации,
так и оценки качества и содержания построенных моделей.
В соответствии с этим разделением мы и обсудим.
Мы обсудим, во-первых, специфические графики, которые встроены,
к примеру, в процедуры иерархического кластерного анализа: это и
сосульчатая диаграмма и дендрограмма.
А также мы построим обычные графики, обсудим,
которые используются для самых разных задач.
Но в том числе в кластерном анализе мы можем их использовать для того,
чтобы иллюстрировать то, что мы получили.
Начнём со специфических графиков.
Вот сейчас вы видите на экране то,
что называется сосульчатой диаграммой или icicle по-английски.
Она позволяет нам следить за тем, как объединяются наши объекты в кластеры.
То есть, если вы посмотрите: по верхней строчке у нас отложены номера объектов,
то есть это номера университетов.
А по Y у нас отложено количество кластеров.
Сосульчатая диаграмма может быть вертикальной или горизонтальной.
Вот сейчас вы видите вертикальную.
Горизонтальная была бы условно положена на бок.
В вертикальном виде, понятно, почему она называется сосульчатая диаграмма.
Потому что вот эти вот столбики,
отображающие движение объектов по мере изменения количества кластеров,
они немножечко напоминают сосульки: свисают приблизительно таким же образом.
То есть и здесь мы можем следить, что происходит с объектами при изменении
количества кластеров, и как, собственно, меняется картина.
Минус этой диаграммы в том, что она не содержит расстояний между объектами.
И мы здесь видим движение, но мы никак не можем оценить, насколько далеки объекты
при каждой следующей стадии, при каждом разном количестве кластеров.
Вот этот вот недостаток — отсутствие расстояния — и, откровенно говоря,
не очень хорошую интерпретируемость, особенно если...
Здесь у нас 46 объектов, если мы представим себе сотню объектов,
то здесь уже будет очень сложно что-то рассмотреть.
Дендрограмма — это график, который лишается этих вот недостатков,
устраняет эти недостатки.
Во-первых, он читается, как мне кажется, лучше.
Во-вторых, он содержит расстояние между объектами, которые объединяются.
С дендрограммой мы уже знакомы с вами.
Мы на основании неё остановились на пятикластерном решении,
когда строили иерархический кластерный анализ.
Что у нас здесь?
Здесь у нас опять же есть номера университетов,
то есть просто номер объектов в нашей базе данных.
Есть расстояние между этими объектами, и есть вот эти вот крышечки, которые
отражают пошаговое объединение объектов по мере увеличения расстояния между ними.
Исходя из расстояния, исходя из компактности, исходя из вида дендрограммы,
можем решить на каком нам шаге остановиться, на какой дробности,
на каком количестве кластеров мы останавливаем свой выбор.
Дальше. Кроме тех графиков,
которые отображают процесс кластеризации, у нас также есть графики,
которые позволяют нам показать результат кластеризации.
Вот, к примеру, «Ящик с усами».
На этапе отбора признаков — кластерный анализ — мы анализировали их
распределение, мы смотрели нет ли там какой-то скошенности,
нет ли там каких-то нехороших нетипичностей, выбросов.
Находили, что они есть, удаляли эти выбросы.
Делали это при помощи ящика с усами.
Вот вы видите на экране, как это было: что у нас были нетипично высокие зарплаты,
у нас был нетипично низкий процент остающихся в городе обучения.
И мы удаляли совсем нетипичные значения, чтобы они не портили нам модель.
Приблизительно то же самое.
Такую же картинку мы можем использовать для того, чтобы отследить, что же,
собственно, у нас получилось.
Если мы, проводя процедуру, допустим кластерного анализа метода k-средних,
сохраним не только принадлежность к кластеру, но и расстояние от центра
кластера, то затем эту переменную мы можем использовать при построении ящика с усами.
Что, собственно, здесь и сделано.
Вы видите этот график: вот у нас пять кластеров.
И мы видим, собственно, разброс: насколько далеко объекты лежат от центра кластеров.
То есть, фактически, ящик с усами нам позволяет увидеть насколько у нас
вариативны объекты, которые вошли в каждую группу.
Чёрненькая линия — это медиана, и ящик — это плюс-минус 25 % от медианы.
То есть вот этот вот ящик — это типичное 50 % значение кластера.
И на основании видов вот этих вот ящиков мы может сказать, что, к примеру, 1-й и
4-й кластер у нас более компактны, но в 4-й кластер попал один нетипичный объект.
3-й кластер и 5-й кластер у нас несколько более вариативны.
Где-то у нас больше, где-то меньше эта вариативность.
Но исходя из этой картинки, мы можем соотнести вот те самые межкластерные,
внутрикластерные расстояния — особенно внутрикластерные — и понять,
насколько компактными получились наши группы.
Чем компактнее группы, соответственно, тем лучше классификация, тем, почти наверняка,
более дифференцированными они получатся.
И в заключение, диаграмма рассеяния.
Это в общем-то график такой почти универсальный,
здесь он нам может пригодится вот как.
В идеальном мире, когда мы строим классификацию,
у нас классификация будет выглядеть вот так.
Когда у нас облако точек имеет выраженную структуру, и мы видим, что вот эти вот
четыре сгустка, то есть это четыре выраженных группы, которые отличаются друг
от друга, которые компактны внутри, и мы их в общем-то видим.
Даже если бы не было обведено контуром, мы бы всё равно понимали,
что это вот у нас четыре сгустка,
которые характеризуются определёнными сочетаниями значений признаков.
Но в реальной жизни, да, у нас всё, как правило, обстоит вот так: то есть
у нас нет выраженных групп, у нас какое-то облако, в котором точки расположены
каким-то образом — какие-то из них ближе, какие-то дальше — в этих координатах.
И мы по этому облаку строим какое-то разбиение, исходя из той статистики,
которую мы построим.
И на одном и том же облаке мы можем строить разные разбиения.
И для того чтобы понять, что мы же мы, собственно, получили,
как это облако у нас структурировано.
Мы можем строить диаграмму рассеяния, но не просто диаграмму рассеяния,
а подкрашивать объекты,
которые вошли в один и тот же кластер каким-то определённым цветом.
На нашем примере это может выглядеть вот так.
То есть мы могли бы сделать трёхмерную диаграмму рассеяния,
но её немножечко сложнее читать.
Поскольку мы не можем её руками повернуть и рассмотреть что же где,
то информативнее бывает построить просто вот эти вот плоские двумерные.
На них, в общем-то, всё понятно.
То есть здесь каждому кластеру присвоен свой цвет сбоку в легенде, это видно.
И мы достаточно хорошо видим, кто же у нас, собственно, куда вошёл.
Вот они у нас кластеры с относительно сильными выпускниками и высокими
зарплатами.
Вот они у нас кластеры с относительно менее благоприятными характеристиками.
Вот эти вот подкрашенные точки позволяют нам интерпретировать содержание,
построенной модели, и проверять качество вот тем самым содержательным способом на
предмет логичности и на предмет понятности для нас тех групп, которые мы получили.
Теперь нам остаётся только попрактиковаться.
Дальше мы попробуем построить кластеры при помощи разных методов в разных
статистических пакетах.
А также попробуем вывести некоторые визуализации как процесса кластеризации,
так и её результата.