[БЕЗ_ЗВУКА] В этом видео мы рассмотрим вопрос об оценивании качества тематических моделей. Вообще, оценки качества делятся на 2 большие категории: это внутренние критерии и внешние критерии. Внутренние критерии — это те, которые позволяют оценить качество построенной модели по тем матрицам Φ и Θ, которые она дала на выходе, а внешние критерии измеряют качество модели, глядя на то, как она решает ту конечную прикладную задачу, ради которой она, собственно, и создавалась. В этом видео мы рассмотрим внутренние критерии. Перплексия — это очень известная в вычислительной лингвистике мера качества модели языка. В нашем случае моделью языка является условное распределение слов в документах. Эта мера качества тесно связана с правдоподобием. По сути дела, это значение логарифм правдоподобия, усредненное по всем словам всех документов, и к этому значению применяется экспонента. Каков смысл или интерпретация значения «перплексия»? Ну во-первых, если подставить вместо распределения слов в документах равномерное распределение, то мы увидим, что перплексия равна просто мощности словаря. То есть можно сказать, что это мера различности или неопределенности слов в тексте. Если распределение слов неравномерно, то перплексия уменьшается по сравнению с тем значением, которое дает равномерное распределение. Еще можно сказать, что перплексия — это коэффициент ветвления текста, то есть сколько мы ожидаем различных слов после каждого слова в документе в среднем. Вот такая оценка может быть вычислена по самой коллекции, по которой построена тематическая модель, однако тут есть опасность, что произойдет переобучение, и эта оценка будет оптимистично занижена. Вообще, перплексия чем ниже, тем лучше. Чтобы этого эффекта избежать и получить несмещенную оценку, считают перплексию тестовой (или отложенной) коллекции, hold-out perplexity. Она очень похожа на предыдущую, но есть тонкость, что сама тематическая модель строится по одной части коллекции, а вот проверяется эта оценка на другой части коллекции, и по первой части мы строим матрицу Φ, которая общая для всей коллекции, а по второй части мы только тематизируем отдельные документы. Но и тут возникает опасность переобучения, поскольку если мы с помощью модели определим тематический профиль документа, то есть распределение тем в документе, то мы опять-таки будем оценивать модель саму по себе. И здесь прием такой: каждый тестовый документ еще и делится на 2 половинки, и по первой половинке мы оцениваем распределение тем в данном документе, а вот вторая половника уже используется для вычисления перплексии, и таким образом мы получаем честную несмещенную оценку перплексии в тестовой коллекции. Ну а эксперименты на больших коллекциях показывают, что большого различия между перплексией на обучающей и на тестовой выборке, как правило, нету. Точнее, разница-то есть, но если мы с помощью перплексии сравниваем разные модели, то, как правило, качественные выводы о том, какая модель лучше, а какая хуже, сделанные по перплексии на обучающей коллекции и на тестовой коллекции, они примерно одинаковы, и поэтому есть рекомендация на очень больших коллекциях не считать hold-out perplexity и довольствоваться той перплексией, которая получается по основным данным. Перплексию ругают за то, что эта мера качества не очень хорошо интерпретируемая, она показывает лишь то, насколько хорошо построилось матричное разложение, но ничего не говорит о том, насколько тематическая модель будет полезна для конечных приложений или насколько хорошо будут интерпретироваться темы. Поэтому были придуманы меры качества, которые измеряют, насколько темы хороши, понятны в смысле их интерпретируемости для людей-экспертов, и, конечно же, такую оценку можно сделать только с помощью экспертов. Значит, мы просим экспертов рассмотреть темы как последовательности слов, упорядоченные по вероятности слов в каждой теме. То есть эксперты рассматривают тему за темой, смотрят на топовые слова, то есть имеющие наибольшие вероятности в этой теме, и принимают решение: эта тема интерпретируемая или нет; им нравится вот эта вот совокупность слов как набор слов, обозначающих ту или иную предметную область, тот или иной набор понятий; можно ли назвать это целостной темой. Ну критериев много, обычно экспертам дают такую инструкцию, что если вы понимаете, как можно именовать такую тему, дать ей одно название или вы понимаете, что вот по таким словам мог бы быть построен поисковый запрос и получена релевантная поисковая выдача, то вы тогда считаете такую тему интерпретируемой. Это один подход, и, естественно, это субъективные оценки, поэтому приходится привлекать многих экспертов и потом смотреть на то, насколько непротиворечивы их оценки и делать некое среднее. Есть другой метод, он тоже связан с привлечением экспертов, но он чуть более объективный и чуть более легкий для самих экспертов. Это так называемый метод интрузий, когда в список топовых слов каждой темы внедряется какое-то лишнее слово, которое заведомо этой теме не принадлежит, и экспертов просят определить, какое из списка слов данной темы лишнее. Ну это очень похоже на такую детскую задачу, которую иногда предлагают детям в качестве игры, и поэтому она простая, легкая, и люди таким способом могут оценить больше тем в единицу времени. Ну и измеряется доля ошибок, которые допустили эксперты при определении вот этого самого лишнего внедренного слова. Оказалось, что вот эти вот экспертные оценки очень хорошо коррелируют с такой мерой качества темы, как когерентность, которая уже может быть вычислена полностью автоматически без участия людей. Что такое когерентность, или согласованность, темы? Это мера, которая показывает, насколько часто слова, встречающиеся рядом в текстах, оказываются в топах одних и тех же тем. Как определяется эта величина? Мы берем заданное число топовых слов в темах, обычно небольшое, 10 или 20, и смотрим все пары слов, которые оказались в топе темы. Ну если мы взяли 10 слов, нетрудно посчитать, что пар всего будет 45. И мы смотрим по всем документам коллекции, насколько часто эти слова, пары слов вот из этих 45 пар, рядом стоят в документах, и оцениваем, насколько неслучайно это происходит. Для этого используется так называемая поточечная взаимная информация (pointwise mutual information). Что это такое по смыслу? Это величина, которая представляет собой логарифм отношения трех вероятностей. В числителе стоит вероятность того, что мы встретим два слова из заданной пары слов u и v, а в знаменателе стоят вероятности встретить их независимо друг от друга, произведение вероятностей. Поэтому если мы неслучайно часто встречаем данную пару слов именно рядом, то числитель будет намного больше знаменателя, и чем выше величина поточечной взаимной информации, тем выше неслучайность того, что два слова стоят рядом. Ну если эти слова стоят совсем рядом, такие пары слов принято называть коллокациями. Но здесь некое обобщение этого понятия, мы здесь учитываем пары слов, которые могут стоять в некотором окне рядом, обычно берут окно из 10 слов. Вот такая вот мера качества, которая может быть посчитана полностью автоматически. Делались эксперименты в попытке определить, какие же автоматически вычисляемые меры качества наилучшим образом коррелируют с экспертными оценками. Вот сравнивали много мер и оказалось, что именно вот эта когерентность, или согласованность, является такой мерой. Подытожим. Оценки качества тематических моделей делятся на две большие группы: это внутренние (мы их только что рассмотрели), внешние мы будем рассматривать в следующем видео. Основные внутренние меры качества тематических моделей — это перплексия и когерентность. Еще часто используются экспертные оценки, но они связаны с тем, что необходимо привлекать людей. Как правило, людям надо платить немного денег за то, чтобы они делали эту работу, поэтому это некое организационное мероприятие. Но в последнее время для этой работы очень часто используют краудсорсинг, что позволяет делать ее достаточно быстро, эффективно и с минимумом трудозатрат и затрат финансовых.