Автоматическое тематическое моделирование
Форум glav.su, раздел "Были ли американцы на Луне?"
Интерфейс построен на базе.
(HTML, JS)Model-browser interface by Andrew Goldstone; source available on github. Made using d3.js and Bootstrap. Zip support using JSZip.
Введение
- https://www.youtube.com/watch?v=Jtl6qR35KI4
- https://habrahabr.ru/company/yandex/blog/313340/
- http://www.machinelearning.ru/wiki/index.php?title=Тематическое_моделирование
Автоматические процессы
- Загрузка html
- Парсинг (дата, автор, треды, кому ответ, цитирование, скрытые) в БД
- Выцепление изображения ссылки, фильтрация от смайлов.
- Лемматизация (приведение слов к основной форме)
- Удаление стоп-слов ("а" "но" "в" "что" "как" "какой" и т.д.)
- Запуск обучения без учителя. BigArtm (или без изображений и авторов упращенную MALLET)
BigArtm специальным образом кластернизует похожие документы по словам (вес 1), авторам (0.7), изображениям или ссылкам (вес 0.4) и получает вероятностые матрицы отношений. - Преобразование результатов в JSON для
Статтистика пользователей

включая удаленные
Активность по неделям 2009 до 2017

Select a topic from the "Topic" menu above.
Word | Weight |
---|
Top documents
There are no documents containing this topic.
Choose a specific document to view from the bibliography or from a topic page.
Documents |
---|
Choose a specific word to view from the list of all words or from a topic page.
Prominent topics for
Click row labels to go to the corresponding topic page; click a word to show the topic list for that word.
All words prominent in any topic
Words not prominent in any topic are not listed