Stanislav V. Mikov (stanislav_mikov) wrote,
Stanislav V. Mikov
stanislav_mikov

  • Music:

Загадочное


Сегодня утром мне пришла в голову мысль дополнить частотный анализ текста построением кластеров частых слов, выделенных по минимальной дистанции между словами.
В кластер попадают частые слова из текста, которые к тому же часто встречаются рядом (относительно рядом).
Текст берётся из последних 25 публичных записей дневника [жж].
Пока в массовое пользование запустить не готов, но кому интересно, отписывайтесь, сгенерю чудесный граф для вас.
Спасибо яндексу за чудесный mystem.

Под кат я запихал результаты обработки своих стихов за последние 12 лет. Тоже занятно.


Парсер - лох. Вместо "душ", конечно же, "душа".


UPD: При желании можете теперь попробовать сами потестить свой журнал.
Tags: тесты
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 158 comments
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →