scholar_vit (
scholar_vit) wrote2015-04-16 07:25 pm
![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Облако Путина
peresedov задает вопрос,
чего не было в "Прямой линии" Путина. Это вопрос, конечно,
интересный, но методически правильнее, на мой взгляд, было бы
спросить, что там было.
В качестве упражнения я нарисовал облако слов стенограммы. В нее входили как вопросы, так и ответы. Я убрал несколько очевидных слов вроде "который", предлогов и союзов. Вот текст программы:
library("tm") library("wordcloud") putin <- Corpus(DirSource(pattern="putin.txt")) putin <- tm_map(putin,content_transformer(tolower)) putin <- tm_map(putin,removePunctuation) putin <- tm_map(putin,stripWhitespace) putin <- tm_map(putin,removeWords,stopwords("russian")) putin <- tm_map(putin,removeWords,c("владимир", "владимиром", "владимирович", "путиным", "путин", "линия", "прямая", "мситтель", "кклеймёнов", "клеймёнов", "впутин", "мситтель:", "это", "вопрос", "ещё", "очень", "который", "которая", "которые", "которое")) wordcloud(putin, max.words=200, scale=c(5,0.5), random.order=FALSE, use.r.layout=FALSE, colors=brewer.pal(8, "Dark2"))
А вот что у меня получилось:
Update: Облако Путина после обрезания.
no subject
новыми пакетами" (хотя эти задачи решаются
несколькими строчками на пёрле, без пакетов),
то - если не читаете книг - я вам раскрою
стандартную процедуру анализа речи.
Найдя частотное распределение его СРАВНИВАЮТ
С ОБЩИМ СРЕДНИМ частотным распределением
по большой массе подобного языка (сегодня
для этого есть "корпусы" языков).
И значимыми особенностями являются
СЛОВА, ИМЕЮЩИЕ ЧАСТОТНОСТЬ, ЗАМЕТНО
ОТЛИЧНУЮ ОТ ОБЩЕГО СРЕДНЕГО РАСПРЕДЕЛЕНИЯ.
А не то, что вы нам тут нарисовали.
no subject
no subject