scholar_vit (
scholar_vit) wrote2015-04-16 07:25 pm
![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Облако Путина
peresedov задает вопрос,
чего не было в "Прямой линии" Путина. Это вопрос, конечно,
интересный, но методически правильнее, на мой взгляд, было бы
спросить, что там было.
В качестве упражнения я нарисовал облако слов стенограммы. В нее входили как вопросы, так и ответы. Я убрал несколько очевидных слов вроде "который", предлогов и союзов. Вот текст программы:
library("tm") library("wordcloud") putin <- Corpus(DirSource(pattern="putin.txt")) putin <- tm_map(putin,content_transformer(tolower)) putin <- tm_map(putin,removePunctuation) putin <- tm_map(putin,stripWhitespace) putin <- tm_map(putin,removeWords,stopwords("russian")) putin <- tm_map(putin,removeWords,c("владимир", "владимиром", "владимирович", "путиным", "путин", "линия", "прямая", "мситтель", "кклеймёнов", "клеймёнов", "впутин", "мситтель:", "это", "вопрос", "ещё", "очень", "который", "которая", "которые", "которое")) wordcloud(putin, max.words=200, scale=c(5,0.5), random.order=FALSE, use.r.layout=FALSE, colors=brewer.pal(8, "Dark2"))
А вот что у меня получилось:
Update: Облако Путина после обрезания.
no subject
$ join -i pmyst_sorted.txt freqs_sin100.txt | perl -lnawe 'print join "\t", sprintf("%.03f", $F[1] / log(2.72 + $F[2])), $F[0]' | sort -n | tail -n30
7.354 крым
7.569 тоже
7.668 поставлять
7.710 сделать
7.754 малый
7.905 бизнес
7.971 потому
8.286 экономика
8.332 санкция
8.411 работать
8.678 космодром
9.414 донбасс
9.630 миллиард
9.726 проблема
9.978 пожалуйста
10.033 много
10.551 нужно
10.646 украина
11.071 здесь
11.193 процент
11.835 страна
12.351 конечно
12.663 спасибо
14.520 давать
15.426 владимир
18.555 таки
20.587 должный
22.987 владимирович
24.943 вопрос
26.584 путин
no subject
no subject
no subject
Посмотрись в зеркало
no subject
no subject
Так-то "стасемидесятипятимиллимитровый" и "меламинокарбамидоформальдегидный" тоже длинные, но это же явное читерство.