scholar_vit (
scholar_vit) wrote2015-04-16 07:25 pm
![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Облако Путина
peresedov задает вопрос,
чего не было в "Прямой линии" Путина. Это вопрос, конечно,
интересный, но методически правильнее, на мой взгляд, было бы
спросить, что там было.
В качестве упражнения я нарисовал облако слов стенограммы. В нее входили как вопросы, так и ответы. Я убрал несколько очевидных слов вроде "который", предлогов и союзов. Вот текст программы:
library("tm") library("wordcloud") putin <- Corpus(DirSource(pattern="putin.txt")) putin <- tm_map(putin,content_transformer(tolower)) putin <- tm_map(putin,removePunctuation) putin <- tm_map(putin,stripWhitespace) putin <- tm_map(putin,removeWords,stopwords("russian")) putin <- tm_map(putin,removeWords,c("владимир", "владимиром", "владимирович", "путиным", "путин", "линия", "прямая", "мситтель", "кклеймёнов", "клеймёнов", "впутин", "мситтель:", "это", "вопрос", "ещё", "очень", "который", "которая", "которые", "которое")) wordcloud(putin, max.words=200, scale=c(5,0.5), random.order=FALSE, use.r.layout=FALSE, colors=brewer.pal(8, "Dark2"))
А вот что у меня получилось:
Update: Облако Путина после обрезания.
no subject
(no subject)
(no subject)
(no subject)
(no subject)
no subject
no subject
no subject
no subject
- инфинитивы можно с некоторой точностью получить mystem'ом
- пессимизировать тривиальщину можно частотным словарём (навскидку нашёлся этот)
Не станет ли результат интереснее?
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
OMG
OMG
Re: OMG
no subject
(no subject)
no subject
no subject
(no subject)
(no subject)
(no subject)
no subject
Берется текст, потом из него выкидываются все существительные, прилагательные и прочее, оставляют только глаголы. Потом подсчитывают, сколько в тексте глаголов, которые можно назвать глаголами действия (сделать, построить, выполнить), а сколько глаголов, которые можно назвать глаголами состояния (думать, обсудить, рассмотреть).
(no subject)
no subject
no subject
(no subject)
no subject
Однако я еще и разбираюсь в языках и в
программировании, помимо прочето, а потому
могу объяснить: то, что вы сделали - очень
дешевая и лживая пропаганда
Дело в том, что распределение слов в языках
сильно неравномерно. Есть некое частотное
ядро (и я выдумал нестандартный и более
быстрый способ учить языки, зная это).
Самые-самые частые слова (в любых - как
минимум европейских - языках) - предлоги,
союзы, прочие "служебные" или "грамматические"
слова.
Если хорошо знать их, язык начинаешь понимать
как в известном примере Щербы (глокая
куздра ... - ни одного слова не знаем, но
"всё" понятно).
Затем идет несколько "слоёв" слов, без
четких границ.
Ядро языка покрывает 85-90 процентов
общих текстов. А оставшиеся десятки тысяч
слов - длинный хвост распределения, попадающихся
в среднем раз на десятки тысяч слов текста.
Вы - будучи членом секты фанатиков-террористов,
которая каждый божий день ВОЮЕТ с народами,
внутри которых она живет - не озабочены
представлением реальности.
Потому вы взяли частотное распределение
НЕ ОТРЕЗАВ грамматические слова, потому что,
попробовав так и этак, вы решили, что
вот такая картинка выглядит наиболее издевательски.
'Смотрите, вот он Путен - "безусловно, эта,
этим, хотя, этих, далее" - хахаха, какой
обсос, видите? Да? да? да?
Что и было вашей целью (как это всегда является
целью любых еврейских воинов с людьми по
всему миру)
Очень интересная получилась шутка еврейского
юмора, животики надорвешь.
П.С. на днях наблюдал по ссылке из блога
Шнайера еще одного еврейского юмориста,
который (понятно, ненавидя Сноудена как
предателя "страны, которой владеют наши",
т.е. США) пришел его унизить, заставив
разговаривать про свой еврейский хуй.
Понятно, что другие, кто также тайно
Сноудена ненавидит, вроде брюса шнайера,
тут же объявили это интервью самым великим
из всех: ну это же "коомик", он объяснил
простым американцам на понятном им языке,
что такое NSA. На примере их собственного
хуя.
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(Anonymous) - 2015-04-17 07:16 (UTC) - Expand(no subject)
(no subject)
(no subject)
no subject
(no subject)
no subject
В любой речи любого политика будет что-то в этом роде.
Что же до речи нормального человека - так в быту будет ещё и похлеще при соответствующей длины выборке.
Не совсем о том, но музыкой навеяло.
"Облако -- в штанах! -- Путина -- без штанов!"
:)