scholar_vit: (knot)
scholar_vit ([personal profile] scholar_vit) wrote2015-04-16 07:25 pm
Entry tags:

Облако Путина

[livejournal.com profile] peresedov задает вопрос, чего не было в "Прямой линии" Путина. Это вопрос, конечно, интересный, но методически правильнее, на мой взгляд, было бы спросить, что там было.

В качестве упражнения я нарисовал облако слов стенограммы. В нее входили как вопросы, так и ответы. Я убрал несколько очевидных слов вроде "который", предлогов и союзов. Вот текст программы:

library("tm")
library("wordcloud")
putin <- Corpus(DirSource(pattern="putin.txt"))
putin <- tm_map(putin,content_transformer(tolower))
putin <- tm_map(putin,removePunctuation)
putin <- tm_map(putin,stripWhitespace)
putin <- tm_map(putin,removeWords,stopwords("russian"))
putin <- tm_map(putin,removeWords,c("владимир",
                                    "владимиром",
                                    "владимирович",
                                    "путиным",
                                    "путин",
                                    "линия",
                                    "прямая",
                                    "мситтель",
                                    "кклеймёнов",
                                    "клеймёнов",
                                    "впутин",
                                    "мситтель:",
                                    "это",
                                    "вопрос",
                                    "ещё",
                                    "очень",
                                    "который",
                                    "которая",
                                    "которые",
                                    "которое"))
wordcloud(putin, max.words=200,
          scale=c(5,0.5),
          random.order=FALSE,
          use.r.layout=FALSE,
          colors=brewer.pal(8, "Dark2"))

А вот что у меня получилось:

Update: Облако Путина после обрезания.

[identity profile] malyj-gorgan.livejournal.com 2015-04-16 11:49 pm (UTC)(link)
Не разбираюсь в программном синтаксисе, потому спрошу: а что в облаке с падежами и склонениями? Вот, есть "россии", а "россия" или "россией"? Или там "идет", но не "идем". Хотя, есть и "люди", и "людей"..., что, действительно вот настолько сильный перекос в конкретных формах для конкретных слов?

[identity profile] spamsink.livejournal.com 2015-04-17 12:10 am (UTC)(link)
Нам всё время нужно спасибо людей нашей России. Поэтому всё-таки, пожалуйста, давайте просто будем, действительно, делать добрый бизнес и деньги. Надеюсь, тысяч миллиардов процентов. Люди должны.

[identity profile] malyj-gorgan.livejournal.com 2015-04-17 12:20 am (UTC)(link)
Точно. Wow!

[identity profile] balalajkin.livejournal.com 2015-04-17 12:23 am (UTC)(link)
Красиво! Замечательно!

[identity profile] breqwas.livejournal.com 2015-04-17 12:51 am (UTC)(link)
Идеи навскидку:

- инфинитивы можно с некоторой точностью получить mystem'ом
- пессимизировать тривиальщину можно частотным словарём (навскидку нашёлся этот)

Не станет ли результат интереснее?

[identity profile] dmpogo.livejournal.com 2015-04-17 01:18 am (UTC)(link)
Там было про собаку ! Про это целая статья на ББС

[identity profile] vgramagin.livejournal.com 2015-04-17 01:37 am (UTC)(link)
Что характерно, миллиона нет. Или миллиарды, или тысячи...

[identity profile] Лев Горенштейн (from livejournal.com) 2015-04-17 03:19 am (UTC)(link)
Ты крут.

[identity profile] prostak-1982.livejournal.com 2015-04-17 04:15 am (UTC)(link)
Читал в свое время про другую форму смыслового анализа.
Берется текст, потом из него выкидываются все существительные, прилагательные и прочее, оставляют только глаголы. Потом подсчитывают, сколько в тексте глаголов, которые можно назвать глаголами действия (сделать, построить, выполнить), а сколько глаголов, которые можно назвать глаголами состояния (думать, обсудить, рассмотреть).
Edited 2015-04-17 04:15 (UTC)

[identity profile] brother2.livejournal.com 2015-04-17 04:22 am (UTC)(link)
Нам всё нужно! Нам всё время нужно! - вполне тянет на нацидею.

[identity profile] vlkamov.livejournal.com 2015-04-17 04:26 am (UTC)(link)
Странно, что вас это волнует.

[identity profile] greenkrokodilla.livejournal.com 2015-04-17 05:19 am (UTC)(link)
Я не могу сказать, что сильно люблю Путина.
Однако я еще и разбираюсь в языках и в
программировании, помимо прочето, а потому
могу объяснить: то, что вы сделали - очень
дешевая и лживая пропаганда

Дело в том, что распределение слов в языках
сильно неравномерно. Есть некое частотное
ядро (и я выдумал нестандартный и более
быстрый способ учить языки, зная это).
Самые-самые частые слова (в любых - как
минимум европейских - языках) - предлоги,
союзы, прочие "служебные" или "грамматические"
слова.
Если хорошо знать их, язык начинаешь понимать
как в известном примере Щербы (глокая
куздра ... - ни одного слова не знаем, но
"всё" понятно).
Затем идет несколько "слоёв" слов, без
четких границ.
Ядро языка покрывает 85-90 процентов
общих текстов. А оставшиеся десятки тысяч
слов - длинный хвост распределения, попадающихся
в среднем раз на десятки тысяч слов текста.

Вы - будучи членом секты фанатиков-террористов,
которая каждый божий день ВОЮЕТ с народами,
внутри которых она живет - не озабочены
представлением реальности.
Потому вы взяли частотное распределение
НЕ ОТРЕЗАВ грамматические слова, потому что,
попробовав так и этак, вы решили, что
вот такая картинка выглядит наиболее издевательски.

'Смотрите, вот он Путен - "безусловно, эта,
этим, хотя, этих, далее" - хахаха, какой
обсос, видите? Да? да? да?


Что и было вашей целью (как это всегда является
целью любых еврейских воинов с людьми по
всему миру)

Очень интересная получилась шутка еврейского
юмора, животики надорвешь.


П.С. на днях наблюдал по ссылке из блога
Шнайера еще одного еврейского юмориста,
который (понятно, ненавидя Сноудена как
предателя "страны, которой владеют наши",
т.е. США) пришел его унизить, заставив
разговаривать про свой еврейский хуй.

Понятно, что другие, кто также тайно
Сноудена ненавидит, вроде брюса шнайера,
тут же объявили это интервью самым великим
из всех: ну это же "коомик", он объяснил
простым американцам на понятном им языке,
что такое NSA. На примере их собственного
хуя.

[identity profile] vilomaxus.livejournal.com 2015-04-17 06:03 am (UTC)(link)
Здравствуйте! Спасибо, за инфографику. Вопрос не совсем по теме поста - вы пользовались сервисом www.infogr.am? Как вам он?

[identity profile] sidorow.livejournal.com 2015-04-17 07:45 am (UTC)(link)
А чего ты хотел, собссно?
В любой речи любого политика будет что-то в этом роде.
Что же до речи нормального человека - так в быту будет ещё и похлеще при соответствующей длины выборке.

Не совсем о том, но музыкой навеяло.

[identity profile] ab-s.livejournal.com 2015-04-17 11:07 am (UTC)(link)
Есть еще старый пионерский способ: берется исходная песня (стихотворение, параграф из учебника физики, речь Брежнева...) и после каждого нечетного предложения вставляется "в штанах", а после каждого четного -- "без штанов".

"Облако -- в штанах! -- Путина -- без штанов!"

:)