scholar_vit: (knot)
[personal profile] scholar_vit

[livejournal.com profile] peresedov задает вопрос, чего не было в "Прямой линии" Путина. Это вопрос, конечно, интересный, но методически правильнее, на мой взгляд, было бы спросить, что там было.

В качестве упражнения я нарисовал облако слов стенограммы. В нее входили как вопросы, так и ответы. Я убрал несколько очевидных слов вроде "который", предлогов и союзов. Вот текст программы:

library("tm")
library("wordcloud")
putin <- Corpus(DirSource(pattern="putin.txt"))
putin <- tm_map(putin,content_transformer(tolower))
putin <- tm_map(putin,removePunctuation)
putin <- tm_map(putin,stripWhitespace)
putin <- tm_map(putin,removeWords,stopwords("russian"))
putin <- tm_map(putin,removeWords,c("владимир",
                                    "владимиром",
                                    "владимирович",
                                    "путиным",
                                    "путин",
                                    "линия",
                                    "прямая",
                                    "мситтель",
                                    "кклеймёнов",
                                    "клеймёнов",
                                    "впутин",
                                    "мситтель:",
                                    "это",
                                    "вопрос",
                                    "ещё",
                                    "очень",
                                    "который",
                                    "которая",
                                    "которые",
                                    "которое"))
wordcloud(putin, max.words=200,
          scale=c(5,0.5),
          random.order=FALSE,
          use.r.layout=FALSE,
          colors=brewer.pal(8, "Dark2"))

А вот что у меня получилось:

Update: Облако Путина после обрезания.

Date: 2015-04-17 05:19 am (UTC)
From: [identity profile] greenkrokodilla.livejournal.com
Я не могу сказать, что сильно люблю Путина.
Однако я еще и разбираюсь в языках и в
программировании, помимо прочето, а потому
могу объяснить: то, что вы сделали - очень
дешевая и лживая пропаганда

Дело в том, что распределение слов в языках
сильно неравномерно. Есть некое частотное
ядро (и я выдумал нестандартный и более
быстрый способ учить языки, зная это).
Самые-самые частые слова (в любых - как
минимум европейских - языках) - предлоги,
союзы, прочие "служебные" или "грамматические"
слова.
Если хорошо знать их, язык начинаешь понимать
как в известном примере Щербы (глокая
куздра ... - ни одного слова не знаем, но
"всё" понятно).
Затем идет несколько "слоёв" слов, без
четких границ.
Ядро языка покрывает 85-90 процентов
общих текстов. А оставшиеся десятки тысяч
слов - длинный хвост распределения, попадающихся
в среднем раз на десятки тысяч слов текста.

Вы - будучи членом секты фанатиков-террористов,
которая каждый божий день ВОЮЕТ с народами,
внутри которых она живет - не озабочены
представлением реальности.
Потому вы взяли частотное распределение
НЕ ОТРЕЗАВ грамматические слова, потому что,
попробовав так и этак, вы решили, что
вот такая картинка выглядит наиболее издевательски.

'Смотрите, вот он Путен - "безусловно, эта,
этим, хотя, этих, далее" - хахаха, какой
обсос, видите? Да? да? да?


Что и было вашей целью (как это всегда является
целью любых еврейских воинов с людьми по
всему миру)

Очень интересная получилась шутка еврейского
юмора, животики надорвешь.


П.С. на днях наблюдал по ссылке из блога
Шнайера еще одного еврейского юмориста,
который (понятно, ненавидя Сноудена как
предателя "страны, которой владеют наши",
т.е. США) пришел его унизить, заставив
разговаривать про свой еврейский хуй.

Понятно, что другие, кто также тайно
Сноудена ненавидит, вроде брюса шнайера,
тут же объявили это интервью самым великим
из всех: ну это же "коомик", он объяснил
простым американцам на понятном им языке,
что такое NSA. На примере их собственного
хуя.

Date: 2015-04-17 05:26 am (UTC)
From: [identity profile] greenkrokodilla.livejournal.com
П.С. И еще - раз вы "учитесь пользоваться
новыми пакетами" (хотя эти задачи решаются
несколькими строчками на пёрле, без пакетов),
то - если не читаете книг - я вам раскрою
стандартную процедуру анализа речи.

Найдя частотное распределение его СРАВНИВАЮТ
С ОБЩИМ СРЕДНИМ частотным распределением
по большой массе подобного языка (сегодня
для этого есть "корпусы" языков).

И значимыми особенностями являются
СЛОВА, ИМЕЮЩИЕ ЧАСТОТНОСТЬ, ЗАМЕТНО
ОТЛИЧНУЮ ОТ ОБЩЕГО СРЕДНЕГО РАСПРЕДЕЛЕНИЯ.

А не то, что вы нам тут нарисовали.

Date: 2015-04-17 05:57 am (UTC)
From: [identity profile] profpr.livejournal.com
Было бы интересно сравнить результат с правильным "облаком Путина", сделанным профессионалом. Должно быть легко - ведь для него это просто несколько строчек на перле, без пакетов?

Date: 2015-04-17 07:49 am (UTC)
From: [identity profile] sidorow.livejournal.com
Интересно было бы сравнить вообще облака разнообразных граждан, и политиков в т.ч. Или где-то есть такие данные?

Date: 2015-04-17 06:55 am (UTC)
From: [identity profile] r-l.livejournal.com
О, настоящий олдфаг, оловянный солдат антижидовского фронта, давно таких не видал!

Date: 2015-04-17 07:16 am (UTC)
From: (Anonymous)
это же виртуал эмдрона

Date: 2015-04-17 07:52 am (UTC)
From: [identity profile] greenkrokodilla.livejournal.com
Ну, совсем недавно Боря "А-Вешать-
Мы-Их-Будем-Потом" Филатов жалостно
блеял о моем "антисемитизме", после
комментария где я назвал его надлежащим
именем.

Если жаловаться начинают даже такие
еврейские фашисты, это значит, что
что-то я понимаю очень правильно.
Феерическое было зрелище: преступник
против человечества (кстати: не
"человечности", а "человечества"),
военный преступник без срока давности,
жалится на то, что его оскорбляют
антисемиты.


Теперь в моей коллеции есть и ваш
автограф - в одной коробке с вашим
подельниками жидобандеровцами.
Good.

Date: 2015-04-17 07:54 am (UTC)
From: [identity profile] r-l.livejournal.com
Я как-то упустил Ваши трансформации, но добрый анонимус меня просветил. В это говно я уже вступал, ага.

Date: 2015-04-17 07:55 am (UTC)
From: [identity profile] r-l.livejournal.com
Кто, кстати, жаловался? Я просто отметил чистоту и незамутненность, вот эти вот все переносы строк, касплоки, сноуден, все, как мы любим.

Profile

scholar_vit: (Default)
scholar_vit

January 2019

S M T W T F S
  12345
678 9101112
13141516171819
20212223242526
2728293031  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 28th, 2025 06:29 am
Powered by Dreamwidth Studios