Плотность тошноты на квадратный метр текста

Как с помощью наукообразных параметров копирайтеры обманывают клиентов (и самих себя)

Плотность ключевых слов, частотность, классическая тошнота, академическая тошнота, водность и даже, страшно подумать, индекс читабельности по Флешу. Утверждается, что все эти параметры учитывают поисковые системы. Приводятся «оптимальные» значения. Даются рекомендации. Кажется, чтобы написать текст, который априори понравился бы Яндексу, нужно быть копирайтером 80 уровня, не меньше. А если ты — не он, то придется найти такого и нанять. Так?

метрики текста

Не так. Ниже я покажу, что все перечисленные параметры не значат ровным счетом ничего. Ни-че-го. А также расскажу о том, что действительно имеет значение. Приступаем.

Плотность ключевых слов

Классическое определение плотности ключевых слов таково:

плотность ключевых слов формула

Здесь w — это количество вхождений ключевого слова в тексте. W — общее число слов в тексте.

Таким образом, если в тексте, например, 150 слов, а слово «копирайтер» встречается там 8 раз, то его плотность составляет:

плотность ключевых слов формула

Методики подсчета общего числа слов в тексте и числа вхождений ключевых фраз могут отличаться. Кто-то учитывает предлоги, кто-то — нет. Где-то считаются только точные вхождения фраз, где-то — еще и «разбавленные» другими словами или употребленные в разных словоформах.

Уже само наличие расхождений в методике подсчета этого параметра опровергает наличие каких-либо точных значений плотности, которых следует придерживаться. Однако главная беда в другом.

Параметр плотности ключевых слов совершенно не влияет на ранжирование в поиске!

Доказательство — ниже, а пока забавная история.

В далеком 2004 году во время президентских выборов в США была запущена т.н. Google Bomb — массовая простановка ссылок на сайт Белого Дома с текстом «miserable failure» (жалкий неудачник). Флешмоб вылился в первое место страницы Буша-младшего в поиске Google по этому запросу. Надо ли говорить, что ни точного, ни «размытого» вхождения этой фразы в тексте страницы не было вовсе? История ныне слегка подзабытая, да и алгоритмы учета внешних ссылок уже много раз поменялись. Но суть осталась: формальные критерии вхождения слов в текст имеют далеко не первостепенное значение. И это еще мягко говоря.

Частотность

Определение частоты фразы или слова полностью совпадает с таковым для плотности. Т.е. берем число повторов слова или фразы и делим на общее число слов в тексте. Нюансы — в расчете общего числа слов (учитываем или не учитываем стоп-слова) и в способе выявления фраз.

Как следствие, влияние частотности ключевых слов на позицию в поисковой выдаче близко к нулю. Рассматривать этот параметр отдельно нет никакого смысла.

Тошнота текста

А вот здесь уже интереснее. И ведь термин-то какой — тошнота. Так и хочется, чтобы он был поменьше, правильно? Однако анализ показывает другое. Впрочем, обо всем по порядку. Итак, что же такое тошнота.

Честно говоря, о самом термине я впервые узнал примерно за две недели до того, как начал работать над этой статьей. Выяснилось следующее. Во-первых, существует два вида тошноты — классическая и академическая (sic!). Оба параметра призваны характеризовать переспамленность текста ключевыми словами. Во-вторых, проверка текста на тошноту довольно популярна в копирайтерской среде, хотя отношение к ней неоднозначное. Как же считается тошнота? Давайте узнаем.

классическая тошнота
Обычно при выборе иллюстрации для понятия классической тошноты ориентируются на второе слово. А я для разнообразия возьму первое.

Классическая тошнота

Классическая тошнота — это, цитирую, «…квадратный корень из числа, обозначающего частоту употребления слова в тексте. Например, если слово встречается в тексте 16 раз, его классическая тошнота равна 4. При этом объем текста в расчет не берется».

Та-дам! Объем текста в расчет не берется. Т.е. это не относительный параметр, а абсолютный. С какой целью нужно брать квадратный корень описание классической тошноты не уточняет. Вероятно, это нужно для видимости научности методики. Ведь раз значение абсолютное, то с тем же успехом можно было бы оперировать и собственно числом вхождений слова в текст. А это уж слишком просто. Слова-то клиент и сам может посчитать, а вот «классическую тошноту»... Хотя, как по мне, sqrt() — это не слишком научная формула. Уровень 7-го класса, чего уж там. Можно было и позаковыристей изобрести. С тем же, впрочем, результатом.

Академическая тошнота

С классикой разобрались. Едем дальше. И здесь — сюрприз! Что такое академическая тошнота не знает, судя по всему, никто. Буквально. Иначе как объяснить, что Интернет полон однотипных рекомендаций о ее оптимальном значении, но формулы расчета академической тошноты или хотя бы внятного определения, что это такое, нигде не приводится?

«Отношение количества повторов самого употребляемого в документе слова к количеству слов во всем тексте. Она измеряется в процентах» — это в одном месте.

А вот в другом источнике: «Академическая тошнота измеряется в процентах и зависит от частоты повторения слов и объема текста. Вычисляется как отношение числа повторов самых частых слов к общему числу слов в тексте».

Из определений понятно одно: академическая тошнота — это некоторая разновидность уже рассмотренной выше плотности слов. Казалось бы, ну и хер с ней, с этой тошнотой. Однако я человек въедливый. В рамках исследования мне хотелось все-таки понять, насколько обоснована данная характеристика.

Поэтому формулу академической тошноты я вывел эмпирически. Кому интересно, как — открывайте спойлер.

Для оценки академической тошноты я использовал сервис Адвего. Допускаю, что другие сервисы рассчитывают этот параметр иначе.

Итерация 1

Начнем с самого простого текста из двух слов и посмотрим тошноту.

Академическая тошнота нулевая. Следовательно, слова, входящие в текст один раз, на этот параметр не влияют. Едем дальше.

Итерация 2

Анализируем следующий текст: «один четыре один».

Тошнота стала 66.7%, т.е. две трети. Тройка среди показателей у нас только одна – это общее количество слов. Следовательно, именно на это число делится – как там было в определении? – число повторов самых частых слов. Самое частое слово у нас «один» и оно повторяется два раза. Пока все сходится.

Итерация 3

Едем дальше: «один четыре один один».

Тройку делим на четверку. 75%. Опять совпало.

Итерация 4

Теперь попробуем усложнить: «один четыре один один четыре».

Уже интереснее. 72,1%. Т.е. разделив некое число x на 5, мы должны получить 0,721. Число это, очевидно, формируется из частот отдельных слов. Это мы уже выяснили. Несложным вычислением получаем, что: . Пока непонятно. Нужны еще данные.

Итерация 5

Следующая итерация: «один четыре один один четыре один».

74,5% = 0,745. Искомый «икс», тот, который мы должны разделить на общее число слов, равен

В этот момент у меня появилась некая гипотеза, и я решил ее проверить, проведя итерацию номер шесть с таким текстом: «один четыре один один четыре один четыре пять шесть семь».

Итерация 6

Gotcha! Идея состояла в том, чтобы добить общее число слов в анализируемом тексте до 10, а два самых частых использовать 4 и 3 раза. Что получилось?

Академическая тошнота равна 50%, т.е. 0,5. Следовательно, искомое число . А теперь поставим все три цифры рядышком и поглядим: 3, 4, 5. Ничего не напоминает? Подсказываю: число 5, по идее, мы получаем из первых двух.

Да это же теорема Пифагора!

А для предыдущих итераций:

Следовательно, частоты самых употребляемых слов возводятся в квадрат и складываются. Потом из полученного числа берем квадратный корень и делим на общее число слов в тексте. Вот и вся академическая тошнота. Впрочем, для пущей уверенности не мешает проверить еще раз, для большего числа частых слов.

Итерация 7

Текст последней итерации: «один четыре один один четыре один четыре пять шесть семь шесть семь». Итого 12 слов всего и 4 самых частых, встречающихся 4, 3, 2 и 2 раза. Алгоритм предсказывает такое значение академической тошноты:

Проверяем.

Совпало. Формула верна.

А всем остальным сразу показываю результат:

Таким образом, академическая тошнота текста — это отношение корня квадратного из суммы квадратов повторов самых частых слов в тексте к общему числу слов в тексте. Звучит очень научно, не так ли?

Сравните с формулой плотности слов, которую я приводил выше:

Единственная разница — квадратичное вычисление среднего значения повторов первых n самых частых слов. Соответственно, все соображения относительно обычного параметра частотности равно применимы и к академической тошноте. Кстати, формально числитель можно представить как длину вектора в n-мерном пространстве всех часто употребляемых слов текста. Но что это дает, кроме ощущения собственной начитанности? Непонятно. Тем более что значение академической тошноты очень слабо коррелирует с позицией сайта в поиске, что будет показано ниже.

Водность

Наконец, еще один в меру бесполезный параметр, характеризующий количество «воды» в тексте. Вычисляется очень просто: берем количество незначимых слов и делим на общее число слов в документе. Незначимые — это предлоги, частицы, местоимения, сокращения и прочие словеса, сами по себе не несущие смысловой нагрузки.

водность текста

Здравое зерно в этом параметре, безусловно, есть. Слишком много «воды» — и вот уже смысл текста теряется в многочисленных «как известно», «нетрудно вообразить», «в современном мире» и «молодая динамично развивающаяся компания». Наоборот, сквозь «сухой» текст вам придется буквально продираться, и об этом знают все без исключения студенты.

Вот только к поисковой оптимизации водность имеет очень опосредованное отношение. Кроме того, характеристика не учитывает тематику текста, его структуру, использованную терминологию. Не говоря уже про метафоры и игру слов. Анализ «Евгения Онегина» на водность дает свыше 70% (при «оптимальных» и всячески рекомендуемых «экспертами» 60%), а стихи Бродского содержат и вовсе под 80% «воды». Это у Бродского-то, с его «многомерными» смыслами!

Скажете, стихи одно, а коммерческие тексты — другое? Верно. Но читают и то, и другое люди. В которых, кстати, тоже воды около 70%.

Доказательства бесполезности

Или, если точнее, иррелевантности вышеописанных параметров. После чего перейдем к лингвистическим характеристикам.

Чтобы понять, какое влияние оказывают плотность (частотность) ключевых слов, классическая и академическая тошнота и водность текста на ранжирование сайта в поиске, я проанализировал первую десятку сайтов в выдаче Яндекса по 5 произвольным запросам: «каршеринг», «продвижение сайтов», «дешевые авиабилеты», «бухгалтерское обслуживание москва» и «копирайтинг на английском». Для каждого сайта выполнялся расчет корреляции четырех параметров с рангом сайта и выполнялся регрессионный анализ полученных данных на предмет выявления возможной зависимости.

Детали исследования — ниже под спойлером. Кому математика неинтересна — идем сразу к выводам.

По каждой поисковой фразе я сделал поиск в регионе Москва в Яндексе. Для первых 10 результатов в поиске выполнялись следующие действия:

Открыть сайт.
Нажать Ctrl+A, Ctrl+C.
Вставить содержимое буфера в поле для текста в сервисе семантического анализа текста Адвего.
Записать полученные параметры.

В результате получилось 5 групп по 10 значений каждого из четырех анализируемых параметров. Значения корреляции параметров с позицией в поиске рассчитывались сначала для отдельных ключевых слов, т.е. по группам. Затем были подсчитаны общие коэффициенты корреляции по всей выборке.

Все данные сведены в таблицу. Кликните, чтобы открыть в полном размере.

Корреляция по Пирсону хорошо «ловит» только линейную зависимость или близкую к ней. Поэтому на всякий случай проведем регрессионный анализ данных.

В общем-то, все видно невооруженным глазом. Да, есть некоторые границы значений каждого из параметров, но какой-то явной системы в распределении не наблюдается. Наличие границ как таковых, впрочем, ничего не означает. Если бы мы анализировали не осмысленные тексты, а набор слов — никаких границ не получилось бы, т.к. верхние и нижние значения частотности слов или, скажем, водности, определяются синтаксисом и морфологией языка и структурой текста, а не какими-то алгоритмами ранжирования.

Уравнения регрессии, построенные с максимальной достоверностью аппроксимации, выглядят здесь как чужеродные элементы: хаос он и есть хаос. Достоверность, кстати, намного меньше единицы.

Конечно, анализ не претендует на полноту. Есть к чему придраться: малая выборка, недостаточная глубина значений функции (позиции сайта), смешанные тематики запросов. Вполне возможно, что где-нибудь на 20-ой странице поиска картина сложится кардинально отличная от полученной мной.

Если кто-то проверит и поделится своими результатами, буду благодарен.

Результаты таковы: ни один из рассмотренных параметров не показал достоверной корреляции с позицией сайта в поиске. Проще говоря, ни обе тошноты, ни водность, ни даже частотность никакого заметного влияния на позицию не оказывают. По крайней мере, для сайтов в первой десятке результатов Яндекса по вышеуказанным запросам.

И еще несколько наблюдений.

Как видно, знак величины корреляции параметров меняется от одного ключевого слова к другому. Это тоже говорит в пользу гипотезы об отсутствии значимого эффекта изучаемых параметров на поиск. Ведь, если бы, к примеру, тошнота как-то влияла на позицию, то это влияние прослеживалось бы во всех группах одинаково.

Разброс значений параметров варьируется. Интересно, что существенно большая дисперсия по классической тошноте наблюдается у запроса именно SEO-шной тематики. Возможно, это совпадение, но было бы забавно, если бы эта тенденция подтвердилась и на других подобных ключевых словах.

Величина корреляции в рамках отдельных ключевых слов выше, чем в целом по всей выборке. Т.е. по мере накопления данных, значение корреляции каждого рассмотренного параметра уверенно стремится к нулю, опровергая, тем самым, гипотезу о наличии каких-либо достоверных взаимосвязей. Впрочем, не исключен вариант разных принципов учета статистических параметров текста поисковиками для конкурентных и неконкурентных запросов. Я бы сказал, что это маловероятно, но кто знает.

Математически подкованный читатель возразит, что использованный в анализе коэффициент корреляции Пирсона — линейный. Т.е. корреляцию более сложного порядка он не отражает. Все так. Поэтому дополнительно я провел регрессионный анализ по каждому из параметров в надежде найти хоть что-то похожее на систему. Увы: точки на графике расположены, судя по всему, хаотично.

Как максимум, можно утверждать о наличии некоторого «коридора» значений, в который попадает большинство исследованных сайтов. На диаграммах эти «коридоры» хорошо видны. Если хотите — это те самые «оптимальные» границы значений, на которые можно ориентироваться. Хотя с тем же успехом можно подсчитывать, например, процент глаголов в тексте и заявлять, что оптимальное их число для выхода в топ — от 15 до 18%.

Индекс удобочитаемости

Индексов удобочитаемости существует несколько, однако именно в контексте копирайтинга на слуху больше всего индекс удобочитаемости Флеша. Рассчитывается так:

Проще говоря, чем длиннее слова и предложения, тем читабельность ниже. Индекс 100 соответствует условному «детсадовскому» тексту, а 0 — тексту для яйцеголовых аспирантов Калтеха.

Почему коэффициенты в формуле именно такие, мне выяснить не удалось. Скорее всего, они получены эмпирически путем анализа большого объема английских текстов и масштабирования расчетных значений к удобной шкале от 0 до 100. Именно английских текстов, это важно. Существуют адаптации индекса Флеша для русского языка с другими коэффициентами.

Использовать индекс Флеша для проверки удобочитаемости текстов предлагают многие. Но какова практическая польза этого критерия? Плюсы метода очевидны. Простая методика (проще только индекс Колмана-Лиау) позволяет быстро оценить чисто механическую сложность прочтения материала. Действительно, длинные предложения читаются сложнее, равно как и длинные слова. И на этом плюсы заканчиваются.

Минусы

Минусов больше.

Метод не учитывает смысл слов. Это, пожалуй, его самый главный недостаток.

Пон окпто зоыф тслывых уи. Апи ылдс хен ку. Жа Ыхен апрус.

Что-нибудь поняли? А индекс Флеша покажет высокую удобочитаемость. И даже в более мягкой форме, например, при работе по словарю, написать читабельное с точки зрения Флеша, но бессмысленное предложение не так уж и трудно:

Пал дыра кот наш вот нет драка и.

Или просто попробуйте посчитать индекс Флеша для описаний товаров с AliExpress. Будет смешно, обещаю.

Совсем не принимается во внимание пунктуация. А без нее, согласитесь, чтение текста затрудняется.

Не учитываются шрифты, кегль, цвет и прочие параметры текста. Поисковикам, конечно, по большей части все равно, но нам-то с вами — нет!

Короткое слово не всегда воспринимается проще, чем длинное. Слова «эрг», «штамм», «бушприт» или «дефолт» имеют 1-2 слога, но требуют от читающего большего уровня образованности, чем такие «сложные» слова, как «каруселька» (4), «великолепный» (5), «стихотворение» (6).

Короткое предложение не обязательно легче читается, чем длинное. Сравните:

«Кот вошел на кухню, облизнулся и, мурлыча, направился к миске с молоком».

«Кот вошел на кухню. Кот облизнулся. Кот замурлыкал. Кот направился к миске. В миске молоко».
Одни и те же слова могут использоваться в разном значении. Знаете ли вы, что «прелестный», «странный» и «очарованный» – это характеристики субатомных элементарных частиц – кварков? А что «лось» – это не только животное, но и неудачная сделка на бирже?

Смысловые нестыковки тоже могут существенно подпортить настроение читающему, даже если индекс удобочитаемости текста будет высоким.

Выводы и рекомендации

Вывод один и очень простой. Синтетические методики анализа текста не имеют никакого смысла в контексте поисковой и, тем более, «человеческой» оптимизации. Эффекта от конкретных «оптимизированных» значений частотности, тошноты или водности либо нет совсем, либо этот эффект не обнаруживается на малых выборках, т.е. не оказывает значимого влияния.

Если вы как заказчик используете эти или другие численные метрики для оценки присланного вам текста или как исполнитель ориентируетесь на них при написании — немедленно перестаньте.

А что взять взамен? Как оценить, насколько хорош данный текст? Насколько хорошо он освещает выбранную тему, легко ли его читать, насколько он релевантен целевым запросам, насколько хорошо он продает, наконец.

Взамен я предлагаю воспользоваться здравым смыслом напополам с практикой. Прочитайте текст. Вслух. Легко читается? Значит, текст – легко читаемый. Вот и все. Хотите оценить свой текст? Попросите кого-то другого его прочитать. Тоже вслух.

Аналогично поступаем и с другими метриками. Идея текста вам понятна? Окей, значит, текст написан доступно. Глаза не сломали? Значит оформление, структура, подзаголовки, стиль – все в норме. После прочтения возникло ощущение, что текст «водянистый»? Ну, значит, такой он и есть. И не надо мне говорить, что это субъективно. Во-первых, да, субъективно. Во-вторых, вы же легко понимаете, когда политик говорит по делу, а когда выкручивается и несет чушь? На тошноту ведь не анализируете, плотность не подсчитываете.

С поисковиками посложнее, но не намного. Если вы после прочтения понимаете, о чем текст, т.е. каким словам он релевантен, то велика вероятность, что и поисковик своими комплексными алгоритмами, пандами и пингвинами до этого дочухает. А точных цифр вам все равно никто не скажет и гарантий никаких не даст. Помните: не вы подстраиваетесь под роботов, а роботы под вас.

Следовательно, рекомендация тоже будет всего одна: не пишите для роботов, пишите для людей. Если текст нравится людям, то и роботам он стопудово понравится. На этом все.

Если статья вам понравилась, я буду очень благодарен, если вы потратите 5 секунд своего времени, нажмете одну из кнопочек в левой части экрана и поделитесь этим материалом в любимой соц.сети.

P.S.

Ах да, я обещал рассказать, какие факторы имеют значение. В принципе, ничего нового я не открою. На эту тему написана уйма книг, статей и постов в блогах. Поэтому тезисно.

Привлекательный заголовок.
Некоторые факты о том, какие заголовки привлекательны, а какие — нет, можно найти здесь.

Новизна информации.
Контент не обязательно должен быть на 100% уникальным, но он обязан привносить нечто новое. Раскрывать тему более подробно. Предлагать новый взгляд на проблематику. Обращаться к иной аудитории. Обобщать или, наоборот, раскладывать на составляющие уже известную информацию. Подробнее об уникальности текстов здесь.

Структурирование текста.
Текст должен быть разбит на смысловые блоки с отдельными подзаголовками. Не стоит делать абзацы крупнее 5-7 предложений.

Иллюстрации, формулы, графики.
Перебивка сплошной стены текста какой-либо картинкой положительно сказывается абсолютно на всех параметрах вовлеченности аудитории: облегчает чтение, увеличивает среднее время, проведенное за контентом и, в конечном итоге, работает на увеличение продаж.

Связное изложение.
Идея текста должна быть раскрыта полностью, а каждая следующая мысль последовательно проистекать из предыдущих. Скачки в логике серьезно уменьшают удобочитаемость, и никакие индексы Флеша этого не покажут.

Грамотность.
Существуют исследования, согласно которым, грамматические ошибки в продающих текстах уменьшают конверсию. И вообще, не солидно.

Фактологическая достоверность.
«Продающий текст» не равно «лживый текст». Даже случайное искажение фактов для красного словца — это серьезный удар по репутации. Не говоря уже про намеренный обман. Проверяйте факты!

Вот теперь все. Не забудьте поделиться статьей, если она вам понравилась. Кнопки — слева. Спасибо.

Есть вопросы? Задайте их в комментариях ниже.