Книги на лето

Степан в Каннах

Секс vs слезы

Бассейны в Киеве

Неделя моды

Брежнева и фуры

Математики проверили на прочность закон Ципфа

Для того, чтобы определить правильность закона Ципфа, исследователи решили использовать его применительно к проекту "Гутенберг"

Испанские математики проверили на прочность закон Ципфа, согласно которому при попытке упорядочить все слова языка или текст по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n. О результатах исследования рассказывается в свежем выпуске журнала PLOS ONE.

Для того, чтобы определить правильность закона Ципфа, исследователи решили использовать его применительно к проекту "Гутенберг" — инициативе по созданию и распространению электронной универсальной библиотеки, которая включает 31075 книг на английском языке. Прежние попытки применить закон Ципфа ограничивались десятками текстов, а теперь исследователи работали с настоящим массивом данных.

Реклама

Ученые поставили перед собой задачу определить, вписываются ли тексты в закономерность, согласно которой второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее. Таким образом, ими была избрана самая простейшая формулировка закона Ципфа.

Согласно итогам исследования, при условии, что опущены наиболее редкие и архаичные формы слов, порядка 55 процентов текстов вписываются в закон Ципфа. Если учитывать эти слова, то соответствие закономерности снижается до 40 процентов.

Лингвист Джордж Кингсли Зипф исследовал частотность слов: одних в тексте попадается больше, других меньше, и по этому принципу все слова разбиваются на группы. Ученый предложил дать этим группам порядковые номера (ранги): самые частотные слова получают номер 1, с частотностью пониже — 2, еще на уровень ниже — 3, и так далее.

Реклама

После этого вычисляется вероятность встретить слово Икс в тексте: количество слов Икс в тексте делится на число всех слов. Зипф обнаружил, что если вероятность для слова Икс помножить на порядковый номер ранга, в котором оно оказалось, то каждый раз будет получаться приблизительно одна и та же величина. Так, для английского языка эта константа равна примерно 0,1, а для русского — 0,06-0,07.

Реклама на segodnya.ua Реклама
Все новости Показать еще
Реклама на segodnya.ua Реклама
Новости шоу-бизнеса
Читать еще
Лайфхаки для жизни
Больше хаков
Модно
Идеи нейл-дизайна
Маникюр на лето 2022
Маникюр на лето 2022
Маникюр на лето 2022
Маникюр на лето 2022
Маникюр на лето 2022
Маникюр на лето 2022
Маникюр на лето 2022
Маникюр на лето 2022
Маникюр на лето 2022
Маникюр на лето 2022
1 /2
Больше вариантов
Цитата дня

После четырех месяцев войны, никто из нас не в порядке

Цитата на segodnya.ua
Елена Зеленская Первая леди Украины
Читать интервью
Instagram недели
Аккаунт про супергероев современности — ВСУ
Подписаться
Смотреть фото
Сохранить в закладки
Haute Couture
Расписание Fashion Weeks

Париж. Франция

3 – 7 июля

Париж. Франция

Маями. США

14 – 21 июля

Маями. США

Нью-Йорк. США

9 – 14 сентября

Нью-Йорк. США

Лондон. Англия

16 – 20 сентября

Лондон. Англия

Милан. Италия

20 – 26 сентября

Милан. Италия
Детали модных показов

Нажимая на кнопку «Принять» или продолжая пользоваться сайтом, вы соглашаетесь с правилами использования файлов cookie.

Принять