Наиболее часто употребляемые цифры: статистика, психолингвистика и закон Бенфорда
Введение: Цифра как единица информации и культурный маркер
Вопрос о частоте употребления цифр кажется простым, но его анализ лежит на стыке математической статистики, психологии восприятия, лингвистики и теории информации. Важно различать естественную частоту встречаемости цифр в числовых данных реального мира и их субъективную частоту в человеческой практике (в номерах, ценах, выборах). Наиболее удивительным является то, что эти распределения не случайны и не равномерны, а подчиняются глубоким закономерностям, важным для анализа данных, выявления мошенничества и понимания когнитивных искажений.
1. Закон Бенфорда: неожиданная асимметрия в мире чисел
Самый мощный и контр-интуитивный факт о частоте цифр описывается законом Бенфорда (законом первой цифры). Он гласит, что во многих естественных наборах числовых данных (от счетов за электричество и высот гор до молекулярных весов и биржевых котировок) вероятность того, что первая значащая цифра (от 1 до 9) будет равна d, вычисляется по формуле: P(d) = log₁₀(1 + 1/d).
Это даёт следующее распределение вероятностей для первой цифры:
1 появляется примерно в 30.1% случаев.
2 — около 17.6%.
3 — около 12.5%.
Далее частота падает: 9 встречается лишь в 4.6% случаев.
Причина: Закон работает для данных, которые распределены по многим порядкам величин (от единиц до миллионов) и описывают процессы роста или умножения. Например, население городов, курсы акций, площади озёр. Цифра 1 лидирует, потому что для перехода от 1 к 2 значение должно увеличиться на 100%, а от 8 к 9 — лишь на 12.5%. Система «застревает» на числах, начинающихся с 1, дольше.
Применение: Налоговые и финансовые органы по всему миру используют закон Бенфорда для выявления подозрительных отчётностей и сфальсифицированных данных, поскольку человек, придумывающий числа, интуитивно стремится к равномерному распределению (около 11% на каждую цифру), что статистически неестественно.
2. Субъект ...
Читать далее