Основы распределений вероятности
Представьте себе, что вы находитесь на ипподроме и ведете запись мест, на которых лошади финишируют в забегах. Вы записываете, какая лошадь пришла первой, какая второй и так далее для каждого забега. Учитываются только первые десять мест. Если лошадь пришла после десятой, то вы запишете ее на десятое место. Через несколько дней вы соберете достаточное количество информации и увидите распределение финишных мест для каждой лошади. Теперь вы можете взять полученные данные и нанести на график. По горизонтальной оси будут отмечаться места, на которых лошадь финишировала, слева на оси будет наихудшее место (десятое), а справа наилучшее (первое). На вертикальной оси мы будем отмечать, сколько раз беговая лошадь финишировала в позиции, отмеченной на горизонтальной оси. Вы увидите, что построенная кривая будет иметь колоколообразную форму. При таком сценарии есть десять возможных финишных мест для каждого забега. Мы будем говорить, что в этом распределении — десять ячеек (bins). Посмотрим, что произойдет, если вместо десяти мы будем использовать пять ячеек. Первая ячейка будет для первого и второго места, вторая ячейка для третьего и четвертого места и так далее. Как это отразится на результатах? Использование меньшего количества ячеек при том же наборе данных в результате дало бы распределение вероятности с тем же профилем, что и при большом количестве ячеек. То есть графически они бы выглядели примерно одинаково. Однако использование меньшего количества ячеек уменьшает информационное содержание распределения, и наоборот, использование большего количества ячеек повышает информационное содержание распределения. Если вместо финишных позиций лошадей в каждом забеге мы будем записывать время, за которое пробежала лошадь, округленное до ближайшей секунды, то получим не десять ячеек, а больше, и, таким образом, информационное содержание распределения увеличится. Если бы мы записали точное время финиша, а не округленное до секунд, то могли бы построить непрерывное распределение. При непрерывном распределении нет ячеек. Представьте непрерывное распределение как серию бесконечно малых ячеек (см. рисунок 3-1). Непрерывное распределение отличается от дискретного, которое является ячеистым распределением. Хотя создание ячеек уменьшает информационное содержание распределения, в реальной жизни это единственно возможный подход для обработки ячеистых данных, поэтому на практике приходится жертвовать частью информации, сохраняя при этом профиль распределения. И наконец, вы должны понимать, что можно взять непрерывное распределение и сделать его дискретным путем создания ячеек, но невозможно дискретное распределение переделать в непрерывное. Когда мы имеем дело с торговыми прибылями и убытками, то чаще всего рассматриваем непрерывное распределение. Сделка может иметь множество исходов (хотя мы можем округлить цены до ближайшего цента). Для того чтобы работать с таким распределением, потребуется разбить данные на ячейки, например шириной 100 долларов. Такое распределение имело бы отдельную ячейку для сделок, прибыли которых оказались ниже 99,99 доллара, другую ячейку для сделок от 100 до 199,99 доллара и так далее. При таком подходе будет определенная потеря информации, но профиль распределения торговых прибылей и убытков не изменится. Рисунок 3-1 Непрерывное распределение является серией бесконечно малых ячеек.
|