Пример 2.1.
В качестве примера рассмотрим, как определить товары-заменители и сопутствующие товары, имея временные ряды объемов продаж. У товаров-заменителей должна быть большая отрицательная корреляция, т.к. увеличение продаж одного товара ведет к спаду продаж второго. А у сопутствующих товаров – большая положительная корреляция. Пусть есть такие временные ряды продаж товаров:
Таблица 2.1
Определим корреляцию Товар1 с остальными товарами. Данные о продажах находятся в файле товар.txt. Для решения задачи будем использовать программу Deductor. На первом шаге решения задачи нужно загрузить в Deductor данные из текстового файла. Для этого в левом окне программы Deductor нажимаем кнопку «Мастер импорта». Импорт данных осуществляется в режиме диалога, вам нужно только правильно отвечать на вопросы мастера. На первом шаге укажите, что данные будут читаться из текстового файла (Text), и и укажите имя файла. Файл можно выбрать, используя кнопку с многоточием (…). Результат представлен на рисунке 2.1. Рисунок 2.1 – Ввод данных из файла
На третьем шаге мастера импорта выбираем переключатель «С разделителями». Поскольку данные в текстовом файле отделены друг от друга пробелами, на следующем шаге указываем, что разделителем является пробел. На следующем шаге указываем типы данных в столбцах. Deductor определяет тип данных автоматически, вам нужно проверить, правильно ли определены типы данных и откорректировать их в случае необходимости. Результат работы на этом шаге представлен на рис. 2.2.
Рисунок 2.2 – Определение параметров стлбцов
На следующем шаге нажмите кнопку «Пуск», чтобы запустить процесс загрузки файла. Затем укажите способ отображения данных как показано на рис. 2.3. На рис. 2.4 показан результат загрузки данных и отображение их в виде таблицы. Теперь можно приступить к обработке данных. Для этого вызываем «Мастер обработки» и выбираем пункт «Корреляционный анализ», как показано на рис. 2.5. Рисунок 2.3 – Выбор способа отображения данных
Рисунок 2.5 – Выбор метода обработки данных
На первом шаге корреляционного анализа нужно определить какие данные являются входными, а какие выходными. Также можно указать, какие данные не будут использоваться при анализе. В этом случае они могут быть информационными или неиспользуемыми. Поскольку мы хотим определить степень зависимости между продажами Товара1 и остальных товаров, то указываем Товар1 как выходной, а остальные товары входными, как показано на рис. 2.6. Рисунок 2.6 – Задание входных и выходных столбцов для корреляционного анализа.
На следующем шаге выбираем «Коэффициент корреляции Пирсона», а затем нажимаем кнопку «Пуск», чтобы запустить процесс вычисления коэффициентов корреляции. На следущем шаге, когда коэффициенты корреляции посчитаны, можно отбирать значащие факторы. Это можно сделать вручную или автоматически. В последнем случае необходимо указать порог значимости. На рисунке 2.7 указан очень низкий порог значимости, поэтому отбираются все переменные. Рисунок 2.7 – Выбор значащих факторов
Одним из доступных способов визуализации результатов является визуализатор «Матрица корреляции». В данном примере эта матрица имеет следующий вид: Рисунок 2.8 – Результат корреляционного анализа Как видно из рисунка 2.7, ряд продаж для Товар2 имеет очень большую положительную, а Товар3 – отрицательную корреляцию. Из этого можно сделать вывод, что Товар2, возможно, является сопутствующим товаром, а Товар3 – заместителем Товар1. Корреляция с продажами Товар4 Товара1 является отрицательной, но при этом абсолютное значение корреляции невелико, и, следовательно, можно говорить об отсутствии взаимосвязи между продажами Товар1 и продажами Товар4.
|