Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

I.3. Лабораторная работа №3. Решение задач классификации методами Data Mining. Изменение и настройка набора данных





 

Для решения задач классификации не будем создавать отдельное хранилище данных, т.к. все необходимые данные находятся в одной таблице Диагноз файла базы данных Состояние пациентов.mdb.

 

Описание задачи

Одной из основных задач, стоящих перед врачом, является диагностика заболевания. Для этого необходимо отнести пациента к одному из нескольких классов – например, " болен" и " здоров" – на основании данных о его текущем состоянии и истории болезни, т.е. решить задачу классификации. Построить систему, проводящую полную диагностику больного, достаточно сложно, поэтому, как правило, больного исследуют по определенному профилю, например, на предмет наличия отклонений в сердечно-сосудистой системе. Соответственно, количество факторов, на основании которых такой диагноз может быть вынесен, существенно снижается, что позволяет повысить скорость и точность работы алгоритма.

Таблица Диагноз состоит из 150 записей, каждая из которых определяет 10 различных параметров больного и принадлежность его к классу.

 

1. Открыть новый проект. На панели «Сценарии» запустить Мастер импорта (кнопка или клавиша F6). На первом шаге мастера выбрать в качестве источника данных MS Access. На втором шаге – указать путь доступа к файлу базы данных Состояние пациентов.mdb и выбрать таблицу Диагноз. Указать имя узла – Импорт данных по заболеваниям.

2. Изменить параметры исходного набора данных. (Это можно было сделать непосредственно при импорте данных). Выделить узел импорта, вызвать Мастер обработкиНастройка набора данных. Сделать изменения в настройках у полей:

Пол – Строковый

ТипГруднойБоли – Дискретный

СахарВКрови – Дискретный

Электрокардиограмма – Дискретный

Стенокардия – Дискретный

Талосемия – Дискретный

Класс - Строковый

В качестве способа отображения выбрать Таблицу. Присвоить узлу метку Настройка набора данных.

3. Заменить значения (0; 1) в поле Пол на Мужской и Женский соответственно, а значения (1; 2) в поле Класс на Здоров и Болен.

Выделить узел Настройка набора данных, вызвать Мастер обработкиЗамена данных. Сделать изменения в настройках (добавлять новые изменяемые значения – кнопкой ):

Аналогичную процедуру произвести и для поля Класс. В качестве способа отображения выбрать Таблицу. Присвоить узлу метку Замена значений: Пол, Класс.

4. Решить поставленную задачу классификации с помощью Дерева решений. Выделить узел Замена значений: Пол, Класс, вызвать Мастер обработкиДерево решений. В качестве выходного поля определить Класс, все остальные поля оставить входными. Настройку обучающего и тестового подмножеств оставить по-умолчанию заданной (95% и 5%).

Построение дерева решений производится в процессе обучения. Настройки параметров обучения оставить следующими:

Далее следует запустить процесс построения дерева и выбрать в качестве визуализаторов: Дерево решений, Правила, Значимость атрибутов, Что-если, Таблица сопряженности. Присвоить узлу имя Дерево решений 1.

Дерево решений состоит из узлов, где производится проверка условия, и листьев – конечных узлов дерева, указывающих на класс. Оценить качество построенного дерева по следующим параметрам: числу распознанных примеров (из таблицы сопряженности) по количеству узлов в дереве (чем больше узлов в дереве, тем сложнее проанализировать результат). По таблице Значимость атрибутов определить факторы, оказывающие наибольшее влияние на результат.

Сделать прогноз о наличии или отсутствии заболевания при следующих значениях входных параметров:

5. Решить эту же задачу классификации с помощью Нейронной сети. Выделить узел Замена значений: Пол, Класс, вызвать Мастер обработкиНейросеть. В качестве выходного поля определить Класс, все остальные - входные. Оставить все предложенные по-умолчанию настройки, запустить процесс обучения сети и выбрать в качестве визуализаторов: Граф неросети, Что-если, Таблица сопряженности. Присвоить узлу имя Нейросеть 1.

Сделать прогноз о наличии или отсутствии заболевания при тех же значениях входных параметров, что и в п.4. Сравнить результаты. По Таблицам сопряженности для Дерева решений и Нейросети сделать вывод о более «качественной» модели классификации. Ответить на вопрос: совпадают ли выводы о наиболее значимых факторах, влияющих на состояние здоровья пациента (по Значимости атрибутов у Дерева решений и Графу нейросети)?

6. Разбить поле Возраст на интервалы (квантование значений числовых рядов).

Выделить узел Замена значений: Пол, Класс, вызвать Мастер обработкиКвантование. Произвести настройку параметров квантования для поля Возраст:

 

Определить границы и метки интервалов следующим образом:

Выбрать в качестве способа визуализации выбрать Таблицу. Присвоить узлу метку Квантование по возрасту.

7. Выполнить для узла Квантование по возрасту п.4 и п.5. Узлы назвать Дерево решений 2 и Нейросеть 2 соответственно. Улучшилось или нет качество полученных моделей? Объяснить свой ответ.

 

II. Вопросы к зачету

1. В чем заключается итерационный характер процесса моделирования?

2. Основные этапы построения моделей.

3. Оценка адекватности модели.

4. Основные части аналитической платформы Deductor.

5. Понятие обработчика данных. Классификация обработчиков.

6. Способы визуализации данных.

7. Понятие сценария. Создание сценариев обработки и визуализации данных.

8. Мастера создания сценариев: мастер импорта, мастер экспорта, мастер обработки и мастер отображения (визуализации).

9 Понятие хранилища данных. Отличие хранилища данных от обычной базы данных.

10. Особенности работы с хранилищами данных. Преимущества хранилища данных.

11. Структура хранилища данных. Понятие измерения, факта и процесса. Свойства измерений.

12. Методика создания хранилища данных. Загрузка измерений. Загрузка процесса.

13. Подключение хранилища данных.

14. Определение OLAP. Аналитическая отчетность и многомерное представление данных.

15. Создание OLAP-кубов. Изменение макета OLAP-кубов.

16. Способы агрегирования данных. Детальный просмотр агрегированных данных. Фильтрация данных. Настройка кросс-диаграммы.

17. Преобразование даты и время в OLAP-кубах.

18. Создание пользовательских выражений в OLAP-кубах.

19. Создание OLAP-кубов на основе данных из разных процессов или источников.

20. Описание технологий Data Mining и KDD – Knowledge Discovery in Databases. Основные стадии технологии KDD.

21. Типы задач, решаемые методами Data Mining.

22. Примеры задач из области здравоохранения, решаемые методами Data Mining.

23. Метод Data Mining: Автокорреляция.

24. Метод Data Mining: Линейная регрессия.

25. Метод Data Mining: Логистическая регрессия.

26. Метод Data Mining: Нейронные сети.

27. Метод Data Mining: Деревья решений.

28. Метод Data Mining: Карты Кохонена.

29. Метод Data Mining: Ассоциативные правила.

III. Список литературы

 

1. Аналитическая платформа Deductor 5. Руководство аналитика. (файл Руководство аналитика.pdf, поставляемый вместе с демо-версией Deductor 5.) – BaseGroup Labs, 1998-2007. -152 с.

2. Аналитическая платформа Deductor 5. Описание демонстрационного примера. (файл Описание демопримера.pdf, поставляемый вместе с демо-версией Deductor 5.) – BaseGroup Labs, 1998-2006. -91 с.

 







Дата добавления: 2014-11-10; просмотров: 2627. Нарушение авторских прав; Мы поможем в написании вашей работы!




Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...


Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...


Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...


Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Лечебно-охранительный режим, его элементы и значение.   Терапевтическое воздействие на пациента подразумевает не только использование всех видов лечения, но и применение лечебно-охранительного режима – соблюдение условий поведения, способствующих выздоровлению...

Тема: Кинематика поступательного и вращательного движения. 1. Твердое тело начинает вращаться вокруг оси Z с угловой скоростью, проекция которой изменяется со временем 1. Твердое тело начинает вращаться вокруг оси Z с угловой скоростью...

Условия приобретения статуса индивидуального предпринимателя. В соответствии с п. 1 ст. 23 ГК РФ гражданин вправе заниматься предпринимательской деятельностью без образования юридического лица с момента государственной регистрации в качестве индивидуального предпринимателя. Каковы же условия такой регистрации и...

Алгоритм выполнения манипуляции Приемы наружного акушерского исследования. Приемы Леопольда – Левицкого. Цель...

ИГРЫ НА ТАКТИЛЬНОЕ ВЗАИМОДЕЙСТВИЕ Методические рекомендации по проведению игр на тактильное взаимодействие...

Реформы П.А.Столыпина Сегодня уже никто не сомневается в том, что экономическая политика П...

Studopedia.info - Студопедия - 2014-2025 год . (0.013 сек.) русская версия | украинская версия