Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Структура информационно–аналитической системы.





Транзакция – неделимая последовательность действий, которая должна быть осуществлена в рамках информационного процесса. В хранилище данные консолидируются, хранилища содержат ретроспективу. Выполняются операции по очистке данных, проверка на дублирование, на выбросы, замена пропусков. В результате онлайн-анализа реализуется гиперкуб. Оси гиперкуба называются измерениями и содержат номинальные значения переменных, а на пересечении осей формируются факты, т.е. значения некоторых атрибутов, выраженных количественно. Системы бизнес-интеллекта основаны на системах ИИ «инженерия знаний». Задачей является создание аппаратно-программных устройств, которые в определенных условиях генерировали решение не хуже, чем это делает опытный специалист или эксперт в данной предметной области. Для того чтобы это создать необходимо научиться извлекать знания из экспертов, затем их нужно облечь в форму, пригодную для хранения в компьютере (формализация), обработать с помощью языков программирования декларативного типа (Пролог), затем необходимо наполнить систему соответствующими знаниями.

 

Добыча данных.

Методы добычи данных можно разделить на статистические и методы машинного обучения. Статистические: корреляционный, регрессионный, многомерный анализ, который включает факторный, кластерный и дискриминантный анализ. Факторный анализ – в результате решаются 2 задачи: редуцирование факторов (сжатие), структурный анализ данных. Кластерный анализ – в результате объекты предметной области разбиваются на группы по их похожести друг на друга. Дискриминантный анализ – это отнесение объектов к заранее выделенным классам. Машинное обучение – знания формируются путем аналитической обработки данных. Методы: нейронные сети, ассоциативные правила, деревья решений.

Нейронные сети. Каждый нейрон формирует некоторый суммарный сигнал. В математической модели искусственного нейрона присутствует функция активации, у которой 0 – пассивное состояние, 1 – активное состояние. Но вместо них используют модифицируемые функции. Нейронные сети имеют следующую структуру: есть вектор входных сигналов, вектор выходов, каждый нейрон связан с нейронами следующего уровня.

В основе машинного обучения лежит набор данных, который описывает исследуемые объекты, отражает их свойства и закономерности. Такой набор данных называют обучающей выборкой. Обучающая выборка может быть получена как совокупность наблюдений за исследуемым объектом в прошлом, так и сгенерирована на основе опыта, гипотез или интуиции эксперта. Слово выборка используется в том смысле, что используются не все данные, а лишь некоторое подмножество, наиболее полно отражающее искомые закономерности. Процесс обучения заключается в том, что данные из обучающей выборки последовательно предъявляются модели, в результате чего корректируются её параметры для приобретения необходимых свойств. Обучение является интерактивной процедурой, в которой на каждом шаге в соответствии с правилом (алгоритмом обучения) производится корректировка свойств модели до тех пор, пока оно не придет в состояние, позволяющее выполнять требуемые функции, например, классифицировать объекты предметной области.

Можно говорить не о значениях переменных, а о векторе входного воздействия. Если модель работает корректно и выполняет требуемые преобразования, то каждому вектору входных воздействий будет соответствовать определенный вектор-результат. Если же модель находится в начальном состоянии, то вектор результата, сгенерированный путем рандомизации. В процессе обучения модуль вектора приближается к некоторой функциональной зависимости, более или менее адекватной закономерностям объектов предметной области. Для реализации процесса обучения используют обучающий пример. Каждый такой пример содержит заданную реализацию входного воздействия и результат, соответствующий этому воздействию. При формировании обучающей выборки первый вопрос, который возникает, это количество примеров, которое следует использовать. Решение этого вопроса зависит от структуры модели, характера данных, сложности решаемой задачи. Для увеличения числа примеров используются объем ОП. При увеличении числа примеров возрастает погрешность вычислений. Необходимо оценивать репрезентативность – насколько хорошо обучающая выборка отражает закономерности преобразования, которая должна выполнить модель после её обучения. С одной стороны, чем сложнее преобразование, тем большее количество потребуется, с другой, если примеры плохо подобраны, то увеличение числа примеров не будет улучшать адекватность модели, т.е. сама выборка должна удовлетворять определенным критериям качества. В целом набор данных, содержащих обучающую выборку должен содержать закономерности процесса, быть репрезентативным и удовлетворять условиям качества, то есть не содержать дубликатов, противоречий и пропусков. Определяются факторы, влияющие на решение задач, и подбираются примеры, подтверждающие сформулированные им гипотезы и правила. Сформулированное правило должно иметь свойство обобщения. Такой способ используют как правило для решения оригинальных задач. Различают 2 метода: обучение с учителем и без учителя. С учителем: модели предъявляются примеры, состоящие из пар независимых и зависимых переменным, т.е. обучение производится на основании имен, значений, которая должна сформировать модель на своем выходе, при этом коррекция параметров модели может осуществляться на основе ошибок результата, т.е. отклонения полученного значения от предписываемого. Без учителя: настройка параметров модели производится исключительно на основе данных о значениях входных переменных, где выходные значения не используются. Такие модели называют самоорганизующимися. Одним из примеров обучения без учителя является модель кластерного анализа, где количество выделяемых кластеров заранее не определено. Самоорганизующиеся карты Кохонена – классы формируются моделью естественным образом на основании того, насколько близки друг к другу значения признаков объединяемых объектов. Чтобы модель позволяла решать конкретные задачи, она должна обладать свойствами обобщения.

Можно выделить 2 ошибки: ошибку обучения и обобщения. Ошибка обобщения проверяется на тестовом подмножестве. Если используются номинальные значения, то тогда невозможно оценить количественную ошибку. В этом случае ошибка вычисляется как отношение количества правильно классифицированных примеров к общему количеству примеров, входящих в обучающую или тестовую выборку. Размер обучающего и тестового подмножества зависит от задачи, так и от располагаемого набора данных. Обучающее подмножество должно содержать количество примеров, достаточного для качественного обучения. Размер тестового подмножества определяется запасом выборки. Если число примеров невелико, то размер тестового подмножества приходится брать небольшим и составляющим 5% от обучающей выборки. Если обучающая выборка велика, то размер тестового подмножества составляет 25–50% обучающего. Использование тестового подмножества позволяет ликвидировать негативные последствия так называемого переобучения модели.

Е0, Ет

Свойства алгоритма обучения.

При выборе алгоритма следует оценивать следующие свойства:

  1. производительность – объем вычислений, которые необходимо произвести для обеспечения процесса обучения за приемлемое время.
  2. устойчивость – алгоритм должен обеспечить достижение достоверных результатов даже при низком качестве данных, включая наличие шума, аномалий и противоречий.
  3. точность – алгоритм должен обеспечивать работу модели на требуемом уровне, величина предельной ошибки модели не должна превышать некоторого заданного порога.
  4. прерываемость и продолжаемость алгоритма – возможность остановить процесс обучения с целью проанализировать результаты и продолжить работу с остановки.

Чем точнее работает алгоритм, тем он сложнее в вычислительном плане. При выборе алгоритма необходимо оценивать его преимущества и недостатки и принимать решение исходя из задачи. Необходимо также учитывать масштабируемость алгоритма, возможность отсечения по времени.







Дата добавления: 2015-09-07; просмотров: 548. Нарушение авторских прав; Мы поможем в написании вашей работы!




Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...


Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...


Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...


Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Гальванического элемента При контакте двух любых фаз на границе их раздела возникает двойной электрический слой (ДЭС), состоящий из равных по величине, но противоположных по знаку электрических зарядов...

Сущность, виды и функции маркетинга персонала Перснал-маркетинг является новым понятием. В мировой практике маркетинга и управления персоналом он выделился в отдельное направление лишь в начале 90-х гг.XX века...

Разработка товарной и ценовой стратегии фирмы на российском рынке хлебопродуктов В начале 1994 г. английская фирма МОНО совместно с бельгийской ПЮРАТОС приняла решение о начале совместного проекта на российском рынке. Эти фирмы ведут деятельность в сопредельных сферах производства хлебопродуктов. МОНО – крупнейший в Великобритании...

Тема 5. Анализ количественного и качественного состава персонала Персонал является одним из важнейших факторов в организации. Его состояние и эффективное использование прямо влияет на конечные результаты хозяйственной деятельности организации.

Билет №7 (1 вопрос) Язык как средство общения и форма существования национальной культуры. Русский литературный язык как нормированная и обработанная форма общенародного языка Важнейшая функция языка - коммуникативная функция, т.е. функция общения Язык представлен в двух своих разновидностях...

Патристика и схоластика как этап в средневековой философии Основной задачей теологии является толкование Священного писания, доказательство существования Бога и формулировка догматов Церкви...

Studopedia.info - Студопедия - 2014-2024 год . (0.009 сек.) русская версия | украинская версия