Данные, знания, информация
В главе 2 научно-технического отчёта ГБ 96-97 [12] процесс проектирования рассматривался с различных сторон и, в частности, как комплекс взаимосвязанных работ по созданию, дополнению и преобразованию образа объекта проектирования (изделия или процесса) со всей необходимой для целей его изготовления (реализации) или обслуживания информационной полнотой. Информацию, определяющую образ объекта на любой стадии проектирования и зафиксированную в любой из общеупотребительных форм (графической, технической, математической, устной и т.д.) называют описанием объекта проектирования, причём в ходе выполнения любой работы, составляющей процесс проектирования, происходит переход от предшествующего к последующему описанию образа объекта посредством добавления или преобразования информации. Таким образом, все этапы работ по проектированию, так или иначе, связаны с информацией. На этапе определения задачи информацию собирают, а на творческих этапах ее выбирают или создают. Систему проектирования можно представить большой и сложной информационной системой, функционирование которой нацелено на выпуск проекта нового изделия посредством переработки огромного количества разнообразных сведений. В процессе создания проекта проектировщики работают совместно с множеством различных специалистов. Процесс проектирования можно уподобить конвейеру, на котором производится “сборка” проекта изделия. Принимая такую образную точку зрения, следует разделить всю систему на собственно проект изделия, “собираемого на конвейере”, и на всё остальное производство “составных частей”, т.е. тех элементов информации, которые подаются на конвейер и становятся составляющими частями проекта. В реальном производстве составные части создаются или покупаются, хранятся и доставляются на конвейер. В проектировании элементы информации также создаются, заимствуются, хранятся и предоставляются проектировщикам. В традиционной бумажной технологии проектирования все состояния процесса функционирования системы проектирования фиксируются в форме общеупотребительных документов на бумажных носителях. При использовании современных информационных технологий с низким уровнем автоматизации документы на бумажных носителях замещаются или дублируются электронными формами тех же документов и процесс автоматизации разворачивается вокруг создания, хранения и передачи электронных документов. Сегодня можно с уверенностью говорить о значительных успехах, достигнутых в этом процессе. Поскольку проект изделия независимо от информационных технологий сегодня материализуется в форме комплекта документов установленной формы, то можно говорить и об успехах в автоматизации конечной стадии функционирования системы проектирования – “сборки проекта изделия на конвейере”. Однако, рассматривая продвижение современных информационных технологий в создание интеллектуального содержания документов, можно отметить как отсутствие заметных успехов, так наличие значительных проблем. Основной проблемой является проблема моделирования информационной среды принятия решений в процессе проектирования. Естественно, что такая большая система в силу трудоёмкости её создания и ограниченности выделяемых на её создание ресурсов, оказывается представленной многообразием информационных систем различной степени сложности, “интеллектуальности ” и архитектуры. В целях конструктивного анализа выделенных проблем, прежде всего, необходимо проанализировать современные взгляды на понятия ‘данные’ и ‘знания’, поскольку эти термины в современной литературе употребляются не всегда корректно. Приведём несколько точек зрения на отличие данных от знаний. Во многих работах, в частности [2] отмечается, что нет ясного различия между понятием “данные” и понятием “знания”. В [2] грань между данными и знаниями проводится по уровню логической сложности, а именно: если данные – это элементарные формулы типа P(C1,…,Cn), где P – отношение; C1,…,Cn – конкретные предметы, то знания – это формулы с кванторами, например "x(P(x)ÞQ(x)). Д.А. Поспелов в [3] даёт следующее определение. Знания представляют собой сложно организованные типы данных, отличающиеся от традиционного представления о данных четырьмя основными особенностями: 1. В отличие от данных они содержат в записи не только информационную часть, но и описательную – в ней фиксируются все сведения об информационной единице которые могут потребоваться системе или пользователю для работы с ней. 2. Знания в базе знаний образуют сложные, как правило, иерархические, структуры, что достигается путём введения разнообразных отношений на информационных единицах, записываемых в базу знаний. 3. Информационные единицы, отражающие знания, могут объединяться в более сложно организованные единицы, и декомпозироваться на более простые. 4. В качестве частей информационных единиц, характеризующих некоторое знание, могут выступать присоединённые или встроенные процедуры, что позволяет активизировать эти процедуры в результате появления в базе знаний тех или иных информационных единиц или связей между ними. Это свойство определяет активность знаний, их первичность по отношению к процедурам, что не было характерно для данных, игравших в отношении процедур пассивную роль.
Н.Н. Непейвода и В.А. Кутергин.В в статье “Об уровнях знаний и умений в экспертных системах” [3] определяют знания как информацию, для которой характерно преобразование и применение. А. И. Змитрович в [4] следующим образом характеризует отличие знаний от данных. 1. Интерпретация. Данные, хранимые в памяти ЭВМ могут интерпретироваться только соответствующей программой. Данные без программы не несут никакой информации, в то время как знания имеют интерпретацию, поскольку они содержат одновременно и данные и описание данных. 2. Наличие классифицирующих связей. Ни одна из разнообразных форм представления данных не обеспечивает эффективного описания связей между различными типами данных. Например, в программах требуется описывать свойства как множества в целом, так и отдельных его элементов. Между отдельными единицами знаний можно установить такие отношения, как “элемент—множество”, “тип – подтип”, “ситуация – подситуация”, отражающие характер их взаимосвязи. Это позволяет в одном экземпляре хранить информацию, одинаковую для элементов множества. При необходимости одни единицы знаний могут наследовать свойства других единиц. 3. Наличие ситуативных связей. Совместимость отдельных событий или фактов в некоторой ситуации определяется ситуативными связями, а также такими отношениями, как одновременность, расположение в одной области пространства и т. д. Ситуативные связи позволяют строить процедуры анализа знаний на совместимость, противоречивость и другие, которые трудно реализовать при хранении традиционных массивов данных. Можно видеть, что в приведённых определениях, взятых из источников, вышедших до 1994-95 г. делаются попытки провести грань между данными и знаниями, рассматривая их сами по себе, вне окружающих условий. С другой стороны: 1. Д. Марселлус в [5] приводит следующую фразу: “В Турбо Прологе, однако, отсутствуют некоторые новейшие средства, в частности способность рассматривать правила как данные, способность сопоставлять имя предиката с переменной ”. 2. Martin Marshal в Communication Week говорит, что Компания Arbor Software подготовила новую версию ПО аналитической обработки многомерных баз данных, которая упростит анализ данных по схеме «что – если». 3. В статье “Excalibur Tecnologies предлагает средства извлечения знаний” [6] приводится сообщение, что компания Excalibur Technologies представила два программных продукта, которые, по мнению её руководства, позволят извлекать из накопленной на предприятии информации нужные данные на основе знаний. 4. Н. Кречетов и П. Иванов в статье [7] анализируют новую область информатики – технологию интеллектуального анализа данных или Data Mining, определяя её как процесс обнаружения значимых корреляций, зависимостей и тенденций в результате анализа информационных хранилищ с применением методов распознования и выявления ассоциаций (аналогичных последовательностей, кластеров) данных с помощью статистических процедур. Интеллектуальные средства интерпретации и представления данных используют четыре основных инструмента: нейронные сети, деревья решений, индукцию правил и визуализацию данных. 5. В [8] Data Mining рассматривается как поиск связей и общих образов в БД, которые скрыты большими объёмами информации. На примере установления связей между данными конкретного пациента и медицинским диагнозом рассматривается проблема разработки интеллектуальных стратегий поиска таких связей. Из приведённых высказываний, число которых можно было бы легко увеличить, можно сделать вывод, что существуют две различные точки зрения: · структуры данных и структуры знаний суть различные структуры; · структуры данных суть потенциальные структуры знаний, т. е. данные могут становиться знаниями в результате подходящего интеллектуального анализа потребителем данных (знаний). Правильный выбор точки зрения на эту проблему существенно влияет на поиск подходов к созданию подходящей архитектуры информационной среды принятия решений в процессе проектирования. Анализируя более тщательно определения знаний, выделим следующие моменты: · термин ‘знание’ был введён, когда системы управления базами данных находились на начальной ступени своего развития и термин ‘данные’ больше ассоциировался с чисто программной обработкой. · одни авторы определяют термин “знания” через понятие “данные”, другие - через понятие “информация”, однако это не эквивалентные понятия, поскольку у данных отсутствуют свойства интерпретируемости и адресности; · знания определяют как специальные структуры (типы) данных. Сделаем два замечания: Первое – под структурой данных понимают совокупность данных, между элементами которых существуют определённые отношения, причём последние могут быть выражены как явно, так и не явно. В первом случае отношения представлены также в форме данных, а во втором – относительным расположением одних элементов данных относительно других элементов. Второе – состав и способ установления отношений между определёнными категориями элементов данных в структуре данных представляет собой логическую модель структуры данных; · знания определяют как данные, обладающие свойством интерпретируемости посредством метаданных – данных, выражающих информацию об остальных данных. Здесь также необходимо сделать несколько замечаний: § информация о данных может выражаться не только явно в форме данных, но также относительным положением элементов данных относительно других элементов; § если информация о данных представлена явно в форме метаданных, то возникает вопрос о метаданных для метаданных и т.д.; § информация о данных может содержаться у потребителя этих данных, внутри структуры рассматриваемого фрагмента данных, а также может быть представлена самостоятельной структурой данных в том же контексте. Например, рассмотрим сведения о диаметре некоторой цилиндрической поверхности, виде посадки и класса точности – Æ20С3. Такие сведения можно представить различными структурами данных: 20С3 – в виде простого символьного данного с предопределённым порядком расположения групп символов, представляющих каждое сведение. В данном случае интерпретация (семантика) данного полностью вынесена за рамки контекста; D(20,C,3) – символьного данного, представляющего собой синтаксическую конструкцию из трёх категорий данных: имени группы данных – D; поименованной группы данных – 20,С,3; разделителей – (,). Заметим, что порядок следования данных в поименованной группе является семантически нагруженным. В этом случае одна часть интерпретации присутствует в контексте, а другая – за его рамками; D(НОМ(20) П(С) КТ(3)) – символьного данного, также представляющего собой синтаксическую конструкцию из трёх категорий данных: имен группы и элементов данных – D, НОМ, П, КТ; поименованных элементов данных – 20, С, 3; разделителей – (,). Порядок следования данных в поименованной группе уже не является семантически нагруженным. В этом случае большая часть интерпретации находится в контексте, а другая часть – правила распознавания имён, значений и разделителей находится за рамками контекста; Если эта структура данных будет находиться в таблице, например D.DBF с полями НОМ, П, КТ, то здесь
интерпретация (имена элементов данных НОМ, П, КТ) отделена от данных и представлена в форме имён полей, которые содержаться в заголовке файла D.DBF, т.е. интерпретация представлена самостоятельной структурой данных, но расположенной в том же контексте. Таким образом, вопрос заключается в том, что считать контекстом рассматриваемой структуры данных – структуру данных безотносительно к системе управления этими данными и потребителем данных или вместе с последними? В современной литературе термин ‘база данных’ понимается только в смысле данных, находящихся под управлением некоторой СУБД. Поэтому в современных информационных системах следует различать данные, систему управления этими данными и потребителя данных, даже если эта информационная система реализована в виде одной программы. Потребителем данных может быть как человек, так и программа, использующая эти данные для достижения определенной цели, причём в последнем случае результат достижения цели будет выражен также в форме определённой структуры данных. Рассмотрим ещё один пример, предположим, что полное формальное описание определенной детали в виде структуры данных (представляющей знание о детали) предоставлено для анализа технологу и конструктору. При этом предполагается, что каждый из них может проинтерпретировать каждый элемент данных в терминах свойств детали. В условиях этого примера технолог мог бы сделать вывод о невозможности изготовления данной детали имеющимися средствами, а конструктор – о возможности применения данной детали в проектируемом изделии, т.е. на основе одного и того же ‘знания’ могут быть сделаны разные выводы для достижения различных целей. Проводя аналогию с экспертными системами, можно говорить о двух экспертных системах, у которых имеется общая база фактов и частично различающиеся базы правил. Обобщая приведённые рассуждения, можно сделать вывод, что одной из форм представления формальных знаний может служить любая структура данных, в которой можно выделить три категории элементов данных: · символы (имена) объектов, свойств объектов, событий, фактов, утверждений или заключений; · логические конструкции из символов, выражающие отношения, действия, рекомендации, указания, стратегии; · свойства логических конструкций символов, определяющие возможность объединения этих конструкций в структуры, которые могут служить символом нового факта, утверждения или заключения. При этом не принципиально, где расположены правила выделения перечисленных категорий данных – в базе данных или у потребителя данных. Последний приведённый пример показывает, что часть правил может содержаться в базе данных, а другая у потребителя данных. В этом определении следует обратить внимание на несколько моментов. Во-первых, в определении говорится не о знаниях вообще, которые являются атрибутом человека, а о формальных знаниях, позволяющих некоторой программной системе, в частности, экспертной системе имитировать интеллектуальную деятельность человека в ограниченной предметной области. Во-вторых, речь идёт не о знаниях как таковых, а об одной из форм представления знаний. В-третьих, символ события или факта может являться вызовом функции или обращением к процедуре в некоторой системе программирования. В-четвёртых, возможность объединения логических конструкций в структуры, служащие представлением нового факта или утверждения, является условием возможности формирования нейронной сети (в частности, сети вывода) и возможности получения знания как результата работы машины вывода над нейронной сетью. Нейронной сетью называют модель, представляющую собой совокупность связанных друг с другом узлов, для каждого из которых определены 'видимые' входы, выходы и скрытая обработка данных в узлах. Подробному рассмотрению одного класса нейронных сетей посвящается специальный раздел настоящей работы. Сформулированное выше определение представления знаний удовлетворительно определяет термин ‘знание’, если потребителем данных, которые его представляют, выступает экспертная система, использующая последние для ответов на запросы (вопросы) пользователя экспертной системы. Однако, как показывают современные исследования, представление знаний на основе логических структур типа предикатов, правил (продукций), семантических сетей и фреймов далеко не является исчерпывающим. Последнее утверждение требует пояснения. Хорошо известно, что данные можно представлять в форме констант программных модулей, а правила в виде операторов if – then тех же модулей и так же известно, что первые экспертные системы строились именно на таких принципах. Сегодня говорят, что экспертная система оперирует знаниями, но тогда возникает вопрос, чем оперировали первые экспертные системы – просто данными? Однако современные экспертные системы, являясь программными системами, в конечном итоге также оперируют данными. С другой стороны, существует множество вычислительных задач, которые не возможно реализовать на принципах экспертных систем. Тогда, чем оперируют такие программы? Очевидно, что представлением знаний в них служит как структура используемых данных, так и состав, и порядок выполнения определённых операций над ними, т.е. алгоритм решения задачи. Разница между тем или иным способом относительна и состоит в возможности выделения инвариантной части алгоритмов, применяемых для решения ряда задач определённой предметной области и представлении этой инвариантной части в виде синтаксических структур, допускающих обработку, так называемым, решателем, а, другими словами, -- интерпретатором. Продолжая анализировать термин ‘знания’, нельзя обойти вниманием SQL-запросы к базам данных, которые выражают (представляют) знания потребителя данных о свойствах некоторой структуры данных в базе данных. SQL-запрос транслируется в программный код, обеспечивающий механизмы поиска, выделения и доставки пользователю этих данных. SQL-запросы могут накапливаться в библиотеках и использоваться многократно другими потребителями. Это напоминает добавление правил в базу правил экспертной системы, так как SQL-запросы могут образовывать как внутренние, так и внешние объединения, формируя тем самым сетевую структуру. В контексте термина ‘знание’ необходимо проанализировать еще несколько современных понятий: · динамически связываемые библиотеки процедур, так называемые DLL-библиотеки; · программные компоненты ActiveX. Прежде чем кратко охарактеризовать DLL-библиотеки следует принять во внимание, что любая программная процедура выполняет свою функцию, благодаря тому, что её алгоритм является представлением знания написавшего её человека. DLL-библиотеками называют библиотеки обычных программных процедур, использование которых отличается рядом особенностей: · библиотека может быть создана в одной системе программирования, а использоваться приложениями, создаваемыми в любых других современных системах программирования; · процедуры DLL-библиотек подключаются к использующей их программе не в момент компиляции (как это делается при традиционном подходе), а динамически при выполнении программы; · распространение программного обеспечения САПР в форме не законченных приложений, а DLL-библиотек, доступных для использования другими приложениями, открывает принципиально отличные от традиционных подходы к архитектуре среды принятия проектных решений. Не вдаваясь в хорошо известную технологию создания DLL-библиотек, обратим внимание, что возможность динамического вызова процедур DLL-библиотеки позволяет использовать последнюю в качестве базы правил экспертной системы или узлов нейронной сети. В таком случае структурная модель такой процедуры может быть представлена моделью нейрона, что обеспечит возможность построения деревьев вывода, о чем подробно будет говориться ниже. Программные компоненты ActiveX являются завершающим этапом в технологии построения современных программных систем на основе, так называемой компонентной модели объекта – component object model (COM). COM является абстрактной реализацией программного объекта, рассматриваемого как взаимосвязанный набор функций, которые описываются как его интерфейс. Этот интерфейс является методом доступа к объекту, что позволяет приложению во время своего выполнения определить, может ли определённый объект решить требуемую задачу. COM-объекты могут быть реализованы тремя способами: · традиционным – как скомпилированный модуль; · в форме DLL-библиотеки; · как распространяемый (Distributed – DCOM) модуль, который может выполняться на любой машине в любой точке мира. Таким образом, как и в случае обычных процедур DLL, объекты ActiveX обеспечивают возможность выполнения определённой функции динамически и, тем самым создают возможность использования их в качестве узлов нейронной сети. Подводя промежуточные итоги анализа 'данных' и 'знаний', в рамках настоящей работы представлением знаний будет считаться любая логическая конструкция из символов, которую можно отобразить на нейронную сеть, причём символ может представлять данное, запрос к базе данных, вызов динамически связываемой процедуры, или мета данное любого уровня. Теперь уместно поставить вопрос, что получает конечный пользователь (конструктор или технолог) от информационной системы (независимо от уровня её “интеллектуальности”) в ответ на свой запрос: знания, представление знаний, информацию или данные? При этом возникает и другой вопрос об информативности релевантных данных. Для ответов на эти вопросы, а также для обоснования точки зрения на базу данных, как на потенциальную базу знаний, необходимо дать определение информации и информативности данных в терминах пространства событий.
|