Семантическая паутина

Не следует путать с «Семантическая сеть».

Семанти́ческая паути́на (англ. Semantic Web) — часть глобальной концепции развития сети Интернет, целью которой является реализация возможности машинной обработки информации, доступной во Всемирной паутине. Основной акцент концепции делается на работе с метаданными, однозначно характеризующими свойства и содержание ресурсов Всемирной паутины, вместо используемого в настоящее время текстового анализа документов. Термин впервые введён сэром Тимом Бернерсом-Ли в мае 2001 года в журнале «Scientific American»^[1], и называется им «следующим шагом в развитии Всемирной паутины». В семантической паутине предполагается повсеместное использование, во-первых, универсальных идентификаторов ресурсов (URI), а во-вторых — онтологий и языков описания метаданных.

Эта концепция была принята и продвигается Консорциумом W3. Для её внедрения предполагается создание сети документов, содержащих метаданные о ресурсах Всемирной паутины и существующей параллельно с ними. Тогда как сами ресурсы^[2] предназначены для восприятия человеком, метаданные используются машинами (поисковыми роботами и другими интеллектуальными агентами) для проведения однозначных логических заключений о свойствах этих ресурсов.

Основная идея[править | править код]

Семантическая паутина — это надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в ней информацию более понятной для компьютеров. Машинная обработка возможна в семантической паутине благодаря двум её важнейшим характеристикам:

Файл:Contact RDF graph.png

Граф визитной карточки основателя Википедии в формате RDF. Все элементы этого графа (как узлы, так и дуги) являются URI, включая литерал, изображённый в оранжевом прямоугольнике.

Повсеместное использование универсальных идентификаторов ресурсов (URI). Традиционная схема использования таких идентификаторов в современном Интернете сводится к установке ссылок, ведущих на объект, им адресуемый. Очевидным свойством такой ссылки является возможность «загрузки» объекта, на который она указывает. Таким объектом может быть веб-страница, файл произвольного содержания, фрагмент веб-страницы, а также неявное указание на обращение к реально существующему физическому ресурсу по протоколу, отличному от HTTP (например, ссылки mailto:). Концепция семантической паутины расширяет это понятие, включая в него ресурсы, недоступные для скачивания. Адресуемыми с помощью URI ресурсами могут быть, например, отдельные люди, города и другие географические сущности, художественные артефакты и т. д. К идентификатору предъявляются несколько простых требований: он должен быть строкой определённого формата, уникальной, а также адресующей реально существующий объект.
Повсеместное использование онтологий и языков описания метаданных. Современные методы автоматической обработки данных, доступных в Интернете, как правило, основаны на частотном и лексическом анализе текстового содержимого (хотя есть и исключения: Swoogle или Intellidimension Semantic Web Search Engine, например), которое прежде всего предназначено для восприятия человеком. В семантической паутине предлагается использовать форматы описания, доступные для машинной обработки (например, семейство форматов, часто упоминаемое в литературе как «Semantic Web family»: RDF, RDF Schema или RDF-S, и OWL), в свою очередь, использующие URI для адресации описываемых и описывающих объектов, а также онтологии и дескриптивные логики в качестве базовых математических формализмов.

Смысловая паутина и реальность[править | править код]

Web - паутина (страниц) - набор страниц связанных по потоколу HTTP для просмотра людьми. Машина осуществляет процедуру перехода между страницами. Основная единица: текст+URL (URL - по простому ссылка). Пример развитой системы - Интернет - открытая паутина, корпоративная система (условно) закрытая паутина, например IBM, DARPA. Интрига заключается в границе между открытой для публики и закрытой частью. Хакеры - это паразиты злоупотребляющие паутиной?, или же правдолюбцы срывающие маски (см. WikiLeaks ?).

Semantic Web, смысловая паутина - организация больших массивы для принятия (аналитических, промежуточных, исполняемы в реале) решений компьютером, машиной. (Поскольку понятия связанные со смысловой сетью играют принципиальную роль, следует указать на важную проблему: можно ли отождествить компьютер и машину.) Интрига заключается в передаче компьютеру принятия и исполнение в физической реальности действий. Например:

Роботизированное производство - полностью решенная задача полной автоматизации сферы человеческой детельности (см. дероботизация).
Сейчас передний край разработок смысловых сетей - военные системы, т.е. полная автоматизация военных действий и поддержания Odnung'а. Типичная задача - создание автоматизированной системы пропаганды на экзотическом языке.
Предельный случай создание искусственного интеллекта и угроза перехода принятия всех решений ... не машине, не компьютеру а искусственной сущности возможно будет создана нанотехногией. Возникает (изначально при создании компьютера возникла) проблема существования человека как вида. Еще одна тема - конкуренция за господство над планетой:
Открытых государственно-политических структур (Афины - Интернет). Принцип смысловых сетей AAA "Anyone can say Anything about Any topic" - Любой может сказать, что угодно и о чём угодно". Semantic Web for the working ontologist. Dean Allemang, Jim Henler см. Когнитивное радио);
Закрытых конспирологических, инфернальных структур (Вавилон);
Искусственных интеллектуальных сущностей. В связи с базированием интеллекта на нелокальности искусственная сущность будет органичной планетарной системой;

не забудем и о

внепланетные сущности, см. MJ-12. Со "Звездных войн" Р.Рейгана вопрос об автономии компьютерных систем перешел в практическую плоскость. (Аналогично различению машина-компьютер, здесь имеет принципиальное, и даже теологическое значение природа пришельцев (alien) - это созданные Господом живые существа для других миров, или же био-роботы, или же небиологические сущности описанные Кастанедой, нечто вне познаваемости человеком - тоже Кастанеда. Плюс американская идиома "Это вам не Калифорния", в данном контексте исследовательские парадигмы NASA и Стенфордский университета.

Философия[править | править код]

смысл - внутреннее содержание, значение ч.-л., то, что может быть понято. В семантике логической общее значение языковых выражений расщепляют на две части: предметное значение и смысл.

реальный (от позднелат. realis - вещественный) - действительный, существующий в действительности, в противоположность вымышленному, воображаемому, фантастическому, ирреальному, существующему только в сознании. [Философская энциклопедия. А.А. Ивин]

Как видим реальность находится в положении безнадежно обороняющегося от смысла.

Критика[править | править код]

Практическая реализуемость[править | править код]

Несмотря на все преимущества, предоставляемые семантической паутиной в случае её внедрения, существуют сомнения в возможности её полной реализации.

Разные комментаторы высказывают различные причины, который могут быть препятствием к этому, начиная с человеческого фактора^[3] (люди склонны избегать работы по поддержке документов с метаданными, открытыми остаются проблемы истинности метаданных, и т. д.), и заканчивая косвенным указанием Аристотеля на отсутствие очевидного способа деления мира на концепты, что ставит под сомнение возможность существования онтологии верхнего уровня, критической для семантической паутины (см. понятие differentia specifica в «Топике»).

Дублирование информации[править | править код]

Необходимость описания метаданных так или иначе приводит к дублированию информации. Каждый документ должен быть создан в двух экземплярах: размеченным для чтения людьми, а также в машинно-ориентированном формате. Этот недостаток семантической паутины был главным толчком к созданию так называемых микроформатов.

Реализация[править | править код]

Языки описания[править | править код]

Стек понятий семантической паутины

Техническую часть семантической паутины составляет семейство стандартов на языки описания, включающее XML, XML Schema, RDF, RDF Schema, OWL, а также некоторые другие. Располагая их в порядке повышения уровня абстракции, реализуемого тем или иным языком, получаем:

XML предоставляет синтаксис для определения структуры документа, подлежащего машинной обработке. Синтаксис XML не несёт семантической нагрузки.
XML Schema определяет ограничения на структуру XML-документа. Стандартный синтаксический анализатор языка XML в состоянии проверить произвольный XML-документ на соответствие его структуры так называемой схеме документа, описанной в XML Schema.
RDF представляет собой простой способ описания экземплярных данных в формате субъект-отношение-объект, в котором в качестве любого элемента этой тройки используются только идентификаторы ресурсов. Существует стандартизованное отображение этих троек на XML-документы предопределённой структуры (то есть консорциумом W3 определена схема XML-документов, содержащих RDF-описания), а также на другие форматы представления (например, в нотацию N3).
RDF Schema описывает набор атрибутов (здесь их точнее назвать отношениями), таких, как rdfs:Class, для определения новых типов RDF-данных. Языком поддерживается также отношение наследования типов rdfs:subClassOf.
OWL расширяет возможности по описанию новых типов (в частности, добавлением перечислений), а также позволяет описывать новые типы данных RDF Schema в терминах уже существующих (например, определять тип, являющийся пересечением или объединением двух существующих).

Логический вывод[править | править код]

Форматы описания метаданных в семантической паутине предполагают проведение логического вывода на этих метаданных, и разрабатывались с оглядкой на существующие математические формализмы в этой области. Математическое обоснование тех или иных конструкций языка описания необходимо для проведения заключений о свойствах программ, обрабатывающих данные в этом формате.

Особенно сильно это относится к языку OWL. Базовым формализмом для него являются дескриптивные логики, а сам язык разбит на три вложенных подмножества (в порядке вложенности): OWL Lite, OWL DL и OWL Full. Доказано^[4], что логический вывод на метаданных с выразительностью OWL Lite выполняется за полиномиальное время (другими словами, задача вывода принадлежит к классу P). OWL DL описывает максимальное разрешимое в данный момент подмножество дескриптивных логик, но некоторые запросы по таким данным могут требовать экспоненциального времени выполнения. OWL Full реализует все существующие конструкторы дескриптивных логик, но не каждый запрос в этом подмножестве языка может быть разрешён (слово «разрешён» здесь употребляется в значении, основанном на корне «решать»).

Простая структура предикатов языка RDF, в свою очередь, позволяет использовать при его обработке опыт из теорий логических баз данных, логики предикатов, и т. д.

Проекты[править | править код]

Дублинское ядро[править | править код]

Одним из первых серьёзных и популярных проектов, основанным на принципах семантической паутины, стал проект «Дублинское ядро» (англ. Dublin Core), реализуемый инициативной организацией Dublin Core Metadata Initiative (DCMI). Это открытый проект, цель которого — разработать стандарты метаданных, которые были бы независимы от платформ и подходили бы для широкого спектра задач. Конкретнее, DCMI занимается разработкой словарей метаданных общего назначения, стандартизирующих описания ресурсов в формате RDF.

RSS (версий 0.90 и 1.0)[править | править код]

Версии 0.90 и 1.0 формата RSS основаны на RDF. Информация в нём представляется как и в RDF, тройками субъект-отношение-объект. Необходимо отметить, что несмотря на то, что ему присущи многие недостатки семантической паутины (дублирование информации, например), этот простейший формат быстро стал чрезвычайно популярным за счёт узкой категоризации подмножества используемых метаданных. Отличие RSS от RDF состоит в том, что субъектом тройки всегда является сайт-источник RSS-файла, а в качестве отношений используются самые очевидные свойства документов, имеющие отношение к часто обновляющимся источникам информации: дата написания, автор, постоянная ссылка, и т. д. Другими словами, RSS — узкоспециализированное подмножество RDF.

Помимо недостатков, RSS унаследовал и все достоинства форматов из семейства семантической паутины: гибкость RSS позволяет использовать его не только для проверки на наличие новой информации на регулярно обновляющихся сайтах, но и для подкастов, и торренткастов (см. Broadcatching).

Заметим, что формат RSS версии 2.0, хотя и не является форматом, основанным на RDF, позволяет внедрение произвольного XML-содержимого, находящегося в собственных пространствах имён XML. Это позволяет использовать RDF-описания также и в нём (используя пространство имён rdf).

FOAF[править | править код]

Проект «Friend of a Friend» («Друг друга») позволяет описывать отношение знакомства с помощью RDF. Любой его участник может идентифицировать себя уникальным образом с помощью URI (например, mailto-адресом элетронной почты, адресом блога, и т. п.), создать свой профиль, используя предопределённые для FOAF отношения на языке RDF, и перечислить идентификаторы людей, которых этот участник знает. Это описание может обрабатываться автоматически; на его основе можно строить сети доверия, анализировать структуру социальных групп, и т. д.

Семантические веб-сервисы[править | править код]

Основная статья: Семантические веб-сервисы

В то время как совокупность ресурсов и их метаданных можно считать статической частью семантической паутины, её динамическую часть представляют т. н. семантические веб-сервисы — законченные элементы программной логики с однозначно описанной семантикой, доступные через Интернет и пригодные для поиска, композиции и выполнения.

Технически, семантический веб-сервис отличается от обычного веб-сервиса наличием не только описания интерфейса (обычно на языке WSDL) в терминах типов данных, передаваемых сервису, возвращаемых значений и генерируемых ошибок, но и семантического описания всех его характеристик. Заметим, что дублирования данных, упомянутого в числе недостатков семантической паутины, здесь не происходит: WSDL-описания изначально были предназначены для машинной обработки.

Потенциальная выгода от использования семантических веб-сервисов заключается в возможности автоматического поиска (а также композиции) программными агентами подходящих сервисов для решения поставленных задач. Тем не менее, сложность этой задачи в её общей формулировке пока позволяет добиваться некоторых положительных результатов только в узкоспециализированных отраслях, явным образом выигрывающих от внедрения сервисно-ориентированной архитектуры, например в интеграции корпоративных приложений.

Литература[править | править код]

Dieter Fensel, Wolfgang Wahlster, Henry Lieberman, James Hendler, «Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential», MIT Press, ISBN 0-262-06232-1
John Davies, Dieter Fensel, Frank van Harmelen, «Towards the Semantic Web: Ontology-Driven Knowledge Management», John Wiley & Sons, ISBN 0-470-84867-7

Примечания[править | править код]

↑ The Semantic Web. Scientific American, 17 мая 2001, русский перевод: Семантическая Сеть
↑ В данном контексте «ресурсом» будем называть любой объект, доступный в Интернете: веб-страница, изображение, аудио- или видеоматериал, и т. п.
↑ Cory Doctorow, Metacrap: Putting the torch to seven straw-men of the meta-utopia, август 2001
↑ OWL Full, OWL DL and OWL Lite in OWL Language Reference

См. также[править | править код]

Ссылки[править | править код]

[sa-eng-1] The Semantic Web. Scientific American, 17 мая 2001, русский перевод: Семантическая Сеть

[2] В данном контексте «ресурсом» будем называть любой объект, доступный в Интернете: веб-страница, изображение, аудио- или видеоматериал, и т. п.

[doctorow-3] Cory Doctorow, Metacrap: Putting the torch to seven straw-men of the meta-utopia, август 2001

[4] OWL Full, OWL DL and OWL Lite in OWL Language Reference

[1]

[2]

[3]

[4]