Метаданные

Материал из свободной русской энциклопедии «Традиция»
Перейти к: навигация, поиск

Для термина метаданные нет единственного формального определения. Наоборот, существуют различные определения этого термина. Наиболее общим является дословный перевод:

Метаданные — это данные о данных[1]. Например, значение «123456» само по себе недостаточно выразительно. А если значению «123456» сопоставлено достаточно выразительное имя «почтовый индекс» (что уже является метаданными), то в этом контексте значение «123456» более осмысленно - можно извлечь информацию о местоположении адресата, имеющего данный почтовый индекс.

Поскольку для большинства людей разница между словами данные и информация есть только с философской точки зрения и не существенна с практической точки зрения, то имеют место следующие определения:

  • Метаданные это информация о данных.
  • Метаданные это информация о информации.

Существуют более изощрённые определения:

Метаданные это структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими[2].

Метаданные это набор допустимых структурированных описаний, которые доступны в явном виде и предназначение которых помочь найти объект[3].

Это определение используется гораздо реже, поскольку оно концентрируется на одном из предназначений метаданных — поиск объектов, сущностей, ресурсов — и игнорирует другие предназначения.

Термин метаданные в широком смысле слова используется для любых «данных о данных»: имена таблиц, колонок в таблице, программ и т.п.

Метаданные в общем смысле — это данные из более общей формальной системы, описывающей заданную систему данных.

Для понимания идеи формальных систем — см. теорему Гёделя. DAPRA в качестве нового языка описания web-страниц предлагает DAML- который в значительной степени описывает страницу через метаданные. Предполагается что это значительно повысит эффективность поиска.

Иерархии метаданных[править]

Структурированные в виде иерархии метаданные более правильно называть онтологией или схемой метаданных.

Различие между данными и метаданными[править]

Обычно невозможно провести однозначное разделение на данные и метаданные, поскольку:

  • Что-то может являться как данными, так и метаданными. Так, заголовок статьи одновременно отнести к метаданным (как элемент метаданных - заголовок) и к собственно данным (поскольку заголовок является частью самого текста).
  • Данные и метаданные могут меняться ролями. На стихотворение, рассматриваемое как данные, может быть написана музыка, в этом случае всё стихотворение может быть «прикреплено» к музыкальному файлу и в этом случае рассматриваться как метаданные. Таким образом, отнесение к одной или другой категории зависит от точки зрения.
  • Возможно создание мета-мета-…-метаданных. Поскольку, в соответствии с обычным определением, метаданные являются данными, то можно создать метаданные на метаданные, метаданные на метаданные на метаданные и так далее. На первый взгляд это может показаться бесполезным, но на самом деле это является очень существенным и полезным свойством данных и метаданных.

Эти рассуждения применимы независимо от выбора определения метаданных (из приведённых выше и не только).

Использование[править]

Метаданные используются для ускорения поиска. Поисковые запросы, использующие метаданные могут спасти пользователя от лишней ручной работы по фильтрации. Информируя компьютер о том, какие элементы данных связаны и как эти связи учитывать, становится возможным осуществлять достаточно сложные операции по фильтрации и поиску. Например, если поисковая система «знает» о том, что «Ван Гог» является «голландским писателем», то она может выдать в ответ на запрос о голландских писателях веб-страницу о Ван Гоге, даже если слова «голландский писатель» не встречаются на этой странице. Такой подход, называемый представлением знаний, находится в сфере интересов семантического веба и искусственного интеллекта.

В частности, метаданные создаются для оптимизации алгоритмов сжатия с потерей качества. Например, если к видео прилагаются метаданные, позволяющие компьютеру разделить изображение на основную часть и фоновую, то последняя может быть сжата сильнее, что позволит достичь большего коэффициента сжатия.

Некоторые виды метаданных предназначены для обеспечения возможности различных видов представления некоторых данных. Например, если к изображению прилагаются метаданные, содержащие информацию о том, какая часть изображения наиболее важная (допустим, изображение человека), то программа для просмотра изображений на маленьком экране (таком, как на мобильном телефоне), может отобразить только эту наиболее важную часть изображения. Аналогично используются метаданные, позволяющие сделать доступными для слепых диаграммы и изображения, путём их преобразования для вывода на специальные устройства, либо чтения их описания с использованием программного обеспечения, преобразующего текст в речь.

Другие описательные метаданные могут использоваться автоматизированными рабочими потоками. Например, если некоторая «умная» программа «знает» содержимое и структуру данных, то данные могут быть автоматически преобразованы и переданы другой «умной» программе как входные данные. В результате, пользователи будут спасены от необходимости выполнения множества рутинных операций, если данные предоставлены для работы таким «немногословным» программам.

Метаданные становятся важны в World Wide Web по причине необходимости обеспечения поиска полезной информации среди огромного количества доступной. Метаданные, созданные вручную имеют большую ценность, поскольку это гарантирует осмысленность. Если веб-страница на какую-то определённую тему содержит слово или фразу, то все другие веб-страницы на эту тему могут содержать такое же слово или фразу. Метаданные также обладают разнообразием, поэтому если с какой то темой связаны два значения, то каждое из них может быть использовано. Например, статья про Живой Журнал может быть обозначена с помощью нескольких значений: «Живой Журнал», «ЖЖ», «LiveJournal».

Метаданные используются для хранения информации о записях audio CD. Аналогично MP3 файлы хранят метаданные в формате ID3.

Классификация метаданных[править]

Метаданные можно классифицировать по:

  • Содержанию. Метаданные могут либо описывать сам ресурс (например, название и размер файла), либо содержимое ресурса (например, «в этом видео-файле показано как парень играет в футбол»).
  • По отношению к ресурсу в целом. Метаданные могут относится к ресурсу в целом или к его частям. Например, «Title» (название фильма) относится к фильму в целом, а «Scene description» (описание эпизода фильма) отдельное для каждого эпизода фильма.
  • По возможности логического вывода. Метаданные можно подразделить на три слоя: нижний слой - это «сырые» данные сами по себе; средний слой - метаданные, описывающие эти данные; и верхний слой - метаданные, которые позволяют делать логический вывод, используя второй слой.

Формат метаданных[править]

Метаданными на практике обычно называют данные, представленные в соответствии с одним из форматов метаданных.

Формат метаданных — представляет собой стандарт, предназначенный для формального описания некоторой категории ресурсов (объектов, сущностей и т. п.). Такой стандарт обычно включает в себя набор полей (атрибутов, свойств, элементов метаданных), позволяющих характеризовать рассматриваемый объект. Например, формат MARC позволяет описывать книги (и не только книги), содержит поля для описания названия, автора, тематики и огромного множества других характеристик (формат MARC позволяет описать сотни характеристик).

Форматы можно классифицировать, во-первых, по охвату и подробности типов описываемых ресурсов. Во-вторых, по ширине и подробности области описания ресурсов и мощности структуры элементов метаданных. Кроме этого, можно классифицировать по предметным областям, или целям разработки и использования формата метаданных.

Форматы метаданных часто разрабатываются международными организациями или консорциумами, включающими в себя заинтересованные в появлении стандарта государственные организации и частные компании. Разработанный формат часто закрепляется как стандарт в одной или нескольких организациях, занимающихся разработкой и принятием стандартов (например W3C, ISO, ANSI и т. п.)

Классификация форматов метаданных по описываемой предметной области:

  • DCMI является одним из наиболее распространённых в интернет форматов метаданных для описания ресурсов любого типа (как электронных документов, так и реальных физических объектов). Другие форматы метаданных, предназначенные для описания архивов и электронных ресурсов GILS, EAD.
  • для описания персон и организаций vCard и FOAF
  • для описания библиографических ресурсов предназначены форматы семейства MARC (MARC 21 иcпользуемый в США и Великобритании и UNIMARC используемый в Европе и Азии); UNIMARC в свою очередь подразделяется на национальные расширения этого формата, так в России используется RUSMARC; в силу большой сложности форматов семейства MARC для решения задач интеграции данных был разработан формат MODS.
  • для описания музейных и исторических ценностей используется формат CDWA
  • для описания издательской продукции используются PRISM и ONIX
  • для кристаллографической информации CIF
  • для хранения и обмена информацией о погоде в бинарной форме GRIB
  • для работы с изображениями со спутников VICAR
  • для описания новостей NewsXML

и т. д.

Библиография[править]

  1. Воройский Ф. С. Информатика. Новый систематизированный словарь-справочник (Вводный курс по информатике и вычислительной технике в терминах). — М.: "Издательство Либерия", 2001. — 2-е изд., перераб. и доп. изд. — 536 с. — ISBN 5-85129-134-6.
  2. «Task Force on Metadata. Summary Report.» // American Library Association. — 1999. — Т. June.
  3. D. C. A. Bultermann «Is It Time For a Moratorium on Metadata?» // IEEE MultiMedia. — 2004. — Т. Oct-Dec.

Ссылки[править]

  • mp3Tag Редактор ID3 тэгов.