Zettabyte File System

ZFS (Zettabyte File System) — файловая система, изначально созданная в Sun Microsystems для операционной системы Solaris. Эта файловая система поддерживает большие объёмы данных, объединяет концепции файловой системы и менеджера логических дисков (томо́в), инновационную структуру данных на дисках, легковесные файловые системы (lightweight filesystems), а также простое управление объёмами хранения данных. ZFS является проектом с открытым исходным кодом и лицензируется под CDDL (Common Development and Distribution License). Основное преимущество ZFS — отсутствие фрагментации данных, что позволяет динамически выделять или освобождать дисковое пространство логической файловой системе, причем это пространство может быть как в рамках физического накопителя, так и рассредоточено по нескольким сетевым дискам. Кроме того, имеет место переменный размер блока, что лучшим образом влияет на производительность, параллельность выполнения операций чтения-записи, а также 64-разрядный механизм использования контрольных сумм, сводящий к минимуму вероятность разрушения данных.

История[править | править код]

ZFS была спроектирована и создана командой Sun Microsystems, лидером которой является Джеф Бонвик (Jeff Bonwick). Файловая система была анонсирована 14 сентября 2004 года. ^[1] Исходный код для финального релиза был интегрирован в главную ветку разработки Solaris 31 октября 2005 года ^[2] и реализован как часть 27-й сборки OpenSolaris 16 ноября 2005 года. Sun заявила, что ZFS была интегрирована в 6/06 обновление для Solaris 10 в Июне 2006, по прошествии одного года с момента открытия сообщества OpenSolaris. ^[3]

Изначальное название было «Zettabyte File System», но сейчас оно превратилось в псевдо-инициализм.^[4]

Потенциал[править | править код]

ZFS это 128-битная файловая система, что позволяет ей хранить в 18 миллиардов миллиардов (18.4 × 10¹⁸) раз больше данных, чем нынешние 64-битные системы. ZFS спроектирована так, чтобы её ограничения были настолько велики, что они никогда не встретятся на практике. Как заявил руководитель проекта Бонвик, «заполнение 128-битных файловых систем превысит квантовые возможности хранения данных на Земле. Вы не сможете заполнить и хранить 128-битный объём, не вскипятив при этом океан.»^[1]

Некоторые теоретические пределы в ZFS:

2⁴⁸ — Количество снимков (snapshot) в любой файловой системе (2 × 10¹⁴)
2⁴⁸ — Количество файлов в любой индивидуальной файловой системе (2 × 10¹⁴)
16 эксабайт (2⁶⁴ byte) — Максимальный размер файловой системы
16 эксабайт (2⁶⁴ byte) — Максимальный размер одного файла
16 эксабайт (2⁶⁴ byte) — Максимальный размер любого атрибута
3 × 10²³ петабайт — Максимальный размер любого пула хранения (zpool)
2⁵⁶ — Количество атрибутов файла (фактически ограничивается 2 ⁴⁸ на количество файлов в файловой системе ZFS)
2⁵⁶ — Количество файлов в директории (реально ограничен 2 ⁴⁸ на количество файлов в файловой системе ZFS)
2⁶⁴ — Количество устройств в любом zpool
2⁶⁴ — Количество zpool’ов в системе
2⁶⁴ — Число файловых систем в zpool

Пример того, насколько велики эти цифры: если бы 1000 файлов создавались каждую секунду, то потребовалось бы около 9000 лет для достижения предела количества файлов.

В ответ на вопрос о заполнении ZFS без кипячения океанов, Бонвик пишет:

Хотя мы все хотели бы, чтобы Закон Мура выполнялся бесконечно долго, квантовая механика накладывает некоторые фундаментальные ограничения на скорость вычислений и информационную вместимость любого физического устройства. В частности, было показано, что 1 килограмм материи, ограниченный 1 литром пространства, может выполнять не более 10⁵¹ операций в секунду над не более чем 10³¹ бит информации [см. Seth Lloyd, «Ultimate physical limits to computation.» Nature 406, 1047—1054 (2000)]. Целиком заполненный 128-битный объём будет содержать 2¹²⁸ блоков = 2¹³⁷ байт = 2¹⁴⁰ бит; поэтому минимальная масса, необходимая для хранения этого количества бит будет (2¹⁴⁰ бит) / (10³¹ бит/кг) = 136 млрд кг.

Пулы хранения[править | править код]

В отличие от традиционных файловых систем, которые располагаются на одном устройстве и, следовательно, при использовании более чем на одном устройстве для них требуется менеджер томов, ZFS строится поверх виртуальных пулов хранения данных, называемых zpool. Пул построен из виртуальных устройств (vdevs), каждое из которых является либо физическим устройством, либо зеркалом (RAID 1) одного или нескольких устройств, либо (RAID Z) — группой из двух или более устройств. Емкость всех vdevs затем доступна для всех файловых систем в zpool.

Для ограничения пространства, доступного конкретной файловой системе, может быть установлена квота. Кроме того, возможно использование дискового резервирования — это гарантирует, что всегда будет оставаться некоторый доступный объём для конкретной файловой системы.

Модель транзакций копия-по-записи[править | править код]

ZFS использует модель объектных транзакций копия-по-записи. Все указатели на блоки внутри файловой системы содержат 256-битную контрольную сумму в целевом блоке, который проверяется, когда блок прочитан. Блоки данных, содержащие активные (в этот момент) данные никогда не перезаписываются вместе; напротив, выделяется новый блок, измененные данные записываются в него, а затем метаданные любых блоков, которые на него ссылаются, таким образом всё перераспределяется и записывается. Чтобы уменьшить накладные расходы в этом процессе группируется несколько обновлений в группу транзакции, также если требуется ведётся лог использования при синхронной записи.

Снапшоты и клоны[править | править код]

Модель копия-по-записи в ZFS обладает еще одним мощным преимуществом: когда ZFS записывает новые данные — вместо освобождения блоков, содержащих старые данные — она может сохранять их, создавая снапшоты версий файловой системы. Снапшоты в ZFS создаются очень быстро, так как все данные в составе снапшота уже сохранены; они также эффективно размещены в пространстве, поскольку любые неизмененные данные разделяются между файловой системой и ее снимком.

Также могут быть созданы перезаписываемые снапшоты («клоны»), в результате чего будут две независимые файловые системы, которые разделяет комплекс блоков. Как только вносятся изменения в какой-либо клон файловой системы, блоки новых данных создаются во всех остальных клонах, чтобы отразить эти изменения.

Динамическое разделение[править | править код]

Динамическое разделение всех устройств на максимальной пропускной способности означает, что дополнительные устройства включаются в zpool, более широкие каналы автоматически расширяется для включения использования всех дисков в пуле, это уравновешивает нагрузку на запись.

Различные размеры блока[править | править код]

ZFS использует переменный размер блоков до 128 килобайт. В настоящее время администратору позволяется настраивать максимальный размер используемых блоков, но некоторые работы не будут выполняются (или будут выполнятся с ошибками) если использовались слишком крупные блоки. Автоматические настройки рабочих характеристик соответствуют привилегиям.

Если сжатие включено, используются переменные размеры блока. Если блок был сжат он может влиться в блок меньшего размера, то есть используется меньшее пространство на диске и повышается пропускной способность (Input/Output) (хотя ценой расширенного использования процессора и оперативной памяти для операций компрессии и декомпрессии)

Создание легковесной файловой системы[править | править код]

В ZFS, манипулирование с файловой системой в пуле легче, чем объемы манипуляций в традиционных файловых системах; время и усилия, требуемые для создания или изменения файловой системы ZFS в большей степени напоминают объёмы работ связанные с новым каталогом, чем с манипулированием раздела в других технологиях.

Дополнительные возможности[править | править код]

Конкретный I/O приоритет со сроком планирования.
Оптимальный в глобальном масштабе I/O сортировки и агрегации (aggregation).
Несколько независимых потоков с упреждением автоматического обнаружения длины и шага.
Параллельная, постоянная времени операций с каталогами.
Проверка контрольных сумм методом конца-к-концу, это позволяет обнаруживать данные с ошибками и восстанавливать их (если пул переполнен).
Интеллектуальная очистка и resilvering(?).^[5]
Загрузка и совместное использование дисков в пуле.^[6]
Те же блоки: Метаданные воспроизводятся внутри пула, два или три раза (согласно значениям метаданных).^[7] Если пул состоит из нескольких устройств, ZFS будет пытаться воспроизводить данные на разных устройствах. Даже в пуле без избыточности можно потерять данные, но даже если Вы обнаружите поврежденные секторы, то метаданные должны создать достаточную безопасность, даже при таком сценарии.
Дизайн ZFS (копия-по-записи + uberblocks) даёт болшую безопасность при использовании дисков с возможностью записи в кэш, то есть если они реагируют и повинуются на кэш-флэш команды выданные ZFS. Эта особенность обеспечивает безопасность и значительное повышение производительности по сравнению с другими ФС.
Учитывая предыдущий пункт, когда все диски находятся в ZFS пуле, ZFS автоматически включает функцию записи в кэш для них. Это не применимо, если не только ZFS одновременно управляет дискретными разделами диска, например если вы используете ФС без функции безопасной записи в кеш, например UFS (и множество других).

Управление кэшем[править | править код]

ZFS также вводит адаптивную замену кеша (ARC), новый метод управления кэшем вместо традиционных для Solaris виртуальных страниц кэша в памяти.

Ограничения[править | править код]

В ZFS отсутствует прозрачное шифрование, как в NTFS, хотя наработки этого есть в проекте OpenSolaris.^[8]

ZFS не поддерживает распределение квот для каждого пользователя или группы. Вместо этого, можно быстро создавать ФС для пользователей, каждая из которых будет иметь свой размер.

Платформы[править | править код]

ZFS является частью OC Solaris, компании Sun и доступна для обоих платформ — SPARC и x86. Поскольку код ZFS является открытым, порты для других операционных систем и платформ могут производиться без участия Sun.

Nexenta OS это ОС OpenSolaris с GNU-окружением (userspace), в версии alpha1 в ядро была включена поддержка ZFS.

Apple Computer портируют ZFS в их Mac OS X, ведётся активная дискуссия в списках рассылки ZFS и предварительные скриншоты для следующей версии Apple Mac OS X.^[9]

Примечания[править | править код]

↑ ^а ^б "ZFS: the last word in file systems (ZFS: последнее слово в файловых системах)". Sun Microsystems. 14 сентября 2004 года. Retrieved 2006-04-30. Check date values in: |date= (help)
↑ Jeff Bonwick (31 октября 2005). "ZFS: The Last Word in Filesystems". Jeff Bonwick's Blog (Блог Jeff'a Bonwick'а). Retrieved 2006-04-30. Check date values in: |date= (help)
↑ "Sun Celebrates Successful One-Year Anniversary of OpenSolaris (Sun празднует успешную первую годовщину OpenSolaris)". Sun Microsystems. 20 июня 2006 года. Check date values in: |date= (help)
↑ Jeff Bonwick (2006-05-04). "You say zeta, I say zetta (Ты скажешь zeta, я скажу zetta)". Jeff Bonwick's Blog (Блог Jeff'а Bonwick'а). Retrieved 2006-09-08.
↑ "Smokin' Mirrors". Блог Jeff'a Bonwick'a. 2006-05-02. Retrieved 2007-02-23.
↑ "Распределение блоков ZFS". Блог Jeff'а Bonwick'а. 2006-11-04. Retrieved 2007-02-23.
↑ "Те же блоки - Удивительная репелент лента". Flippin' off bits Weblog. 2006-05-12. Retrieved 2007-03-01.
↑ "Проект OpenSolaris: Поддержка шифрования дисков в ZFS.". Проект OpenSolaris. Retrieved 2006-12-13.
↑ "Портирование ZFS в OSX". zfs-дискуссии. April 27 2006. Retrieved 2006-04-30. Check date values in: |date= (help)

См. также[править | править код]

Список файловых систем
Сравнение файловых систем
Veritas File System и Veritas Volume Manager — Главный конкурент ZFS (кроссплатформенная ФС)
NILFS — файловая система для Linux от NTT/Verio поддерживающая снапшоты
LogFS — файловая система для Linux разработанная Pradeep Poadala для Google Summer-of-Code '05 поддерживающая снапшоты
LinLogFS — файловая система для Linux поддерживающая снапшоты
LZJB — алгоритм сжатия данных используемый в ZFS

Ссылки[править | править код]

Сообщество разработчиков ZFS и детальная информация о ФС(англ.)
Практическое руководство по ZFS(англ.)
ZFS Uncovered(англ.) — Обзор файловой системы ZFS.

Эта статья содержит фрагменты на иностранном языке.
Вы можете помочь проекту, переведя её до конца.

[announce-1] а ^б "ZFS: the last word in file systems (ZFS: последнее слово в файловых системах)". Sun Microsystems. 14 сентября 2004 года. Retrieved 2006-04-30. Check date values in: |date= (help)

[2] Jeff Bonwick (31 октября 2005). "ZFS: The Last Word in Filesystems". Jeff Bonwick's Blog (Блог Jeff'a Bonwick'а). Retrieved 2006-04-30. Check date values in: |date= (help)

[3] "Sun Celebrates Successful One-Year Anniversary of OpenSolaris (Sun празднует успешную первую годовщину OpenSolaris)". Sun Microsystems. 20 июня 2006 года. Check date values in: |date= (help)

[4] Jeff Bonwick (2006-05-04). "You say zeta, I say zetta (Ты скажешь zeta, я скажу zetta)". Jeff Bonwick's Blog (Блог Jeff'а Bonwick'а). Retrieved 2006-09-08.

[5] "Smokin' Mirrors". Блог Jeff'a Bonwick'a. 2006-05-02. Retrieved 2007-02-23.

[6] "Распределение блоков ZFS". Блог Jeff'а Bonwick'а. 2006-11-04. Retrieved 2007-02-23.

[7] "Те же блоки - Удивительная репелент лента". Flippin' off bits Weblog. 2006-05-12. Retrieved 2007-03-01.

[8] "Проект OpenSolaris: Поддержка шифрования дисков в ZFS.". Проект OpenSolaris. Retrieved 2006-12-13.

[9] "Портирование ZFS в OSX". zfs-дискуссии. April 27 2006. Retrieved 2006-04-30. Check date values in: |date= (help)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]