Веб-архив по запросу предоставляет первичную информацию о доменном имени, а именно о количестве сохраненных файлов, типов файлов, снимков (captures), и новых ссылках. Формат предоставляемых данных достаточно специфичен, и не каждый сможет разобраться, что означают цифры и как их правильно интерпретировать. 

Просмотреть первичную информацию можно на странице статьи "Как восстановить сайт из архива" введя название домена в текстовое поле. Скрин предоставлен ниже.
 

Из чего состоит сайт сохраненный в веб-архиве?

Он состоит из файлов разного типа. Это могут быть PNG изображения, XML файлы, JPG изображения, CSS файлы, шрифты и т.д. Как правило, сами же страницы хранятся в формате HTML.Количество данных файлов может быть любым. Информацию о типах файлах и их количестве, мы называем первичной информацией о сайте.

Правила хранения и сортировки файлов

Правило №1. Один сохраненный файл является уникальным в рамках одного года, в случае если он не изменялся.
Допустим, у нас есть один какой-то файл, пусть это будет HTML файл главной страницы. Если данный файл не меняется (содержимое) в течении одного года, то можно считать его как одну уникальную страницу. Если же файл как-то изменился, например блок с новостями обновился, то за текущий год вы увидите 2 уникальные страницы. Тоесть, для веб-архива они будут уникальны, но по сути для нас это просто главная страница.

Правило №2. Два идентичных файла за 2 разных года посчитаются как 2 уникальных файла.
Например страница не менялась в 2016 году, и не менялась в 2017. При отображении информации о сумме за 2 года уникальных страниц получится 2.

Правило №3. В коде сайта хранятся ссылки на самые последние версии файлов которые сохранил себе в базу архив.
Это означает, что если вы возьмете дату восстановления сайта, например 12 декабря 2012 года, то он восстановится со всеми ссылками и файлами за текущий и предыдущие годы при условии присутствия соответствующих ссылок.

Данная логика работает для всех типов файлов, будь то изображения или CSS, не важно. Логика остается именно такой.

Разбираем на примере как правильно подойти к оценке первичной информации

Возьмем всем известный ресурс - cian.ru. Вводим домен в текстовое поле на нашей странице и получаем информацию представленную ниже на скриншоте. Выбираем 2010 год.
 

 

Количество HTML страниц = 630. Что это означает? Это значит, что за 2010 год веб-архив увидел 630 уникальные страницы. При этом, если главная страница менялась например 30 раз, то для нас будет уже 600 уникальных страниц. Тоесть по сути это может быть и 200 страниц, но они обновляемые и поэтому считаются как уникальные.

* При восстановлении сайта у нас, мы берем самую последнюю версию страницы, т.к. невозможно сохранить например 2 главные страницы и на них ссылаться. Поэтому сайт будет наиболее полным и ничего не потеряется. Все зависит от того сколько к себе сохранил на сервер веб-архив.

Бывают ситуации, когда в начале года был старый сайт, а в середине года изменился на новый: поменяли дизайн, структуру ссылок и т.д. В данном случае все страницы посчитаются как уникальные, и при восстановлении нужно указывать последнюю версию с тем дизайном, который вам нужен.

Так как реально оценить сколько уникальных (для пользователя) страниц не предоставляется возможным, то мы предоставляем то суммарное количество файлов больше которого точно сайт не будет. Да, это не совсем корректная оценка, но хотя бы приблизительно можно понять размеры ресурса.
 

492 039 HTML страниц - это сумма страниц за все годы.

Надеемся, что все вышеописанное не будет сложным для понимания и снимет множество вопросов. Если есть вопросы относящиеся к данной теме, но не описанные в статье - пишите нам на почту, с радостью ответим.