12 сент. 2011 г.

Дорога в никуда

Добрый день.

Давайте зайдём издалека. Вот почему многие люди знают, что 404 является кодом ошибки «Не найдено» в стандарте HTTP? Можно, например, задать любой поисковой системе вопрос «site:bash.org.ru/quote 404», чтобы увидеть цитаты с этим числом («сдал куртку в гардероб и получил номерок 404», «я понимаю, когда отдел ИТ отказывается устанавливать сервер в кабинете № 404», «До чего интернет довел - раньше люди боялись числа 666, теперь вздрагивают при виде числа 404» и так далее).

Люди знают этот код, потому что они с ним регулярно сталкиваются. За последнее десятилетие мы привыкли к тому, что любая ссылка может вести на несуществующую страницу. Если это какая-то дурацкая страничка-однодневка, то не жалко. Но как же раздражает невозможность прочитать текст с большого и серьёзного сайта, на который кто-то сослался один или два года назад!

Забавно бывает в статье какой-нибудь ленты.ру или газеты.ру обнаружить ссылку на более раннюю их же статью (наверное, с близким по духу сюжетом), которая уже недоступна. Ну что за идиоты таланты?! Зачем каждый год менять формат адресов статей? Из-за этого ломаются все старые страницы, а лучше не становится. Мне регулярно в комментариях к старым заметкам пишут, что такая-то ссылка больше не работает. И тогда приходится редактировать свой старый текст (иногда удаётся найти новый адрес того материала, на который стояла ссылка, но чаще убираю, потому что уже не могу вспомнить, на что именно ссылался несколько лет назад). И это бывало с разными ресурсами: с новостными сайтами, с блогами, с интернет-магазинами (год назад Proball был спонсором конкурса, а с тех пор я уже несколько раз правил ссылку на главный приз, потому что они её постоянно меняли — теперь оставил только ссылки на главную страницу магазина).

К чему приводит эта манера из здоровой работающей страницы с полезным кому-то текстом/изображением делать ответ «404. Страница не найдена»? К тому, что ссылаться на чей-то материал хочется всё меньше, а скопировать его себе — всё больше. Давайте возьмём первую попавшуюся (не особенно популярную) историю о корявом переводе, которую легко найти по запросу «Кулверстукас и Крокодилас Генас». Гугл знает пару тысяч мест, куда её растиражировали! И если бы я захотел этой историей с вами поделиться, то я бы тоже не стал ставить ссылку ни на один из этих двух тысяч сайтов, так как в любой момент любой из таких адресов может смениться (плавали — знаем), из-за чего окажется, что уже я направляю вас в никуда.

Как решать это создателям сайтов? Да всё давно придумано (и нормальные администраторы сайтов так и делают): кроме ответа 404 есть же ещё ответ 301 («перемещено туда-то»). Другими словами, если владельцу сайта вдруг загорелось сменить адреса вида /2011/sent/12/ на /11/09/12/, то нет никакой сложности в организации 301-перенаправления со старых адресов на новые. И тогда люди, когда-то давно сделавшие глупость добавившие себе эту страничку в «Избранное» или поставившие на неё ссылку со своего сайта/блога, не окажутся внезапно у сообщения «Вам здесь не рады».

Дорога в никуда — это не только ссылка, установленная на несуществующую страницу. Дорога в никуда — это безудержное тиражирование текстов, изображений, видео- и аудиороликов. Объём данных, доступных для скачивания в сети, в тысячи раз превышает объём уникальных данных. Интернет давно стал свалкой (так как ценной информации всегда было относительно мало), но за последнее десятилетие развелось столько способов почти автоматически «перепостить» бесплатно online в кучу мест, что сеть прямо заросла копиями. Почти на любой поисковый запрос google/yandex/... предложит нам на выбор одну из нескольких одинаковых страниц. Но мы же хотим выбрать лучшую из нескольких разных! И это происходит не из-за ленивости поисковых машин (они многое делают для борьбы с дублями), а от привычного копирования чужих материалов вместо проставления ссылок на исходники.

Вопрос авторам и администраторам блогов/сайтов: как вы боретесь с тем, что ссылки с ваших ресурсов постепенно теряют актуальность? Я могу написать скрипт, который обнаружит все ссылки, ведущие на несуществующие страницы, но не всегда могу их исправить, так как достаточно трудно вспомнить, что же раньше было по тем адресам...

Хорошего дня!

17 комментариев:

  1. Стараюсь не менять формат ссылок)

    ОтветитьУдалить
  2. cray, исключительный Вы человек!
    Но это не помогает, к сожалению. Ведь если Вы со своего сайта ссылаетесь на другие сайты (которые иногда меняют структуру урлов), то окажется, что именно на Вашем ресурсе есть битая ссылка.
    Вопрос именно в этом — как бороться со ссылками со своих сайтов на несуществующие страницы чужих ресурсов?

    ОтветитьУдалить
  3. Анонимный12.09.2011, 17:21

    archive.org, Luke.

    ОтветитьУдалить
  4. Небольшое уточнение. 301 - это не перемещно туда-то. Это перемещено куда-то навсегда. Есть еще 303 See Other, 307 Temporary Redirect.

    http://ru.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D0%BA%D0%BE%D0%B4%D0%BE%D0%B2_%D1%81%D0%BE%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D1%8F_HTTP#3xx

    ОтветитьУдалить
  5. Уважаемый аноним, archive.org хорош, чтобы посмотреть, как выглядели сайты давным-давно (когда интернет был на порядки меньше). Сейчас же многие ресурсы не попадают в archive.org хотя бы одной страничкой, даже если существуюют несколько лет. Например, этот блог удостоен внимания этого сервиса всего шесть раз (сохранена была только главная страница). Поэтому шансы найти нужную утерянную запись именно на archive.org не очень велики (но пробовать, конечно, стоит).

    Enlightened, верно, спасибо за дополнение. Именно поэтому при изменении адресации я предлагаю делать со всех старых страниц 301-редирект на новые адреса.

    ОтветитьУдалить
  6. Я использую darcs в качестве системы контроля ревизий для моего сайта. Если пользователь идет на страницу, которой уже нет, то движок сайта смотрит в историю изменений и выдает либо 301 (перемещено, переименовано), либо 410 (удалено), либо 404 (извините, у вас руки кривые).

    ОтветитьУдалить
  7. Тю, вопрос был про внешние ссылки.

    Только тиражированием и спасаемся. Есть http://peeep.us для страниц, есть http://dump.bitcheese.net для картинок, есть "wget -r -p -k -K -E --no-parent" для сайтов. Кто его знает, что держателю контента в голову придет.

    ОтветитьУдалить
  8. Анонимный13.09.2011, 05:49

    Доброго времени суток!
    При правке публикации, содержащей ссылку на несуществующую страницу имеет смысл прогнать адрес этой самой ссылки через поисковик.
    Во-первых, в кэше поисковика наверняка найдётся исходная страница, что поможет вспомнить, на что вы ссылались.
    Во-вторых, ввиду множества репостов, велика вероятность наткнуться на точную копию текста исходной статьи, автор который не поленился указать в постскриптуме "взято отсюда...".

    ОтветитьУдалить
  9. Анонимный13.09.2011, 08:40

    1. Можно вовсе отказаться от внешних ссылок, заменяя их текстовым описанием типа "подробнее читайте в статье <> на сайте таком-то"... Искать будет сложнее, теряется гипертекстовость, но в случае изменения адреса шанс найти одну из копий статей значительно возрастает.

    2. Вместо ссылки на статью давать ссылку на поисковую страницу с закавыченным поиском уникального отрывка текста статьи.

    3. Пользоваться метаинформацией типа a href="url" title="Очень интересная статья про равнобедренные треугольники, находится по словосочетанию безудержное тиражирование".

    ОтветитьУдалить
  10. Кроме archive.org есть еще кэш гугла. Эта страничка, например, уже закэширована - http://goo.gl/7KWgM

    ОтветитьУдалить
  11. Кстати, раз уже вспомнили о http://peeep.us, вот любопытная статья от создателя сервиса, как раз близко по тематике к этой посту - http://habrahabr.ru/blogs/infosecurity/127359/

    ОтветитьУдалить
  12. Alexander Markov, ну да, выкачивать к себе все страницы, на которые хоть когда-то ссылался — это решение. Видимо, придётся это автоматизировать.

    Уважаемые аноним и Vit@liy, кэши поисковиков довольно быстро забывают содержимое давно исчезнувших страниц. Но поискать там, конечно, стоит.

    Спасибо за ссылку о юридических тонкостях и peeep.us.

    ОтветитьУдалить
  13. Анонимный16.09.2011, 17:17

    > Дорога в никуда — это безудержное тиражирование текстов, изображений, видео- и аудиороликов.

    Тут есть и плюс: информация не пропадет, если какой-то сайт закроется или его закроют. Все интересное, что попало в есть, уже не вычеркнуть оттуда. "слово не воробей"

    ОтветитьУдалить
  14. думаю, для личного блога можно использовать такое решение- указывать ссылку на расшареную заметку в Evernote. Дополнительный плюс-он сохраняет и картинки, а то по старой ссылке на хабр перейдеш, а все иллюстрации уже не работают.

    ОтветитьУдалить
  15. Уважаемый аноним, всё верно, информация с трудом пропадает из сети, если уж хоть раз туда попала.
    Но битые ссылки не из этой оперы, так как если мы не знаем, на что именно стоит ссылка, то и не имеем доступа к той информации (хоть она и осталась где-то ещё в интернете).

    Doctor Vania, ну да, есть такие сервисы. Можно попробовать автоматизировать выгрузку всех страниц (с картинками), на которые стоят ссылки с блога, в какое-нибудь такое хранилище.

    ОтветитьУдалить
  16. Чем отличается загрузка к себе в хранилище всей информации на которую делаешь ссылку на чужой сайт от простого копирования этой информации и размещения у себя на своём блоге / форуме и пр.?
    Тем, что ты скопипастил, но честный? Ты не показываешь это никому, а покажешь только тогда, когда ссылка умрёт и информацию на которую ссылалась она будет восстановлена уже на своём блоге? А разница в чём тогда? Отсрочка в тиражировании, не более.

    Мне кажется ничего страшного в тиражировании нет. Раз уж по другому человечество не может развиваться, то надо подстраиваться под человечество. Что было до интернета? Рассмотрим библиотеку: приходишь в библиотеку с поиском ответа на вопрос. Тебе библиотекарь сразу суживает поиски до полки с определённой направленностью. Но опять же там не 1 книга. А несколько, может быть десяток. Возможно разных авторов на одну и ту же тему. Пока не прочтёшь каждую нельзя сказать тебе полезен был этот ресурс или нет. Чем-то отличается от интернета? Далее, можно прочесть все книги и понять, что в этой библиотеке нет тебе нужной. Опять, чем-то отличается от интернета? Мне кажется ничем, кроме скорости. С интернетом происходит тоже самое, но чуть быстрее. Остаётся старый проверенный способ: искать по знакомым. Человек в принципе окружает себя похожими на себя людьми. Похожими по уровню развития, по интересам, и пр. Вот этот же блог, его читает определённый читатель. И например, я, если задам вопрос я примерно буду понимать какое качество ответа на него будет и соответственно настолько же буду доверять полученной информации. Так что свалки свалками. Странным мне кажется сам подход. Мне кажется это попытка найти способ как на свалке построить некую систему, что бы проще было находить нужный материал. А зачем? К чему эта борьба с ветряными мельницами?

    ОтветитьУдалить
  17. Зачем? Чтобы мир становился лучше :)

    ОтветитьУдалить

Понравилась заметка? Подпишитесь на RSS-feed или email-рассылку.

Хотите поделиться ссылкой с другими? Добавьте в закладки:



Есть вопросы или предложения? Пишите письма на адрес mytribune АТ yandex.ru.

С уважением,
      Илья Весенний