РУС   |   УКР
ИНТЕРНЕТ-ЖУРНАЛ - "КОНТЕНТ"

Миллионы исторических изображений выложены в интернет


Август 29, 2014

Американский исследователь создает гигантскую базу данных из 12 миллионов исторических изображений, предоставляя возможность пользоваться ей по своему усмотрению любому желающему.

К этому моменту Калев Литару выложил 2,6 млн изображений Нажать в социальную сеть Flickr. Благодаря автоматически проставляемым ярлыкам база данных позволяет проводить поиск по всем картинкам.

Фотографии и рисунки взяты из более чем 600 млн книжных страниц, отсканированных в библиотеках организацией Internet Archive.

До сего дня получить доступ к подобным изображениям было довольно затруднительно.

Как говорит Литару, до сих процесс оцифровывания концентрировался в основном на текстах и игнорировал изображения.

"Все эти годы все библиотеки оцифровывали свои книги, однако их выкладывали в формате PDF или текстовых файлов с возможностью поиска по ним, - рассказал он в интервью Би-би-си. - Они сосредотачивались на книгах как на массивах слов. Мы же видоизменяем этот подход".

"Погружаясь на полтысячелетия в историю, удивительно наблюдать весь набор визуальных образов и как изображение предметов менялось с течением времени", - признается ученый.

По словам Литару, большинство иллюстраций, сохранившихся в книгах, уже не найти ни в одной галерее в мире, поскольку оригиналы давным-давно утрачены.

Выкладываемые на Flickr изображения охватывают период с 1500 до 1922 года, то есть до времени, с которого начинаются ограничения в связи с авторскими правами.

Ускоренный процесс

Калев Литару начал работу над своим проектом во время изучения технологии коммуникаций в Джорджтаунском университете в Вашингтоне по программе, спонсируемой интернет-гигантом Yahoo, которому принадлежит фотохостинг Flickr.

Для достижения своей цели Литару сам разработал программное обеспечение, чтобы видоизменить тот способ, которым книги оцифровывались первоначально.

Internet Archive ранее пользовалась программой оптического распознавания символов для анализа каждой из 600 млн отсканированных книжных страниц - чтобы перевести изображение каждого слова в электронный текст, пригодный для поисковых систем.

"Наберите, например, в поиске слово "телефон", и вы увидите, что на самых первых картинках изображены бизнесмены, в большинстве своем это мужчины. Затем вы увидите, как постепенно все больше превращается в устройство для поддержания связи между близкими людьми"

Калев Литару

В качестве составной части процесса программа определяла, какая часть страницы содержала изображение, для того чтобы пропустить ее.

Написанный Литару программный код использовал эту информацию, повторно обращаясь к оригинальным сканам, - на этот раз уже для того, чтобы выделить ранее отвергнутые фрагменты и сохранить их как картинку в формате JPG.

Программа также автоматически копировала подпись, сопровождающую каждое изображение, если она была, а также абзацы книжного текста, непосредственно предшествующие и идущие сразу вслед за иллюстрацией.

Каждый сформированный таким образом JPG-файл с сопутствующим текстом выкладывался после этого на отдельную страницу во Flickr, давая возможность пользователям вволю копаться в гигантском каталоге при помощи поиска по сайту.

По словам Литару, путешествие сквозь старинные изображения оставляет незабываемые ощущения: "Это одно из прекраснейших занятий. Наберите, например, в поиске слово "телефон", и вы увидите, что на самых первых картинках изображены бизнесмены, в большинстве своем это мужчины. Затем вы увидите, как постепенно все больше превращается в устройство для поддержания связи между близкими людьми".

Еще один пример такого развития, по словам ученого, - это железная дорога. "Самые первые образы, связанные с ней, повествуют об инновациях и прогрессе, который должен был изменить мир. Затем вы наблюдаете ее эволюцию, пока она не превращается в часть нашей повседневной жизни".

Вселенная изображений

Архивные работники говорят, что весьма впечатлены этим проектом.

"Обнаружение картинок внутри текста и снабжение тегами обширных коллекций изображений - невероятно трудное дело, - признается старший архивариус Университета Кембриджа доктор Алисон Перн. - Это очень умный способ обеспечить одновременно и количество, и возможность для поиска. И замечательно, что это доступно бесплатно и для для всех".

В амбициозных планах Литару - связать свой проект с самой известной энциклопедией в интернете. Он намерен заняться этим в следующем году, как только завершит работу над проектом. По его словам, он хотел бы, чтобы этими картинками были проиллюстрированы статьи в Википедии.

"Возьмите наугад любую статью об историческом событии, и есть большие шансы, что вы найдете в этой коллекции картинку, которая так или иначе связана с этим событием или с местом, где оно произошло, - говорит исследователь. - Возможности обогатить их таким образом были бы колоссальными".

Он также собирается предоставить исходный код своей программы для пользования всем желающим.

"Любая библиотека могла бы воспроизвести этот процесс у себя, - объясняет он. - На самом деле, я очень надеюсь, что библиотеки по всему миру воспользуются подобным процессом для своих оцифрованных книг, чтобы неуклонно расширять эту вселенную изображений".

По материалам BBC
Теги:
интернет сеть программа yahoo
  • Tweet

Теги
3D 3G 5G acer аккаунт amazon amd amoled android apple asus аутсорсинг blackberry cisco cloud DDoS dell девайс домен фаблет facebook фишинг fly Fonepad fujitsu гейтс google google play GPS хакер хостинг hp htc huawei ibm intel интернет интертелеком ios ipad iphone ips java джобс кибер киевстар компьютер контент краудфандинг lenovo lg life :) Lollipop lte mac microsoft motorola msi мтс-украина nexus nokia ноутбук oled panasonic philips планшет планшетофон портал программа программист провайдер робот samsung seo сервер сеть SIM skype смартфон софт sony стартап toshiba тримоб цукерберг tv twitter укртелеком вирус Vodafone web xiaomi yahoo yandex zte
Партнеры журнала
20 Окт.

Сделай сильный ход

Создание сайтов и интернет-магазинов компании CiM - веб сайты всем!

подробнее
Follow @contentcomua

Content.com.ua © 2014. Компанія "СіМ". Веб-cайти усім! Создание сайтов
  • О проекте
  • Виджет

Миллионы исторических изображений выложены в интернет