Электрификация

Справочник домашнего мастера

Оцифровка книг

Содержание

Как сделать электронную копию бумажной книги

Что для вас значит книга? Если это не просто увлекательный попутчик, но и мудрый наставник, то вы хоть раз задумывались о том, чтобы сберечь ее на будущее. Оцифровка бумажных книг имеет два несомненных преимущества: книга в электронном виде всегда под рукой, и ей очень легко делиться.

Из этого мануала вы узнаете об основных этапах создания удобной электронной версии бумажной книги с навигацией и возможностью копирования текста.

Вступление

Стоит оговориться, что в век бурной защиты авторских прав и легкой доступности литературы, изначально сверстанной в электронной форме, имеет смысл оцифровывать либо старые фундаментальные советские учебники, либо что-то действительно редкое и только для личного пользования.

Имея доступ к старым техническим справочникам, я иногда безвозмездно помогал тем незнакомым мне людям, которым так не хватало хороших источников знаний для обучения. И коль уж я подряжался, хотелось выполнить свою работу на достаточно высоком уровне, чтобы читателю книги было приятно в нее погружаться.

Этап 1. Копирование книги

Со временем многие процессы упрощаются. Если с пяток лет назад этот этап был крайне продолжительным (приходилось пользоваться сканером), то с улучшением камер мобильных телефонов затрачиваемое время существенно сократилось. Конечно, камера камере рознь, но, если подобрать приемлемые условия съемки, должен подойти любой более-менее современный телефон.

Разумеется, использование сканера все же более предпочтительно. Особенно если дело касается технической литературы, содержащей множество формул и чертежей.

Предвосхищая события, отмечу, что снимки впоследствии будут обработаны специальной программой. Но все же стоит добросовестно отнестись к самой съемке, дабы не ставить качество конечного продукта в зависимость лишь от постобработки.

Пример не самого хорошего снимка: освещение страдает, страницы до конца не выпрямлены. Все ради эксперимента

Поэтому постарайтесь максимально широко раскрывать страницы, чтобы изгибы у корешка книги были минимальны. Было бы здорово, если бы вам кто-то в этом помогал. Один человек держит телефон, а второй переворачивает и выпрямляет страницы. Ко всему прочему, студенты любят делать на библиотечных книгах пометки, и неплохо было бы их стереть.

Делаем серию снимков и перекидываем их на компьютер в отдельную папку. Пришла пора поработать неживому мозгу.

Этап 2. Обработка

Я сталкивался с двумя серьезными программами для обработки отсканированных (сфотографированных) книг: ScanTailor и ScanKromsator. Возможно, за годы моего инактива появились еще какие-то достойные альтернативы, но я сомневаюсь — уж очень мала и бедна пользовательская ниша. Самые прожженные книгоделы предпочитают ScanKromsator. В нем предельно много настроек и возможностей, но разобраться и понять все предложенные навороты, видимо, не в состоянии и сам автор программы (шутка). Поэтому я рекомендую вам ScanTailor. Мне довелось следить за развитием этой утилиты с первых дней ее существования. Разработчик еще несколько лет назад прекратил поддержку проекта, но все-таки дал миру хороший инструмент для обработки сканов.

Начало работы

Работа в ScanTailor последовательна и проста. Все промежуточные действия отображены в левой части рабочей области, вы с легкостью вольетесь в процесс.

Выберите папку с исходниками, выходная папка будет создана автоматически. Для всех страниц установите максимально возможное DPI — 600 × 600. Мощности современных компьютеров позволяют достаточно быстро обрабатывать такие изображения.

Не жалейте DPI для своей книги

Шаг 1. Исправление ориентации

Самый простой и быстрый шаг. Скорее всего, вы изначально фотографировали страницы с верной ориентацией, потому и хлопот возникнуть не должно. Отмечу лишь, что изначально ScanTailor будет предлагать вам запустить пакетную обработку текущего действия (небольшой значок Play напротив шага) — обязательно им пользуйтесь, дабы не щелкать по каждому изображению отдельно.

На мой взгляд, ScanTailor может гордиться своим продуманным интерфейсом

Шаг 2. Разрезка страниц

Практически беспроблемный шаг. Я крайне редко встречал ошибки программы на этом этапе. Обязательно обратите внимание на обложку книги — именно здесь зачастую возникают нюансы.

Большей наглядности и придумать трудно

Шаг 3. Компенсация наклона

В подавляющем большинстве случаев алгоритм срабатывает корректно. Не ждите подвоха, переходите к следующему шагу.

К вашим услугам ручная настройка до долей градуса

Шаг 4. Полезная область

Наверное, это самый ответственный момент. Только содержание книги имеет определяющее значение, оформление — дело вторичное. Именно с этого шага начинает работать связка «компьютер — человек». В программе порой случаются небольшие сбои, поэтому после автоматической обработки пробегитесь глазами по миниатюрам страниц в правой части экрана. Обычно ошибки сразу бросаются в глаза.

«Бракованная» полезная область будет видна при просмотре миниатюр страниц

Шаг 5. Поля

Размер полей — дело вкуса. Более важным моментом является возможность выравнивания размеров страниц. Не забудьте поставить эту галочку, чтобы не получить на выходе «пляшущие» страницы.

Обложку обычно приходится дорабатывать в графическом редакторе

Шаг 6. Выход

Последний бой — он трудный самый. Плюс самый ресурсоемкий для вашего компьютера и самый требовательный к вашему вниманию.

Необработанные страницы помечаются вопросительным знаком

Финишный отрезок знаменуется рядом важнейший действий. Прежде всего вы определяете выходной режим книги: черно-белый, цветной или смешанный. Затем страницы очищаются от мусора, искривленные строки выравниваются. Не буду вдаваться в подробности, но укажу вам на не самые заметные закладки, расположенные несколько нелогично и непривычно — между превью страницы и лентой миниатюр. Каждая закладка отвечает за важную функцию ручной настройки получаемых изображений. Если вы найдете желание и время вникнуть в принцип их работы, ваши книги будут более высокого качества.

Страница до и после корректировки искажения строк

Итог

Стремясь к идеалу, на эту работу вы можете потратить не один час. Все зависит от вашей заинтересованности в конечном результате и качестве исходных снимков. Да, я еще раз возвращаюсь к этой теме. Чуть большие старания на этапе подготовки могут сэкономить огромное количество времени, которое уходит на приведение страниц в приличный вид.

Прошу не брать за образец приведенные скриншоты — на все про все у меня ушло не более пары минут. Я не сомневаюсь, что забыл указать вам на некоторые нюансы работы со ScanTailor — слишком давно я ничего не обрабатывал с его помощью.

В итоге вы получите набор разрозненных страниц в формате .tif. Пора сшиваться!

Этап 3. Создание djvu-файла

Если вы хотите быстро сварганить DjVu-файл, обратитесь за помощью к малюсенькой утилите DjVu Small. Есть и более серьезные программы, например DjVu Editor Pro. Конечно, предпочтительным видится применение второго инструмента. Но решать вам: установите обе программы и сравните их возможности.

Что касается создания PDF — в Интернете есть вагон и маленькая тележка соответствующих программ и веб-сервисов.

Этап 4. Создание OCR-слоя

Одним из признанных мировых лидеров в распознавании текста несомненно является компания ABBYY с ее известным продуктом FineReader. Наверное, нет таких людей, которые не слышали об этой программе, поэтому и расписывать особо нечего. С недавнего времени FineReader умеет открывать и сохранять результаты работы прямиком в DjVu, что исключает необходимость использования промежуточного софта.

Этап 5. Создание оглавления

На просторах Сети довелось встречать положительные отзывы о программе Pdf & Djvu Bookmarker. Как становится понятно из названия, софтина умеет работать с обоими самыми распространенными форматами электронных книг.

Скорее всего, вы не осилили много букв и сразу перешли к выводам. А они для рядового человека неутешительны. Электронное книгоиздание — дело хлопотное, полное трудностей и сюрпризов. Чтобы дослужиться даже до «зеленого пояса», вам придется потратить кучу времени. Оцифровка бумажных книг на высоком уровне — удел энтузиастов. Если вы все же решитесь пройти чертову дюжину кругов ада, то получите непередаваемые впечатления. Всегда приятно делать что-то общественно полезное и получать за это обычные человеческие благодарности.

Но в целом рекомендую остановиться после обработки в ScanTailor, объединить разрозненные страницы в PDF и дальше не лезть в дебри.

Как показало недавнее исследование, половина офисных сотрудников тратят 50% времени на работу с документами. Каждому бухгалтеру, финансисту, юристу, менеджеру и другим специалистам регулярно приходится создавать электронные копии документов, причем, в среднем, на перепечатывание одной страницы вручную они тратят около 10-15 минут. Половина сотрудников утверждают, что раз в неделю и чаще сравнивают документы, чтобы найти в них возможные несоответствия и предотвратить подписание или публикацию некорректной версии. В 90% случаев они параллельно вычитывают оба варианта текста и тратят на это более 4 часов в неделю. Как справляться с этими задачами быстрее, перестать задерживаться на работе и уделять больше времени другим, более важным делам?

Вам нужно перевести бумажные документы в электронных формат

Вопреки разговорам, число бумажных документов в офисах не сокращается. Ежедневно с ними работают 76% офисных сотрудников. Если вы тоже регулярно сталкиваетесь с «бумагами» и создаете их электронные копии, чтобы внести правки или найти в них информацию, подумайте об использовании специализированных программ.

Например, ABBYY FineReader 12 быстро распознает отсканированные или сфотографированные документы на 190 мировых языках и преобразует их в электронные редактируемые файлы или PDF. Кроме того, программа умеет работать даже со сложными документами, в которых есть таблицы, примечания и другие сложные элементы.

Работать с FineReader очень просто. Всего пара кликов – и ваш документ преобразован в нужный формат. В программе можно параллельно сравнить полученный текст с исходным изображением, а также, если нужно, внести в него правки.

Чтобы распознать документ в ABBYY FineReader 12, вы можете просто сфотографировать его на камеру мобильного телефона или планшета. Программа автоматически улучшит качество изображения, а значит, и результат распознавания. Также вы можете, если нужно, вручную обработать снимки документов в «Редакторе изображений»: осветлить его, сделать более контрастным, обрезать лишние границы и многое другое.

Вам необходимо скопировать небольшую часть многостраничного документа, и вы не хотите ждать, пока программа распознает его целиком? ABBYY FineReader 12 мгновенно открывает все страницы документа. Можно просто перейти к нужной, выделить требуемую область и нажать «Копировать», а программа распознает ее содержимое автоматически.

Результаты распознавания вы сможете скопировать в файл или отправить сразу в Word, Excel, PowerPoint и другие программы.

Вы регулярно работаете с PDF-документами

Половина сотрудников постоянно вносят правки в текст бумажных документов и PDF-файлов. В PDF-документах сотрудники ищут информацию, копируют текст, вносят правки, меняют порядок страниц, а также объединяют файлы различных форматов в один PDF. Многие работники отмечают, что выполнить все эти задачи сложно без помощи специальных программ. Наиболее частая проблема – работа с PDF-документами, полученными при сканировании. Они состоят только из изображения страницы и не содержат текстового слоя, поэтому даже для копирования и поиска информации в них необходимо распознать текст. C невозможностью скопировать текст из PDF минимум раз в месяц сталкивается 81% офисных сотрудников.

Эту проблему, как и другие задачи можно решить только специализированными программами. Одна из таких программ – ABBYY PDF Transformer+.

Так, при открытии PDF-файла, содержащего только изображение страницы, ABBYY PDF Transformer+ автоматически добавит к нему текстовый слой. Программа позволяет искать и копировать информацию из PDF-документов на 189 языках. Можно скопировать из любого PDF-файла даже часть информации – текст, таблицы и изображения – и вставить ее в другую программу: Word, Excel, PowerPoint и т.д. ABBYY PDF Transformer+ позволяет быстро поправить опечатку или заменить цифру в PDF-документах, удалить ненужный элемент или добавить текстовый блок даже в отсканированный документ.

В ABBYY PDF Transformer+ можно создавать PDF-документы из нескольких файлов различных форматов. Кроме того, программа позволяет быстро создать новый PDF-файл из одной или нескольких страниц открытого документа.

Если вы занимаетесь согласованием PDF-документов, ABBYY PDF Transformer+ значительно упростит вам работу. В программе можно добавлять именные комментарии и статусы к обсуждениям («Принято», «Отклонено», «Отменено» или «Завершено»), просматривать все комментарии к странице или всему документу. ABBYY PDF Transformer+ позволяет отсортировать комментарии по автору, дате или статусу обсуждения.

Также вы можете отметить статус документа или подчеркнуть его конфиденциальность, добавив на него уникальный штамп. Чтобы посторонние люди не смогли открыть, отредактировать или напечатать ваш документ, ABBYY PDF Transformer+ позволяет дополнительно установить защиту паролем. С программой вы можете не только подписать документ цифровой подписью, но и обнаружить, что в документе после подписания произошли изменения. К цифровой подписи можно добавить изображение, например, вашей подписи от руки.

Вам нужно сравнить версии документов

Половина офисных сотрудников раз в неделю и чаще сталкиваются с задачей сравнения документов. Более 60% из них – тратят более 4 часов в неделю на решение этой задачи. В 90% случаев, чтобы сравнить две версии документа, сотрудникам приходится параллельно вычитывать обе версии текстов. Решить эту задачу быстрее можно с помощью специализированного ПО, в частности, ABBYY Comparator.

Программа быстро выявляет значимые несоответствия в тексте и помогает предотвратить подписание или публикацию некорректной версии документа. У ABBYY Comparator простой и понятный интерфейс. Все, что вам нужно– загрузить отсканированное изображение документа. Программа автоматически распознает текст перед поиском различий с эталонным документом.

ABBYY Comparator находит существенные различия в документах, такие как удаление, добавление и исправление. Все несоответствия можно увидеть на отдельной панели справа, а также они подсвечиваются по тексту в обоих документах.

Кроме того, программа позволяет создать подробный отчет-таблицу о различиях и сохранить в формате Word или PDF-документа. Такой отчет можно, например, приложить к письму о согласовании документов.

ABBYY Comparator позволяет сравнить два документа любых форматов: PDF, изображения, Word, Excel, PowerPoint и многие другие.

Программа поможет существенно сэкономить время юристам, менеджерам по продажам, финансистам, логистам, а также всем офисным сотрудникам, которые сталкиваются со сравнением документов – договоров, актов, технической документации или других документов.

Таким образом, сегодня можно упростить работу с документами, используя специализированные программы, которые значительно сэкономят ваше время и позволят сосредоточиться на более важных делах. Кстати, до 30 ноября пакеты программ ABBYY для работы с бумажными и PDF-документами доступны со скидкой до 25%.

Он-лайн конвертер электронных книг

Объявление

Он-лайн конвертер

Наш он-лайн конвертер электронных книг поддерживает большое количество форматов — PDF, ePub, HTML, LIT, LRF, mobi и т.д. Выберите формат конечного файла ниже и начните конвертирование. Если вы не уверены, какой формат поддерживает ваша программа для чтения, вы можете получить больше информации по адресу mobileread.com.

Конвертируйте электронные книги в формат Kindle AZW 3

Бесплатный конвертер электронных книг, позволяющий конвертировать ваши электронные книги в формат AZW 3 от Amazon для вашего Kindle. Читать далее…

Конвертируйте текст в формат эл. книг ePub

Конвертируйте текст вашей электронной книги в формат ePub с помощью бесплатного он-лайн конвертера ePub. Выберите "читалку" конечного файла для обеспечения лучшего качества конвертирования. Читать далее…

Конвертируйте текст в формат эл. книг FB2

Конвертируйте текст или другие электронные книги в формат FictionBook FB2 с помощью бесплатного он-лайн FB2-конвертера. Выберите "читалку" конечного файла для улучшения качества конвертирования. Читать далее…

Конвертируйте текстовый файл в формат эл. книг Microsoft LIT

Создавайте электронные книги в формате LIT для устройств компании Microsoft с помощью бесплатного он-лайн конвертера. Укажите тип устройства для чтения полученного файла для оптимизации конвертирования. Читать далее…

Конвертируйте файлы в формат электронных книг Sony LRF

Конвертируйте ваши PDF файлы, электронный книги или текст в формат Sony LRF с помощью бесплатного он-лайн конвертера. Выберите тип устройства, которое вы будете использовать для чтения файла. Читать далее…

Конвертируйте текст или электронные книги в формат mobi

Он-лайн конвертер MOBI, который может преобразовывать документы и электронные книги в формат электронной книги mobi. Вы также можете указать тип устройства для чтения полученного файла. Читать далее…

Конвертируйте электронные книги в формат Palm PDB

Бесплатный конвертер электронных книг, позволяющий конвертировать ваши электронные книги, документы или текстовый файл в формат Palm PDB высокого качества. Читать далее…

Конвертируйте текст в формат PDF, оптимизированный для электронных книг

Конвертируйте ваш текст в оптимизированный для электронных книг формат PDF с помощью бесплатного конвертера электронных книг. Выберите тип устройства для чтения конечного файла. Читать далее…

Конвертируйте электронную книгу в формат TCR

Бесплатный он-лайн конвертер позволяет вам легко конвертировать электронные книги и текстовые файлы в формат TCR высокого качества. Читать далее…

В случае проблем с созданием электронной книги напишите нам.

Почему библиотека является наиболее ярким образом системологии – фундаментальной науки, изучающей организацию процессов и явлений в мире? Ответ кроется в фонде и справочно-поисковом аппарате библиотеки. Для обычного читателя книги на полках и есть фонд, но это не совсем так. Библиотечный фонд – это сложная по структуре совокупность документов, представленных на различных носителях информации, соответствующая определенным отраслям знаний и связанная со специализированным поисковым механизмом на основе карточного каталога.

Даже размещение журналов на стеллажах библиотеки основываются на научном подходе: информетрический закон Брэдфорда объясняет закономерность распределения статей по изданиям и тем самым позволяет с большой вероятностью спрогнозировать востребованность материалов, исходя из специфики информации.

Иначе говоря, библиотекам удалось создать идеальную систему классификации и структурирования информации, которая позволила решить проблему хранения и поиска огромных объемов данных из любых источников. Для этого были разработаны специализированные библиотечные классификаторы, регламентирующие распределение и расстановку фондов, методы организации систематических каталогов, стандарты оформления и учета документов.

Об оцифровке

Когда мы говорим об оцифровке книг любой библиотеки, то, помимо сохранности оригиналов и обеспечения аутентичности электронной копии, необходимо помнить о сохранении идентичности структуры классификации и поиска информации в бумажном и электронном фонде. Другими словами, сканирование книг требует обязательного создания электронного каталога и формирования индексно-поисковой базы данных с максимальной полнотой наполнения.

Проекты по созданию электронных ресурсов библиотек
являются одними из самых сложных и насыщенных с точки зрения трудозатрат,
применяемых методологий и технического исполнения.

Возникает естественный вопрос – зачем? Зачем при такой сложности реализации подобных проектов затевать оцифровку библиотечных материалов, ведь «книги могут храниться веками», да и «вообще в библиотеку уже никто не ходит»?

Это ошибочное мнение. В последние годы библиотеки активно меняются, внедряют современные технологии и стандарты обслуживания для удовлетворения потребностей нового поколения читателей, воспитанных на свободе использования цифрового контента. Принимаются программы по переоснащению, в практику работы вводятся индексы эффективности деятельности, создаются единые каталоги, региональные и краеведческие электронные коллекции. В 2015 г. запущена Национальная электронная библиотека (НЭБ), для развития которой проводится регулярная оцифровка фондов российских библиотек.

Не стоит забывать и о сохранности бесценных знаний и культурных ценностей, накопленных в книгохранилищах по всей стране. Для этих целей оцифровка – самый эффективный способ сохранения изданий и обеспечения безопасного доступа к содержащейся в них информации.

Электронный каталог

Проект в одной крупной библиотеке продолжался с 2003 по 2011 гг. В ходе проекта было выполнено сканирование и индексирование более 2 млн карточек систематического каталога на русском и иностранных языках. В АБИС перенесены данные по 17 полям с каждой карточки.

Основа основ автоматизации современных библиотек – создание электронного каталога и наполнение автоматизированной библиотечно-информационной системы (АБИС). АБИС необходима для автоматизации учета фондов. А полноценный электронный каталог значительно увеличивает эффективность и скорость поиска информации, значительно повышая общее качество обслуживания читателей.

Как правило, в библиотеке ведутся несколько видов каталогов: алфавитный, в котором все карточки расставлены по алфавиту; систематический, где карточки расставлены по отраслям знаний. Существуют каталоги, разделяющиеся по охвату фонда: генеральный или отдельных частей фонда; по назначению: читательский или служебный; по многим другим признакам: краеведческий, предметный и т.д.

При большом количестве фондов
оцифровка всего каталога – довольно длительный процесс,
который обычно проводится поэтапно.

Основа каталога – это библиотечная карточка, содержащая информацию об издании, индексы классификации, номер книги (ISBN) и другие данные. Ввиду большого объема специфической информации, карточка является сложнейшим документом для извлечения индексных данных. Еще больше затрудняют обработку информации записи на иностранных языках, рукописный текст или диакритические знаки (различные надстрочные, подстрочные, реже внутристрочные символы).

Одна библиографическая запись может содержать до 24 разных полей. Перенос записей в систему напрямую с бумажных носителей нецелесообразен из-за низкой скорости и риска потери/пропуска ключевой информации, поэтому работы по созданию электронного каталога подразумевают обязательное предварительное сканирование библиотечной картотеки, формирование и проверку индексной базы данных перед загрузкой в АБИС.

Даже в небольшой библиотеке количество карточек исчисляется тысячами единиц. В таких условиях искать собственные кадровые и технические ресурсы и самостоятельно заниматься формированием электронного каталога практически невозможно, поэтому для экономии времени и денег привлекаются профессиональные подрядчики, которые специализируются на обработке библиотечной информации и готовы гарантировать итоговый результат.

Типовой технологический процесс создания электронного каталога

Оцифровку целесообразно производить на территории библиотеки, чтобы не изымать библиотечные карточки из использования и не нарушать работу с читателями. Процесс делится на несколько этапов:

Экспертиза. Оценивается физическое состояние карточек и объемов картотеки. Определяется состав библиографического описания и требуемый формат машиночитаемых записей. Исходя из полученных данных, составляется дальнейшая технологическая цепочка работ. На перечень работ и методы извлечения данных влияют нюансы в написании символов, формате и даже составе материала (картон, бумага). Ниже приведены возможные типы карточек:

Современное оборудование позволяет достигать скорости сканирования 170 карточек в минуту, при этом выбор профессионального сканера позволяет избежать повреждения самих карточек.

  • добавочная карточка. Особенность: печатные и рукописные символы,
  • разделитель. Особенность: отличный от стандартного формат карточки,
  • ссылочная карточка. Особенность: только рукописные символы,
  • описание. Особенность: старорусский текст.

Сканирование. Поточное сканирование бумажных карточек осуществляется на высокоскоростных документных сканерах. Стандартные требования к оцифровке: разрешение 300 dpi, черно-белый режим сканирования, формат файлов TIFF или JPEG. Большинство карточек типового размера 130х80 мм, но встречаются до формата А6 (148х105 мм) включительно. Иногда перед сканированием производится склейка поврежденных карточек. Часто проводится двустороннее сканирование карточек, где на обратной стороне содержатся инвентарные номера, разбивка по филиалам. Незначимые карточки-разделители не сканируются.

После оцифровки бумажный массив картотеки приводится в исходное состояние.
Все последующие работы проводятся с полученными
графическими образами карточек.

Обязательно должны проводиться поворот перекошенных изображений, удаление фона, проявление слабоконтрастных символов и т.д.

Свойства электронных копий должны исключать потерю информации и не ухудшать читаемость документа по сравнению с бумажным оригиналом. В случае плохого состояния исходного материала допускается использование программных средств улучшения качества изображений.

Вся обработка изображений выполняется в автоматическом режиме. Возможна ручная коррекция геометрии образов, очистка от шумов и следов сгиба при необходимости обработки небольшого количества поврежденных документов.

Даже в случае набора текста на печатной машинке, далеко не все символы распознаются корректно. Автоматическое распознавание рукописного текста, карандашных пометок и карточек, созданных до середины 20 века практически невозможно.

Количество графических образов должно совпадать с числом листов бумажного массива. Нормой стало сканирование в порядке следования карточек каталога. Пропуск страниц считается браком.

Ретроконверсия: ввод информации с отсканированных карточек и формирование базы данных. Карточки могут содержать машинопечатный и рукописный текст, карандашные пометки, нечеткие символы и иметь другие особенности заполнения.

В редких случаях, при хорошем качестве документа, содержащего печатный текст, можно использовать программные средства распознавания для автоматического извлечения определенных полей карточки.

Поэтому данные с библиотечных карточек в основном вводятся вручную
и проходят многоуровневую систему контроля качества.

Перед ретроконверсией производится сепарация (сортировка) изображений с целью группировки отдельных частей массива по типам карточек и другим признакам индексирования (сцепка составных карточек, создание блоков данных для томов, разделение по языкам и т.д.). Производится разметка блоков для удобства извлечения данных оператором.

На выходе формируется база данных в требуемом для библиотеки формате (RUSMARC, UNIMARK, MARC21 и др.). В некоторых случаях при создании электронного каталога предметом обработки могут служить напрямую графические образы книг. Тогда к работе привлекаются операторы, владеющие знаниями правил составления библиографических описаний.

Требования к минимальному проценту ошибок в базе данных очень высоки, так как это напрямую влияет на качество поиска информации в электронном каталоге. Поэтому после ввода данных присутствует этап проверки по различным параметрам опытными верификаторами.

Для ускорения процесса ретроконверсии используется технология заимствования,
упрощающая ввод информации за счет автоподбора заполнения полей
на основе ранее введенных данных.

Сканирование книг

Многие библиотеки уже обладают профессиональными планетарными сканерами для ежедневной оцифровки книг. Но собственными силами в основном сканируется поступающая литература. Для массовой качественной оцифровки обычно заказываются аутсорсинговые услуги. Так, в одной крупной федеральной библиотеке с 2008 по 2014 гг. оцифровано более 16,5 млн страниц библиотечных и архивных фондов силами привлеченного подрядчика.

После создания электронного каталога или параллельно этому процессу библиотеки решают задачи по обеспечению сохранности и доступности книжного фонда путем оцифровки книг. Работы по оцифровке проводятся для наполнения национальных электронных проектов, создания коллекций редких книг и полнотекстовых ресурсов, собраний тематических иллюстрированных материалов и много другого.

Библиотеки могут проводить работы по оцифровке фондов самостоятельно. Например, в крупных библиотеках организованы целые отделы сканирования, располагающие парком профессионального оборудования.

Важным аспектом являются характеристики цифровых копий. Если решаются локальные задачи, библиотека может самостоятельно определять требования к выходным электронным ресурсам. Но при реализации национальных проектов, где используются фонды различных библиотек, необходим общий стандарт, регламентирующий основные характеристики работы.

При создании НЭБ электронные ресурсы, созданные техническим исполнителем
и библиотеками самостоятельно, имели разные параметры оцифровки,
что усложняло работу по обработке и загрузке цифрового контента.

Поэтому отраслевым экспертным советом были подготовлены «Рекомендации по оцифровке материалов из фондов библиотек»*, которые показывают принцип создания электронных библиотечных ресурсов. В рекомендациях указаны три вида цифровых копий. Мастер-копия – эталонная копия оригинала в полиграфическом качестве (разрешение не ниже 600 dpi). Пользовательская копия – для создания электронных коллекций и предоставления читателям (разрешение не ниже 300 dpi). Служебная копия используется для внутренних задач библиотеки и размещения на web-сайтах (разрешение не ниже 150 dpi).

Особенности сканирования книг

При оцифровке книг этапы работ повторяют процесс создания электронного каталога. Действует библиотека самостоятельно или нанимает подрядчика, но так или иначе в первую очередь необходимо определить цель проекта и провести экспертизу книжного фонда для понимания стоимости и трудоемкости работы. В дальнейшем формируется состав подлежащих оцифровке изданий, согласовываются технические требования, и производится окончательная оценка проекта.

Рассмотрим несколько особенностей оцифровки книг, которые влияют на стоимость и сроки проектов. Большое значение имеет формат и состояние книг, а также объем бумажного фонда. Исходя из этих особенностей, определяется вид сканирующего оборудования и технологии оцифровки.

1|2|3|4Ветхая, рваная бумага, а также толстый переплет многих книг позволяет применять только бесконтактное сканирование – профессиональные планетарные (книжные) сканеры. Использование планшетных сканеров исключено.

После сканирования полученные цифровые копии проходят процесс программной коррекции, приводятся к наиболее удобному для чтения качеству изображений. Зачастую при использовании профессиональных книжных сканеров для этого достаточно встроенных программных средств обработки. После получения массива цифровых копий при необходимости составляются библиографические описания отсканированных изданий.

Отдельно стоит выделить работы по высококачественному сканированию коллекций редких книг, книжных памятников, фолиантов и других ценных экземпляров. Для этого используются специализированные комплексы высококачественного сканирования, обеспечивающие уникально высокие показатели оптического разрешения.

Особенности формирования полнотекстовых PDF-книг

*В Гражданском кодексе РФ (ч. IV в ред. 2006 г.) статьями 1274 и 1275 допускается без согласия автора предоставление экземпляров произведений, правомерно введенных в гражданский оборот во временное безвозмездное пользование. Но цифровые экземпляры произведений могут предоставляться только в помещениях библиотек при условии исключения возможности создать копии этих произведений в цифровой форме. Для предоставления доступа к ограниченным изданиям в среде национальной электронной библиотеки был разработан специальный защищенный просмотровщик для удаленной работы граждан с произведениями в электронной форме.

Но цифровых копий порой бывает недостаточно. Существуют задачи по превращению изображения в полноценную электронную книгу. На основе графических образов формируются электронные книги в формате PDF. Этот формат наиболее универсален и позволяет осуществлять полнотекстовый поиск и навигацию по оглавлению и гиперссылкам. Электронные книги, не ограниченные авторским правом, можно публиковать в интернете или давать «защищенный» доступ в читальном зале библиотеки*.

Для создания таких книг проводится полнотекстовое распознавание с дальнейшей верификацией текста и проверкой орфографии. Для окончательной вычитки документа привлекаются профессиональные корректоры.

В результате макетирования формируется электронная книга,
полностью идентичная бумажному оригиналу — с точным расположением страниц,
иллюстрациями, сохранением языка и стиля.

Оцифровка книг и каталогов библиотек, особенно при существенном объеме, разнородности фондов по формату и состоянию оригиналов, – сложнейший производственный процесс, осуществить который качественно могут только специализированные компании, обладающие всей необходимой инфраструктурой и большим опытом в создании электронных ресурсов.

Короткая ссылка на материал:

Сканирование книг и сшитых документов

Специалисты компании Редокс качественно и в сжатые сроки выполняют сканирование книг, буклетов, журналов, подшивок газет и других переплетенных или сшитых документов.

Эта операция является начальным этапом таких процессов как:

  • создание электронных книг
  • создание электронных библиотек
  • создание электронных каталогов

Работы по сканированию сшитых документов имеют свои особенности, в связи с которыми рекомендуется поручить их выполнение сотрудникам компании, специализирующейся на предоставлении подобных услуг.

Если сканирование обычных документов даже очень большого размера или нестандартного формата можно осуществлять на обычных планшетных сканерах, то для переплетенных или сшитых листов это оборудование не подходит по двум причинам:

  1. Электронные изображения получаются дефектными, с затемнениями и искажениями в местах сгиба страниц, перекосами, что влечет за собой потерю информации
  2. Существуют книги, которые невозможно раскрыть под углом более чем 90 0 из-за особенностей переплета или сшивки, ветхости или большой ценности

Наша компания работает с книгами на протяжении уже 10 лет и мы знаем как сделать так, чтобы наши клиенты получили отличный результат по разумной цене.

Цены на услуги сканирования книг и сшитых документов

Нерасшивные документы и книги (за страницу)

Свернуть
Ч/Б сканирование до формата А4 300 dpi 4р. Рассчитать
Сканирование в градациях серого до формата А4 300 dpi 6р. Рассчитать ПОПУЛЯРНОЕ
Цветное сканирование до формата А4 300 dpi 8р. Рассчитать
Цветное сканирование до формата А4 600 dpi 16р. Рассчитать
Цветное сканирование до формата А4 1200 dpi 32р. Рассчитать
Ч/Б сканирование формата А3 300 dpi 15р. Рассчитать
Сканирование в градациях серого формата А3 300 dpi 20р. Рассчитать
Цветное сканирование формата А3 300 dpi 30р. Рассчитать
Цветное сканирование формата А3 600 dpi 45р. Рассчитать
Цветное сканирование формата А3 1200 dpi 90р. Рассчитать

Если у вас сложный проект или большой объём свяжитесь с нами по телефону 8 (495) 646-26-77, и мы подберем оптимальные условия и цену для вашего проекта. Или воспользуйте нашим калькулятором с базовыми ценами:

Техника сканирования

Для сканирования книг мы применяем специализированную технику — высокоскоростные книжные сканеры, позволяющие сканировать переплетенные или сшитые листы без повреждений и, соответственно, искажения или утраты информации. Такое оборудование имеет достаточно высокую стоимость и требует наличия некоторых навыков в обращении с ним. По этой причине нецелесообразно проводить самостоятельное сканирование таких документов — цена будет неоправданно высокой по сравнению со стоимостью услуг профессионалов, а результат работы неудовлетворительным.

Для того чтобы получить качественные электронные копии бумажных книг и документов, пригодные для использования и наполнения электронных библиотек, вам достаточно предоставить нашим специалистам исходные материалы — любые переплетенные книги либо сшитые документы с листами формата не больше чем А3 или разворотом формата не более А2.

После проведения сканирования вы получите файл с изображением оригинала, сохраненный в любом из графических форматов tif, gif, jpg или PDF.

Многостраничный PDF на данный является самым распространенным форматом для создания электронной документации, электронных книг и инструкций, поэтому по желанию заказчика наши специалисты преобразуют результат в электронный документ PDF. Изображения в данном формате можно просматривать с помощью распространенного приложения Acrobat Reader.

Для обработки большого объема исходных материалов мы применяем поточное сканирование, при котором весь процесс представляет собой единый конвейер, работающий с высокой производительностью и практически безостановочно.

Наше оборудование

Книжные высокоскоростные специализированные сканера Plustec OpticBook A300, со скоростью 2.10 сек на одну страницу формата А3 (оттенки серого и Ч/Б, 300dpi)

Широкоформатный книжный сканер формата A1 book2net Flash

Обратите внимание!

Электронные копии книг, полученные в результате сканирования, нельзя редактировать в текстовых и табличных редакторах (таких как MS Word, MS Excel и другие). Для того чтобы появилась такая возможность, необходима полная оцифровка книг, которая включает следующие этапы:

  • распознавание текста
  • проверка корректности распознавания символов
  • внесение исправлений
  • сохранение текста, элементов оформления и стиля документа в текстовом формате
Закажите эту услугу со скидкой!

Для детального обсуждения условий сотрудничества, получения консультации и оформления заказа на любую из наших услуг:

  • Оставаясь на рабочем месте
  • В удобное время
  • За считанные минуты

Страница сгенерирована за 0.02 секунд !

Primary Sidebar

Google Книги. Самая большая библиотек в мире.

Ищите и просматривайте миллионы книг из библиотек и издательских домов всего мира, используя Поиск книг Google. Открывайте новых любимых авторов или читайте позабытую классику.

Российская Государственная библиотек. Главная библиотека России.

  • Электронные ресурсы РГБ: Электронный каталогЭлектронный каталог содержит библиографические записи на все виды документов, включая статьи, изданные на русском и других языках на различных носителях и в различные хронологические периоды. Вы можете вести поиск не только в едином каталоге, но и в отдельных входящих в его состав каталогах, а также электронных справочниках. Свободный доступ к ЭК РГБ открыт для всех пользователей интернет.
  • Электронная библиотекаФонд представляет собой собрание электронных копий ценных и наиболее спрашиваемых изданий из фондов РГБ, из внешних источников и документы, изначально созданные в электронной форме. Объем фонда на начало 2009 года составляет около 400 тысяч документов и постоянно пополняется.В полном объеме ресурсы доступны в читальных залах РГБ.
  • Удаленные сетевые ресурсыСо всех компьютеров РГБ организован доступ on-line к базам данных крупнейших производителей российских и зарубежных электронных информационных продуктов: к материалам журналов, газет, новостных лент, теле- и радиоэфиров; электронным книгам; материалам конференций; стандартам; отдельным библиографическим БД.
  • Библиографические изданияНИО библиографии Россйской государственной библиотеки создает и предоставляет в открытом доступе электронные библиографические пособия по различным тематикам. Это каталоги, картотеки, базы данных, библиографические пособия, списки и указатели, создаваемые в карточной, печатной и электронной формах.

Электронная библиотека Государственной публичной исторической библиотеки России (ГПИБ России) представляет собой собрание документов и материалов по отечественной и всеобщей истории. Содержит издания по генеалогии и геральдике, истории военного дела, источники по истории, этнографии и географии России. Это открытая электронная библиотека, созданная на основе оцифрованных фондов Государственной публичной исторической библиотеки России. Электронная библиотека постоянно пополняется и обеспечивает быстрый доступ как к наиболее ценным, так и к самым востребованным изданиям.

Runivers.ru — Россия в подлиннике.

Цель проекта – обеспечить в Сети свободный доступ к первоисточникам, к книгам и текстам, которые находятся в крупнейших книгохранилищах и государственных архивах доступны пока только посетителям десятка крупнейших российских библиотек. Наш проект дает доступ к достоверному знанию для всех. Считаем, что такой ресурс необходим преподавателям, студентам, школьникам, всем читающим по-русски, изучающим русскую культуру и язык, причем как в России, так и за ее пределами, в ближнем и дальнем зарубежье. Доступ к редким книгам в библиотеках есть у тысяч жителей крупных городов, а интернет сегодня доступен десяткам миллионов. Поэтому «Руниверс» создает в Интернете портал, посвящённый российской истории и культуре.

BIBLIOPHIKA — это открытая электронная библиотека, созданная на основе оцифрованных фондов Государственной публичной исторической библиотеки России.

На данный момент BIBLIOPHIKA содержит 826 томов (356199 страниц) из фондов ГПИБ, изданных до 1917 года. В ее составе законы Российской империи, источники по истории, географии и этнографии России, книги по генеалогии, геральдике, истории культуры.

GBOOKS — книги по истории, археологии, географии, этнографии, филологии, лингвистике, генеалогии, философии изданные до 1917 года.

Электронные публикации, подготовленные в Институте русской литературы (Пушкинском Доме) РАН

Электронную библиотеку Эльбрусоида мы намерены сделать карачаево-балкарской виртуальной «ленинкой». В ней мы хотим собрать всю доступную до настоящего времени литературу о карачаево-балкарцах, все то, что прямо или косвенно имеет к нам отношение.

Электронная библиотека Кабардино-Балкарского Государственного Университета

Библиотека Царское Село.

Библиотека «Царское Село — book-old.ru», расчитана на читателя интересующегося историей такого Титана прошлого как Российская Империя. Библиотека является данью когда-то существовавших в Царском Селе библиотек Государыни Императрицы Екатерины II в Екатерининском (Старом) дворце и библиотеки Государя Императора Николая II в Александровском (Новом) дворце.

Восточная Литература — библиотека текстов Средневековья.

Средневековые исторические источники Востока и Запада (тексты расположены в алфавитном порядке).

Краевед Перми.

История пермского книгоиздания, пермское краеведение, пермские книги. Книжный проект Андрея Зиновьева.

1. Библиотека Максима Мошкова

Библиотека Мошкова — одна из первых и самых популярных русскоязычных электронных библиотек, она открылась в 1994 году. Авторы и читатели ежедневно пополняют библиотеку на добровольной основе. Сервис не берёт денег, читать бесплатно можно абсолютно всё. Единственный минус – скачать книгу нельзя.

2. Альдебаран

Библиотека «Альдебаран» предлагает скачать книгу бесплатно в любом из удобных электронных форматов (epub, fb2, rtf, mobi, pdf), а перед этим шагом ознакомиться с её отрывком. Сервис на уровне!

3. Весь Толстой в один клик

Волонтёры из 49 стран мира создали электронную версию 90-томного собрания сочинений Толстого. Все книги можно скачать в любом удобном формате бесплатно. Более 700 произведений от классика!

4. Фёдор Михайлович Достоевский

Большой любитель творчества Достоевского, энтузиаст Сергей Рублёв решил на одном сайте собрать всю информацию о писателе. Это не просто книги писателя (кстати, оцифрованы прижизненные издания), но и последние новости об экранизациях и телепостановках, исследования, а также список музеев и фотоархив.

5. Библиотека TarraNova

TarraNova просит называть себя не электронной библиотекой, а архивом. Руководство сайта говорит, что главное отличие – в том, что все тексты размещены официально, с согласия авторов. Однако ReadRate видит главную изюминку в другом: TarraNova размещает не только авторские тексты, но и переводы (с фамилиями переводчиков). Известных книг тут мало, однако интересного и стоящего можно найти много.

6. Президентская библиотека им. Ельцина

Президентская библиотека им. Ельцина оцифровывает редкие книги из российских публичных библиотек и собирает их по тематическим коллекциям. Интересного очень много. Например, к Году литературы сервис подготовил подборку «Факт и образ российской истории в произведениях русских писателей», где «Ода» Державина – оцифровка журнала «Новости» за июнь 1799 года.

7. Libereya.com

Пользоваться бесплатной онлайн-библиотекой «Либерейя» можно только после регистрации. У пользователей много обязанностей (публикации книг, общение), зато, говорят, подборка книг хорошая.

8. Артефакт

В библиотеке «Артефакт» более 8 тысяч текстов. Её преимущество в том, что книги здесь не только на русском, но и на 32 других языках мира. Все файлы доступны для скачивания только в формате doc.

9. Электронная библиотека «Литмир»

Электронная библиотека «Литмир» содержит более 200 000 книг. Их удобно читать онлайн, а вот при скачивании сайт просит установить специальную программу, которая отпугивает многих новых пользователей. В разделе «Форум» на сайте идёт довольно оживлённое общение пользователей друг с другом. В конце 2015 — го года сайт пережил несколько судебных процессов с издательством ЭКСМО и министром культуры РФ Владимиром Мединским, которые настаивали на закрытии сайта, указывая на находящийся на нем нелегальный контент. В 2016-м году сайт сменил владельца и встал на путь исправления. Книг стало заметно меньше, ведутся активные работы по исключению нелегального контента.

10. Litres.ru

Несмотря на то что Litres – магазин электронных книг, кое- что (в основном классику и периодику) там можно взять бесплатно в специальном разделе.

11. Bookland.com

Магазин электронных книг Bookland также предлагает коллекцию бесплатных произведений в удобных форматах на 18 языках.

12. Библиоклуб

Электронная библиотека и интернет-магазин «Библиоклуб» предлагает интересные условия: приобретя 10 книг, можно стать обладателем статуса «Книгочея» и получить в бесплатное пользование половину контента магазина. На платформе предусмотрен еще статус «Гения» — это когда у вас есть бесплатный доступ ко всем книгам на сайте. Хороший вариант, особенно если вас интересует литература о бизнесе и саморазвитии, образовательные коллекции.

13. «Русская фантастика»

Книжная полка сайта «Русская фантастика» содержит более 10 000 текстов 180 авторов.

14. Проект Гутенберг

Электронная библиотека «Проект Гутенберг» порадует любителей читать на иностранных языков. Это больше 46 тысяч электронных книг, преобладающий язык – английский.

15. ThankYou.ru

ThankYou.ru – портал музыки и литературы, предоставляемой бесплатно. Неплохой выбор книг в электронном формате fb2, а также возможность для начинающих авторов опубликовать свою книгу бесплатно.

16. Библиотека иностранной литературы им. Рудомино

Библиотека иностранной литературы им. Рудомино оцифровала часть своих фондов. В основном это редкие книги.

17. «Книжный шкаф»

Уютная детская библиотека «Книжный шкаф» оцифровала множество хороших детских книг, однако в 2009-м подверглась хакерской атаке и потеряла почти все свои активы. Но кое-что сохранилось. Почитать детские произведения можно, кликнув на иконку книги в нарисованном шкафу.

18. Институт этнологии и антропологии

Институт этнологии и антропологии на своей книжной полке делится профильными книгами в формате PDF. Выборку профессионалы оценивают как отличную.

19. Журнальный зал

«Журнальный зал» — электронная библиотека современных литературных журналов России. Здесь можно найти свежие номера самых известных отечественных «толстых журналов». База пополняется достаточно быстро, а читать — интересно, ведь многие большие произведения сначала публикуются здесь, а потом перекочевывают в отдельные книги.

20. Электронная библиотека института мировой литературы РАН

В конце 2015 года на сайта Института мировой литературы РАН появился раздел «Электронная библиотека». Сейчас в ней около 400 отсканированных научных изданий, для удобства пользователей разделенных по направлениям. Это «Теория литертуры», «Русская литература», «Литература народов России и стран СНГ», «Зарубежная литература», «Фольклористика» и другие. Библиотека пополняется, на сайте можно не регистрироваться.

Оцифровка книг

Сверхпроизводительный сканер APT BookScan

Оцифровка книг — это процесс перевода бумажных книг в электронный (цифровой) вид. Электронные копии книг могут образовывать электронные библиотеки и распространяться в Сети. Цифровые книги можно легко распространять, воспроизводить и читать на экране. Обычно оцифрованные книги сохраняют в форматах: DjVu, Portable Document Format (PDF), JPG или TIFF. Для преобразования исходного изображения используют оптическое распознавание символов (OCR), оно необходимо для включения страниц книги в цифровой формат, такой, как ASCII, или другой подобный формат, который уменьшает размер файла и позволяет работать с текстом. Сканирование изображений может происходить вручную или автоматически. В обычных сканерах книга располагается на стекле, на книгу падает свет, и оптический механизм сканирует книгу, двигаясь под стеклом. Другие книжные сканеры используют V-образную раму и фотографируют страницы сверху. Страницы могут переворачиваться вручную или с помощью автоматических устройств подачи бумаги. Специальное массивное стекло, как правило, прижимает страницы, чтобы сгладить недостатки сканирования. После сканирования программа корректирует изображение документа, выравнивая его, обрезая, редактируя и преобразовывая его в текст, и окончательную форму электронной книги. Люди обычно проверяют отсканированное изображение на наличие ошибок.

Сканирование 118 точек/см (300 точек на дюйм) является нормой для преобразования в цифровой вид текста, однако для редких и сложных книг необходимо использование более высокого разрешения. Высокотехнологичные сканеры способны сканировать около тысячи страниц в час. Существуют ручные книжные сканеры, способные оцифровывать около 1200 страниц в час.

admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Наверх