Re: Шрифты для проекта оцифровки летописей


Автор сообщения: ace
Дата и время сообщения: 20 December 2005 at 17:52:44:

В ответ на сообщение: Re: Шрифты для проекта оцифровки летописей

Здесь можно воспользоваться уже наработанным опытом "Сообщества славянской типографики" http://fonts.improvement.ru/success.htm
Сообщество это великолепное, опыт у них колоссальный. Вы знаете, что я с ними сейчас работаю по внесению дополнений в Юникод касательно представления кириллицы в стандарте. Их опытом можно пользоваться только как темплейтом, образцом. Потому что это _ИХ_ опыт, под их цели и задачи. А Стандарт и Рекомендации по оцифровке летописей должны быть иные и опять же свои.

Макросами и даже готовыми шаблонами для FR. http://www.orthlib.ru/hip/ocr.html

Привожу конкретный пример, что получается при попытке использования их эталона и словаря для FR. Берем их эталон, пытаемся его импортировать в FR 7.0. Опаньки! Эталон от 6-й версии, файла *.fbt не имеет, как его импортировать - непонятно. Пишем в службу поддержки ABBYY, получаем их ответ: "Для того, чтобы использовать эталон, созданный в предыдущей (пятой или шестой) версии программы ABBYY FineReader, проделайте, пожалуйста, следующее:
1. Создайте какую-нибудь пустую папку.
2. Запустите программу FineReader 7.0
3. Выберите меню Файл>Сохранить пакет как. В открывшемся диалоге выберите созданную пустую папку.
4. Скопируйте файлы с расширением .ptn, (созданные в предыдущей версии программы) в эту папку.
5. В программе ABBYY FineReader 7.0 выберите Файл>Открыть пакет. Укажите ту же самую папку в открывшемся диалоге."
Проделываем как прописано, получилось. Теперь пытаемся импортировать их словарь. Опаньки! Словарь огромный, при его импорте происходит переполнение пространства, выделенного под пользовательский словарь. Снова пишем в службу поддержки ABBYY, получаем их ответ:
"К сожалению, есть некоторые ограничения на пользовательские словари, которые можно импортировать в программу ABBYY FineReader. В некотором смысле, это ограничение на большое количество слов с совпадающими 2-4-буквенными префиксами (не более 820 слов с совпадающими двухбуквенными префиксами).
Ошибка при импорте словаря возникает, судя по всему, именно из-за того, что в нем слишком много слов с совпадающими префиксами. Мы советуем Вам вручную поделить словарь на несколько файлов так, чтобы в каждом из них содержалось не очень много слов с совпадающими префиксами. Потом создать несколько пользовательских языков, подключить по одному словарю к каждому из языков и выбрать все языки в качестве языков распознавания. Мы понимаем, что при большом количестве слов это весьма трудоемкая работа, но иначе подключить такой большой словарь Вам не удастся. Возможно, Вы сможете автоматизировать деление словаря на части, воспользовавшись некоторыми программами компании Microsoft.
Вы можете прочитать о них здесь: .
Х-м-м, говорите Вы себе. И с помощью камланий, плясок с бубном вокруг компьютера, Вам удается импортировать словарь, не занимаясь вышепрописанным трудоемким рецептом по делению словаря на части и созданию целых групп пользовательских языков. Уф-ф-ф. Удалось. Смотрим в словарь, опаньки! Да ведь символы кириллицы в нем не в Юникоде, в а HIP (специальная унифицированная кодировка, используемая двумя вышеуказанными уважаемыми сообществами для нужд церковной полиграфии). Задаешься мыслью: а стоит ли связывать оцифровку ПСРЛ с этой кодировкой, понятное дело разработанной не от хорошей жизни, а по причине неудовлетворитености представление кириллицы в Юникод. Начинаешь задумываться а не лучше ли будет словник словаря переконвертировать из HIP в твое понимание того как, символы должны кодироваться в Юникоде... И так далее и тому подобное.

Резюме: чужой опыт и наработки, своего опыта и наработок не заменят. А о том, как желательно это опыт и наработки организовывать - позднее, но ОБЯЗАТЕЛЬНО.


2192. Шрифты для проекта оцифровки летописей - gorm 17:24 16.12.05 (30)
К списку тем на странице