Добро пожаловать на наш сайт! Связаться с нами
Главная » Файлы » Программы для работы с японским языком на ПК

e.Typist - Распознавание иероглифики
20.06.2012, 22:45

e.Typist является одним из популярных в Японии средством распознавания отсканированных иероглифических текстов. Опишу последовательность распознавания на конкретном примере (Рис 1).

 

Схема распознавания иероглифического текста в e.Typist
Рис. 1

 

1) Открываем файл отсканированного изображения с помощью кнопки 1 (предварительно нажимаем на маленький треугольник справа и выбираем опцию ファイル読込(F)). Почему не пользуемся сканером? Дело в том, что после пропускания через Applocale сканер может отвалиться (ошибка - "Twain DLL не найден" по-японски), поэтому лучше сначала подготовить скан с помощью стандартного для сканера приложения (с максимально возможным разрешением для облегчения работы eTypist-у), а затем открыть его в нашей программе описанным способом.

2) Выделяем с помощью мыши блоки текста для распознавания. Для этого ставим перекрестье указателя в один угол, нажимаем левую кнопку мыши и тащим указатель в диагонально противоположный конец блока – появляется рамка, которая должна охватывать весь блок целиком. После отпускания кнопки блок подствечивается зелёной окантовкой. В нашем случае выделено 4 текстовых блока.

3) Проверяем порядок следования блоков, нажав на клавишу, указанную цифрой 3. В каждом блоке появляется его порядковый номер. Если порядок распознавания блоков неверен, то однократным щелчком по каждому блоку в нужной последовательности выставляем правильные номера. Отжимаем кнопку 3 обратно.

4) Для каждой области выставляем параметры распознавания (см. Рис. 2). Чтобы одновременно просмотреть наборы текущих параметров для каждого блока, необходимо нажать клавишу 4.

5) Перед запуском распознавания выставляем для Word опцию "Только текст" (с помощью  маленького треугольника справа от кнопки со значком Word и выбора надписи テキスト転送(T)). Нажимаем на значок Word и дожидаемся, пока откроется его окно с результатами распознавания.


 

Получилось 4 отдельных текстовых блока, каждый из которых состоит из однострочных абзацев. Если включить в Word отображение непечатных символов (Ctrl-Shift-8), то хорошо видно, что значки абзаца завершают каждую строчку (Рис. 2).

 


Рис. 2

 

Чтобы избавиться от такого деления сделаем следующее. Выделим (закрасим) мышью кусок текста, который должен быть преобразован в один абзац. Сочетанием клавиш Ctrl-h вызываем диалоговое окно Найти и Заменить. В нём в поле Найти вписываем пару символов ^p, поле Заменить на оставляем пустым (Рис. 3):

 


Рис. 3

 

Теперь жмём кнопку Заменить все. В результате кусок текста превращается в один слитный абзац и приобретает божеский вид:


 

Рис. 4
Категория: Программы для работы с японским языком на ПК | Добавил: Marise | Теги: e.Typist, сканер, программы
Просмотров: 482 | Загрузок: 3 | Рейтинг: 5.0/1
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]