Восточное Полушарие
Китайский форум => Китайский язык: письменность, изучение, диалекты, вэньянь => Китайский Язык: компьютеры, программы, шрифты => Тема начата: freeman_fox от 16 Января 2008 06:53:22
-
Уважаемые форумчане!
Ответьте пожалуйста на вопрос:
Каким образом создаются индексы к кит-рус словарям (и рус-кит если возможно)?
К примеру, если имеется отсканированный словарь.
Структура словаря: кит.слово - рус.перевод.
И вот хотелось бы, чтобы это как-нибудь к Лингво 12 прикрепить.
Возможно ли такое? и сколько это займет времени? (я в этом новичок)
Заранее спасибо за ответы.
-
Не совсем понятен ваш вопрос.
Из того, что вы написали, я так понимаю, что у вас есть структура словарной статьи, видимо в текстовом виде, и вы хотели бы этот словарь загнать в Lingvo.
В таком случае создается файл в формате DSL, который затем компилируется и подключается стандартными средствами Lingvo. Подробности можно найти в Help-файле по Lingvo в разделе DSL Compiler.
Если же вам нужен индекс, то какого рода? По радикалам, по русской графической системе или вы имели в виду что-то еще?
-
Самое простое — распознать в сканах буквы, которые указывают интервал слов на странице (типа КОП-КОР — обычно сверху пишут). Затем, получившийся набор строк "КОП-КОР 222" преобразовать в файл закладок к ДЖВю или ПДФу. Я такое сделал с русско-китайскими словарями — помогает. А под Лингво — сложнее будет, автоматизировать боюсь сложнее, чем вручную индекс писать.
Но кто-то же сделал индекс к Шанхайскому словарю? Может автор расскажет?
-
Дело обстоит следующим образом:
1 вариант. есть остканированный словарь (кит-рус) и уже загнанный в пдф-формат. и вот хотелось бы как нибудь его к лингво прикрепить, чтобы как индексы к шанхайскому словарю работали и тд.
2 вариант. есть остканированный словарь (кит-рус), очищенный, но пока только как страницы в ФайнРидере (но в пдф загнать - это быстро), не распознанный.
как я понимаю необходимо все это распознать (хотя бы руссский текст (словар.статьи)), а уж потом возможно создание индексов к ним.
в конечном счете хотелось бы получить: запускаешь лингво - набираешь слово (например возьмем на русском языке) - жмешь поиск - и вот тебе карточка (или страница отсканированная) с тем словом, которое тебе нужно.
-
Так сканы-то есть уже?
Прежде всего, ПДФ тут не нужен (если не рассматривать вариант закладок, а если рассматривать — ДЖВю лучше), Файнридер тоже — он пока по-китайски не умеет (и вообще нет еще программы, которая одновременно хорошо читала бы и иероглифы и кириллицу).
Как минимум, нужно распознать указатели — на примере Шанхайского, это указатель по ключам — там на каждый иероглиф дается номер страницы, колонтитулы страниц — там номер, пининь и список иероглифов, еще можно указатель пиньиня, но там сложнее — нужна распознавалка гласных с тонами, я такой не знаю. Получится 2 (или 3) таблицы соответствий иероглиф--страница--(пиньинь). Проверить несоответствия, они будут из-за ошибок распознавания. Получится индекс, который переписать для Лингво уже просто.
Если есть хорошие сканы (не меньше 300dpi BW, а лучше больше и greyscale), я бы этим занялся.
Рапознавать весь словарь дело конечно хорошее, но тут уже несколько десятков человек нужно.
Кстати, вот словарь с закладками, взятыми из колонтитулов (там Джвю, новая читалка Джвю, и программа для работы с закладками):
http://slil.ru/25374947