Приветствуем! Мы запустили новую версию форума. Надеемся что вам она понравится. Если вы нашли проблему или у вас есть предложения - напишите нам :)

индексы к кит-рус-кит словарям

Уважаемые форумчане!

Ответьте пожалуйста на вопрос:
Каким образом создаются индексы к кит-рус словарям (и рус-кит если возможно)?
К примеру, если имеется отсканированный словарь.
Структура словаря: кит.слово - рус.перевод.

И вот хотелось бы, чтобы это как-нибудь к Лингво 12 прикрепить.
Возможно ли такое? и сколько это займет времени? (я в этом новичок)

Заранее спасибо за ответы.

Написать комментарий...
qleap
13 years ago

Не совсем понятен ваш вопрос.
Из того, что вы написали, я так понимаю, что у вас есть структура словарной статьи, видимо в текстовом виде, и вы хотели бы этот словарь загнать в Lingvo.

В таком случае создается файл в формате DSL, который затем компилируется и подключается стандартными средствами Lingvo. Подробности можно найти в Help-файле по Lingvo в разделе DSL Compiler.

Если же вам нужен индекс, то какого рода? По радикалам, по русской графической системе или вы имели в виду что-то еще?

Ответить
paveleon
13 years ago

Самое простое -- распознать в сканах буквы, которые указывают интервал слов на странице (типа КОП-КОР -- обычно сверху пишут). Затем, получившийся набор строк "КОП-КОР 222" преобразовать в файл закладок к ДЖВю или ПДФу. Я такое сделал с русско-китайскими словарями -- помогает. А под Лингво -- сложнее будет, автоматизировать боюсь сложнее, чем вручную индекс писать.
Но кто-то же сделал индекс к Шанхайскому словарю? Может автор расскажет?

Ответить
freeman_fox
13 years ago

Дело обстоит следующим образом:
1 вариант. есть остканированный словарь (кит-рус) и уже загнанный в пдф-формат. и вот хотелось бы как нибудь его к лингво прикрепить, чтобы как индексы к шанхайскому словарю работали и тд.
2 вариант. есть остканированный словарь (кит-рус), очищенный, но пока только как страницы в ФайнРидере (но в пдф загнать - это быстро), не распознанный.

как я понимаю необходимо все это распознать (хотя бы руссский текст (словар.статьи)), а уж потом возможно создание индексов к ним.

в конечном счете хотелось бы получить: запускаешь лингво - набираешь слово (например возьмем на русском языке) - жмешь поиск - и вот тебе карточка (или страница отсканированная) с тем словом, которое тебе нужно.

Ответить
paveleon
13 years ago

Так сканы-то есть уже?
Прежде всего, ПДФ тут не нужен (если не рассматривать вариант закладок, а если рассматривать -- ДЖВю лучше), Файнридер тоже -- он пока по-китайски не умеет (и вообще нет еще программы, которая одновременно хорошо читала бы и иероглифы и кириллицу).
Как минимум, нужно распознать указатели -- на примере Шанхайского, это указатель по ключам -- там на каждый иероглиф дается номер страницы, колонтитулы страниц -- там номер, пининь и список иероглифов, еще можно указатель пиньиня, но там сложнее -- нужна распознавалка гласных с тонами, я такой не знаю. Получится 2 (или 3) таблицы соответствий иероглиф--страница--(пиньинь). Проверить несоответствия, они будут из-за ошибок распознавания. Получится индекс, который переписать для Лингво уже просто.
Если есть хорошие сканы (не меньше 300dpi BW, а лучше больше и greyscale), я бы этим занялся.
Рапознавать весь словарь дело конечно хорошее, но тут уже несколько десятков человек нужно.
Кстати, вот словарь с закладками, взятыми из колонтитулов (там Джвю, новая читалка Джвю, и программа для работы с закладками):
http://slil.ru/25374947

Ответить