Так сканы-то есть уже?
Прежде всего, ПДФ тут не нужен (если не рассматривать вариант закладок, а если рассматривать — ДЖВю лучше), Файнридер тоже — он пока по-китайски не умеет (и вообще нет еще программы, которая одновременно хорошо читала бы и иероглифы и кириллицу).
Как минимум, нужно распознать указатели — на примере Шанхайского, это указатель по ключам — там на каждый иероглиф дается номер страницы, колонтитулы страниц — там номер, пининь и список иероглифов, еще можно указатель пиньиня, но там сложнее — нужна распознавалка гласных с тонами, я такой не знаю. Получится 2 (или 3) таблицы соответствий иероглиф--страница--(пиньинь). Проверить несоответствия, они будут из-за ошибок распознавания. Получится индекс, который переписать для Лингво уже просто.
Если есть хорошие сканы (не меньше 300dpi BW, а лучше больше и greyscale), я бы этим занялся.
Рапознавать весь словарь дело конечно хорошее, но тут уже несколько десятков человек нужно.
Кстати, вот словарь с закладками, взятыми из колонтитулов (там Джвю, новая читалка Джвю, и программа для работы с закладками):
http://slil.ru/25374947