Я должен сказать, что я любитель, и как я делаю, очень даже не обязательно правильно. Но я делаю так, как привык.
Китайских распознавалок у меня нет, хватает наших. Если текст небольшой, пользуюсь COCR2 (!), если большой, то FineReader9, но он не распознает расширенные иероглифы.
Приходится находить каждый иероглиф индивидуально. А що робити? Они мне попадаются довольно часто. Например, распознавал кусок из начального курса Задоенко, там попалось несколько. Причем как раз этот кусок пробовал перевести в Pdf, и там как раз наблюдалась картина исчезновения этих иероглифов. Еще в БКРС более 1000 иероглифов из расширенных диапазонов. Даже в Кирпиче в описаниях попадаются.
Nciku и NJStar хороши, ноне вводят расширенные иероглифы. Недавно по наводке с Форума скачал «Mouse» Chinese Input Method и как ни бился не смог набрать иероглиф 犭 quǎn. Ну и зачем мне эти хлопоты?
Для ввода я использую WenLin (щиро дякую пана Criptozavr!), у меня большой вариант около 700 Гига, опробовал и вариант Portable 70 Гига (без звука, поленился скачать звуковые файлы), работает так же прекрасно. Ввод иероглифа пером, результат почти 100%. Надо только в опциях задать диапазон 60 000 и отключить правильный порядок ввода черт. Но число и направление черт надо соблюдать. Кстати, у Задоенко очень практично разжеваны правила написания черт.
Если уж иероглиф не нарисовался, то в WenLin есть поиск по компонентам и пиньиню, но они не всегда дают результат, даже если нужный иероглиф есть в Unicode. Если уж и
WenLin не помог, то приходится искать вручную (глазами), у меня есть распечатка всех расширенных иероглифов Unicode (около 45 000, я думаю), 120 страниц бумажного текста.
Что касается ввода символов с тонами, у меня никогда не было с этим проблемы. У меня все они введены в раскладку клавиатуры с простым мнемоническим правилом с использованием клавиши Ctrl и добавкой значков к гласной: штрих налево, штрих направо, дефис, v для умлаута, и т.д. При распознавании французских текстов FineReader переводит хитрые французские знаки строго однообразно в определенные русские буквы, поэтому легко при редактировании заменить их все глобально по тексту на соответствующие французские буквы. (Если текст двуязычный, то это не получится). Спасибо разработчикам программ, которые облегчают работу, ну а дальше приходится выкручиваться.
Удачи!