Ты меня MiR еще больше запутал, чем объяснил
Я так понимаю, что двубайтовость-однобайтовость вступает в игру при распознавании в самый последний момент, когда картинка уже распознана, и ей сопоставляется символ, отображаемый на экране компьютера. И самое сложное, как раз и определить, на отсакнированом тексте, где вообще, отдельный иероглиф написан, какой именно иероглиф и т.д.
Тут конечно ностильство языка поможет, но незначительно, разные стили, это, конечно понятно, но хотя бы для печатного текста, это уже по-моему архисложно. Вернее, как, может конечно и возможно, но мне кажется, должно требовать огромных аппаратных затрат. Там какие-нибудь супер-компьютеры....
Но если ты говоришь, существуют такие программы, я тебе верю. Значит, китайцы, в натуре, компьютерные гении!! Ведь если такие программы работают надежно и обрабатывают текст сносно, то взять этот же алгоритм для всего 32 букв русского языка, и программа должна будет весить в 10.000 раз меньше!!! Ведь, что такое наши буквы? Те же иероглифы, только попроще.
Ну ладно, мы тут от темы отклонились сильно.
А еще мулька, которую я с другом обсуждал давно как-то, это то, что китайцы быстрее и качественнее научат компьютер речь человека распознавать. В силу заданности тонов, меньше нужно кАлек хранить в памяти машины. А то в европейском языке одно и то же слово можно столькими разными способами произнести, что задолбаешься рапознавать. Машина - дура.