Восточное Полушарие
Китайский форум => Китайский язык: письменность, изучение, диалекты, вэньянь => Китайский Язык: компьютеры, программы, шрифты => Тема начата: Fozzie от 04 Января 2005 19:40:34
-
Вот, вышел. Только почему-то выложен только txt (размером 26Mb), а традиционного zip'а на текущий момент - нету :(
Кому очень надо - берите: http://www.unicode.org/Public/4.1.0/ucd/Unihan-4.1.0d1.txt
# RELEASE NOTES:
#
# 4.1 The kPhonetic data was regenerated to include multiple entries for individual
# characters. Duplicate entries were removed from the kMandarin and kCantonese
# fields. All fields are now complete. The kFenn field had substantial new
# data added. The kFennIndex field was added. The latest data sets for kSBGY
# and kHanYu were included. The kAlternateKangXi and kAlternateMorohashi
# fields were dropped. The syntax of the kSemanticVariant and
# kSpecializedSemanticVariant fields was extended to include source information.
# The data in these two fields were substantially extended. The Cantonese field
# has been changed to use jyutping instead of Yale romanization. Preliminary
# data for new characters has been added. The various kIRG* fields have
# had their values resynchronized with data in ISO/IEC 10646. Numerous other
# individual corrections and additions were made. The header has been
# restructured and expanded, in preparation for moving the field
# descriptions into a separate document
-
а зачем он нужен?
-
Unihan
Han character
(From the Han dynasty, 206 B.C.E to 25 C.E.) One of the set of glyphs common to Chinese (where they are called "hanzi"), Japanese (where they are called kanji), and Korean (where they are called hanja).
Han characters are generally described as "ideographic", i.e., picture-writing; but see the reference below.
Modern Korean, Chinese and Japanese fonts may represent a given Han character as somewhat different glyphs. However, in the formulation of Unicode, these differences were folded, in order to conserve the number of code positions necessary for all of CJK. This unification is referred to as "Han Unification", with the resulting character repertoire sometimes referred to as "Unihan".
Unihan reference at the Unicode Consortium.
[John DeFrancis, "The Chinese Language: Fact and Fantasy", University of Hawaii Press, 1984].
(1998-10-18)
Извините .. лень на русский переводить ..
-
а зачем он нужен?
Ну кому он нужен тот про то знает :)
Просто это база данных по всем иероглифам включённым в текущий стандарт Unicode. С каждой новой версией в ней появляется дополнительная информация. А способы её применения в общем весьма специфические. :)
Можно, например, подсунуть её wenlin'у - и тогда он будет брать из неё перевод (английский) для иероглифов отсутствующих в его собственной базе. Это удобно, если приходится иметь дело с редкими иероглифами в древних текстах.
-
Вот, вышел. Только почему-то выложен только txt (размером 26Mb), а традиционного zip'а на текущий момент - нету :(
Кому очень надо - берите: http://www.unicode.org/Public/4.1.0/ucd/Unihan-4.1.0d1.txt
Выкладываю запакованный 3,95 MB (4 153 081 bytes):
http://nabad.narod.ru/cn/Unihan-4.1.0d2.rar
Использовать WinRAR 3.42 с http://rarlab.com/download.htm
-
новый релиз: http://www.unicode.org/Public/4.1.0/ucd/Unihan-4.1.0d3.txt
Терпеливые, ясен перец, ждут финала - в конце марта. :)
-
новый релиз: http://www.unicode.org/Public/4.1.0/ucd/Unihan-4.1.0d4.txt
Изнутри файла все упоминания о бета-версии убраны. Неужели зафиналило - почти на месяц раньше намеченного срока? :o
-
Для кого долго качать txt, выкладываю запакованный, 4.10 MB (4,308,715 bytes):
http://nabad.narod.ru/cn/Unihan-4.1.0d4.rar
Использовать WinRAR 3.42 с http://rarlab.com/download.htm
-
Таки не зафиналило, но конец уже виден! :)
http://www.unicode.org/Public/4.1.0/ucd/Unihan-4.1.0d5.txt (~27Mb)
была обнаружена также и лежащая немного в стороне пожатая версия этого файла:
http://www.unicode.org/Public/zipped/4.1.0/Unihan.txt.gz (5.6Mb)
И кроме того - все Unicode charts для версии 4.1.0 одним файлом:
http://www.unicode.org/Public/4.1.0/charts/CodeCharts.pdf (~30Mb, но поскольку 20Mb - это чисто CJK иероглифы, то лишнего там немного).
-
Понеслось вприпрыжку:
http://www.unicode.org/Public/4.1.0/ucd/Unihan-4.1.0d7.txt (~27Mb)
пожатая версия этого файла:
http://www.unicode.org/Public/zipped/4.1.0/Unihan.zip (5.6Mb)
По сравнению с предыдущим, исправления вносились только в заголовок... Финал?
-
Зафиналило.
http://www.unicode.org/Public/UNIDATA/Unihan.zip
-
Понеслась перекрестясь - началась работа над Unicode 5.0.0 http://www.unicode.org/Public/5.0.0/
-
Уважаемый Fozzie!
У меня к Вам как специалисту два вопроса:
1. Можно ли перевести файл unihan.txt в формат отображающий иероглифы?
2. Возможно ли это сделать для 5-й версии?
С уважением, д-р Артур
-
Приветствую
1. Можно ли перевести файл unihan.txt в формат отображающий иероглифы?
Т.е. заменить все U+XXXX на иероглифы? В принципе да - надо попробовать.
2. Возможно ли это сделать для 5-й версии?
Увы! Для 5-й версии ещё не вышел unihan.txt - работа над ней можно сказать только-только началась...
-
Приветствую
1. Можно ли перевести файл unihan.txt в формат отображающий иероглифы?
Т.е. заменить все U+XXXX на иероглифы? В принципе да - надо попробовать.
Здравствуйте!
Было бы весьма полезно.
С пятой понятно.
Позвольте еще один вопрос:
существует "Unicode Standart, ver.4.1 - Archive Code Card" в формате *PDF, однако он не редактируется в Акробате (и т.д.), имеется ли какая-то возможность для редактирования этой карты (может быть существуют незапаролельные файлы)?
д-р Артур
-
Здравствуйте!
Спасибо, было бы очень полезно сделать такую работу для создания базы данных.
С "пятой" всё понятно. Разрешите еще один вопрос - у меня есть карта Unicode 4.1 в формате *PDF, но будучи запаролельной не редактируется в Акробате, может быть существуют незапаролельные файлы?
д-р Артур
-
Прощу прощения у модератора, что-то заглючило в машине.
-
Разрешите еще один вопрос - у меня есть карта Unicode 4.1 в формате *PDF, но будучи запаролельной не редактируется в Акробате, может быть существуют незапаролельные файлы?
Обычно, пароль там пустой. Убирается одной кнопкой. :)
Попробуйте Advanced PDF Password Recovery использовать.
——————————————————————————————————————————-
Я Вам ссылочки в личные сообщения отправил. ;)
-
Спасибо огромное!
д-р Артур