Автор Тема: Нужен частотный словарь китайского языка  (Прочитано 16645 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Макар Н.

  • Новичок
  • *
  • Сообщений: 39
  • Карма: 5
  • Пол: Мужской
Господа профессионалы, нужна ваша помощь.

Где можно взять приличный частотный словарь китайского языка? "Приличный" - значит с указанием материала, на котором он сделан, кем и когда сделан. Нахально?  :D Но это еще не все... Хотелось бы поиметь его в виде файлика в упрощенной нотации (к работе с традиционными иероглифами я пока не готов). В рускоязычном и-нете ничего приличного не нашлось, к сожалению. А в китайском, к ещё большему сожалению, я - полный 羊. Не согласится ли кто помочь моему горю? Наверняка в китайской зоне и-нета есть все  ;D, но взять это "все" я не могу,.. по причине указанной выше.

Добрые люди, отзовитесь!

Оффлайн anterya

  • Бывалый
  • ***
  • Сообщений: 173
  • Карма: 14
  • Пол: Мужской
Господа профессионалы, нужна ваша помощь.

Где можно взять приличный частотный словарь китайского языка? "Приличный" - значит с указанием материала, на котором он сделан, кем и когда сделан. Нахально?  :D Но это еще не все... Хотелось бы поиметь его в виде файлика в упрощенной нотации (к работе с традиционными иероглифами я пока не готов). В рускоязычном и-нете ничего приличного не нашлось, к сожалению. А в китайском, к ещё большему сожалению, я - полный 羊. Не согласится ли кто помочь моему горю? Наверняка в китайской зоне и-нета есть все  ;D, но взять это "все" я не могу,.. по причине указанной выше.

Добрые люди, отзовитесь!

Если говорить о бумажном словаре, который бы соответствовал приведенным параметрам, то мне известно только одно издание:

http://www.amazon.com/Frequency-Dictionary-Mandarin-Chinese-Dictionaries/dp/0415455863/ref=sr_1_2?ie=UTF8&s=books&qid=1301073396&sr=8-2

Впрочем, что это "мне известно", еще, разумеется, не говорит о том, что других нет :) (особенно если речь о старых изданиях).  Единственный недостаток этого словаря, это то, что какому-то идиоту пришло в голову набрать все заглавные слова словаря жирным шрифтом, при сравнительно небольшом размере шрифта, что сильно уменьшило их читаемость.  Впрочем, полностью нечитаемыми они не стали, просто иногда глаза напрягать приходится.

Далее, электронный словарь Wenlin, составленный на основе известного бумажного словаря ABC (найти ломанную версию Wenlin в Интернете большого труда не составит), предоставляет возможность просмотреть список из нескольких тысяч иероглифов, отсортированных по частотности.  Этот список можно сохранить для дальнейшего использования.  Правда, список выдается порциями по 100 иероглифов, так что для вытаскивания списка подлиннее придется чуть-чуть потрудиться.  Зато там у каждого иероглифа указан номер в списке частотности и основные толкования.  На основе чего этот список составлен, я не знаю, но вероятно эту информацию где-нибудь можно найти...  В любом случае, сортировка по частотности выглядит правдоподобной, например, первые 800 иероглифов этого списка по большей части совпадают со списком иероглифов из первой части HSK.  Также в Wenlin есть и список слов, отсортированный по частотности.

Кстати, по поводу HSK, точнее, по поводу списков слов и иероглифов к разным уровням HSK.  Это, конечно, не частотные списки, однако в самом общем приближении их можно использовать похожим образом.  То есть, слова из уровня 1 обладают более высокой частотностью, чем слова из уровня 2 и т. д., хотя слова внутри уровня по частотности и не отсортированы.  Однако если Вам частотность иероглифов нужна для того, чтобы определиться, в какой очередности их заучивать, то по-моему, ничего лучше списков HSK не придумаешь.  То есть начинаете со слов и иероглифов уровня 1, после их освоения переходите к уровню 2 и т. д.  Я в первую очередь говорю о так называемом "старом HSK" (который использую сам в этих целях), где например на первом уровне 800 иероглифов и 1033 соответствующих им слов, на втором уровне к ним добавляются 803 иероглифа и 2019 слов и т. д.  Но есть еще и "новый HSK", где "грануляция" уровней меньше, на первых двух уровнях по 150 новых слов, на третьем еще 300 и т. д.  Списки для старого можно взять здесь: http://hskflashcards.com/, для нового: http://lingomi.com/blog/hsk-lists-2010/?utm_source=en.wikipedia.org&utm_medium=referral.

Что касается частотных списков, опубликованных в Китае и на китайском, я здесь пока пас, подождите, может Вам кто-нибудь еще посоветует...

Оффлайн Макар Н.

  • Новичок
  • *
  • Сообщений: 39
  • Карма: 5
  • Пол: Мужской
Уважаемый  anterya!
Спасибо за обстоятельный ответ... Но ведь нашел! Сказано, "найдется все" :). Есть ведь еще и англоязычная часть интернета ;). Прошу прощения у модераторов и участников форума, что не догадался сразу  :(...

Все же, может быть, кому-нибудь кроме меня это тоже интересно:

Работы Richard Xiao "со товарищи", сделавших Вами упомянутый A Frequency Dictionary of Mandarin Chinese Core Vocabulary for Learners и участвующих в проекте The Lancaster Corpus of Mandarin Chinese (http://www.lancs.ac.uk/fass/projects/corpus/LCMC/), привели в конце концов к искомому результату - два файлика в сети:
Класс!, рекомендую.

На самом деле, уважаемый anterya, меня интересует не заучивание глифов, для этого было бы достаточно простого ранжирования по частоте и WenLin'я, мне хотелось узнать частоту встречаемости компонентов (графов и строк) и наличие заметных хиатусов между ними по частоте. А для этого, как Вы понимаете, ранга не достаточно, нужно количество "реальных вхождений" в "реальный текст" или количества "приведенные" напр., к миллиону (условно). Это уважаемый Dr. Xiao в своих файликах и предоставил.

Еще раз спасибо.
« Последнее редактирование: 26 Марта 2011 12:06:14 от Макар Н. »