Привел в порядок некоторые свои мысли и скромный опыт по работе с веб-ресурсами на китайском языке. Думаю, будет интересно. Приветствуются критика и замечания, ибо это копия заметки в моем блоге, и мне хотелось бы исправить в ней ошибки.
Итак:
Для того, чтобы ваш сайт виден в ведущем китайском поисковике Baidu.com ему иногда потребуется сообщить о нем. Чаще всего он сам довольно скоро найдет вас, если ваш домен в зоне CN или вы можете поставить ссылку на ваш сайт с индексированного в поиске китайского сайта. Но в других случаях это потребуется сделать через форму добавления URL.
Адрес формы подтверждения сайта:
http://www.baidu.com/search/url_submit.htmlВыглядит страница примерно так:
Сама форма ввода на странице может довольно долго грузиться, проявите терпение, её зачем-то запихали в iframe.
Думаю в ней все понятно и без детального перевода. В текстовое поле вводим адрес сайта, решаем простенькую капчу, заполнив поле показанными цифрами, и жмем единственную кнопку.
Как и все поисковики Baidu не гарантирует внесение сайта в поиск. Но стоит постараться и немного подготовить сайт для того, чтобы он не получил поворот от ворот по какой-нибудь банальной технической причине. Теперь о том, какие сайты, по моему скромному опыту, рискуют попасть в индекс китайского поисковика, а какие будут отстрелены насмерть фэйсконтролем.
Baidu работает с тремя языками: китайским упрощенным, китайским традиционным и английским. Есть кое-какие сведения о работе с японским и корейским, но это скорее всего слухи. Индексировано там и множество страниц других языков, даже на русском, но естественно, без учета особенностей языка.
Поэтому добавляемая вами страница должна быть на одном из этих языков и содержать правильную кодировку: GB2312 - китайский упрощенный, Big5 - китайский традиционный, UTF-8 - универсальная для всех языков кодировка. Есть еще несколько редких кодировок китайского, они скорее всего поддерживаются, но вряд ли их применение оправдано. Тем более, что на мой взгляд будущее все равно за Unicode (UTF-8).
Кроме того страницы должны содержать мета-теги с указанием правильной кодировки. Они вам помогут, если вдруг нет возможности сменить кодировку отдаваемую сервером по умолчанию. В случае если имеется доступ к файлам .htaccess сервера, но надо настроить нужную кодировку там. Если вы разместили китайскую версию сайта на отдельном домене третьего или второго уровня, то позаботьтесь о том, чтобы сервер отдавал правильную кодировку по всему домену.
Отдельный случай, когда китайская версия сайта размещена в подпапке, например, /cn/. Здесь лучше всего настроить, чтобы сервер давал правильную китайскую кодировку только в этой папке, а на корне домена стояла кодировка по умолчанию, к примеру, русская. В этом случае заносить в поисковик Baidu.com надо не заглавную страницу сайта, а только подпапку с китайской версией.
Замечу, что самое веселье у меня вызывает манера некоторых руссо-вебмастеро делать китайские версии сайтов (да еще и за немалые деньги!) в кодировке windows-1251. Это просто песня. Получив от переводчика перевод всех страниц, они делает шаблон на китайском и заполняют страницы, копипастя из Ворда в русскоязычную админку с визуальным редактором. Да, иероглифы при этом выглядят как надо, и вебмастер, и заказчик довольны, но в код они вставляются в виде HTML entity. Еще ни разу не встречал, чтобы подобные сайты попадали в индекс Baidu. Думаю, боевые китайские поисковые роботы отстреливают подобных уёжищ с особым цинизмом. Собственно, китайские вебмастера тоже повсеместно страдают созданием русских сайтов в кодировке GB2312. Там обходится без HTML entity, кодовая страница кириллицу включает, но в Яндексе это барахло тоже не встретишь. Причина та же: некорректная кодировка.
Дополнительная информация на китайском о том, что Baidu.com считает хорошими годными китайскими сайтами находится здесь:
http://www.baidu.com/search/guide.html