Автор Тема: Препарация и грабинг сайта  (Прочитано 20620 раз)

0 Пользователей и 1 Гость просматривают эту тему.

pnkv

  • Гость
Препарация и грабинг сайта
« : 11 Января 2006 17:42:12 »
Есть такой сайт, хитро сделанный
http://210.32.137.91/

На нем хранится некоторое количество книг в формате DJVU, но то ли они на другом сайте расположены, то ли еще где, но скачать телепортом их не удается. И найти ссылки, где эти страницы DJVU расположены также не получается.

Есть ли способ скачать книги целиком, а не сохраняя их по отдельной странице?

Вот, например, эту книгу:
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/oebbrowser.html


pnkv

  • Гость
Re: Препарация и грабинг сайта
« Ответ #2 : 11 Января 2006 20:51:42 »
   Книга лежит на сервере в таком формате:
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/00000001.djvu
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/00000002.djvu
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/00000003.djvu
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/...............djvu

Спасибо, но опять таки возникает вопрос, а как это скачать за раз? Если в телепорт вставлять ссылку
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/
то он не видит файлы, находящиеся в папке ptiff, а возможности закачки по шаблону там нет.

Оффлайн Fozzie

  • Заслуженный
  • *****
  • Сообщений: 702
  • Карма: 10
  • Пол: Мужской
Re: Препарация и грабинг сайта
« Ответ #3 : 11 Января 2006 21:10:13 »
Элементарно, Ватсон!  ;D
Ставишь себе FlashGet, а в нём есть такая фишка как "Пакетное задание" (см. рисунок). Я таким образом вытянул все картинки иероглифов с Mojikyo (правда за это они, похоже, забанили мой рабочий IP).
據梧

pnkv

  • Гость
Re: Препарация и грабинг сайта
« Ответ #4 : 11 Января 2006 21:24:44 »
Здорово!
Теперь я даже и не знаю, а есть ли необходимость в создании библиотеки при форуме.
 ;D

Оффлайн Fozzie

  • Заслуженный
  • *****
  • Сообщений: 702
  • Карма: 10
  • Пол: Мужской
Re: Препарация и грабинг сайта
« Ответ #5 : 11 Января 2006 21:35:42 »
Теперь я даже и не знаю....
(C) "Особенности национальной охоты"  ;D ;D ;D
據梧

Оффлайн Fozzie

  • Заслуженный
  • *****
  • Сообщений: 702
  • Карма: 10
  • Пол: Мужской
Re: Препарация и грабинг сайта
« Ответ #6 : 11 Января 2006 23:10:58 »
А сайт-то вкусненький! ::)
Я с ходу нашёл там пару очень нужных мне книг по 山海經. Теперь пойду разбираться, что же это конкретно я скачал...  ;D
據梧

Оффлайн groovy_merchant

  • Заслуженный
  • *****
  • Сообщений: 559
  • Карма: 23
Re: Препарация и грабинг сайта
« Ответ #7 : 12 Января 2006 00:40:23 »
Сайт прекрасный. Вот только некоторые книжки не дает - или на айпи ругается, или говорит, что кто-то там читает. Можно ли по идентификатору книжки найти ее фиксированый сетевой адрес?

pnkv

  • Гость
Re: Препарация и грабинг сайта
« Ответ #8 : 12 Января 2006 00:48:32 »
Да, интересно было бы узнать, какой ай-пи его устроит. А что кто-то там читает – похоже на отмазку. Был ли у кого случай, когда «читающая» книга потом становилась доступной?

Кроме того ряд книг доступен только партнерам, что тоже печально.


pnkv

  • Гость
Re: Препарация и грабинг сайта
« Ответ #9 : 12 Января 2006 01:03:56 »
Еще такой вопрос, а как отдельные DJVU соединить в целый файл. В LizardTech Document Express Editor такой функции не нашел.

Оффлайн Fozzie

  • Заслуженный
  • *****
  • Сообщений: 702
  • Карма: 10
  • Пол: Мужской
Re: Препарация и грабинг сайта
« Ответ #10 : 12 Января 2006 02:53:26 »
Еще такой вопрос, а как отдельные DJVU соединить в целый файл. В LizardTech Document Express Editor такой функции не нашел.
Э-э-э... А "Вещий", случаем, не от слова "чемоданы"?  ;D
Это можно сделать в Workflow Manager (у меня, как и у всех, Document Express Enterprise 5.1).
據梧

pnkv

  • Гость
Re: Препарация и грабинг сайта
« Ответ #11 : 12 Января 2006 03:13:09 »
Ааа, ну понял. У меня с помощью Insert Page.

Оффлайн Fozzie

  • Заслуженный
  • *****
  • Сообщений: 702
  • Карма: 10
  • Пол: Мужской
Re: Препарация и грабинг сайта
« Ответ #12 : 12 Января 2006 03:28:00 »
Ааа, ну понял. У меня с помощью Insert Page.
900 раз Insert Page? Важковато буде...
據梧

pnkv

  • Гость
Re: Препарация и грабинг сайта
« Ответ #13 : 12 Января 2006 03:35:10 »
Ааа, ну понял. У меня с помощью Insert Page.
900 раз Insert Page? Важковато буде...

нет, там можно пакетно добавлять. Хотя, стоит перейти на Enterprise.

Оффлайн Fozzie

  • Заслуженный
  • *****
  • Сообщений: 702
  • Карма: 10
  • Пол: Мужской
Re: Препарация и грабинг сайта
« Ответ #14 : 12 Января 2006 03:53:09 »
Хотя, стоит перейти на Enterprise.
Коль пошли такие сайты - ставь, Олежка, Enterprise!  ;D
據梧

Оффлайн Glasha

  • Бывалый
  • ***
  • Сообщений: 238
  • Карма: 11
    • LJ
Re: Препарация и грабинг сайта
« Ответ #15 : 12 Января 2006 21:25:22 »
Только расстраивают. Книжек десять нужных сразу подряд - то айпи, то только партнёрам, то читают. У меня и охота пропала искать, что там вообще откроется. Пока ничего не выходит

Оффлайн Glasha

  • Бывалый
  • ***
  • Сообщений: 238
  • Карма: 11
    • LJ
Re: Препарация и грабинг сайта
« Ответ #16 : 12 Января 2006 21:38:56 »
Или у меня айпи какой-то особенный? Например, захотела ещё про Лян Шумина прочитать - и все 32 книги не получилось.

pnkv

  • Гость
Re: Препарация и грабинг сайта
« Ответ #17 : 12 Января 2006 21:50:52 »
Или у меня айпи какой-то особенный? Например, захотела ещё про Лян Шумина прочитать - и все 32 книги не получилось.

а ссылка какая?


Оффлайн Glasha

  • Бывалый
  • ***
  • Сообщений: 238
  • Карма: 11
    • LJ


Echter

  • Гость
Re: Препарация и грабинг сайта
« Ответ #20 : 13 Января 2006 00:57:29 »
Только расстраивают. Книжек десять нужных сразу подряд - то айпи, то только партнёрам, то читают...

   Судя по всему, не читают, а "проверяют качество". Вполне возможно, эти книги ещё даже не отсканированы.
   А IP, наверное, нужен китайский. Можно попробовать китайский прокси.

pnkv

  • Гость
Re: Препарация и грабинг сайта
« Ответ #21 : 13 Января 2006 01:09:59 »
Небольшое наблюдение.

Если в поиске файл отмечен словом Read (c большой буквы), то он недоступен.
Если с маленькой – read – то:
1.   если имеет в пути /anc/ - то доступен
2.   все прочие недоступны.

Насколько я понимаю – anc от ancient, т.е. доступны файлы не имеющие проблем с копирайтом. Все книги с древними текстами, но современными комментариями также недоступны.


pnkv

  • Гость
Re: Препарация и грабинг сайта
« Ответ #22 : 13 Января 2006 01:15:35 »
Ага, вот у них в поиске есть опция – Ancient, тогда будут отбираться только доступные книги.

==========

Попробовал выставлять - вообще ничего не ищет. Бредовая система.
« Последнее редактирование: 13 Января 2006 01:18:23 от Олег »

Оффлайн Glasha

  • Бывалый
  • ***
  • Сообщений: 238
  • Карма: 11
    • LJ
Re: Препарация и грабинг сайта
« Ответ #23 : 13 Января 2006 02:20:43 »
Ну, утешительней думать, что читают. Вычитывают то есть. А если они ещё не отсканировали книги, а просто дразнят окружающих, то как-то совсем грустно.

Оффлайн Fozzie

  • Заслуженный
  • *****
  • Сообщений: 702
  • Карма: 10
  • Пол: Мужской
Re: Препарация и грабинг сайта
« Ответ #24 : 13 Января 2006 02:31:45 »
Да, сайт непростой (хотя лично мне он дал две весьма ценные для меня книги).
Почитал их FAQ. Очень понравилась фраза:
Цитировать
4. If a publisher requests removal of a title from the database, what fee would they have to pay for its removal?

The current cost is $200.
В обязательном порядке включить подобный пункт в устав английского клуба!!!  ;D
據梧