: 1, 2 След.
Автор |
Сообщение |


|
Тема была выделена из Список связанных торрентов...Ionian.Wind
|
|
Mear
  Стаж: 16 лет Сообщений: 2513 Откуда: НиНо Провайдер: Дом.ru
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.10

|
Цитата: Хе... а чую модераторам больше делать нечего, как темки по World-Art'у проверять ))) Может тогда уж сразу в релиз-визарде сделать пунктик "ссылка на страницу аниме на world-art" и пусть скрипт сам всё заполнит 
|
|
Ionian.Wind
  Стаж: 16 лет Сообщений: 892 Провайдер: Не определен
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.01

|
Mear но-но! насчет работы для модеров - другой вопрос! насчет реализации - скрипты торрентпира у меня есть но я в них еще не глядел и не разбирался. Логичнее всего группировку тегов использовать. Mear писал(а): Может тогда уж сразу в релиз-визарде сделать пунктик "ссылка на страницу аниме на world-art" и пусть скрипт сам всё заполнит об этом я тоже думал - минус в лишнем времени обработки. Плюс - во всем остальном :)
|
|
Mear
  Стаж: 16 лет Сообщений: 2513 Откуда: НиНо Провайдер: Дом.ru
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.10

|
Цитата: об этом я тоже думал - минус в лишнем времени обработки. Плюс - во всем остальном А еще при частом обращении World-Art обещался банить по IP ))) так что тут тоже есть свои подводные камни)))
|
|
Ionian.Wind
  Стаж: 16 лет Сообщений: 892 Провайдер: Не определен
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.01

|
Mear раз уж отдельный серв ставить собираемся, мысль была насчет того, что скопировать с того же ворлд-арта всю базу по аниме к себе. Долго и полуфантастично, но если реализовать - будет круто.
|
|
Mear
  Стаж: 16 лет Сообщений: 2513 Откуда: НиНо Провайдер: Дом.ru
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.10

|
Ionian.Wind Согласен... у меня тоже есть один проектик с подобной задачкой... тока вот придумать как базу у ворлд-арта скопировать я еще не придумал!
|
|
Ionian.Wind
  Стаж: 16 лет Сообщений: 892 Провайдер: Не определен
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.01

|
также как скрипты воруют инфу с посторонних сайтов - тупо по шаблону из текста
|
|
Mear
  Стаж: 16 лет Сообщений: 2513 Откуда: НиНо Провайдер: Дом.ru
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.10

|
Ionian.Wind Это то понятно... но вопрос в том, что при частом обращении World-Art банит по IP... либо через анонимные прокси туда соваться, либо еще как...
|
|
Ionian.Wind
  Стаж: 16 лет Сообщений: 892 Провайдер: Не определен
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.01

|
Mear Допустим, раз в день по 10 анимешек тырить, причем начиная с самых новых.... Или прогу написать, которую можно запустить на обычном компе, и она потихоньку подворовывать будет 
|
|
Mear
  Стаж: 16 лет Сообщений: 2513 Откуда: НиНо Провайдер: Дом.ru
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.10

|
Ionian.Wind По моему там номерки уже на 2-3 тысячи... это сколько же месяцев тыриться будет... лучше уж через анонимные прокси... одна программа, порядка сотни проксей, и пару дней )))
|
|
Mear
  Стаж: 16 лет Сообщений: 2513 Откуда: НиНо Провайдер: Дом.ru
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.10

|
Ionian.Wind И по моему мы уже занимаемся откровенным флудом ))) надо тогда уж отдельную темку забацать "Как стырить с ворлд-арта описание анимешек" 
|
|
Ionian.Wind
  Стаж: 16 лет Сообщений: 892 Провайдер: Не определен
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.01

|
блин, опередил с замечанием об оффтопе
интересно бы узнать, что DarkSavant думает о тегах и смежных темах 
|
|
batyrmastyr
  Стаж: 15 лет Сообщений: 6578 Откуда: Sekai Провайдер: Не определен
Пол: Otoko (M)
Он-лайн: Нет Карма: +35.76

|
Mear Ionian.Wind Не забываем: 1. кроме world-art.ru есть и другие базы 2. нет гарантии что все анимешки мира есть в какой-то одной базе. 3. опять таки название - бывает, что человек знает не полное имя, а аббревиатуру. + очепятки = база выдает кукиш. пример: world-art нормально выдает GITS, GITS SAC, но GITS SSS (также как SSS, GITS SAC SSS) - найти не может. Хотя по ссылке на описание первой серии (на том же world-art) вполне можно связанные темы определять.
|
|
Ionian.Wind
  Стаж: 16 лет Сообщений: 892 Провайдер: Не определен
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.01

|
Вообще, если базу все-таки сформируем, можно будет, допустим, выбрать нужное аниме, нажать на кнопку "создать раздачу", прикрепить торрент-файл, добавить примечания и скрины, и раздача сама оформится в нужном разделе.
|
|
Mear
  Стаж: 16 лет Сообщений: 2513 Откуда: НиНо Провайдер: Дом.ru
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.10

|
Ionian.Wind В общем да... осталось только стырить... batyrmastyr А ты какие еще базы знаешь? А то может я тут тырить потихоньку начну, как я говорил, мне для моего одного проектика тоже не помешает... потом поделюсь ежели что)))
|
|
Ionian.Wind
  Стаж: 16 лет Сообщений: 892 Провайдер: Не определен
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.01

|
|
|
batyrmastyr
  Стаж: 15 лет Сообщений: 6578 Откуда: Sekai Провайдер: Не определен
Пол: Otoko (M)
Он-лайн: Нет Карма: +35.76

|
Mear Русскоязычных и с настолько полным описанием вроде не видел, хотя Википедия может и поможет, только вот автоматизации не поддается. В качестве примеров - то, что нашел про GITS SAC Individual Eleven. anidb.net - есть немного русских буковок и полезной доп. инфы, например, список рип-групп и мест их обитания. myanimelist.net, - русского нет вообще, зато есть линки альтернативных описаний animenewsnetwork.com - описание, в общем, намного хуже, в качестве компенсации - ??полный?? список работавших над аниме людей. "официальный вестник" imdb.com -немного получше предыдущего варианта, есть сопоставление актер<->персонаж и "мы советуем посмотреть также..." en.wikipedia.org - сам понимаешь - как повезет en.wikipedia.org - в этот раз, есть про весь GITS, кроме нужного куска.
|
|
Mear
  Стаж: 16 лет Сообщений: 2513 Откуда: НиНо Провайдер: Дом.ru
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.10

|
Ionian.Wind, batyrmastyr Фенькс... я наверное с анидб пока поворую... по крайней мере основную инфу (без описаний, комментариев и всяких излишеств)... посмотрим, что получится!
|
|
Ionian.Wind
  Стаж: 16 лет Сообщений: 892 Провайдер: Не определен
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.01

|
собственно, накидал скриптик-ворюгу: листинг файла grab.php <?//функция-грабитель function grabPage ($id,$link){ $link.=$id; $file = fopen($link, "r")or die("Извините, запрошенная страница временно не доступна!"); $rf=""; if ($file) { while (!feof($file)){ $rf .=fgets($file); if (strpos($rf, "Проголосовало")) {break;} } fclose($file); } $s = strpos($rf, "<table><tr><td Valign=top align=right><img src='img/1000/".$id."/1.jpg'"); $rf = substr($rf, $s); $rf.="</td></tr></table>"; return trim(chop($rf)); } ?> листинг файла index.php старый <? define("START_TIME", microtime(true)); require_once "grab.php"; echo grabPage(78, "http://world-art.ru/animation/animation.php?id="); printf("<br>Время работы скрипта: %.5f c", microtime(true)-START_TIME); ?> Индекс страницы (78) взят произвольно и для примера. Новый <? define("START_TIME", microtime(true)); require_once "grab.php"; $id = fopen ("id.txt","r+"); $i=fgets($id); $i++; echo "текущий индекс: ".$i; $fDB = fopen ("animeDB.html","a+"); fputs($fDB,grabPage($i, "http://world-art.ru/animation/animation.php?id=")."\n<hr>\n"); rewind($id); fwrite($id,$i); fclose ($id); fclose ($fDB); printf("<br>Время работы скрипта: %.5f c", microtime(true)-START_TIME); ?> Теперь после "утыра" инфа аккуратненько складывается в отдельный файл - для добавления инфы достаточно обновить страницу. Процесс можно автоматизировать, но так как-то надежнее Кроме того, индекс последней "утыреной" страницы сохраняется отдельно, что позволяет продолжить там, где закончили. Скрипт работает идеально - инфу тырит на раз (не учитывая графику), остается только по шаблону разбить и в БД засунуть. Проблема в том, что работает от 2-х до 20-и секунд Скорее всего, это от нагрузки на сервер ворлд-арта и оттого, что у меня траффик закончился зы подсчитал: чтобы полностью копирнуть базу ворлд-арта по анимации, затрачивая по 20 секунд на страницу, необходимо 38 часов. Цифра немного пугает, но выглядит в целом реальной. хе, надо с АниДБ поэксперементировать ззы файлик с результатами 13-и операций  надеюсь, меня за это не посадят? 
|
|
SnakeMFK
 Стаж: 15 лет Сообщений: 1268 Откуда: от верблюда Провайдер: ВТ (IXNN)
Пол: Otoko (M)
Он-лайн: Нет Карма: 0.00

|
прокси и бан по айпи эт ладна, а вот как на счет Цитата: Авторские права на дизайн и оригинальные тексты, а также на подбор и расположение материалов принадлежат OOO «Уорлд Арт» спокойно прикрыть могут ресурс... ессна сухие данные(год, жанр и т.п.) не тянет на оригинал тескты, но на подбор - легко... а вы на готовенькое... ай-яй-яй может получится =) зы запустите скрипт на сендевике и max_execution_time влепите по-больше... при 256кбит граблю страницу с сайта целиком(!!!) прогружая ее за 2-5 сек ззы да и по-стриптагсить в стянутом не помешало бы, парсить потом легче будет =)
Последний раз редактировалось: SnakeMFK (2008-01-27 22:43), всего редактировалось 1 раз
|
|
Ionian.Wind
  Стаж: 16 лет Сообщений: 892 Провайдер: Не определен
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.01

|
SnakeMFK тогда за это все трекеры позакрывать надо кроме того, можно инфу и с аниДБ брать - там права не качают. Источник не играет роли зы я в коде поставил загрузку до голосования - дальше обрубается. На сенди думаю около секунды потребуется
|
|
SnakeMFK
 Стаж: 15 лет Сообщений: 1268 Откуда: от верблюда Провайдер: ВТ (IXNN)
Пол: Otoko (M)
Он-лайн: Нет Карма: 0.00

|
Ionian.Wind писал(а): SnakeMFK тогда за это все трекеры позакрывать надо кроме того, можно инфу и с аниДБ брать - там права не качают. Источник не играет роли трекеры не претендуют на базу данных по тематике, на них народ качать ходит... но если трекер сам пользует стянутую базу, а не юзвери контент наполняют... ну хз... я бы не стал у себя на проекте без согласия источника инфы такое использовать, тем более копирайт явный присутствует =) Цитата: зы я в коде поставил загрузку до голосования - дальше обрубается. На сенди думаю около секунды потребуется именно поэтому я и выделил про целиком ;-) зы я, кстати, получал перманентный бан айпи просто активно ища и открывая рез-ты поиска... так что все равно придется задержки в исполнении ставить =)
|
|
Ionian.Wind
  Стаж: 16 лет Сообщений: 892 Провайдер: Не определен
Пол: Otoko (M)
Он-лайн: Нет Карма: +0.01

|
SnakeMFK SnakeMFK писал(а): все равно придется задержки в исполнении ставить знаю, поэтому автоматику и не вводил - ручками обновлял. там ведь строчку кода добавить, а все равно лень ^_^ SnakeMFK писал(а): но если трекер сам пользует стянутую базу, а не юзвери контент наполняют... ну хз... самый главный запасной вариант: https://forum.touki.ru/viewtopic.php?p=39227#39227 + копирайт источника. SnakeMFK писал(а): бы не стал у себя на проекте без согласия источника инфы такое использовать к ворлд-арту когда официальную базу делать будем, соваться все-таки не будем :), а у аниДБ-шников и разрешения незазорно спросить - вроде не "зажравшиеся на народной кровушке бюрократы" %) в крайнем случае - инглишная вики
|
|
batyrmastyr
  Стаж: 15 лет Сообщений: 6578 Откуда: Sekai Провайдер: Не определен
Пол: Otoko (M)
Он-лайн: Нет Карма: +35.76

|
SnakeMFK писал(а): прокси и бан по айпи эт ладна, а вот как на счет Цитата: Авторские права на дизайн и оригинальные тексты, а также на подбор и расположение материалов принадлежат OOO «Уорлд Арт» спокойно прикрыть могут ресурс... ессна сухие данные(год, жанр и т.п.) не тянет на оригинал тескты, но на подбор - легко... а вы на готовенькое... ай-яй-яй может получится =) Ну "расположение материалов" мы тырить и не будем. Ну а если приписки вставлять : "этот кусок принадлежит ворлд арту, полное описание мона посмотреть тут <url>", или этого маловато будит? На крайняк - права на "избранные рецензии" - а авторов рецензий, которые на трекер катить бочку не станут (главное - указать автора 
|
|
DarkSavant

Карма: 0.00

|
Да штука конечно интересная, осталось придумать как это все получше реализовать... Надо сделать нормальный грабер, потом выдернуть нужную инфу засунуть в базу, а потом сделать в релизке поиск на AJAX'e который будет при вводе названия подбирать варианты... и усе...
|
|
Текущее время: 04-Дек 12:07
Часовой пояс: GMT + 3
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете голосовать в опросах Вы не можете прикреплять файлы к сообщениям Вы не можете скачивать файлы
|
|