Оценете темата:
  • 0 гласа - средно 0
  • 1
  • 2
  • 3
  • 4
  • 5
WebGrab+ - конфигурация и настройки на ini файлове
#35
Добавил съм ИНИта за следните сайтове (виж първа страница). Както знаете предпочитам да източвам информацията директно от сайтовете на телевизиите:

БТВ
Нова ТВ
Fox България
NatGeo България
Sky Sports UK
Fox Sports NL

Опитах INI за bg.filmbox.pl, обаче се оказа, че сайта не позволява скрапване от роботи т.е. позволява само клиенти с браузърски юзър агент.
За нещастие от УебГраб са решили да спазват този стандарт и скрапването на сайта е невъзможно, въпреки че слагам юзър агент за Гугъл Хром в конфига, той не се взима под внимание, когато има роботс.тхт със забрани. Тъпо! Ако някой знае как да се заобиколи тази забрана да казва.

Относно ини за moviestar.bg. Там има проблем защото в УРЛ-то се зареждат две дати и за момента не знам как да пусна две дати в УРЛ, ако някой знае да казва. Отгоре на всички сайта им е недостъпен от чужбина и няма как да го скрапя през седмицата.
Отговори


Съобщения в темата
RE: WebGrab+ - конфигурация и настройки на ini файлове - от harry_gg - 13-12-2016, 14:04

Теми, които вероятно са свързани...
Тема: Автор Отговори: Прегледи: Последна публикация
  WGmulti за WebGrab++ harry_gg 21 497 21-01-2017, 01:39
Последна публикация: ZZlatev

Отваряне на: