offline version v3
Запись на курсы по HTML, CSS, JavaScript, PHP, фреймворкам и CMS,
а также: помощь в поиске работы и заказов, стажировка на реальных проектах→
⊗ppPsMtCDb 49 of 84 menu

Метод паука на базе данных для парсинга сайтов в PHP

В предыдущих уроках мы рассмотрели метод паука, в котором ссылки хранились в массиве. Для больших сайтов это может быть не самым удачным выбором, так как большой массив ссылок будет кушать оперативную память. Кроме того, если случится обрыв парсинга, то массив ссылок пропадет и придется начинать сначала.

Более удачным вариантом паука является использование базы данных. В этом случае нужно сделать таблицу, в которую будут помешаться ссылки. Таблица будет иметь две колонки: адреса ссылок и колонку для пометок, спаршена ли эта ссылка или нет.

Парсер будет брать первую неспаршенную ссылку, парсить ее, помечать в базе, что данная ссылка спаршена и брать следующую.

Реализуйте описанный алгоритм.