offline version v3
Запись на курсы по HTML, CSS, JavaScript, PHP, фреймворкам и CMS,
а также: помощь в поиске работы и заказов, стажировка на реальных проектах→
⊗ppPsEcNm 43 of 84 menu

Нормализация кодировки при парсинге на PHP

Иногда вам придется парсить не современные сайты, а достаточные старые. На таких сайтах кодировка чаще всего установлена в windows-1251. Поэтому, если вы попытаетесь получить русскоязычные тексты с этого сайта, вы вместо русских букв увидите вопросики - это первый признак сбившейся кодировки.

В этом случае следует воспользоваться функцией iconv, которая перекодирует текст из устаревшего windows-1251 в современный utf-8. Это делается следующим образом:

<?php $str = iconv('windows-1251', 'utf-8', $str); ?>

Скачайте сайт по ссылке targ1.zip и разверните его у себя. Напишите парсер, который зайдет главную страницу и получит содержимое тегов title и main.