Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.
Awesome Lists | Featured Topics | Projects
https://github.com/fi1a/crawler

PHP crawler
https://github.com/fi1a/crawler
crawler php
Last synced: 5 days ago
JSON representation
PHP crawler
Host: GitHub
URL: https://github.com/fi1a/crawler
Owner: fi1a
License: mit
Created: 2022-12-20T02:42:23.000Z (about 2 years ago)
Default Branch: main
Last Pushed: 2023-02-22T02:43:24.000Z (almost 2 years ago)
Last Synced: 2024-12-02T08:50:51.707Z (2 months ago)
Topics: crawler, php
Language: PHP
Homepage:
Size: 356 KB
Stars: 1
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project

README

        # PHP crawler (парсинг сайта)

[![Latest Version][badge-release]][packagist]

[![Software License][badge-license]][license]

[![PHP Version][badge-php]][php]

![Coverage Status][badge-coverage]

[![Total Downloads][badge-downloads]][downloads]

[![Support mail][badge-mail]][mail]

Этот пакет предоставляет API для обхода ссылок и скачивания файлов (парсинга сайта). С помощью данного пакета вы можете забирать

любую информацию со стороннего сайта. Есть возможность создать собственные обработчики, которые позволят

кастомизировать логику парсинга страницы, подготовки и сохранения.

## Установка

Установить этот пакет можно как зависимость, используя Composer.

``` bash

composer require fi1a/crawler

```

## Шаги процесса парсинга

Процесс парсинга разделен на три шага:

1. загрузка;

1. процесс;

1. запись.

На шаге "загрузка" осуществляется обход страниц или файлов и их загрузка. Парсинг новых ссылок  из

загруженной страницы осуществляется классом реализующим интерфейс `Fi1a\Crawler\UriParsers\UriParserInterface`.

Определение загружать адрес или нет осуществляется классом реализующим интерфейс

`Fi1a\Crawler\Restrictions\RestrictionInterface`.

Шаг "процесс" идет следующим за шагом "загрузка". На данном шаге осуществляется преобразование адресов

классом реализующим интерфейс `Fi1a\Crawler\UriTransformers\UriTransformerInterface`.

Последним шагом идет шаг "запись". Перед записью осуществляется подготовка контента с помощью класса реализующего

интерфейс `Fi1a\Crawler\PrepareItems\PrepareItemInterface` (класс `Fi1a\Crawler\PrepareItems\PrepareHtmlItem`

заменяет старые ссылки на новые). Запись осуществляется с помощью `Fi1a\Crawler\Writers\WriterInterface`.

Методом `run` класса `Fi1a\Crawler\Crawler` запускается все три шага последовательно, но можно запускать шаги поочередно

методами `download` (шаг загрузки), `process` (шаг процесса) и `write` (шаг записи).

## Примеры

Ниже представлены наиболее часто встречающиеся задачи для обхода веб-сайтов.

### Создание копии сайта

С помощью представленного кода можно создать копию веб-сайта `https://some-domain.ru`

в указанной директории `__DIR__ . '/local-site'`.

```php

use Fi1a\Crawler\Config;

use Fi1a\Crawler\ConfigInterface;

use Fi1a\Crawler\Crawler;

use Fi1a\Crawler\ItemStorages\ItemStorage;

use Fi1a\Crawler\ItemStorages\StorageAdapters\LocalFilesystemAdapter;

use Fi1a\Crawler\Writers\FileWriter;

$config = new Config();

$config->setVerbose(ConfigInterface::VERBOSE_DEBUG)

    ->setSizeLimit('5Mb')

    ->addStartUri('https://some-domain.ru');

$crawler = new Crawler($config, new ItemStorage(new LocalFilesystemAdapter(__DIR__ . '/runtime/storage')));

$crawler->setWriter(new FileWriter(__DIR__ . '/local-site'));

$crawler->run();

```

Для начала нужно создать объект конфигурации `Config` и передать его в конструктор класса `Crawler` вместе с 

объектом класса `ItemStorage`. Затем установить объект `FileWriter` с помощью метода `setWriter` класса `Crawler`

реализующего логику сохранения элементов (страниц, файлов) в локальную файловую систему.

Запуск парсинга сайта осуществляется с помощью метода `run` класса `Crawler`.

### Парсинг новостей

Класс парсера ссылок новостей. Находит на странице списка и возвращает ссылки относящиеся к

детальной новости и к списку.

```php

namespace Foo\UriParsers;

use Fi1a\Console\IO\ConsoleOutputInterface;

use Fi1a\Crawler\ItemInterface;

use Fi1a\Crawler\UriCollection;

use Fi1a\Crawler\UriCollectionInterface;

use Fi1a\Crawler\UriParsers\UriParserInterface;

use Fi1a\Http\Uri;

use Fi1a\Log\LoggerInterface;

use Fi1a\SimpleQuery\SimpleQuery;

use InvalidArgumentException;

/**

 * Парсер ссылок новостей

 */

class NewsUriParser implements UriParserInterface

{

    /**

     * @inheritDoc

     */

    public function parse(

        ItemInterface $item,

        ConsoleOutputInterface $output,

        LoggerInterface $logger

    ): UriCollectionInterface {

        $collection = new UriCollection();

        if (

            !$item->isAllow()

            || $item->getItemUri()->host() !== 'news-domain.ru'

            || $item->getItemUri()->path() !== '/news/'

        ) {

            return $collection;

        }

        $sq = new SimpleQuery((string) $item->getBody());

        // выбираем ссылки ведущие на детальную новости и ссылки постраничной навигации

        $nodes = $sq('#news .header, #news .pm_s, #news .pm_n');

        /** @var \DOMElement $node */

        foreach ($nodes as $node) {

            $value = $sq($node)->attr('href');

            if (!is_string($value) || !$value) {

                continue;

            }

            try {

                $uri = new Uri($value);

            } catch (InvalidArgumentException $exception) {

                continue;

            }

            $collection[] = $uri;

        }

        return $collection;

    }

}

```

Класс преобразования ссылок. Преобразует ссылки новостей из формата источника в новый формат

(https://news-domain.ru/news/news-code-1.html => /news/news-code-1/).

```php

namespace Foo\UriTransformers;

use Fi1a\Console\IO\ConsoleOutputInterface;

use Fi1a\Crawler\ItemInterface;

use Fi1a\Crawler\UriTransformers\UriTransformerInterface;

use Fi1a\Http\UriInterface;

use Fi1a\Log\LoggerInterface;

/**

 * Преобразует uri новостей из внешних адресов в новые

 */

class NewsUriTransformer implements UriTransformerInterface

{

    /**

     * @inheritDoc

     */

    public function transform(

        ItemInterface $item,

        ConsoleOutputInterface $output,

        LoggerInterface $logger

    ): UriInterface {

        if (!$item->isAllow()) {

            return $item->getItemUri();

        }

        $isNewsPage = preg_match(

            '#https://news-domain.ru/news/(.+)\.html#mui',

            $item->getItemUri()->uri(),

                $matches

        ) > 0;

        if (!$isNewsPage) {

            $output->writeln('    - Не является ссылкой на новость>');

            return $item->getItemUri();

        }

        // Преобразуем ссылки на новости в новый формат

        $object = $item->getItemUri()

            ->withHost('')

            ->withPort(null)

            ->withPath('/news/' . $matches[1] . '/');

        return $object;

    }

}

```

Класс подготавливает HTML новости удаляя "хлебные крошки" и блоки не относящиеся к контенту новости.

```php

namespace Foo\PrepareItems;

use Fi1a\Console\IO\ConsoleOutputInterface;

use Fi1a\Crawler\ItemCollectionInterface;

use Fi1a\Crawler\ItemInterface;

use Fi1a\Crawler\PrepareItems\PrepareHtmlItem;

use Fi1a\Log\LoggerInterface;

use Fi1a\SimpleQuery\SimpleQuery;

/**

 * Подготавливает HTML новости

 */

class NewsPrepareItem extends PrepareHtmlItem

{

    /**

     * @inheritDoc

     */

    public function prepare(

        ItemInterface $item,

        ItemCollectionInterface $items,

        ConsoleOutputInterface $output,

        LoggerInterface $logger

    ) {

        $isNewsPage = preg_match(

            '#https://news-domain.ru/news/(.+)\.html#mui',

            $item->getItemUri()->uri()

        ) > 0;

        if (!$isNewsPage) {

            return false;

        }

        $sq = new SimpleQuery((string) $item->getBody(), 'UTF-8');

        $news = $sq('#news');

        // Удаляем лишние элементы, остается только новость с заголовком и контентом

        $news('.share, .breadcrumbs, p:last-child')->remove();

        // Заменяем ссылки на новые ссылки новостей

        $this->replace('a', 'href', $news, $item, $items);

        return $news->html();

    }

}

```

Класс добавляющий/обновляющий новости на сайте 1С-Битрикс записывая их в ИБ.

```php

namespace Foo\Writers;

use ErrorException;

use Fi1a\Console\IO\ConsoleOutputInterface;

use Fi1a\Crawler\ItemInterface;

use Fi1a\Crawler\Writers\WriterInterface;

use Fi1a\Log\LoggerInterface;

use Fi1a\SimpleQuery\SimpleQuery;

use Bitrix\Main\Loader;

use Bitrix\Iblock\IblockTable;

/**

 * Записывает результат в ИБ 1С-Битрикса

 */

class NewsWriter implements WriterInterface

{

    /**

     * @var int

     */

    protected $newsIblockId;

    public function __construct()

    {

        Loader::includeModule('iblock');

        $iblock = IblockTable::query()

            ->setSelect(['ID',])

            ->where('CODE', '=', 'furniture_news_s1')

            ->exec()

            ->fetch();

        if (!$iblock) {

            throw new ErrorException('Инфоблок новостей не найден');

        }

        $this->newsIblockId = (int) $iblock['ID'];

    }

    /**

     * @inheritDoc

     */

    public function write(ItemInterface $item, ConsoleOutputInterface $output, LoggerInterface $logger): bool

    {

        $isNewsPage = preg_match(

                '#https://news-domain.ru/news/(.+)\.html#mui',

                $item->getItemUri()->uri(),

                $matches

            ) > 0;

        if (!$isNewsPage) {

            $output->writeln('    - Не является страницей новости>');

            return false;

        }

        $sq = new SimpleQuery((string) $item->getPrepareBody(), 'UTF-8');

        $name = $sq('h1')->html();

        $sq('h1')->remove();

        $code = $matches[1];

        $detailText = $sq('body')->html();

        $previewText = \TruncateText(strip_tags($detailText), 50);

        $fields = [

            'IBLOCK_ID' => $this->newsIblockId,

            'NAME' => $name,

            'CODE' => $code,

            'DETAIL_TEXT' => $detailText,

            'DETAIL_TEXT_TYPE' => 'html',

            'PREVIEW_TEXT' => $previewText,

            'ACTIVE' => 'Y',

        ];

        $news = \CIBlockElement::GetList([], [

            '=IBLOCK_ID' => $this->newsIblockId,

            '=CODE' => $code,

        ], false, false, ['ID'])->Fetch();

        $instance = new \CIBlockElement();

        if ($news) {

            $result = $instance->Update($news['ID'], $fields);

            if ($result === false) {

                $output->writeln('    Не удалось обновить новость: {{}}>', [$instance->LAST_ERROR]);

            }

            return $result;

        }

        $newsId = (int) $instance->Add($fields);

        if (!$newsId) {

            $output->writeln('    Не удалось создать новость: {{}}>', [$instance->LAST_ERROR]);

            return false;

        }

        return true;

    }

}

```

Создается объект конфигурации `Config` со значениями:

- уровень подробности вывода;

- время жизни элементов в хранилище (0 - без ограничения);

- ограничение на загружаемый файл (5Mb для всех типов файлов);

- добавляется точка входа, с которой начинается обход (https://news-domain.ru/news/ - список новостей)

Устанавливаем классы определяющие поведение:

- метод `setUriParser` устанавливает парсер uri для обхода (в зависимости от типа контента);

- метод `setUriTransformer` устанавливает класс преобразователь адресов из внешних во внутренние;

- метод `setPrepareItem` устанавливает класс подготавливающий контент (удаляет лишние теги не относящиеся к новости);

- метод `setWriter` устанавливает класс записывающий результат обхода (записывает новость в ИБ 1С-Битрикса).

Методом `loadFromStorage` класса `Fi1a\Crawler\Crawler` загружаем из хранилища обработанные элементы с последнего запуска и

для страниц списка новостей, отмечаем повторную обработку с целью найти новые добавленные новости.

Запускаем парсинг новостей методом `run` класса `Fi1a\Crawler\Crawler`.

```php

use Fi1a\Crawler\Config;

use Fi1a\Crawler\ConfigInterface;

use Fi1a\Crawler\Crawler;

use Fi1a\Crawler\ItemInterface;

use Fi1a\Crawler\ItemStorages\ItemStorage;

use Fi1a\Crawler\ItemStorages\StorageAdapters\LocalFilesystemAdapter;

use Fi1a\Http\Mime;

use Foo\PrepareItems\NewsPrepareItem;

use Foo\UriParsers\NewsUriParser;

use Foo\UriTransformers\NewsUriTransformer;

use Foo\Writers\NewsWriter;

$config = new Config();

$config->setVerbose(ConfigInterface::VERBOSE_DEBUG)

    ->setLifetime(0)

    ->setSizeLimit('5Mb')

    ->addStartUri('https://news-domain.ru/news/');

$crawler = new Crawler($config, new ItemStorage(new LocalFilesystemAdapter(__DIR__ . '/runtime/storage')));

$crawler->setUriParser(new NewsUriParser(), Mime::HTML)

    ->setUriTransformer(new NewsUriTransformer())

    ->setPrepareItem(new NewsPrepareItem())

    ->setWriter(new NewsWriter(), Mime::HTML);

$crawler->loadFromStorage();

// При повторном запуске страницы списка помечаем на повторную обработку для добавления новых новостей

foreach ($crawler->getItems() as $item) {

    assert($item instanceof ItemInterface);

    if (

        !$item->isAllow()

        || $item->getItemUri()->host() !== 'news-domain.ru'

        || $item->getItemUri()->path() !== '/news/'

    ) {

        continue;

    }

    $item->setDownloadStatus(null);

    $item->setProcessStatus(null);

    $item->setWriteStatus(null);

}

$crawler->run();

```

## Основные классы пакета:

Ниже представлены основные классы пакета. С помощью одних можно настроить поведение парсера,

а с помощью других расширить его.

- `Fi1a\Crawler\Crawler` - основной класс пакета;

- `Fi1a\Crawler\Config` - конфигурация парсинга;

- `Fi1a\Crawler\UriCollection` - коллекция адресов.

- `Fi1a\Crawler\Item` - элемент обхода;

- `Fi1a\Crawler\ItemCollection` - коллекция элементов обхода.

- `Fi1a\Crawler\ItemStorages\ItemStorage` - реализует хранилище элементов парсинга;

  - `Fi1a\Crawler\ItemStorages\StorageAdapters\LocalFilesystemAdapter` - адаптер для хранения в локальной файловой системе;

  - `Fi1a\Crawler\ItemStorages\StorageAdapters\FilesystemAdapter` - адаптер для хранения в файловой системе;

- Прокси

  - `Fi1a\Crawler\Proxy\Proxy` - прокси для запроса;

  - `Fi1a\Crawler\Proxy\ProxyCollection` - коллекция прокси;

  - `Fi1a\Crawler\Proxy\ProxyStorage` - реализует хранилище для прокси;

    - `Fi1a\Crawler\Proxy\StorageAdapters\LocalFilesystemAdapter` - адаптер для хранения в локальной файловой системе;

    - `Fi1a\Crawler\Proxy\StorageAdapters\FilesystemAdapter` - адаптер для хранения в файловой системе;

  - Подбор подходящих прокси для запроса

    - `Fi1a\Crawler\Proxy\Selections\FilterByAttempts` - фильтрация прокси по числу ошибок соединения;

    - `Fi1a\Crawler\Proxy\Selections\Limit` - ограничение на кол-во подобранных прокси;

    - `Fi1a\Crawler\Proxy\Selections\OnlyActive` - фильтрация прокси по активности;

    - `Fi1a\Crawler\Proxy\Selections\SortedByTime` - отсортированные по времени использования;

- Классы расширяющие операции

  - Ограничение обхода uri

    - `Fi1a\Crawler\Restrictions\NotAllowRestriction` - запрет на обход для всех uri;

    - `Fi1a\Crawler\Restrictions\UriRestriction` - ограничение по домену и пути;

  - Шаг загрузки

    - `Fi1a\Crawler\UriParsers\HtmlUriParser` - парсит html и возвращает uri для обхода;

  - Шаг преобразования uri

    - `Fi1a\Crawler\UriTransformers\SiteUriTransformer` - преобразует uri из внешних адресов в локальные;

  - Шаг записи

    - `Fi1a\Crawler\PrepareItem\PrepareHtmlItem` - подготавливает HTML элемент (заменяет ссылки страницы на новые);

    - `Fi1a\Crawler\Writers\FileWriter` - записывает результат обхода в файл;

## Объект настроек

- `startUri` - точка входа, с которой начинается обход;

  - `addStartUri(string $startUri)` - добавить точку входа;

  - `getStartUri(): array` - возвращает добавленные точки входа;

- `httpClientConfig` - объект настроек http-клиента ([подробнее об объекте настроек](https://github.com/fi1a/http-client#объект-настроек));

  - `setHttpClientConfig(Fi1a\HttpClient\ConfigInterface $config)` - установить объект настроек http-клиента;

  - `getHttpClientConfig(): Fi1a\HttpClient\ConfigInterface` - возвращает объект настроек http-клиента;

- `httpClientHandler` ("Fi1a\HttpClient\Handlers\StreamHandler") - обработчик запросов (возможные значения: "Fi1a\HttpClient\Handlers\StreamHandler", "Fi1a\HttpClient\Handlers\CurlHandler")

  - `setHttpClientHandler(string $handler)` - установить обработчик запросов;

  - `getHttpClientHandler(): string` - вернуть обработчик запросов;

- `verbose` (ConfigInterface::VERBOSE_NORMAL) - уровень подробности вывода (возможные значения: ConfigInterface::VERBOSE_NONE, ConfigInterface::VERBOSE_NORMAL,

ConfigInterface::VERBOSE_HIGHT, ConfigInterface::VERBOSE_HIGHTEST, ConfigInterface::VERBOSE_DEBUG);

  - `setVerbose(int $verbose)` - установить уровень подробности вывода;

  - `getVerbose(): int` - вернуть уровень подробности вывода;

- `logChannel` ("crawler") - канал логирования;

  - `setLogChannel(string $logChannel)` - установить канал логирования;

  - `getLogChannel(): string` - вернуть канал логирования;

- `saveAfterQuantity` (10) - параметр, определяющий через какое новое кол-во элементов сохранять элементы в хранилище;

  - `setSaveAfterQuantity(int $quantity)` - установить параметр, определяющий через какое новое кол-во элементов сохранять элементы в хранилище;

  - `getSaveAfterQuantity(): int` - возвращает параметр, определяющий через какое новое кол-во элементов сохранять элементы в хранилище;

- `lifeTime` (24 * 60 * 60) - время жизни элементов в хранилище;

  - `setLifetime(int $lifeTime)` - установить время жизни элементов в хранилище;

  - `getLifetime(): int` - вернуть время жизни элементов в хранилище;

- `delay` ([0, 0]) - пауза между запросами;

  - `setDelay($delay)` - установить паузу между запросами (возможные значения: int|array);

  - `getDelay(): array` - вернуть паузу между запросами;

- `sizeLimits` - ограничение на загружаемый файл по типу контента;

  - `setSizeLimit($sizeLimit, ?string $mime = null)` - установить ограничение на загружаемый файл по типу контента;

  - `getSizeLimits(): array` - возвращает ограничения на загружаемые файлы по типу контента;

- `retry` (3) - кол-во попыток запросов к адресу при http ошибки;

  - `setRetry(int $retry)` - установить кол-во попыток запросов к адресу при http ошибки;

  - `getRetry(): int` - вернуть кол-во попыток запросов к адресу при http ошибки.

Пример:

- установить уровень подробности вывода на самый наивысший уровень ConfigInterface::VERBOSE_DEBUG;

- ограничение на все загружаемые файлы в 5Mb и на файл типа jpeg в 1Mb;

- пауза между запросами случайным образом от 3 до 10 секунд;

- добавить точку входа `https://some-domain.ru`.

```php

use Fi1a\Crawler\Config;

use Fi1a\Crawler\ConfigInterface;

$config = new Config();

$config->setVerbose(ConfigInterface::VERBOSE_DEBUG)

    ->setSizeLimit('5Mb')

    ->setSizeLimit('1Mb', 'image/jpeg')

    ->setDelay([3, 10])

    ->addStartUri('https://some-domain.ru');

```

## Ограничение обхода

Для ограничения обхода парсером используется класс реализующий интерфейс `Fi1a\Crawler\Restrictions\RestrictionInterface`,

добавленный методом `addRestriction` класса `Fi1a\Crawler\Crawler`.

В пакете имеются два класса для реализации ограничения:

- `Fi1a\Crawler\Restrictions\NotAllowRestriction` - запрет на обход;

- `Fi1a\Crawler\Restrictions\UriRestriction` - ограничение по домену и пути;

Пример ограничения обхода папкой news домена some-domain.ru:

```php

use Fi1a\Crawler\Restrictions\UriRestriction;

$crawler->addRestriction(new UriRestriction('https://some-domain.ru/news/'));

```

Если не были заданы ограничения при начале шага загрузки, они `Fi1a\Crawler\Restrictions\UriRestriction`

добавляются автоматически на основе точек входа заданных методом `addStartUri` объекта конфигурации.

## Элемент обхода

При парсинге объект класса `Fi1a\Crawler\Item` используется как конечная точка адреса содержащая в себе всю

необходимую информацию для парсинга.

Методы класса:

| Метод                                           | Описание                                                    |

|-------------------------------------------------|-------------------------------------------------------------|

| getItemUri(): UriInterface                      | Возвращает uri                                              |

| setStatusCode(?int $statusCode)                 | Устанавливает код статуса ответа                            |

| getStatusCode(): ?int                           | Возвращает код статуса ответа                               |

| setReasonPhrase(?string $reasonPhrase)          | Устанавливает текст причины ассоциированный с кодом статуса |

| getReasonPhrase(): ?string                      | Возвращает текст причины ассоциированный с кодом статуса    |

| setDownloadStatus(?bool $status)                | Запрос выполнен успешно или нет                             |

| getDownloadStatus(): ?bool                      | Запрос выполнен успешно или нет                             |

| setProcessStatus(?bool $status)                 | Обработка выполнена успешно или нет                         |

| getProcessStatus(): ?bool                       | Обработка выполнена успешно или нет                         |

| setWriteStatus(?bool $status)                   | Запись выполнена успешно или нет                            |

| getWriteStatus(): ?bool                         | Запись выполнена успешно или нет                            |

| setAllow(bool $allow)                           | Разрешено к обработке или нет                               |

| isAllow(): bool                                 | Разрешено к обработке или нет                               |

| setBody(string $body)                           | Установить тело ответа                                      |

| getBody(): ?string                              | Вернуть тело ответа                                         |

| setPrepareBody($body)                           | Установить подготовленное тело ответа                       |

| getPrepareBody()                                | Вернуть подготовленное тело ответа                          |

| free()                                          | Очищает тело запроса                                        |

| reset()                                         | Сбрасывает состояние                                        |

| setContentType(?string $contentType)            | Установить тип контента                                     |

| getContentType(): ?string                       | Вернуть тип контента                                        |

| setNewItemUri(UriInterface $newItemUri)         | Установить новый uri                                        |

| getNewItemUri(): ?UriInterface                  | Вернуть новый uri                                           |

| expiresAt(?DateTime $dateTime)                  | Истечет в переданное время                                  |

| expiresAfter(?int $lifetime)                    | Истекает через переданное время                             |

| getExpire(): ?DateTime                          | Возвращает когда закончится срок жизни                      |

| isExpired(): bool                               | Срок жизни истек                                            |

| getAbsoluteUri(UriInterface $uri): UriInterface | Возвращает абсолютный путь относительно элемента            |

| isImage(): bool                                 | Является ли изображением                                    |

| isFile(): bool                                  | Является ли "файлом"                                        |

| isPage(): bool                                  | Является ли "страницей"                                     |

| isCss(): bool                                   | Является ли Css файлом                                      |

| isJs(): bool                                    | Является ли Js файлом                                       |

| toArray(): array                                | В массив                                                    |

| static fromArray(array $fields)                 | Из массива                                                  |

Получить коллекцию элементов обхода можно методом `getItems` класса `Fi1a\Crawler\Crawler`.

## Геттеры коллекций элементов обхода

После выполнения парсинга или загрузки элементов из хранилища с помощью метода `loadFromStorage`

класса `Fi1a\Crawler\Crawler` становится доступна коллекция элементов `Fi1a\Crawler\ItemCollectionInterface`, которую

можно получить методом `getItems` класса `Fi1a\Crawler\Crawler`.

У данной коллекции есть вспомогательные методы, позволяющие отфильтровать элементы коллекции

по какому либо признаку:

- `getDownloaded` - возвращает успешно загруженные элементы;

- `getProcessed` - возвращает успешно обработанные элементы;

- `getWrited` - возвращает успешно записанные элементы;

- `getImages` - возвращает все элементы изображений;

- `getFiles` - возвращает все элементы файлов;

- `getPages` - возвращает все элементы страниц;

- `getCss` - возвращает все элементы css файлов;

- `getJs` - возвращает все элементы js файлов.

Пример выведет все ссылки на загруженные изображения:

```php

$crawler->loadFromStorage();

$collection = $crawler->getItems();

foreach ($collection->getDownloaded()->getImages() as $item) {

    echo $item->getItemUri()->uri() . PHP_EOL;

}

```

## Использование прокси при запросах

При парсинге сайтов часто требуется использовать прокси. Данный пакет имеет вспомогательные классы для работы с

прокси при запросах.

При работе для записи или чтения информации о прокси используется класс `Fi1a\Crawler\Proxy\ProxyStorage`. Данный класс

реализует хранилище прокси. Каким образом будет осуществляться хранение определяется адаптером передаваемым

первым аргументов в конструктор (адаптер `Fi1a\Crawler\Proxy\StorageAdapters\LocalFilesystemAdapter` осуществляет

хранение прокси в json-файле).

Доступны два типа прокси: http и socks5 прокси. Следующий код добавляет прокси в хранилище:

```php

use Fi1a\Crawler\Proxy\Proxy;

use Fi1a\Crawler\Proxy\ProxyStorage;

use Fi1a\Crawler\Proxy\StorageAdapters\LocalFilesystemAdapter;

$proxyStorage = new ProxyStorage(new LocalFilesystemAdapter(__DIR__ . '/runtime'));

$httpProxy = Proxy::factory([

    'type' => 'http',

    'host' => '127.0.0.1',

    'port' => 50100,

    'userName' => 'username',

    'password' => 'password',

]);

$proxyStorage->save($httpProxy);

$httpProxy = Proxy::factory([

    'type' => 'socks5',

    'host' => '127.0.0.1',

    'port' => 50101,

    'userName' => 'username',

    'password' => 'password',

]);

$proxyStorage->save($httpProxy);

```

При следующем запуске парсера данные прокси будут загружены из хранилища и использованы для запросов.

Подбор подходящих прокси осуществляется с помощью классов `Fi1a\Crawler\Proxy\Selections\ProxySelectionInterface`:

- `Fi1a\Crawler\Proxy\Selections\FilterByAttempts` - фильтрация прокси по числу ошибок соединения;

- `Fi1a\Crawler\Proxy\Selections\Limit` - ограничение на кол-во подобранных прокси;

- `Fi1a\Crawler\Proxy\Selections\OnlyActive` - фильтрация прокси по активности;

- `Fi1a\Crawler\Proxy\Selections\SortedByTime` - отсортированные по времени использования;

Следующий код выберет только активные прокси (`OnlyActive`), отфильтрует по числу ошибок (`FilterByAttempts`),

отсортирует по времени использования (`SortedByTime`) и вернет одну прокси (`Limit`) для использования в запросе:

```php

$crawler->setProxySelection(new Limit(new SortedByTime(new FilterByAttempts(new OnlyActive(), 3)), 1));

```

Пример парсинга сайта с использованием сохраненных прокси в хранилище:

```php

use Fi1a\Crawler\Config;

use Fi1a\Crawler\ConfigInterface;

use Fi1a\Crawler\Crawler;

use Fi1a\Crawler\ItemStorages\ItemStorage;

use Fi1a\Crawler\ItemStorages\StorageAdapters\LocalFilesystemAdapter;

use Fi1a\Crawler\Proxy\ProxyStorage;

use Fi1a\Crawler\Proxy\Selections\FilterByAttempts;

use Fi1a\Crawler\Proxy\Selections\Limit;

use Fi1a\Crawler\Proxy\Selections\OnlyActive;

use Fi1a\Crawler\Proxy\Selections\SortedByTime;

use Fi1a\Crawler\Proxy\StorageAdapters\LocalFilesystemAdapter as ProxyStorageLocalFilesystemAdapter;

use Fi1a\Crawler\Writers\FileWriter;

$config = new Config();

$config->setVerbose(ConfigInterface::VERBOSE_DEBUG)

    ->setSizeLimit('5Mb')

    ->addStartUri('https://some-domain.ru');

$crawler = new Crawler(

    $config,

    new ItemStorage(new LocalFilesystemAdapter(__DIR__ . '/runtime/storage')),

    new ProxyStorage(new ProxyStorageLocalFilesystemAdapter(__DIR__ . '/runtime'))

);

$crawler->setProxySelection(new Limit(new SortedByTime(new FilterByAttempts(new OnlyActive(), 3)), 1))

    ->setWriter(new FileWriter(__DIR__ . '/local-site'));

$crawler->run();

```

[badge-release]: https://img.shields.io/packagist/v/fi1a/crawler?label=release

[badge-license]: https://img.shields.io/github/license/fi1a/crawler?style=flat-square

[badge-php]: https://img.shields.io/packagist/php-v/fi1a/crawler?style=flat-square

[badge-coverage]: https://img.shields.io/badge/coverage-100%25-green

[badge-downloads]: https://img.shields.io/packagist/dt/fi1a/crawler.svg?style=flat-square&colorB=mediumvioletred

[badge-mail]: https://img.shields.io/badge/mail-support%40fi1a.ru-brightgreen

[packagist]: https://packagist.org/packages/fi1a/crawler

[license]: https://github.com/fi1a/crawler/blob/master/LICENSE

[php]: https://php.net

[downloads]: https://packagist.org/packages/fi1a/crawler

[mail]: mailto:[email protected]