Grab - фреймворк для парсинга сайтов¶
Предупреждение
Документация на русском языке устарела и может содержать ошибки. Пожалуйста, используйте английскую документацию для получения актуальной информации о библиотеке Grab.
Grab - библиотека для работы с сетевыми документами. Основные области использования Grab:
- извлечение данных с веб-сайтов (site scraping)
- работа с сетевыми API
- автоматизация работы с веб-сайтами, например, регистратор профилей на каком-либо сайте
Grab состоит из двух частей:
- Главный интерфейс Grab для создания сетевого запроса и работы с его результатом. Этот интерфейс удобно использовать в простых скриптах, где не нужна большая многопоточность, или непосредственно в python-консоли.
- Интерфейс Spider, позволяющий разрабатывать асинхронные парсеры. Этот интерфейс позволяет, во-первых, более строго описать логику парсера, во-вторых, разрабатывать парсеры с большим числом сетевых потоков.
Grab сайты¶
- Официальный сайт: http://grablib.org
- Репозиторий на github: http://github.com/lorien/grab
- Группа рассылки: http://groups.google.com/group/python-grab
Документация Grab¶
- Введение в Grab
- Установка библиотеки Grab
- Настройка Grab-объекта
- Отладка запросов
- Полный список настроек
- Настройка HTTP-заголовков
- Методы HTTP-запросов
- Прочие возможности
- Кодировка документа
- Работа с кукисами
- Обработка сетевых ошибок, таймауты
- Работа с прокси-серверами
- Работа с ответом
- Технические детали устройства Grab
- Работа с формами
- Работа с DOM-деревом
- Поиск в тексте документа
- Другие расширения
- Cетевые транспорты
- Полезные утилиты
Документация Grab:Spider¶
Асинхронный модуль для разработки сложных парсеров.
API¶
Вся нижеследующая информация сгенерирована из комментариев в исходном коде. Поэтому она на английском языке. Документы из раздела API полезны тем, что они показывают описания всех аргументов каждого метода и класса библиотеки Grab.
Базовый интерфейс:
Утилиты: