Grab - фреймворк для парсинга сайтов¶

Предупреждение

Документация на русском языке устарела и может содержать ошибки. Пожалуйста, используйте английскую документацию для получения актуальной информации о библиотеке Grab.

Grab - библиотека для работы с сетевыми документами. Основные области использования Grab:

извлечение данных с веб-сайтов (site scraping)

работа с сетевыми API

автоматизация работы с веб-сайтами, например, регистратор профилей на каком-либо сайте

Grab состоит из двух частей:

Главный интерфейс Grab для создания сетевого запроса и работы с его результатом. Этот интерфейс удобно использовать в простых скриптах, где не нужна большая многопоточность, или непосредственно в python-консоли.

Интерфейс Spider, позволяющий разрабатывать асинхронные парсеры. Этот интерфейс позволяет, во-первых, более строго описать логику парсера, во-вторых, разрабатывать парсеры с большим числом сетевых потоков.

Grab сайты¶

Официальный сайт: http://grablib.org
Репозиторий на github: http://github.com/lorien/grab
Группа рассылки: http://groups.google.com/group/python-grab

Документация Grab¶

Документация Grab:Spider¶

Асинхронный модуль для разработки сложных парсеров.

API¶

Вся нижеследующая информация сгенерирована из комментариев в исходном коде. Поэтому она на английском языке. Документы из раздела API полезны тем, что они показывают описания всех аргументов каждого метода и класса библиотеки Grab.

Базовый интерфейс:

Утилиты:

grab.upload

Grab - фреймворк для парсинга сайтов¶

Grab сайты¶

Документация Grab¶

Документация Grab:Spider¶

API¶

Всякая фигня¶