Описание
Если программирование напоминает волшебство, то веб-скрапинг — это очень сильное колдунство. Написав простую автоматизированную программу, можно отправлять запросы на веб-серверы, запрашивать с них данные, а затем анализировать их и извлекать необходимую информацию. Новое расширенное издание книги знакомит не только с веб-скрапингом, но и поможет собрать любого вида данные в современном Интернете.
В части I основное внимание уделено механике веб-скрапинга: как с помощью Python запрашивать информацию с веб-сервера, производить базовую обработку серверного отклика и организовать автоматизированное взаимодействие с сайтами. В части II исследованы более специфичные инструменты и приложения, которые пригодятся при любом сценарии веб-скрапинга.
- Разбирайте сложные HTML-страницы.
- Разрабатывайте поисковые роботы с помощью фреймворка Scrapy.
- Изучайте методы хранения данных, полученных с помощью скрапинга.
- Считывайте и извлекайте данные из документов.
- Очищайте и нормализуйте плохо отформатированные данные.
- Читайте и пишите информацию на естественных языках.
- Освойте поиск по формам и логинам.
- Изучите скрапинг JavaScript и работу с API.
- Используйте и пишите программы для преобразования изображений в текст.
- Учитесь обходить скрапинговые ловушки и блокаторы ботов.
- Протестируйте собственный сайт с помощью скрапинга.
«Благодаря инструментам и примерам из книги я смог с легкостью автоматизировать несколько рутинных задач и высвободить время для более интересных дел. Эта книга ориентирована на результат, быстро читается и описывает реальные задачи и их решения».
Эрик Ванвик, компьютерный инженер, Колледж им. Франклина В. Олина
Об авторе:
Райан Митчелл — старший разработчик бостонской компании HedgeServ, где занята разработкой API и инструментов для анализа данных. Ранее занималась разработкой инструментов для веб-скрапинга и средств автоматизации на Python в компании Abine. Консультант и внештатный преподаватель Северо-Восточного университета и Инженерно-технического колледжа им. Франклина В. Олина.
Характеристики
Автор(ы) | Райан Митчелл |
Переводчик | Е. Сандицкая |
Издательство | Питер |
Серия | Бестселлеры O'Reilly |
Год выпуска | 2021 |
ISBN | 978-5-4461-1693-5 |
Возрастное ограничение | 16+ |
Кол-во страниц | 336 |
Формат страниц | 70x100/16 (170x240 мм) |
Язык | Русский |
Переплёт | Мягкий |
Доп. сведения | Офсетная бумага |
Иллюстрации | черно-белые |
Тираж | 350 |
Вес | 455 г |