Скрапинг веб-сайтов с помощью Python, Митчелл Р., 2016.
Изучите методы скрапинга и краулинга веб-сайтов, чтобы получить доступ к неограниченному объему данных в любом уголке Интернета в любом формате. С помощью этого практического руководства вы узнаете, как использовать скрипты Python и веб-API, чтобы одновременно собрать и обработать данные с тысяч или даже миллионов веб-страниц.
Идеально подходящая для программистов, специалистов по безопасности и веб-администраторов, знакомых с языком Python, эта книга знакомит не толь-ко с основными принципами работы веб-скраперов, но и углубляется в более сложные темы, такие как анализ сырых данных или использование скраперов для тестирования интерфейса веб-сайта. Примеры программного кода, приведенные в книге, помогут разобраться в этих принципах на практике.
Соединение с Интернетом.
Если вы не занимались организацией сетей или сетевой безопасностью, то работа Интернета может показаться вам немного таинственной. Мы не задумываемся о том, что, собственно, сеть делает каждый раз, когда мы открываем браузер и переходим на http://google.com, да и сейчас это нам не нужно. На самом деле я бы назвала фантастикой тот факт, что компьютерные интерфейсы достигли такого совершенства, что большинство пользователей Интернета не имеют ни малейшего представления о том. как он работает.
Однако скрапинг следует рассматривать не только как веб-интерфейс, лишь на уровне браузера (в плане обработки всех этих HTML, CSS и JavaScript), он также связан с типом сетевого соединения.
Чтобы дать вам некоторое представление об инфраструктуре, которая используется для загрузки информации в ваш браузер, приведем следующий пример. У Алисы есть веб-сервер. Боб использует настольный компьютер, который пытается подключиться к серверу Алисы. Когда одна машина хочет подсоединиться к другой, происходит следующий обмен:
1. Компьютер Боба посылает последовательность битов, представленных в виде низкого и высокого напряжений. Запрос Боба разбит на фрагменты, к каждому фрагменту добавлен заголовок со служебной информацией (этим заведует протокол TCP). Передачей отдельных фрагментов от компьютера Боба до компьютера Алисы заведует протокол IP.
2. Локальный маршрутизатор Боба получает эту последовательность и интерпретирует ее как пакет с помощью собственного MAC-адреса и направляет на IP-адрес Алисы. Маршрутизатор заменяет в заголовке пакета обратный адрес на свой и посылает пакет дальше.
3. Пакет Боба проходит несколько промежуточных серверов, которые направляют его по правильному физическому/проводному пути на сервер Алисы.
4. Сервер Алисы получает пакет на свой IP-адрес.
5. Сервер Алисы считывает порт назначения пакета (почти всегда это порт 80 для веб-приложений, это что-то вроде «номера квартиры» в пакетной передаче данных, где IP-адрес является «улицей») в заголовке и передает его в соответствующее приложение - приложение веб-сервера.
Содержание.
Предисловие.
Вступление.
ЧАСТЬ I. ПОСТРОЕНИЕ СКРАПЕРОВ.
ЧАСТЬ II. ПРОДВИНУТЫЙ СКРАПИНГ.
Приложения.
Об авторе.
Колофон.
Предметный указатель.
Купить .
По кнопкам выше и ниже «Купить бумажную книгу» и по ссылке «Купить» можно купить эту книгу с доставкой по всей России и похожие книги по самой лучшей цене в бумажном виде на сайтах официальных интернет магазинов Лабиринт, Озон, Буквоед, Читай-город, Литрес, My-shop, Book24, Books.ru.
По кнопке «Купить и скачать электронную книгу» можно купить эту книгу в электронном виде в официальном интернет магазине «Литрес», если она у них есть в наличии, и потом ее скачать на их сайте.
По кнопке «Найти похожие материалы на других сайтах» можно найти похожие материалы на других сайтах.
On the buttons above and below you can buy the book in official online stores Labirint, Ozon and others. Also you can search related and similar materials on other sites.
Теги: скрапинг :: сайт :: Python :: Митчелл :: 2016
Смотрите также учебники, книги и учебные материалы:
- Git для профессионального программиста, Чакон С., Штрауб Б., 2016
- Программируем с Minecraft, создай свой мир с помощью Python, Ричардсон К., Ломакин С., Гаджиев Г., 2017
- 1С, академия ERP, управление человеческими ресурсами, Иванова С.В., Ветлужских Е.Н., Вешнякова Е.А., Малыгина З.Е., 2018
- Статистика для менеджеров с использованием Microsoft Excel, Левин Д.М., Стефан Д.К., Тимоти С., Беренсон М.Л., 2004
- Python на примерах, практический курс по программированию, Васильев А.Н., 2016
- Путь Python, черный пояс по разработке, масштабированию, тестированию и развертыванию, Данжу Д., 2020
- Практическое руководство по экстремальному программированию, Астелс Д., Миллер Г., Новак М., 2002
- PHP notes for professionals