Крупномасштабное машинное обучение вместе с Python, Шарден Б., Массарон Л., Боскетти А., 2018.
Главная задача настоящей книги состоит в том, чтобы предоставить способы применения мощных методов машинного обучения с открытым исходным кодом в крупномасштабных проектах без привлечения дорогостоящих корпоративных решений или больших вычислительных кластеров. Описаны масштабируемое обучение в Scikit-learn, нейронные сети и глубокое обучение с использованием Theano, Н20 и TensorFlow. Рассмотрены классификационные и регрессионные деревья, а также обучение без учителя. Охвачены эффективные методы машинного обучения в вычислительной среде MapReduce на платформах Hadoop и Spark на языке Python.
Первые шаги к масштабируемости.
Добро пожаловать в книгу по масштабируемому машинному обучению на Python.
В этой главе мы обсудим способы эффективного обучения на больших данных в среде Python и как это можно осуществить, используя всего одну машину или кластер из других машин, который, к примеру, можно получить в веб-службах облачных вычислений Amazon Web Services (AWS) или в веб-службах платформы Google-облако.
В настоящей книге мы будем использовать реализацию масштабируемых алгоритмов машинного обучения на языке Python. Иными словами, они смогут работать с большим объемом данных и не дадут сбоя из-за нехватки оперативной памяти. Кроме того, работа таких алгоритмов будет занимать разумное количество времени, достаточно приемлемое для прототипа в области науки о данных и для развертывания проекта в эксплуатационной среде. Главы книги организованы вокруг решений (таких как потоковая передача данных), алгоритмов (таких как нейронные сети или ансамбль деревьев) и платформ (Hadoop или Spark). Мы также предложим небольшой справочник по алгоритмам машинного обучения и объясним, как сделать их масштабируемыми и пригодными для решения задач с крупными наборами данных.
С учетом таких стартовых предпосылок вам потребуется изучить основы (чтобы уяснить перспективу, с которой эта книга была написана), а также установить и настроить все основные инструменты, которые позволят незамедлительно приступить к чтению глав.
Содержание.
Об авторах.
О рецензентах.
Предисловие.
Глава 1. Первые шаги к масштабируемости.
Подробное объяснение термина масштабируемости.
Приведение крупномасштабных примеров.
Введение в язык Python.
Вертикальное масштабирование средствами Python.
Горизонтальное масштабирование средствами Python.
Python для крупномасштабного машинного обучения.
Выбор между Python 2 и Python 3.
Инсталляция среды Python.
Пошаговая установка.
Установка библиотек.
Способы обновления библиотек.
Научные дистрибутивы.
Введение в Iupyter.
Библиотеки Python.
NumPy.
SciPy.
Pandas.
Scikit-learn.
Резюме.
Глава 2. Масштабируемое обучение в Scikit-loarn.
Внеядерное обучение.
Подвыборка как приемлемый вариант.
Оптимизация по одному прецеденту за раз.
Создание системы внеядерного обучения.
Потоковая передача данных из источников.
Наборы данных для реальных дел.
Первый пример - потоковая передача набора данных Bike-sharing.
Использование инструментов ввода-вывода библиотеки pandas.
Работа с базами данных.
Особое внимание упорядочению прецедентов.
Стохастическое обучение.
Пакетный градиентный спуск.
Стохастический градиентный спуск.
Реализация алгоритма SGD в библиотеке Scikit-learn.
Определение параметров обучения алгоритма SGD.
Управление признаками на потоках данных.
Описание целевой переменной.
Хэширование признаков.
Другие элементарные преобразования.
Тестирование и перекрестная проверка в потоке.
Применение алгоритма SGD в деле.
Резюме.
Глава 3. Быстрообучающиеся реализации машин SVM.
Наборы данных для самостоятельного экспериментирования.
Набор данных Bike-sharing.
Набор данных Covertype.
Машины опорных векторов.
Кусочно-линейная функция потерь и ее варианты.
Объяснение реализации алгоритма SVM в Scikit-learn.
Поиск нелинейных SVM с привлечением подвыборки.
Реализация SVM в крупном масштабе на основе SGD.
Отбор признаков посредством регуляризации.
Добавление нелинейности в алгоритм SGD.
Испытание явных высокоразмерных отображений.
Доводка гиперпараметров.
Другие альтернативы быстро обучающихся реализаций SVM.
Резюме.
Глава 4. Искусственные нейронные сети и глубокое обучение.
Архитектура нейронной сети.
Чему и как нейронные сети обучаются.
Выбор правильной архитектуры.
Нейронные сети в действии.
Параллелизация для библиотеки sknn.
Нейронные сети и регуляризация.
Нейронные сети и гиперпараметрическая оптимизация.
Нейронные сети и границы решения.
Глубокое обучение в крупном масштабе с Н20.
Крупномасштабное глубокое обучение с Н20.
Сеточный поиск в Н20.
Глубокое обучение и предтренировка без учителя.
Глубокое обучение с theanets.
Автокодировщики и обучение без учителя.
Автокодировщик.
Резюме.
Глава 5. Глубокое обучение с библиотекой TensorFlow.
Инсталляция TensorFlow.
Операции TensorFlow.
Машинное обучение в TensorFlow посредством SkFlow.
Глубокое обученнее большими файлами - инкрементное обучение.
Инсталляция библиотеки Keras и платформа TensorFlow.
Сверточные нейронные сети в TensorFlow посредством Кeras.
Сверточный слой.
Объединяющий слой.
Полносвязный слой.
CNN-сети с подходом но основе инкрементной тренировки.
Вычисления на GPU.
Резюме.
Глава 6. Классификационные и регрессионные деревья в крупном масштабе.
Агрегация бутстрапированных выборок.
Случайный лес и экстремально рандомизированный лес.
Быстрая параметрическая оптимизация посредством рандомизированного поиска.
Экстремально рандомизированные деревья и большие наборы данных.
Алгоритм CART и бустинг.
Машины градиентного бустинга.
Алгоритм XGBoost.
Регрессия на основе XGBoost.
Потоковая передача больших наборов данных посредством XGBoost.
Персистентность модели XGBoost.
Внеядерный алгоритм CART в среде Н20.
Случайный лес и сеточный поиск в Н20.
Стохастический градиентный бустинг и сеточный поиск в Н20.
Резюме.
Глава 7. Обучение без учителя в крупном масштабе.
Методы машинного обучения без учителя.
Разложение признаков - РСА.
Алгоритм РСА в среде Н20.
Кластеризация - алгоритм К-средних.
Методы инициализации.
Допущения алгоритма К-средних.
Подбор оптимальной величины К.
Масштабирование алгоритма К-средних - мини-пакет.
Алгоритм К-средних в среде Н20.
Алгоритм LDA.
Масштабирование алгоритма LDA - оперативная память, CPU и машины.
Резюме.
Глава 8. Распределенные среды - Hadoop и Spark.
От автономной машины к набору узлов.
Зачем нужна распределенная платформа?.
Настройка виртуальной машины.
Виртуализатор VirtualBox.
Конфигуратор Vagrant.
Использование виртуальной машины.
Экосистема Hadoop.
Архитектура.
Распределенная файловая система HDFS.
Вычислительная парадигма MapReduce.
Менеджер ресурсов YARN.
Платформа Spark.
Библиотека pySpark.
Резюме.
Глава 9. Практическое машинное обучение в среде Spark.
Настройка виртуальной машины для данной главы.
Распространение переменных по всем узлам кластера.
Широковещательные переменные только для чтения.
Аккумуляторные переменные только для записи.
Широковещательные и аккумуляторные переменные - пример.
Предобработка данных в среде Spark.
Файлы ISON и объекты DataFrame платформы Spark.
Работа с пропущенными данными.
Группирование и создание таблиц в оперативной памяти.
Запись предобработанного объекта DataFrame или RDD-набора на диск.
Работа с объектами DataFrame.
Машинное обучение с платформой Spark.
Платформа Spark на наборе данных KDD99.
Чтение набора данных.
Конструирование признаков.
Тренировка ученика.
Оценка результативности ученика.
Возможности конвейера машинного обучения.
Ручная доводка.
Перекрестная проверка.
Заключительная очистка.
Резюме.
Приложение. Введение в графические процессоры и платформа Theano.
Вычисления на GPU.
Платформа Theano - параллельные вычисления на GPU.
Установка платформы Theano.
Предметный указатель.
Купить .
По кнопкам выше и ниже «Купить бумажную книгу» и по ссылке «Купить» можно купить эту книгу с доставкой по всей России и похожие книги по самой лучшей цене в бумажном виде на сайтах официальных интернет магазинов Лабиринт, Озон, Буквоед, Читай-город, Литрес, My-shop, Book24, Books.ru.
По кнопке «Купить и скачать электронную книгу» можно купить эту книгу в электронном виде в официальном интернет магазине «Литрес», если она у них есть в наличии, и потом ее скачать на их сайте.
По кнопке «Найти похожие материалы на других сайтах» можно найти похожие материалы на других сайтах.
On the buttons above and below you can buy the book in official online stores Labirint, Ozon and others. Also you can search related and similar materials on other sites.
Теги: учебник по программированию :: программирование :: Шарден :: Массарон :: Боскетти
Смотрите также учебники, книги и учебные материалы:
- Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow, Жерон О., 2018
- Не заставляйте меня думать, Круг С., 2017
- Микросервисы, Паттерны разработки и рефакторинга, Ричардсон К., 2019
- Машинное обучение и TensorFlow, Шакла Н., 2019
- Квантовые вычисления для настоящих айтишников, Бернхард К., 2020
- Изучаем React, Чиннатамби К., 2019
- Изучаем Java ЕЕ, Современное программирование для больших предприятий, Дашнер С., 2018
- Идеальный программист, Как стать профессионалом разработки ПО, Мартин Р., 2018