Обучение с подкреплением для реальных задач, Уиндер Ф., 2023.
Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок — без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга — первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе.

Машинное обучение.
Повсеместное распространение данных и доступность дешевых высокопроизводительных вычислений позволили исследователям пересмотреть алгоритмы 1950-х годов. Они выбрали название "машинное обучение" (machine learning, ML), но такое название не вполне удачно, потому что ML одновременно считается и дисциплиной, и набором методов. Я считаю машинное обучение детищем науки о данных (data science), которая представляет собой всеобъемлющую научную область, изучающую данные, генерируемые явлениями. Мне не нравится термин "искусственный интеллект" (ИИ— artificial intelligence, AI) по той же причине; достаточно сложно определить, что такое интеллект, не говоря уже о том, как он воплощается.
ML начинается с большого количества информации в виде данных, полученных в ходе наблюдений. Наблюдение представляет собой набор атрибутов в единой точке, которые описывают сущность. Например, в избирательном опросе одно наблюдение представляет собой предполагаемый голос одного человека. Для задачи формулирования рекомендаций наблюдением может быть щелчок по определенному продукту. Инженеры используют ML-алгоритмы для интерпретации этой информации и принятия решений.
ОГЛАВЛЕНИЕ.
Отзывы.
Об авторе.
Предисловие.
Цель.
Кому следует прочитать эту книгу?.
Руководящие принципы и стиль.
Предварительная подготовка.
Объем и план.
Дополнительные материалы.
Условные обозначения, используемые в этой книге.
Аббревиатуры.
Математические обозначения.
Глава 1. Для чего нужно обучение с подкреплением?.
Глава 2. Марковские процессы принятия решений, динамическое программирование и методы Монте-Карло.
Глава 3. Обучение с учетом временных различий, Q-обучение и n-шаговые алгоритмы.
Глава 4. Глубокие Q-сети.
Глава 5. Методы градиента политики.
Глава 6. Другие методы.
Глава 7. Изучение всех возможных политик с помощью энтропийных методов.
Глава 8. Улучшение процесса обучения агента.
Глава 9. Практическое обучение с подкреплением.
Глава 10. Этапы в обучении с подкреплением.
Глава 11. Выводы и будущее.
Приложение 1. Градиент логистической политики для двух действий.
Приложение 2. Градиент политики softmax.
Предметный указатель.
Купить .
По кнопкам выше и ниже «Купить бумажную книгу» и по ссылке «Купить» можно купить эту книгу с доставкой по всей России и похожие книги по самой лучшей цене в бумажном виде на сайтах официальных интернет магазинов Лабиринт, Озон, Буквоед, Читай-город, Литрес, My-shop, Book24, Books.ru.
По кнопке «Купить и скачать электронную книгу» можно купить эту книгу в электронном виде в официальном интернет магазине «Литрес», если она у них есть в наличии, и потом ее скачать на их сайте.
По кнопке «Найти похожие материалы на других сайтах» можно найти похожие материалы на других сайтах.
On the buttons above and below you can buy the book in official online stores Labirint, Ozon and others. Also you can search related and similar materials on other sites.
Теги: учебник по информатике :: информатика :: компьютеры :: Уиндер








