Анализ больших данных (Big Data) с помощью Microsoft R
20773: Analyzing Big Data with Microsoft R
Подробнее о курсе
Краткое описание курса
Цель курса – предоставить слушателям знания и навыки, необходимые для создания и запуска сценариев анализа больших данных на сервере Microsoft R. Также в курсе описано как работать с Microsoft R в средах обработки больших данных как Hadoop, кластер Spark или база SQL Server
Целевая аудитория курса
- Специалисты, анализирующих огромные наборы данных
- Разработчики, использующих R в своих проектах
Получаемые знания и навыки
По окончании курса слушатели научатся
- Описывать работу Microsoft R
- Использовать клиента R и Server R для обработки больших данных из разных хранилищ
- Визуализировать данные с помощью графиков и схем
- Преобразовывать и очищать наборы больших данных
- Использовать способы разделения аналитических задач на параллельные задачи
- Строить и оценивать регрессионные модели, генерируемые на основе больших данных
- Создавать, оценивать и разворачивать партиционированные модели на основе больших данных
- Использовать язык R в средах SQL Server и Hadoop
Предварительно рекомендуется прослушать курс(ы)
Краткое содержание курса
Модуль 1 — Сервер и клиент Microsoft R
- Обзор сервера Microsoft R
- Использование клиента Microsoft R
- Функции ScaleR
Модуль 2 — Обзор больших данных
- Источники данных ScaleR
- Чтение данных в XDF-объекте
- Обобщение данных в XDF-объекте
Модуль 3 — Визуализация больших данных
- Визуализация данных в памяти
- Визуализации больших данных
Модуль 4 — Обработка больших данных
- Преобразование больших данных
- Управление наборами данных
Модуль 5 — Распараллеливание операций анализа
- Использование вычислительного контекста RxLocalParallel с функцией rxExec
- Использование пакета revoPemaR
Модуль 6 — Создание и оценка регрессионной модели
- Кластеризации больших данных
- Создание регрессионных моделей и подготовка прогнозов
Модуль 7 — Создание и оценка партиционированных моделей (Partitioning Model)
- Создание партиционированных моделей на основе дерева решений
- Тестирование прогнозов партиционированных моделей
Модуль 8 — Обработка больших данных в SQL Server и Hadoop
- Использование R в SQL Server
- Использование Map/Reduce в Hadoop
- Использование Hadoop Spark