Программирование на языке R. Базовый уровень
Подробнее о курсе
Краткое описание курса
Этот курс предназначен для широкого круга специалистов, которым необходимо искать закономерности в большом количестве данных, визуализировать их и строить статистически корректные выводы: социологов, менеджеров клинических испытаний/фармакологов, исследователей (астрономия, физика, биология, генетика, медицина и т.д.), IT-аналитиков, бизнес-аналитиков, финансовых аналитиков, маркетологов.
На курсе Вы получите основные навыки анализа и визуализации данных в среде R. Большая часть времени отводится практическим заданиям и работе с реальными наборами данных. Вы изучите все новые инструменты работы с данными и научитесь их применять в своей работе.
Получаемые знания и навыки
По окончании курса слушатели научатся
- создавать/модифицировать вектора, табличные данные, матрицы, списки; рассчитывать статистические метрики для наборов данных
- строить и диагностировать статистически модели: линейная регрессия (от одной и многих переменных), классификация (kmeans, деревья решений, случайный лес)
- визуализировать данные в R (base plotting, ggplot2)
- создавать текстовые документы с модулями исполняющегося кода (отчеты)
Предварительная подготовка
Общий курс математики в рамках школьной программы + основы статистики: случайные величины и законы их распределения (нормальное, t-распределение, Х2), центральная предельная теорема
Краткое содержание курса
Модуль 1 — Знакомство с R и RStudio. Основные особенности
- Интерфейс RStudio
- Основные особенности языка R
- RMarkdown
Модуль 2 — Типы данных в R и работа с ними
- Вектора, списки, матрицы, таблицы. И работа с ними
- Загрузка/выгрузка данных в/из R
- Базовые функции R
- Библиотека dplyr
- Условное выполнение кода (if…else)
- Циклы for, while
- Функции семейства *apply
Модуль 3 — Линейная регрессия в R
- Простая линейная модель в R
- Линейная модель с несколькими переменными
- Диагностика линейных моделей
- t-тест, непараметрические тесты
- ANOVA
Модуль 4 — Алгоритмы классификации в R
- Постановка задачи классификации
- Линейная классификация в R
- Алгоритмы KNN, деревья решений, случайный лес
- Диагностика моделей классификации, ROC-кривая