Фоновый баннер

Программирование на языке R. Базовый уровень

Подробнее о курсе

Краткое описание курса
Этот курс предназначен для широкого круга специалистов, которым необходимо искать закономерности в большом количестве данных, визуализировать их и строить статистически корректные выводы: социологов, менеджеров клинических испытаний/фармакологов, исследователей (астрономия, физика, биология, генетика, медицина и т.д.), IT-аналитиков, бизнес-аналитиков, финансовых аналитиков, маркетологов.
На курсе Вы получите основные навыки анализа и визуализации данных в среде R. Большая часть времени отводится практическим заданиям и работе с реальными наборами данных. Вы изучите все новые инструменты работы с данными и научитесь их применять в своей работе.

Получаемые знания и навыки
По окончании курса слушатели научатся

  • создавать/модифицировать вектора, табличные данные, матрицы, списки; рассчитывать статистические метрики для наборов данных
  • строить и диагностировать статистически модели: линейная регрессия (от одной и многих переменных), классификация (kmeans, деревья решений, случайный лес)
  • визуализировать данные в R (base plotting, ggplot2)
  • создавать текстовые документы с модулями исполняющегося кода (отчеты)

Предварительная подготовка
Общий курс математики в рамках школьной программы + основы статистики: случайные величины и законы их распределения (нормальное, t-распределение, Х2), центральная предельная теорема

Краткое содержание курса
Модуль 1 — Знакомство с R и RStudio. Основные особенности

  • Интерфейс RStudio
  • Основные особенности языка R
  • RMarkdown

Модуль 2 — Типы данных в R и работа с ними

  • Вектора, списки, матрицы, таблицы. И работа с ними
  • Загрузка/выгрузка данных в/из R
  • Базовые функции R
  • Библиотека dplyr
  • Условное выполнение кода (if…else)
  • Циклы for, while
  • Функции семейства *apply

Модуль 3 — Линейная регрессия в R

  • Простая линейная модель в R
  • Линейная модель с несколькими переменными
  • Диагностика линейных моделей
  • t-тест, непараметрические тесты
  • ANOVA

Модуль 4 — Алгоритмы классификации в R

  • Постановка задачи классификации
  • Линейная классификация в R
  • Алгоритмы KNN, деревья решений, случайный лес
  • Диагностика моделей классификации, ROC-кривая

Отзывы по курсу