Содержание

1. Введение в машинное обучение и библиотеки ML для Python

content
Базовые операции с данными в numpy, построение графиков функций с matplotlib. Оптимизация функций с помощью scipy. Ввизуализация данных с помощью seaborn. Базовый конвейер обработки данных и построение первой модели с помощью sklearn

2. Линейные модели, регуляризация, SVM, метрики качества

content
Применение алгоритмов Scikit-learn к синтетическому набору данных и к данным соревнования Kaggle Inclass (классификация, регрессия). Логистическая регрессия, практика обучения моделей с помощью SGD. Метод опорных векторов (Support Vector Machine), ядра. Настройка параметров, кросс-валидация, предобработка данных (строки, пропуски, категориальный признаки)

3. Деревья

content
Практика обучения деревьев на наборах данных (MNIST, UCI, кредитный скоринг). Визуализация деревьев. Работа с признаками и пропущенными значениями в деревьях. Практические аспекты - оценка времени работы, прунинг деревьев

4. Ансамбли решающих деревьев

content
Общие методы построения композиций - усреднение, бустинг, блэндинг, стэкинг. Бустинг и GBM. Выбор параметров в ансамблях решающих деревьев. Сравнение Random Forest и GBDT с демонстрацией. Связь корреляция между ответами моделей и качеством модели в бэггинге. Bias-variance trade-off на примере бэггинга и бустинга. Преимущества и недостатки RF и GBDT. XGBoost, LightGBM

5. Нейронные сети и введение в глубокое обучение (Deep Learning)

content
Нейронные сети и сверточные нейронные сети, общие веса, локальность иерархичность. Слои в сверточных сетях, функции потерь для классификации, регуляризация нейросетей. Эффективный методы вычисления градиентов, проверка реализации разностным дифференцированием

6. Deep Learning: CNN, RNN, Attention

content
Рекуррентные нейронные сети в задаче анализа сигналов и естественного языка. Генеративные модели на основе RNN. Механизм внимания (Attention mechanism) в задаче машинного перевода и других задачах. Сверточные нейронные сети в задачах обработки текста, сравнение с рекуррентными нейронными сетями. DNN на практике: инициализация, предобработка данных, модельный зоопарк, дообучение, вычисления на видкеокартах, визуализация

7. Обучение без учителя (Unsupervised Learning)

content
Определение координат дома и работы человека по GPS-треку (определение регулярных координат с помощью DBSCAN). Метод главных компонент на практике. Применение PCA и tSNE для визуализации данных, сжатия данных, предобработки датасета

8. Погружение в большие данные (Big Data)

content
Hadoop, HDFS, MapReduce, Spark