ya
Практический курс Big Data в Москве - HiBrain

Практический курс Big Data

place
Bigdata Team
calendar
по мере набора группы
cost
59900
duration
1 месяц

Курс разработан в соответствии с потребностями и ожиданиями слушателей. Мы учитываем опыт прошлых курсов и ситуацию в мире IT. Преподаватели являются практикующими специалистами и имеют большой опыт работы. Мы знаем об актуальных инструментах и обучаем тому, что применяем на практике. Рассказываем о сложных вещах простым и понятным языком. Курс состоит из более 40 академических часов аудиторных занятий с лучшими преподавателями-практиками и более 40 часов самостоятельной работы.

Эксперты

Друзья HiBrain — ведущие IT-компании. Вместе с ними мы разрабатываем программы курсов, чтобы наши слушатели получили самые актуальные знания и навыки. Эксперты из компаний-партнёров помогают нам в подготовке практических кейсов и даже принимают экзамены у выпускников.

expert

Алексей Драль

Генеральный директор BigData Team, читает курсы: "Введение в Большие Данные (Big Data). Распределенные файловые системы, Workshop", "Hadoop экосистема, MapReduce и не только", "Оптимизация MapReduce вычислений", "SQL поверх больших данных (Hive)"
expert

Артём Выборнов

Head of Big Data Dev, Rambler Group, читает курс "Потоковая обработка данных (Kafka, Spark Streaming)"
expert

Павел Клеменков

Chief Data Scientist (Data Platform), NVIDIA, читает курсы: "Модель вычислений Spark: RDD", "Spark DataFrames, Spark SQL", "Модель вычислений Spark: RDD", "NoSQL поверх больших данных: HBase, Cassand
Алексей Драль
Генеральный директор BigData Team, читает курсы: "Введение в Большие Данные (Big Data). Распределенные файловые системы, Workshop", "Hadoop экосистема, MapReduce и не только", "Оптимизация MapReduce вычислений", "SQL поверх больших данных (Hive)"
Артём Выборнов
Head of Big Data Dev, Rambler Group, читает курс "Потоковая обработка данных (Kafka, Spark Streaming)"
Павел Клеменков
Chief Data Scientist (Data Platform), NVIDIA, читает курсы: "Модель вычислений Spark: RDD", "Spark DataFrames, Spark SQL", "Модель вычислений Spark: RDD", "NoSQL поверх больших данных: HBase, Cassand
skill

Для кого

Обучение рассчитано на всех причастных к BigData, тех, кто развивается в этом направлении и хочет новых знаний и ответов, для тех, кто хочет приобрести самую актуальную в мире на данный момент специализацию data scientist

skill2

Навыки

Необходимо уверенно пользоваться интернетом, с легкостью регистрироваться на сайтах и сервисах и устанавливать на свой компьютер различные программы.

Содержание

1. Введение в Большие Данные (Big Data). Распределенные файловые системы, Workshop

content

Вводная часть: знакомство (задачи, оценки, дедлайны), подробности курса. Распределенные файловые системы (GFS, HDFS). Их составляющие, достоинства, недостатки и сфера применения. Чтение и запись в HDFS. HDFS APIs: Web, shell

2. Hadoop экосистема, MapReduce и не только

content

Hadoop Streaming. Элементы Hadoop-задачи (Mapper, reducer, combiner, partitioner, comparator)

3. Оптимизация MapReduce вычислений

content

Приложения с несколькими Hadoop-задачами. Тюнинг Hadoop-job (настройка партиционирования, сложные ключи, uber jobs). Задачи с несколькими входами. Joins в Hadoop

4. SQL поверх больших данных (Hive)

content

Архитектура Hive, виды таблиц, форматы хранения данных. Трансляция Hive-запросов в MapReduce-задачи. Сериализация и десериализация. Тюнинг Join'ов в Hive. Партиционирование, бакетирование, семплирование. User defined functions, Hive Streaming

5. Модель вычислений Spark: RDD

content

Схема выполнения задачи в Spark. Основные термины Spark (job, task, stage). Представление вычислений в виде графа. Spark Python API. Spark RDD API. Broadcast-сообщения и счетчики

6. Spark DataFrames, Spark SQL

content

Взаимодействие Hive и Spark SQL. Отличия DF от RDD

7. Модель вычислений Spark: RDD

content

Spark on YARN. Типы stage в Spark. Оптимизация операции shuffle. Настройка Garbage Collection, тюнинг потребления памяти

8. Потоковая обработка данных (Kafka, Spark Streaming)

content

Подходы к Realtime-обработке. Гарантии обработки. Переход от одной гарантии к другой. Архитектуры "Лямбда" и "Каппа". Spark Streaming vs. Spark RDD, Spark Structured Streaming vs. Spark DataFrames, DStream. Архитектура Kafka, Kafka Streams, репликация в Kafka. Отличие Kafka от классических очередей. Семантики доставки сообщений. Сжатие данных в kafka. Синхронная и асинхронная репликация

9. NoSQL поверх больших данных: HBase, Cassandra

content

Отличия Key-value хранилищ от Реляционных БД. Архитектуры HBase и Cassandra. Их различия. Обеспечение надёжности и высокодоступности в Key-value хранилищах. Компактификация и её виды. CQLSH, HBase shell. Взаимодействие хранилищ (Cassandra и Hbase) со Spark и Hadoop

platform
Площадка проведения
adress