Практический курс Big Data

Лучшим студентам организуем собеседования в IT компаниях по окончании курса

  • Площадка:нет компании
  • Продолжительность:1 месяц
  • Дата:24 мая
  • Стоимость:от 25000
Практический курс Big Data

О курсе

Курс разработан в соответствии с потребностями и ожиданиями слушателей. Мы учитываем опыт прошлых курсов и ситуацию в мире IT. Преподаватели являются практикующими специалистами и имеют большой опыт работы. Мы знаем об актуальных инструментах и обучаем тому, что применяем на практике. Рассказываем о сложных вещах простым и понятным языком. Курс состоит из более 40 академических часов аудиторных занятий с лучшими преподавателями-практиками и более 40 часов самостоятельной работы.

    Кому подойдет курс

    • Обучение рассчитано на всех причастных к BigData, тех, кто развивается в этом направлении и хочет новых знаний и ответов, для тех, кто хочет приобрести самую актуальную в мире на данный момент специализацию data scientist

    Необходимые навыки

    • Необходимо уверенно пользоваться интернетом, с легкостью регистрироваться на сайтах и сервисах и устанавливать на свой компьютер различные программы.

    Эксперты

    Друзья HiBrain — ведущие IT-компании. Вместе с ними мы разрабатываем программы курсов, чтобы наши слушатели получили самые актуальные знания и навыки. Эксперты из компаний-партнёров помогают нам в подготовке практических кейсов и даже принимают экзамены у выпускников.

    • Алексей Драль
      Алексей Драль
      Генеральный директор BigData Team, читает курсы: "Введение в Большие Данные (Big Data). Распределенные файловые системы, Workshop", "Hadoop экосистема, MapReduce и не только", "Оптимизация MapReduce вычислений", "SQL поверх больших данных (Hive)"
    • Артём Выборнов
      Артём Выборнов
      Head of Big Data Dev, Rambler Group, читает курс "Потоковая обработка данных (Kafka, Spark Streaming)"
    • Павел Клеменков
      Павел Клеменков
      Chief Data Scientist (Data Platform), NVIDIA, читает курсы: "Модель вычислений Spark: RDD", "Spark DataFrames, Spark SQL", "Модель вычислений Spark: RDD", "NoSQL поверх больших данных: HBase, Cassand

    Карьера

    Выпускники курсов HiBrain получают уникальную возможность применить новые знания: компании-партнёры проекта ждут наших слушателей на стажировки и предлагают трудоустройство.

      Программа курса

      Вводная часть: знакомство (задачи, оценки, дедлайны), подробности курса. Распределенные файловые системы (GFS, HDFS). Их составляющие, достоинства, недостатки и сфера применения. Чтение и запись в HDFS. HDFS APIs: Web, shell

      Hadoop Streaming. Элементы Hadoop-задачи (Mapper, reducer, combiner, partitioner, comparator)

      Приложения с несколькими Hadoop-задачами. Тюнинг Hadoop-job (настройка партиционирования, сложные ключи, uber jobs). Задачи с несколькими входами. Joins в Hadoop

      Архитектура Hive, виды таблиц, форматы хранения данных. Трансляция Hive-запросов в MapReduce-задачи. Сериализация и десериализация. Тюнинг Join'ов в Hive. Партиционирование, бакетирование, семплирование. User defined functions, Hive Streaming

      Схема выполнения задачи в Spark. Основные термины Spark (job, task, stage). Представление вычислений в виде графа. Spark Python API. Spark RDD API. Broadcast-сообщения и счетчики

      Взаимодействие Hive и Spark SQL. Отличия DF от RDD

      Spark on YARN. Типы stage в Spark. Оптимизация операции shuffle. Настройка Garbage Collection, тюнинг потребления памяти

      Подходы к Realtime-обработке. Гарантии обработки. Переход от одной гарантии к другой. Архитектуры "Лямбда" и "Каппа". Spark Streaming vs. Spark RDD, Spark Structured Streaming vs. Spark DataFrames, DStream. Архитектура Kafka, Kafka Streams, репликация в Kafka. Отличие Kafka от классических очередей. Семантики доставки сообщений. Сжатие данных в kafka. Синхронная и асинхронная репликация

      Отличия Key-value хранилищ от Реляционных БД. Архитектуры HBase и Cassandra. Их различия. Обеспечение надёжности и высокодоступности в Key-value хранилищах. Компактификация и её виды. CQLSH, HBase shell. Взаимодействие хранилищ (Cassandra и Hbase) со Spark и Hadoop