Введение в BigData и Hadoop

Этот курс дает представление об основах BigData и Hadoop. Участники познакомятся с HDFS – стандартом де факто для долговременного надежного хранения больших объемов данных, фреймворком MapReduce, автоматически управляющим параллельным выполнением приложений на кластере, и сопутствующими проектами, составляющими экосистему Hadoop.
Аудитория:
data-инженеры, администраторы, DevOps-инженеры, программисты и все, кому интересно повысить свой профессиональный уровень в направлении Hadoop и Big Data.
Основные понятия
  • Понятие реляционной базы данных;
  • Понятие OLTP, OLAP, ETL;
  • Типично IT-инфраструктура с точки зрения хранения и обработки данных;
  • Понятие BigData,
  • Характеристики BigData;
  • Проблемы в обработке BigData;
  • Технологии обработки BigData.
 
NoSQL базы данных
  • NoSQL базы данных в IT-инфраструктуре;
  • CAP и BASE теорема;
  • Отличие реляционных баз данных и NoSQL баз данных;
  • Понятие NewSQL баз данных;
  • Типы NoSQL баз данных и примеры их использования.
 
Начало работы с Hadoop
  • Hadoop в IT-инфраструктуре;
  • Сравнение Hadoop с реляционными и NoSQL базами данных;
  • Обзор системы Hadoop и типичные примеры использования;
  • Архитектура системы Hadoop;
  • Обзор экосистемных проектов и вендоров Hadoop;
  • Ресурсы необходимы для построения кластера;
  • Построение кластера Hadoop в standalonemode, обзор сервисов;
  • Управление кластером Hadoop.
 
Работа с HDFS
  • Архитектура и сервисы HDFS;
  • Сохранение данных в HDFS;
  • Процессы чтения и записи файлов в HDFS;
  • Инструменты управления HDFS;
  • Использование командной строки для доступа к HDFS;
  • Проблемы при хранении маленьких файлов в HDFS;
  • Основные параметры конфигурации HDFS;
  • Настройка отказоустойчивости HDFS.
 
MapReduce и YARN
  • Парадигмы MapReduce в примерах;
  • Архитектура кластера Hadoop с YARN;
  • Архитектура и принципы работы Spark on YARN.
 
Работа с Hive и Impala
  • Обзор и архитектура Hive;
  • Таблицы и партиции в Hive;
  • Загрузка данных в таблицы Hive;
  • Практические задания на выборку данных с помощью Hive и Impala.
 
Форматы файлов в Hadoop
  • Обзор текстовых, Sequence, ORC и Parquet файлов.
 
 Практическая работа со Standalone кластером, с HDFS, Spark on YARN.
  • Уверенные знания основ математического анализа, математической статистики или теории вероятностей;
  • Опыт программирования на любом языке;
  • Уверенный пользователь электронных таблиц.

Запись на курс

Код курсаEA-BDH
Длительность3д (24ч)
Код экзамена
Стоимость без НДС грн.
Ближайшие даты
  • 07.01.2020
  • 10.03.2020
  • 12.05.2020
spinner-it