Введение в Big Data и Hadoop

Этот курс дает представление об основах BigData и Hadoop. Участники познакомятся с HDFS – стандартом де факто для долговременного надежного хранения больших объемов данных, фреймворком MapReduce, автоматически управляющим параллельным выполнением приложений на кластере, и сопутствующими проектами, составляющими экосистему Hadoop.

Аудитория:

data-инженеры, администраторы, DevOps-инженеры, программисты и все, кому интересно повысить свой профессиональный уровень в направлении Hadoop и Big Data.

Основные понятия

Понятие реляционной базы данных;
Понятие OLTP, OLAP, ETL;
Типично IT-инфраструктура с точки зрения хранения и обработки данных;
Понятие BigData,
Характеристики BigData;
Проблемы в обработке BigData;
Технологии обработки BigData.

NoSQL базы данных

NoSQL базы данных в IT-инфраструктуре;
CAP и BASE теорема;
Отличие реляционных баз данных и NoSQL баз данных;
Понятие NewSQL баз данных;
Типы NoSQL баз данных и примеры их использования.

Начало работы с Hadoop

Hadoop в IT-инфраструктуре;
Сравнение Hadoop с реляционными и NoSQL базами данных;
Обзор системы Hadoop и типичные примеры использования;
Архитектура системы Hadoop;
Обзор экосистемных проектов и вендоров Hadoop;
Ресурсы необходимы для построения кластера;
Построение кластера Hadoop в standalonemode, обзор сервисов;
Управление кластером Hadoop.

Работа с HDFS

Архитектура и сервисы HDFS;
Сохранение данных в HDFS;
Процессы чтения и записи файлов в HDFS;
Инструменты управления HDFS;
Использование командной строки для доступа к HDFS;
Проблемы при хранении маленьких файлов в HDFS;
Основные параметры конфигурации HDFS;
Настройка отказоустойчивости HDFS.

MapReduce и YARN

Парадигмы MapReduce в примерах;
Архитектура кластера Hadoop с YARN;
Архитектура и принципы работы Spark on YARN.

Работа с Hive и Impala

Обзор и архитектура Hive;
Таблицы и партиции в Hive;
Загрузка данных в таблицы Hive;
Практические задания на выборку данных с помощью Hive и Impala.

Форматы файлов в Hadoop

Обзор текстовых, Sequence, ORC и Parquet файлов.

Практическая работа со Standalone кластером, с HDFS, Spark on YARN.

Уверенные знания основ математического анализа, математической статистики или теории вероятностей;
Опыт программирования на любом языке;
Уверенный пользователь электронных таблиц.

Запись на курс

Ближайшие даты
Код курса	EA-BDH
Длительность	3д (24ч)
Код экзамена
Стоимость без НДС	30000 грн.
30.04.2024 02.07.2024 03.09.2024