Big Data Hadoop & Spark Developer – eLearning utbildning, Adding Value Consulting AB

Kursbeskrivning

Big Data Hadoop and Spark Developer

eLearning

Innehåller GRATIS KURS - Apache Kafka och Core Java

Med denna Big Data Hadoop-kurs kommer du att lära dig ramverket för stora data med Hadoop och Spark, inklusive HDFS, YARN och MapReduce. Kursen kommer också att behandla Pig, Hive och Impala för att bearbeta och analysera stora datamängder lagrade i HDFS och använda Sqoop och Flume för datainmatning.

Du kommer att visas databehandling i realtid med Spark, inklusive funktionell programmering i Spark, implementering av Spark-applikationer, förstå parallell bearbetning i Spark och använda Spark RDD-optimeringstekniker. Du kommer också att lära dig de olika interaktiva algoritmerna i Spark och använda Spark SQL för att skapa, omvandla och fråga dataformulär.

Slutligen kommer du att behöva genomföra verkliga, branschbaserade projekt med CloudLab inom domänerna bank, telekommunikation, sociala medier, försäkringar och e-handel.

VAD INGÅR?

74 timmars blandad inlärning
o 22 timmars e-learning
eller
o 52 timmars lärarledd online-utbildning
Ett år/ 12 månader tillgång till e-learning plattformen
Fyra branschbaserade projekt i slutet av kursen
Interaktiv inlärning med integrerade laborationer
Läroplanen är anpassad till certifieringsprovet Cloudera CCA175.
Utbildning om viktiga verktyg för big data och Hadoop-ekosystemet samt Apache Spark.
Särskilda mentorskapssessioner från lärare med branschexperter.
Gratis kurs ingår - Apache Kafka
Gratis kurs ingår - Core Java
Tillgång dygnet runt

Detaljer och kriterier för certifiering:

Det är viktigt att du har slutfört minst 85 procent av den självstyrda onlineutbildningen eller deltagit i en live-utbildning.
virtuellt klassrum
Ett resultat på minst 75 procent i bedömningen i slutet av kursen.
Framgångsrik utvärdering i minst ett projekt.

Certification Alignment:

Vår läroplan är anpassad till Cloudera CCA175-certifieringsprovet.

MÅL MED KURSEN Du lär dig:

I slutet av kursen kommer du att kunna förstå:

De olika komponenterna i Hadoop-ekosystemet som Hadoop 2.7, Garn, MapReduce, Pig, Hive, Impala, HBase, Sqoop, Flume och Apache Spark
Hadoop Distribuerat Filsystem (HDFS) och YARN-arkitektur
MapReduce och dess egenskaper och assimilerar avancerade MapReduce-koncept
Olika typer av filformat, Avro-schema, med Avro med Hive, och Sqoop och Schema-utveckling
Flume, Flume-arkitektur, källor, flush-sänkor, kanaler och flume-konfigurationer
HBase, dess arkitektur och datalagring och lär dig skillnaden mellan HBase och RDBMS
Resilient distribution datasets (RDD) i detalj
Vanliga användningsfall för Spark och olika interaktiva algoritmer

Du kommer också att kunna:

Ta in data med Sqoop och Flume
Skapa databas och tabeller i Hive och Impala, förstå HBase och använd Hive och Impala för partitionering
Få en fungerande kunskap om gris och dess komponenter
Gör funktionell programmering i Spark och implementera och bygga Spark-applikationer
Få en djupgående förståelse för parallell bearbetning i Spark och Spark RDD-optimeringstekniker
Skapa, transformera och fråga dataramar med Spark SQL

Vem det riktar sig till

Karriärmöjligheter för big data ökar och Hadoop blir snabbt en måste-teknologi inom big data-arkitektur. Big Data-utbildning är lämplig för IT-, datahantering- och analytiker, inklusive:

Programvaruutvecklare och arkitekter
Analytics-proffs
Senior IT-proffs
Test- och mainframe-proffs
Datahanteringspersonal
Business intelligence-proffs
Projektledare
Blivande datavetare
Kandidater som vill bygga en karriär inom stor dataanalys

Innehåll

Kursen behandlar följande ämnen:

Kursintroduktion
Lektion 1 - Introduktion till big data och Hadoop-ekosystem
Lektion 2 - HDFS och GARN
Lektion 3 - MapReduce and Sqoop
Lektion 4 - Grunderna i bikupan och impalaen
Lektion 5 - Arbeta med bikupa och impala
Lektion 6 - Typer av dataformat
Lektion 7 - Avancerat Hive-koncept och datafilpartitionering
Lektion 8 - Apache Flume och HBase
Lektion 9 - 'Gris'
Lektion 10 - Grunderna i Apache Spark
Lektion 11 - RDD i Spark
Lektion 12 - Implementering av Spark-applikationer
Lektion 13 - Spark parallell bearbetning
Lektion 14 - Spark RDD-optimeringstekniker
Lektion 15 - Sparkalgoritm
Lektion 16 - Spark SQL

GRATIS KURS - Apache Kafka

GRATIS KURS - Core Java

Mer detaljerad kursplan:

Lektion 01 - Introduktion till Bigdata och Hadoop

Introduktion till Big Data och Hadoop
Introduktion till Big Data
Analys av stora data
Vad är Big Data?
Fyra olika typer av Big Data
Fallstudie Royal Bank of Scotland
Utmaningar med traditionella system
Distribuerade system
Introduktion till Hadoop
Komponenter i Hadoops ekosystem - del ett
Komponenterna i Hadoops ekosystem Del två
Komponenter i Hadoops ekosystem - del tre
Kommersiella Hadoop-distributioner
Demo: Genomgång av Simplilearn Cloudlab: Demonstration
Viktiga slutsatser
Kunskapskontroll

Lektion 02 - Hadoop-arkitekturen distribuerad lagring (HDFS) och YARN

Hadoops arkitektur för distribuerad lagring (HDFS) och YARN
Vad är HDFS?
Behovet av HDFS
Vanligt filsystem kontra HDFS
Egenskaper hos HDFS
HDFS-arkitektur och komponenter
Implementering av kluster med hög tillgänglighet
HDFS-komponentens namnområde för filsystem
Uppdelning av datablock
Topologi för datareplikering
HDFS-kommandoraden
Demo: Vanliga HDFS-kommandon
Övningsprojekt: HDFS-kommandoraden
Introduktion till Yarn
Användningsfall för Yarn
Yarn och dess arkitektur
Resurshanterare
Hur Resource Manager fungerar
Applikationshanterare
Hur Yarn kör en applikation
Verktyg för Yarn-utvecklare
Demo: Del ett: Genomgång av Cluster
Demo: Del två: Genomgång av Cluster
Viktiga slutsatser
Kunskapskontroll
Övningsprojekt: Hadoop-arkitektur, distribuerad lagring (HDFS) och Yarn

Lektion 03 - Inmatning av data i Big Data-system och ETL

Inmatning av data i Big Data-system och ETL
Översikt över datainmatning - del ett
Översikt över datainmatning, del två
Apache Sqoop
Sqoop och dess användningsområden
Sqoop-bearbetning
Sqoop-importprocessen
Sqoop-anslutningar
Demo: Import och export av data från MySQL till HDFS
Övningsprojekt: Apache Sqoop
Apache Flume
Flume-modellen
Skalbarhet i Flume
Komponenter i Flumes arkitektur
Konfiguration av Flume-komponenter
Demo: Ingest Twitter-data
Apache Kafka
Aggregering av användaraktivitet med hjälp av Kafka
Kafka-datamodell
Partitioner
Apache Kafkas arkitektur
Demo: Konfigurera Kafka Cluster
Exempel på API på producentsidan
API på konsumentsidan
Exempel på API på konsumentsidan
Kafka Connect
Demo: Skapa exempel på Kafka-datapipeline med hjälp av producent och konsument
Viktiga slutsatser
Kunskapskontroll
Övningsprojekt: Data Ingestion into Big Data Systems och ETL

Lektion 04 - Distribuerad bearbetning MapReduce ramverk och Pig

Ramverket för distribuerad bearbetning av Mapreduce och Pig
Distribuerad bearbetning i Mapreduce
Exempel på ordräkning
Faserna för utförande av kartor
Utförande av kartor i en distribuerad miljö med två noder
Mapreduce-jobb
Hadoop Mapreduce Job Arbetsinteraktion
Inställning av miljön för Mapreduce-utveckling
Uppsättning av klasser
Skapa ett nytt projekt
Avancerad Mapreduce
Datatyper i Hadoop
Utdataformat i Mapreduce
Användning av distribuerad cache
Sammanfogningar i Mapreduce
Replikerad sammanfogning
Introduktion till Pig
Komponenter i Pig
Datamodell för Pig
Interaktiva metoder för Pig
Pig-verksamheter
Olika relationer som utförs av utvecklare
Demo: Analysera webbloggdata med hjälp av Mapreduce
Demo: Analysera försäljningsdata och lösa Kpis med hjälp av Pig
Övningsprojekt: Apache Pig
Demo: Wordcount
Viktiga slutsatser
Kunskapskontroll
Övningsprojekt: Distribuerad behandling - Mapreduce Framework och Pig

Lektion 05 - Apache Hive

Apache Hive
Hive SQL över Hadoop Mapreduce
Hive-arkitektur
Gränssnitt för att köra Hive-förfrågningar
Kör Beeline från kommandoraden
Hive Metastore
Hive DDL och DML
Skapa en ny tabell
Datatyper
Validering av data
Typer av filformat
Serialisering av data
Hive-tabeller och Avro-schema
Hive-optimering Partitionering Bucketing och provtagning
Icke-partitionerad tabell
Insättning av data
Dynamisk partitionering i Hive
Hive-bucketing
Vad gör hinkar?
Hive Analytics UDF och UDAF
Andra funktioner i Hive
Demo: Analys i realtid och datafiltrering
Demo: Problem i den verkliga världen
Demo: Representation och import av data med hjälp av Hive
Viktiga slutsatser
Kunskapskontroll
Övningsprojekt: Apache Hive

Lektion 06 - NoSQL-databaser HBase

NoSQL-databaser HBase
Introduktion till NoSQL
Demo: Yarn Tuning
Översikt över Hbase
Hbase-arkitektur
Datamodell
Anslutning till HBase
Praktikprojekt: HBase Shell
Viktiga slutsatser
Kunskapskontroll
Övningsprojekt: NoSQL-databaser - HBase

Lektion 07 - Grunderna i funktionell programmering och Scala

Grunderna i funktionell programmering och Scala
Introduktion till Scala
Demo: Installation av Scala
Funktionell programmering
Programmering med Scala
Demo: Grundläggande bokstäver och aritmetisk programmering
Demo: Logiska operatörer
Typinferensklasser Objekt och funktioner i Scala
Demo: Typinferensfunktioner Anonyma funktioner och klasser
Samlingar
Typer av samlingar
Demo: Fem typer av samlingar
Demo: Operationer på listor: Demonstration av operationer på listor
Scala REPL
Demo: Funktioner i Scala REPL
Viktiga slutsatser
Kunskapskontroll
Övningsprojekt: Apache Hive

Lektion 08 - Apache Spark Nästa generations Big Data Ramverk

Apache Spark nästa generations ramverk för stora data
Historien om Spark
Begränsningar med Mapreduce i Hadoop
Introduktion till Apache Spark
Komponenter i Spark
Tillämpning av bearbetning i minnet
Hadoop-ekosystemet kontra Spark
Fördelar med Spark
Spark-arkitektur
Spark-kluster i den verkliga världen
Demo: Kör ett Scala-program i Spark Shell
Demo: Konfigurera exekveringsmiljö i IDE
Demo: Spark Web UI
Viktiga slutsatser
Kunskapskontroll
Övningsprojekt: Apache Spark Next-Generation Big Data Framework

Lektion 09 - Spark Core Processing RDD

Introduktion till Spark RDD
RDD i Spark
Skapa Spark RDD
Para RDD
RDD-verksamhet
Demo: Spark Transformation Detaljerad utforskning med hjälp av Scala-exempel
Demo: Spark Action Detaljerad utforskning med hjälp av Scala
Caching och persistens
Lagringsnivåer
Linjering och DAG
Behovet av DAG
Felsökning i Spark
Partitionering i Spark
Schemaläggning i Spark
Blandning i Spark
Sortera blandning
Aggregering av data med parade RDD:er
Demo: Spark-applikation med data som skrivs tillbaka till HDFS och Spark UI
Demo: Ändring av Spark-applikationsparametrar
Demo: Hantering av olika filformat
Demo: Spark RDD med verklig tillämpning
Demo: Optimering av Spark-jobb
Viktiga slutsatser
Kunskapskontroll
Övningsprojekt: Spark Core Processing RDD

Lektion 10 - Spark SQL-bearbetning av dataframes

Spark SQL-bearbetning av dataframes
Introduktion till Spark SQL
Spark SQL-arkitektur
Dataframes
Demo: Hantering av olika dataformat
Demo: Implementera olika dataframesoperationer
Demo: UDF och UDAF
Samarbete med RDD:er
Demo: Bearbetning av datarutor med hjälp av SQL-förfrågan
RDD vs Dataframe vs Dataset
Övningsprojekt: Bearbetning av dataframes
Viktiga slutsatser
Kunskapskontroll
Övningsprojekt: Spark SQL - Behandling av dataframes

Lektion 11 - Spark MLib Modellering av BigData med Spark

Spark Mlib Modellering av stora data med Spark
Datavetarnas och dataanalytikernas roll inom Big Data
Analyser i Spark
Maskininlärning
Övervakad inlärning
Demo: Klassificering av linjär SVM
Demo: Linjär regression med fallstudier från den verkliga världen
Oövervakad inlärning
Demo: Oövervakad klusterbildning: K-means
Förstärkningsinlärning
Semi-övervakad inlärning
Översikt över Mlib
Mlib-pipelines
Viktiga slutsatser
Kunskapskontroll
Övningsprojekt: Spark Mlib - Modellering av stora data med Spark

Förutsättningar

Det finns inga förutsättningar för denna kurs. Det är dock bra att ha viss kunskap om Core Java och SQL. Vi erbjuder en gratis självkörande onlinekurs "Java essentials for Hadoop" om du behöver förstärka dina Core Java-färdigheter.

Kommande kursstarter

1 tillgänglig kursstart

Börja när du vill, i din egen takt!

Onlineutbildning
Distans
Engelska

/ person

Intresseanmälan

Beställ information

Fyll i formuläret för att få mer information om Big Data Hadoop & Spark Developer – eLearning utbildning, direkt från arrangören. Det är gratis och inte bindande!

Jag godkänner utbildning.se:s Allmänna villkor & Integritetspolicy

Den här hemsidan är skyddad av reCAPTCHA och Googles Integritetspolicy och Användarvillkor tillämapas.

Adding Value Consulting AB

Embassy House, Box 24243

Linnégatan 89C

104 51 Stockholm

08-662 15 89
08 661 52 10

Adding Value Consulting (AVC) är en ledande ATO (Accredited Training Organization). Vi har introducerat ett stort antal 'Best Practice'-metoder i Skandinavien. Vi är experter inom utbildning och certifiering. Under åren har AVC förvärvat omfattande kunskap om olika ledningsmetoder, relevant praxis...

Läs mer om Adding Value Consulting AB och visa alla utbildningar.

Highlights