Programmieren lernen
PacmanÜber mich
English
English
  • Course Outline
  • 1 - Databricks
    • Getting Started
    • Working with Notebooks
      • Adding Documentation
      • Built-In Visualizations
      • Import Data
      • Export Data
  • 2 - Introduction
    • Types of Questions
      • Finding Individual Records
      • Summarizing Data
      • Exploring Data
      • Drawing Inferences From Data
      • Predicting Information
      • Finding Causality
    • Steps in Data Analytics
    • Dimensions of Data Sets
    • Dimensions of Records
    • Dimensions of Fields
    • Data Types and Scales
  • 3 - SQL
    • Basic SQL
      • What is SQL?
      • Import Data
      • Select Columns
      • Filter Rows
      • Aggregate and Group Rows
      • Filter Aggregated Rows
      • Sort Rows
    • Advanced SQL
      • Views
      • Set Operators
      • Subqueries
      • Window Functions
      • Date and Time
      • Arrays
      • JSON
      • Statistical Analysis
    • Multiple Data Sets with SQL
    • Text with SQL
      • Search Text
      • Analyzing Words
        • Prefilter the Data
        • Clean and Normalize
        • Tokenize and Count
        • Filter Stop Words
        • POS Tagging
      • Word Pairs
      • Extract Emoticons
  • 4 - Python
    • Python for Data Analytics
      • What is Python?
    • Natural Language Processing
  • 5 - R
    • R Basics
  • 6 - Visualization
    • Why Visualize Data?
    • Data Visualization with R
    • Types of Visualizations
      • Developments and Trends
      • Distributions
    • Pitfalls in Data Visualization
  • 7 - Tableau
    • Getting Data Into Tableau
  • 8 - Spreadsheets
    • What Is A Spreadsheet?
  • Data & Exercises
    • Simpsons
    • Covid19
    • TED Talks
    • Lemonade Market Research
    • Chicago Crimes
    • Tweets of German Politicians
    • Amazon Product Reviews
    • REWE Online Products
Powered by GitBook
On this page
  • Sign-up for the free community edition
  • Notebooks importieren
  • Cluster anlegen und Notebook verbinden
  • Login

Was this helpful?

  1. 1 - Databricks

Getting Started

I recommend you use Databricks for all aspects of this course. Databricks is a unified data analytics platform with support for SQL, Python and R.

PreviousCourse OutlineNextWorking with Notebooks

Last updated 4 years ago

Was this helpful?

Sign-up for the free community edition

Databricks ist ein Cloud-Anbieter für Datenanalysen. Wir können damit Daten unter anderem auf Basis von SQL analysieren. Databricks bietet einen kostenlosen Zugang über die sogenannte Community Edition an.

Führe die folgenden Schritte aus, um dir ein kostenloses Databricks-Konto zu erstellen:

  • Klicke auf , um auf die Anmeldeseite zu gelangen.

  • Gib deinen Vor- und Nachnamen ein und fülle die restlichen Felder aus:

    • Company Name = University of Applied Science Osnabrück

    • Company E-Mail = deine E-Mail-Adresse der Hochschule

    • Title = Student

  • Klicke auf den Button "Get Started For Free". Du wirst auf eine neue Seite weitergeleitet. Hier wählst du bitte die "Community Edition" auf der rechten Seite aus.

ACHTUNG: Wähle nicht die Free Trial-Version aus! Diese endet nach 14 Tagen und lässt sich nicht in die Community-Edition überführen.

So sieht es ungefähr aus, wenn du erfolgreich eingeloggt bist.

Notebooks importieren

In Databricks arbeitest du stets in sogenannten Notebooks. Ein Notebook ist eine Abfolge von Code-Blöcken, in denen Anweisungen, wie z.B. SQL Abfragen, enthalten sein können. Ein Code-Block kann gestartet werden, woraufhin Databricks die enthaltenen Anweisungen Schritt für Schritt ausführt. Im Falle eines SQL Statements wird das Ergebnis (bei Erfolg) anschließend unter dem Block angezeigt.

Für meine Module stelle ich eine Reihe von Notebooks bereit, die du mit wenigen Klicks in deinen Account importieren kannst. In diesen Notebooks sind in der Regel Blöcke für das Laden der Daten, Code-Beispiele und Aufgaben enthalten. Du kannst deine Lösung unter die jeweilige Aufgabe als neuen Block einfügen.

Das Vorgehen zum Importieren eines Notebooks ist einfach:

  • Klicke auf den Link des Notebook-Templates, der für eine bestimmte Aufgabe bereitgestellt wird. Das Notebook öffnet sich als HTML-Seite in einem neuen Tab des Browsers.

  • Klicke nun auf den "Import Notebook" Button in der oberen rechten Ecke des Notebooks. Es öffnet sich ein Pop-up-Fenster mit einer URL. Kopiere die URL in die Zwischenablage (⌨ Strg + C).

  • Im sich öffnenden Pop-up-Fenster wähle bitte den Radiobutton "URL" aus. Füge nun die zuvor kopierte URL des Notebook-Templates in das Textfeld ein. Klicke anschließend auf "Import".

Wenn alles funktioniert hat, ist das Notebook als Kopie in deinem Account gespeichert und du kannst damit arbeiten.

Für das Importieren von Notebooks habe ich ein kurzes Video erstellt:

Cluster anlegen und Notebook verbinden

Die bereitgestellten Notebooks enthalten zu Beginn in der Regel einen Block für das vollautomatische Anlegen der benötigten Tabellen. Diesen Block musst du einmalig ausführen. Anschließend hast du den Datensatz mit allen Tabellen (falls es mehrere gibt) als Kopie in deinem Databricks-Account. Auch nach einem erneuten Login sind die Daten und Arbeitsstände deines Notebooks weiterhin vorhanden.

Um auf diesen Daten SQL-Abfragen ausführen zu können, musst du in Databricks ein sogenanntes Cluster starten. Ein Cluster ist ein Verbund von Rechnern, die in der Cloud existieren und auf denen die Daten analysiert werden. Die Cluster sind vorkonfiguriert und sind mit der notwendigen Software ausgestattet (Apache Spark). Im Fall der kostenlosen Databricks Community Edition besteht ein Cluster aus genau einem Rechner in der Cloud, der für dich kostenlos bereitgestellt wird.

  • Logge dich in deinem Databricks-Account ein und klicke links im Menü auf "Cluster".

  • Klicke auf "Create Cluster". Es öffnet sich eine neue Maske. Vergib einen beliebigen Namen für das Cluster und belasse alle anderen Einstellungen wie sie sind. Klicke dann auf den Button "Create Cluster". Es wird nun im Hintergrund ein Server für dich bereitgestellt, der die benötigte Software u.a. für das Ausführen von SQL Abfragen mitbringt. Die Bereitstellung dauert ca. 2-3 Minuten. Du erkennst an dem grünen Punkt vor dem Cluster-Namen, wenn der Server bereitsteht.

So sieht die Maske zu Erstellung eines neuen Cluster aus. Du musst nur den Namen vergeben und alles andere so belassen, wie es ist.

  • Sobald das Cluster bereitsteht, öffne das Notebook, mit dem du arbeiten möchtest. Klicke auf das kleine Dropdown-Menü oben links im Kopf des Notebooks und wähle dein soeben erstelltes Cluster aus. Danach ist dein Notebook mit dem Cluster verbunden und alle SQL-Abfragen werden automatisch auf diesem ausgeführt.

  • Klicke zuletzt mit der Maus in den ersten Code-Block und drücke anschließend ⌨ Strg + Enter. Alternativ kannst du auch auf den kleinen Play-Button im oberen Rechten Menü des Blocks klicken. Beides führt den Code innerhalb des Blocks aus.

Von jetzt an kannst du in dem Notebook arbeiten und beliebig viele SQL-Abfragen auf deinen Daten ausführen. Sobald du länger als 2 Stunden inaktiv bist und keine Anfragen an deinen Cluster gesendet hast, wird er automatisch heruntergefahren. Du musst dann beim nächsten Arbeiten zuerst einen neuen Cluster erstellen. Alle Daten bleiben permanent erhalten.

Viel Erfolg bei deinen Analysen!

Login

Klicke auf den folgenden Link, um dich mit deinem Account einzuloggen.

Nach einem Logout kannst du dich später jederzeit über wieder einloggen. Wenn du eingeloggt bist und die Databricks-Startseite siehst, ist die Anmeldung erfolgreich abgeschlossen.

Öffne und logge dich mit einem Account ein. Klicke im Menü links auf "Home" und wähle einen Ort aus, an dem du das Notebook speichern möchtest. Klicke dann auf den kleinen nach unten zeigenden Pfeil und wähle "Import".

diesen Link
Databricks
diesen Link
Wähle in die Community Edition auf der rechten Seite aus.
So sieht die Maske zu Erstellung eines neuen Cluster aus.
Ein Notebook muss erst mit einem Cluster verbunden werden, um SQL-Abfragen ausführen zu können.
Databricks - Sign In
Logo