microphone  johann hofmann facebook  johann hofmann xing  LinkedIn button  YouTube logo stacked white  johann hofmann twitter
Lexikon - Industrie 4.0

Lexikon - Industrie 4.0

EINFACH anders

Data Lake

 ◾ Data Lake und ◾ Rohdaten sind im Ordnungsrahmen ein Unterbegriff und gehören zu: ◼️ Big Data

Der Begriff Data Lake (dt. „Datensee“) steht für einen sehr großen und unstrukturierten Datenspeicher.
Er beinhaltet Daten im ursprünglichen Rohformat.
Das hat den Vorteil, dass diese Rohdaten vor der Speicherung nicht geprüft oder formatiert werden müssen.
Der Data Lake muss in der Lage sein beliebige Datenformate aufzunehmen, egal ob strukturiert oder unstrukturiert.
Dadurch werden verteilte Datensilos vermieden.
Data Lakes benötigen deswegen viel mehr Speicherkapazität als Data Warehouses. Diese unverarbeiteten Rohdaten lassen sich schnell für unterschiedlichste Zwecke analysieren und sind ideal für maschinelles Lernen.
Dazu benötigen Rohdaten zusätzliche META-Daten. Das sind übergeordnete und strukturierte Informationen, um Rohdaten nutzbar zu machen. D.h. erst wenn die Daten benötigt werden, erfolgt die Aufbereitung der betroffenen Daten.
Dafür benötigt man dann allerdings leistungsstarke und intelligente Mechanismen, um diese riesigen Informationsmengen mit vertretbaren Antwortzeiten zu verarbeiten.
Es handelt sich hierbei um eine typische BIG DATA Anwendung.
Der Nutzen entsteht erst, wenn durch Data Mining aus diesen Rohdaten Smart Data gemacht werden,
ansonsten verkommt der Data Lake zum Datensumpf (Data Swamp). Mit geeigneten Data-Governance-Maßnahmen muss das jede Firma für sich verhindern.

DataLake

Bildquelle: ©rolffimages - Fotolia.com

zum Feedbackformular

Ihr Feedback ist mir wichtig!

Helfen Sie mir dabei, mein Lexikon zu erweitern.
zum Feedbackformular

 

Johann Hofmann INDUSTRIE 4.0 Experte, Keynote Speaker, Praktiker aus Leidenschaft Anonym hat 4,61 von 5 Sternen 63 Bewertungen auf ProvenExpert.com