Daten verschieben die Machtverhältnisse in der Wirtschaft dramatisch, schreibt Dr. Simon Deuring in seinem bei Nomos/C.H.Beck erschienenen Buch Datenmacht. Die Chancen sind: die Entwicklung neuer Geschäftsfelder, Kostensenkungen und personalisierte Angebote. Das Rechtssystem freilich steht vor der Frage: Regulierung oder Vertrauen in die Selbstordnung der Märkte? Bevor man sich aber mit den Stärken und Schwächen im europäischen und nationalen Recht auseinandersetzt und das Potenzial der Daten aufgibt, empfehlen wir, sich mit dem Thema grundsätzlich zu beschäftigen.
Im ersten Teil unserer Reihe haben Dilyana Bossenz und Björn Leffler von m2 die Datenwertschöpfungskette definiert und die ersten Schritte auf dem Weg zur Datenvisualisierung und Datenanalyse beschrieben. Als Beispiel haben sie sich auf eine fiktive Druckerei mit 100 Mitarbeiterinnen und Mitarbeitern fokussiert. Die Druckerei möchte ein Dashboard bauen und stellt sich dabei folgende Frage:
In welcher Stückzahl wurden Druckprodukte wie Broschüren, Flyer oder Postkarten in den vergangenen fünf Jahren (2016 – 2021) in Deutschland produziert?
In diesem Beitrag geht es um die weiteren Schritte in der Datenwertschöpfungskette: Data Hub und Data Science.
Data Hub
Um Datenanalysen durchzuführen, muss man sich im Vorfeld Gedanken über die Daten an sich machen: Wie hoch ist die Datenmenge? Welche Art von Speichertechnologien sind für meine aktuellen Bedürfnisse geeignet? Wie sichere und regle ich den Datenzugriff? Wie hoch ist die Datenmenge?
Datenmengen
Datenmengen spielen im Projekt eine wichtige Rolle, denn es geht darum, ein nachhaltiges Dashboard oder Berichtswesen aufzubauen, welches die Erwartungen der Nutzer erfüllen kann.
Wann eine Datenmenge als groß oder klein bezeichnet wird, ist relativ. Dazu gibt es keine allgemeine Definition. IT-Beratungsunternehmen wissen, welche Kapazitäten die unterschiedlichen Technologien mit sich bringen und welche Datenmengen verarbeitet werden können. Ziel der Projektarbeit ist immer, dass der User am Ende eine arbeitsfähige und gut funktionierende Lösung hat.
Datenbanktechnologien
Daten müssen auf einer Datenbank gespeichert werden, um überhaupt Zugriff auf sie zu haben. Anhand der Information über die Datenmenge wird entschieden, welche Art von Speicher und Datenbanktechnologien für das Projekt geeignet sind. M2 nutzt beispielsweise die Lösungen von AWS RDS- und Exasol-Datenbanken.
Amazon RDS (Amazon Relational Database Service) ist ein Webservice, der das Einrichten, Betreiben und Skalieren einer relationalen Datenbank in der AWS-Cloud vereinfacht. Dieser Service bietet kostengünstige und anpassbare Kapazitäten für eine den Branchenstandards entsprechende relationale Datenbank sowie die Verwaltung gängiger Datenbankaufgaben.
Exasol ist ein parallelisiertes, relationales Datenbankmanagementsystem (RDBMS), das auf einem Cluster von Standard-Computerhardware-Servern läuft. Nach dem SPMD-Modell wird auf jedem Knoten der gleiche Code gleichzeitig ausgeführt. Das macht Exasol zu einer der schnellsten Datenbanken der Welt.
Jedes Projekt soll individuell betrachtet werden. Um eine passende Lösung für Datenspeicherung und -verarbeitung auswählen zu können, lohnt es sich, einen Expertenrat einzuholen.
Für unser Beispiel jedoch kommen andere Lösungen zur Datenspeicherung zum Einsatz. In dem Fall handelt es sich um Daten der Jahre 2016 – 2021. Es ist also eine überschaubare Datenmenge, selbst dann, wenn wir ausschließlich mit Rohdaten arbeiten werden.
Als Lösung für die Speicherung der Daten in unserem Beispiel eignet sich eine Standarddatenbank wie MySQL. MySQL ist ein quelloffenes SQL-Datenbank-Managementsystem. SQL steht für ‚Structured Query Language‘ (strukturierte Abfragesprache) und ist die gebräuchlichste standardisierte Sprache für den Zugriff auf Datenbanken. Diese Datenbank (wie jede andere) muss auf einem separaten Server oder auf dem eigenen Rechner wie dem Webserver installiert werden.
Es ist zu empfehlen, die Daten zentral in einer Datenbank abzulegen, sodass die gesamte IT-Abteilung Zugriff darauf hat. Diese Lösung hat weitere Vorteile wie Transparenz, Anpassungsmöglichkeiten und Bereitstellung an weitere, beteiligte Abteilungen. Die Einrichtung der Datenbanken sollte durch Datenbank-Administratoren erfolgen und von ihnen verwaltet werden.
Die Daten aus unserem Beispiel können ebenso lokal in einer Textdatei gespeichert werden. Diese Art der Datenspeicherung ist einfach und schnell, hat aber durchaus Nachteile. Die Daten sind in dieser Form nicht für Datenmanager oder IT-Abteilungen sichtbar. Das führt zu den Schwierigkeiten beim Management der Daten. Falls diese Daten personenbezogene Informationen beinhalten, muss sichergestellt werden, dass die Daten entsprechend der gültigen Gesetzgebung behandelt werden.
Wie sichere und regle ich den Datenzugriff?
Datenzugriff ist ein Begriff aus der Computertechnik und beschreibt den physikalischen Vorgang des Lesens bestimmter Daten und Informationen auf Speichergeräten. Dabei können das logische Laufwerke oder Datenbanken sein.
Der Datenzugriff sollte geschützt werden, weil wir die sensiblen Kundendaten in erste Linie schützen müssen. Firmengeheimnisse oder persönliche Kundenadressen dürfen auf keinen Fall über das Internet für Dritte zugänglich gemacht werden.
Die gängigste Methode, den Zugriff auf Daten zu schützen, ist die Nutzung von VPN-Services. VPN steht für Virtual Private Network. VPN beinhaltet unterschiedliche Verfahren, Techniken und Protokolle für virtuelle Verbindungen, verschlüsselte Kommunikation, sicheren Datenaustausch und private Übertragungen. Im Wesentlichen stellen VPN Services dabei meist die Aspekte Authentizität, Verschlüsselung und Integrität sicher. Authentizität bedeutet in diesem Zusammenhang die Autorisierung von Nutzern, während sich die Verschlüsselung auf die Kommunikation und den Datenaustausch bezieht. Integrität soll zudem verdeutlichen, dass Dritte die Daten nicht verändern können. Je nach Anwendungsfall kommen verschiedene Techniken und Verfahren zum Einsatz, die alle Aspekte abdecken.
Data Science
Genau wie Data Analysis ist das Themenfeld Data Science sehr umfangreich. Data Science ist ein interdisziplinäres Wissenschaftsfeld, welches wissenschaftlich fundierte Methoden, Prozesse, Algorithmen und Systeme zur Extraktion von Erkenntnissen, Mustern und Schlüssen sowohl aus strukturierten als auch unstrukturierten Daten ermöglicht.
Wir verwenden Data Science in Projekten, wenn wir es mit großen und unüberschaubaren Datenmengen zu tun haben. Machine Learning, Regressions-Analyse oder Algorithmen helfen uns dabei, die Daten besser zu verstehen. Für die Durchführung dieser Methoden verwenden wir Python und AWS. Bei M2 haben wir ein Team von Data Scientists, die sich mit den alltäglichen Fragen auf diesem Gebiet dauerhaft beschäftigen.
Die Anwendung solcher Methoden in unserem Beispiel ist jedoch überflüssig. Deswegen werden wir diesen Bereich nicht näher betrachten.
Über M2
M2 technology & project consulting GmbH, kurz benannt als M2, wurde 2009 in Berlin gegründet. Das Unternehmen spezialisiert sich auf Business-Intelligence-Lösungen der nächsten Generation. Als erster Partner von Tableau Software in Deutschland sowie langjähriger Partner von Alteryx, Amazon Web Services, Exasol und Snowflake begleitet das Unternehmen seither den Aufbau von modernen BI Plattformen und datengetriebenen Projekten entlang der gesamten Daten-Wertschöpfungskette bei DAX-Konzernen, KMUs, Unternehmen des öffentlichen Dienstes und Start-Ups.
