Tag Archives: Software

Internet.de Census: Statistikserver für BIG-DATA und Zeitserien

Mit dem neuen Statistikserver Census stellt Interactive Network eine Software zu Verarbeitung von großen Datenmengen (BIG-DATA) vor.

Wissenschaftlicher Einsatz

Census befindet sich seit 2012 im wissenschaftlichen Projekt (FIT-BEE) zur Verarbeitung von Zeitserien im Einsatz.

Im Verbund mit mehreren Deutschen Universitäten werden Gewichtsdaten als Indikator für die Vitalität von Bienenvölkern mit Feuchte und Temperatur verglichen, um so die „Fitness“ eines Bienenvolkes in Abhängigkeit der erfassten Klimaelemente zu messen.

Die Daten wurden für alle Bienenvölker in einem 5-Minutenintervall aufgezeichnet und im Census Server verarbeitet. Bei knapp 200 Bienenvölkern ergaben sich innerhalb der Projektdauer (4 Jahre) eine Datenmenge von knapp 82 Millionen Datensätzen.

Grapische Schnellauswertung
Graphische Darstellung des Gewichts des Bienenstocks in Abhängigkeit von Feuchte, Temperatur und Batterieladestand über einen Zeitraum von viereinhalb Jahren

BIG-DATA

Um Massendaten effizient zu verarbeiteten, verfügt Census über zwei integrierte Programmiersprachen:

  • Calculon: Programmiersprache zur Verarbeitung von Zeitserien und Manipulation von Daten an den jeweiligen Einzelzeitpunkten.
  • R – Statistik Software: Softwareumgebung für statistische Berechnungen und Graphiken

Architektur

Census basiert auf dem internet.de Framework und ist vollständig in Java programmiert. Der Server ist als Appliance oder Cloud Service nutzbar. Die Benutzerschnittstelle ist vollständig HTML basiert, so dass mehrere Personen gleichzeitig auf dem Server arbeiten und unabhängig voneinander Auswertungen durchführen können.

Dabei wird die Datenintegrität stets gewahrt: Die Rohdaten bleiben immer unverändert und werden bei Verarbeitung durch die Benutzer in deren Datenpool separat gespeichert.

Effiziente Berechnung

Bei der Vielzahl von Datenwerten ist die Neuberechnung bei obigem Beispiel zeitraubend. So würde bei 82 Millionen Datenpunkten die Berechnung mehrere Stunden benötigen. Um eine Neuberechnung aller Daten zu vermeiden, verfügt internet.de Census über eine differentielle Rechenmethode: Nur die Daten, die neu hinzugekommen sind werden bei einem Durchlauf neu kalkuliert.

Und wenn zusätzliche Rechenschritte hinzugefügt werden, beginnt die Berechnung erst ab der neuen Rechenanweisung, ältere Rechenschritte, die unverändert sind, werden ausgelassen. Damit erspart sich der Server die komplette Neuberechnung der Datenbasis und spart somit Zeit und Rechenkapazität.

Private / Public Cloud

Internet.de Census ist sowohl für die eigene Cloud als auch als Public Cloud Produkt erhältlich. Die private Cloud lässt sich einfach innerhalb einer virtuellen Maschine auf Ihrem Server installieren. In der Public Cloud bekommen Sie von uns einen Zugang per Web (https) und können ohne eigene Installation sofort loslegen. In unserem Rechenzentrum am DE-CIX Frankfurt haben wir dazu beste Verbindungen ins Internet, so dass Sie von einem Institut, einer Firma oder von zu Haus schnell und sicher auf Ihre Daten zugreifen können.

Gefördertes Projekt

Internet.de Census wurde vom Bundesministerium für Ernährung und Landwirtschaft und der Bundesanstalt für Landwirtschaft und Ernährung (BLE) (http://www.ble.de) gefördert.

Gefördert durch Bundesministerium für Ernährung und Landwirtschaft aufgrund eines Beschlusses des Deutschen Bundestages

Bundesanstalt für Landwirtschaft und Ernährung (BLE) im Rahmen des Programms zur Innovationsförderung

Projektträger Bundesanstalt für Landwirtschaft und Ernährung (BLE)

 Mandantenfähig

Auf dem Census Server können mehrere Personen gleichzeitig an Ihren eigenen Daten arbeiten, ohne  dabei die Daten der anderen zu gefährden. Daten eines Benutzers sind auch nur für ihn selbst sichtbar außer er will den Zugriff (nur Lesen oder Lesen-Schreiben) für Andere zulassen.

Auch in Gruppen können mehrere Personen eigene Auswertungen vornehmen und später die Zwischenergebnisse für andere Mitglieder zugänglich machen.

Intermediär als IT-Innovation ausgezeichnet

Intermediär errang unter mehr als 2.000 Mitbewerbern, darunter namhafte Firmen wie Google, die Auszeichnung als »Top20«-Produkt beim Innovationspreis-IT 2009 im Bereich IT-Security.

Der Intermediär ist eine Datenschutzlösung, die es erlaubt, persönliche Daten unter einem sicheren Pseudonym zu erfassen. So kann der Mensch hinter den Daten nicht mehr identifizert werden.

Vergeben wurde die Auszeichnung als »Top20«-Produkt durch die Fachredatkion der Initiative Mittelstand im Rahmen des Innovationspreis-IT 2009.

Intermediär

Intermediär ist ein Verfahren für die Berechnung und Verwaltung sicherer Pseudonyme, um persönliche Daten auch strengeren Regeln als des BDSG genügend zu speichern.

Der sicherste Schutz ist natürlich immer die Nichterhebung der Daten. Der zweitsicherste die Anonymisierung.

Aber in einigen Fällen ist, gerade in medizinischen Forschungsnetzen, beides nicht möglich, da eine Fortschreibung des einem Patienten zugeordneten Datensatzes, seiner Krankenakte, gewünscht und notwendig ist.

In diesen Fällen muss üblicherweise eine Vertrauensstelle zwischengeschaltet werden, die aus den Stammdaten eines Patienten ein Pseudonym berechnet, so dass der Betreiber des Forschungsnetzes nicht in der Lage ist, den Patienten zu identifizieren.

Doch neben den hohen Kosten für eine Vertrauensstelle ist diese auch immer eine Schwachstelle, da sie eine Liste aller Patienten vorrätig hält.

Mit dem von Interactive Network in Absprache mit dem Hessischen Landesbeauftragten für den Datenschutz, dem Bundesbeauftragten für den Datenschutz (BfDI) und dem Bundesamt für Sicherheit in der Informationstechnik (BSI) entwickelten Verfahren kann auf die Vertrauensstelle verzichtet und der Betrieb des Intermediärs zudem in die Hand des medzinischen Forschungsnetzes gegeben werden.

Und das ohne den Betreiber in die Lage zu versetzen, einen Patienten zu identifizieren oder eine Liste der Patienten zu erstellen.

In den Gesprächen mit den Landesbeauftragten für den Datenschutz nannten wir dies die Quadratur des Kreises. Und wir haben sie vorgenommen!

Ursprünglich wurde Intermediär für das Deutsche Hämophilieregister entwickelt. Er kann aber auch in eigene Lösungen integriert werden.

Dafür wurde Intermediär im Jahre 2009 von der Fachredaktion der Initiative Mittelstand als IT-Innovation ausgezeichnet.