Big Data Dashboards mit Databricks

Big Data Dashboards mit Databricks

Apr 7, 2022 • Florian Greschner und Andreas Gruber, Senior Data Scientists

Einführung “It’s all about data” - diese Aussage wird immer mehr zur Realität. Daten sind das Gold des neuen, digitalen Zeitalters. Umso relevanter werden Infrastrukturen und Plattformen, über die man... [read more]

Clusterverfahren - k-Means und die Bestimmung der optimalen Clusteranzahl (Part 3)

Clusterverfahren - k-Means und die Bestimmung der optimalen Clusteranzahl (Part 3)

Aug 30, 2021 • Andreas Gruber, Senior Data Scientist

Dieser Beitrag ist eine Fortsetzung des zweiten Beitrags aus der Reihe Clustering. Darin wurde erklärt, wie man die Qualität eines Clusterings messen kann, obwohl wir uns im Bereich des Unsupervised... [read more]

Clusterverfahren - k-Means und die Messung der Qualität (Part 2)

Clusterverfahren - k-Means und die Messung der Qualität (Part 2)

Jul 2, 2021 • Andreas Gruber, Senior Data Scientist

Dieser Beitrag ist eine Fortsetzung des ersten Beitrags aus der Reihe Clustering. Darin wurde erörtert, was das Ziel von Clustering ist und wie es sich zu anderen Herangehensweisen wie Segmentierung... [read more]

What the Mock - Mocking bei Tests in Python

What the Mock - Mocking bei Tests in Python

Oct 26, 2020 • Luis Kaiser, Working Student

Einführung Jeder Data Scientist kennt es: Was als kleines Projekt mit einigen Funktionen startet wird schnell unübersichtlich, benötigt ausgelagerte Module und lässt sich nicht mehr komfortabel testen. Deshalb gibt es... [read more]

Indizierung und Performanztests mit R's data.table

Indizierung und Performanztests mit R's data.table

Jun 15, 2020 • Philipp Waigand, Working Student

Einführung Viele R-Nutzer verwenden bereits bei der Arbeit mit großen Datenmengen das Package data.table, welches vom nativen data.frame abstammt und als verbesserte, effizientere Version dessen angesehen werden kann. So bietet... [read more]

Clusterverfahren - Einführung und k-Means in R (Part 1)

Clusterverfahren - Einführung und k-Means in R (Part 1)

May 11, 2020 • Andreas Gruber, Senior Data Scientist

Einordnung und Abgrenzung Immer wieder kann man die Worte Clusterverfahren, Cluster-Analyse und Clustering in falschen Zusammenhängen hören. Gerade im Boom der KI-Methoden werden oft Schlagwörter wild durcheinander geworfen, ohne sich... [read more]

Vom UseR zum DevelopeR: Teil 1

Vom UseR zum DevelopeR: Teil 1

May 6, 2020 • Urs Scheffner, Data Scientist

Einleitung Softwareentwicklung ist ein wichtiger Teil unserer Arbeit als Data Scientists. Egal ob es um Data Science, Operations Research oder Spezialprojekte geht, selten bleibt es bei Prototypen und Einmalanalysen. Wir... [read more]

Hosten einer Shiny-App mit Datenbank mittels Docker-Compose

Hosten einer Shiny-App mit Datenbank mittels Docker-Compose

Apr 14, 2020 • Marco Waigand, Working student

In diesem Beitrag wird anhand einer beispielhaften Problemstellung gezeigt, wie man eine Shiny-App mit Anbindung an eine Datenbank mittels Docker-Container hostet. Problemstellung Unsere Shiny-App braucht Daten aus einer externen Quelle... [read more]

Reinforcement Learning: Mathematical framework (Part 2)

Reinforcement Learning: Mathematical framework (Part 2)

Mar 23, 2020 • Dr. Oana Curtef, Senior Data Scientist

In a previous post we have given an non-formal introduction to Reinforcement Learning by means of an example. In what follows, we would like to consolidate some ideas and proceed... [read more]

Reinforcement Learning: Introduction (Part 1)

Reinforcement Learning: Introduction (Part 1)

Feb 18, 2020 • Dr. Oana Curtef, Senior Data Scientist

Recently I have become interested in Reinforcement Learning, a machine learning strategy that gained a lot of interest from the scientific community, as well as from almost everyone who is... [read more]