Reinforcement Learning
Was ist Reinforcement Learning?
Reinforcement Learning (RL) ist ein Lernverfahren, bei dem ein Agent durch Versuch und Irrtum lernt, optimale Entscheidungen zu treffen. Der Agent probiert in seiner Umgebung verschiedene Aktionen aus, erhält dafür eine Belohnung (Reward) und passt seine Strategie so lange an, bis er langfristig die höchste Gesamtbelohnung erzielt.
Im Kontext der Gebäudeautomation heißt das: Ein RL-System testet selbstständig Stellbefehle für HVAC, Beleuchtung, Speicher & Co., bewertet laufend deren Auswirkungen auf Energieverbrauch und Komfort – und verbessert seine Steuerung Schritt für Schritt ganz ohne manuelle Eingriffe.
Typische Einsatzfelder
Gebäudeautomation
Energie- & CO₂-Kosten senken, Komfortband einhalten
HVAC-Fahrpläne, Spitzenlastglättung
Energie & Smart Grid
Last verschieben, Speicher steuern
PV-Speicher-Dispatch, Tarifanpassung
Robotik
Geschickte Bewegungen
Greifen, Navigieren, Drohnenflug
Industrie 4.0
Durchsatz erhöhen, Ausschuss reduzieren
Dynamische Taktung von Fertigungsstraßen
Games & Simulation
Strategiefindung
AlphaGo, komplexe 3-D-Spiele
Aktuelle Herausforderungen von Reinforcement Learning
Bereits 2018 im viel zitierten Blog-Artikel „Deep Reinforcement Learning Doesn’t Work Yet“ (Februar 2018) wird aufgezeigt, wo RL in der Praxis scheitert – und trotz aller Fortschritte sind genau diese Hürden bis heute weitgehend ungelöst:
Hoher Datenbedarf Viele RL-Algorithmen brauchen Millionen Interaktionen – in realen Anlagen schwer umzusetzen.
Empfindliches Hyperparameter-Tuning Lernrate, Netzarchitektur & Co. sind oft experimentell – kleine Änderungen entscheiden über Erfolg oder Misserfolg.
Belohnungsdesign & „Reward-Hacking“ Missverständliche Rewards können zu völlig unerwünschten Verhaltensweisen führen.
Exploration vs. Exploitation & lokale Optima Zu wenig Erkundung endet in suboptimalen, aber leicht erreichbaren Lösungen.
Instabilität und Reproduzierbarkeit Gleicher Code, anderer Zufalls-Seed → teils völlig andere Ergebnisse.
Schwache Generalisierung Modelle sind oft auf eine Umgebung trainiert; schon kleine Änderungen lassen die Leistung einbrechen.
Sicherheits- und Compliance-Fragen Autonome Agenten müssen begrenzt und auditierbar sein, um Risiken in kritischer Infrastruktur zu vermeiden.
Datenknappheit – die größte Hürde im Smart Building
Als wären Hyperparameter-Tuning, Reward-Design und Instabilität nicht schon Herausforderung genug, trifft Reinforcement Learning im Gebäudebetrieb auf ein zusätzliches Kernproblem: zu wenig Rohdaten. Typische BMS- oder Wärmepumpenanlagen liefern Messpunkte im 5-Minuten-Takt. Bei einem Schritt pro 5 Minuten summiert sich das in einem Jahr nur auf rund 100 000 Zeitstempel – Größenordnungen entfernt von den Millionen Interaktionen, die klassische RL-Algorithmen für robuste Politiken verlangen.
Lösungsansätze, um das Datenloch zu füllen
High-Fidelity Digital Twin
Ein vollständiges Simulationsmodell des Gebäudes (z. B. EnergyPlus), das bis hin zu Wandaufbauten, Fensterglas, Belegung und Wetter exakte thermische Antworten liefert. RL sammelt seine Millionen Schritte in der Simulation.
+ Physikalisch fundiert + Keine Live-Risiken – BIM-Erstellung & Kalibrierung aufwendig – Rechenlast für lange Rollouts
Model-based RL / Weltmodelle
Statt schwerer Physik nutzt man ein lernbasiertes Weltmodell, das aus den 100 000 Log-Samples eine differenzierbare Mini-Welt extrahiert. Darin kann der Agent Millionen „geträumte“ Schritte pro GPU-Minute erleben.
+ Extrem dateneffizient (oft < 10 000 reale Schritte bis Nutzen) + Kontinuierliches Online-Finetuning
+ Sofort einsatzbereit wenn auf daten vor trainiert – Model lernt nur bereits erlebte Bereiche der Daten
Offline RL & Imitationslernen
RL lernt ausschließlich aus den vorhandenen Logs (BCQ, CQL …) also lernt diese erst zu Imitieren und von da aus zu verbessern, überschreibt die Politik aber nie mit Aktionen, die nicht im Datenspeicher vorkommen.
+ Kein Twin nötig + Sofort einsatzbereit – Qualität hängt direkt an Log-Diversität
Wie Eliona alle RL-Hürden meistert: Weltmodell + Simulationsschritte
Wir verfolgen bei Eliona einen weltbasierten RL-Ansatz: Ein neuronales Weltmodell erlernt aus historischen und Live-Daten die Dynamik des Gebäudes bei bedarf – inklusive Wetter, Belegung oder Fensteröffnungen. Darauf trainiert ein RL-Agent via Simulation („Traumschritte“) seine Steuerungsstrategie, testet tausende Aktionen pro echtem Schritt und lernt so dateneffizient, robust und sicher.

Hoher Datenbedarf
Problem: Klassische RL benötigt Millionen Real-Interaktionen – bei 5-Minuten-Takt und ~100 000 Zeitstempeln pro Jahr unerreichbar. Lösung:
Ein vortrainiertes Weltmodell absorbiert die 100 000 historischen Samples und generiert daraus eine Mini-Welt, in der der Agent unbegrenzt simulieren kann.
Bereits nach ≈ 2 000 echten Schritten zeigen Tests deutliche Einsparungen.
Offline-Vortraining + Millionen Simulationsschritte ermöglichen den Start mit einem direkt einsatzfähigen Modell – ganz ohne Live-Trainingsphase.
Empfindliches Hyperparameter-Tuning
Problem: Lernraten, Netzarchitekturen und Regularisierer erfordern sonst mühsame Grid-Search und Expertenwissen. Lösung:
Unser weltbasiertes System wurde auf Dutzenden RL Problemen kalibriert.
Ein robuster Default-Parametersatz liefert sofort reproduzierbare Performance – ganz ohne zusätzliches Tuning.
Belohnungsdesign & „Reward-Hacking“
Problem: Falsch definierte Rewards führen zu unerwünschten Strategien oder Exploit-Verhalten. Lösung:
Nutzer definieren per GUI nur noch Zielbereiche (z. B. 21–23 °C) und Kennzahlen, die minimiert oder maximiert werden sollen (Kosten, CO₂, Spitzenlast).
Eliona generiert im Hintergrund eine erprobte, an die Anlagenstruktur angepasste Reward-Funktion.
So bleibt der Reward verständlich, sicher und frei von Fehlanreizen.
Exploration vs. Exploitation & lokale Optima
Problem: Zu frühes Ausnutzen bekannter Aktionen blockiert das Finden globaler Optima. Lösung:
Breite Erforschung aller Strategien erfolgt risikolos in der Mini-Welt.
In der Realität wird nur die aktuell beste Strategie angewendet.
Langzeittests zeigen stets Konvergenz auf optimale Betriebsweisen statt auf suboptimale Plateaus.
Instabilität und Reproduzierbarkeit
Problem: Modelle, die je nach Zufallsseed oder Trainingslauf stark variieren, sind im realen Betrieb unzuverlässig. Lösung:
HVAC-Benchmarks dokumentieren einen eng begrenzten Lernhorizont von 1 000–2 000 realen Schritten – unabhängig von Seed.
Resultate sind planbar und ROI-Schätzungen verlässlich.
Schwache Generalisierung
Problem: Modelle, die nur auf Sommer- oder Testdaten trainiert wurden, versagen bei echten Betriebsänderungen. Lösung:
Kontinuierliches Online-Finetuning: Neu einlaufende 5-Minuten-Daten aktualisieren das Weltmodell und damit die Steuerungsstrategie.
Das System adaptiert binnen weniger Tage an neue Jahreszeiten, Umbauten oder Tarifwechsel.
Sicherheits- und Compliance-Fragen
Problem: Autonome Aktionen ohne Kontrollmechanismen können Comfort- oder Safety-Grenzen überschreiten. Lösung:
Über die integrierte Regelketten-Engine lassen sich harte Komfort- und Sicherheitsschwellen definieren.
Bei Grenzwertverstößen oder unerwarteten Aktionen schaltet Eliona selbstständig auf einen bewährten Fallback-Regler um und löst eine Alarmeskalation aus.
Dank dieses Ansatzes erzielt Eliona mit RL doppelt-digitige Energie- und Kosteneinsparungen, während Komfort und Sicherheit höchsten Ansprüchen genügen – und das ohne jahrelange Datensammlung oder Experten-Feintuning.
Einfache Inbetriebnahme über die RL-App
Die Konfiguration in Eliona ist bewusst auf Minimalaufwand ausgelegt – ganz ohne Code:
Assets auswählen Wähle im RL-App-Interface die Gebäudeteile, Anlagen oder Sensor-Gruppen aus, die Feedback liefern sollen (z. B. Raumklimaanlagen, Wärmepumpe, Fensterkontakte).
Regelbare Attribute festlegen Markiere, welche Stellgrößen der Agent beherrschen darf (z. B. Vorlauftemperatur, Lüfterdrehzahl, Drosselklappe).
Zieldefinition ganz einfach Gib je Attribut an, ob es in einem Bereich gehalten (z. B. 21 – 23 °C), minimiert (Kosten, CO₂) oder maximiert (COP, Eigenverbrauchsquote) werden soll – oder ob ein dynamischer oder exakter Sollwert gelten soll.
Starten & Beobachten Das System zieht sich automatisch die letzten historischen Daten, baut das Weltmodell auf und beginnt sofort mit Offline-Training. Im Anschluss kann der Agent jederzeit live geschaltet werden – per Klick.
Ab diesem Punkt lernt er vollautomatisch: Erst offline aus der Historie, dann mit jedem eingehenden Datenpunkt on-the-fly.
Drei praxisbewährte RL-Anwendungen im Gebäudebetrieb
Neueste Studien und Feldversuche belegen, dass Reinforcement Learning bereits heute zweistellige Energieeinsparungen und Komfortgewinne ermöglicht – ganz ohne jahrelange Datensammlung. Im Folgenden drei solide Beispiele, in denen RL-Systeme auf reale Gebäude angewandt wurden, inklusive Konfigurationsüberblick, erzielter Resultate und Quellenhinweisen.
1. Bürogebäude–HVAC: 12 % Energie- & 28 % Komfortverbesserung
Szenario & Ziel: Ein mehrstöckiges Bürogebäude nutzt Deep RL, um den Heizung-, Lüftungs- und Klimaanlagenbetrieb zu optimieren. Ziel ist es, den Energieverbrauch um zweistellige Prozentwerte zu senken und Komfortverletzungen (Temperaturschwankungen außerhalb des Zielbereichs) zu minimieren.
RL-App-Konfiguration (Beispiel):
Daten-Inputs: Innentemperatur, Außentemperatur, Belegungsgrade, Fensterkontakte, Historische HVAC-Aktorensollwerte
Steuerbare Aktoren: Vorlauftemperatur, Ventilatorstufen
Reward-Definition: Temperatur in [21 °C, 23 °C] halten, Energieverbrauch minimieren.
Ergebnis: In der Simulation und im anschließenden Feldtest erzielte das RL-System 12 % weniger Energieverbrauch und 28 % geringere Komfortverletzungen im Vergleich zu PID- und Zeitplandatensteuerung ScienceDirect.
2. Hochhaus in Manhattan: 15,8 % weniger HVAC-Energie
Szenario & Ziel: Ein 32-stöckiges Bürohochhaus in New York City setzt ein kommerzielles, KI-gestütztes RL-System zur Reduktion der Heiz- und Kühlkosten ein.
RL-App-Konfiguration (Beispiel):
Daten-Inputs: Gebäude- und Zonentemperaturen, Außentemperatur, Belegungsdaten, Echtzeittarife
Steuerbare Aktoren: Heiz-/Kühlkreisläufe, Ventilatorsteuerung
Reward-Definition: Minimierung des Gesamtenergiebezugs, Einhaltung von Komfortbändern
Ergebnis: Die KI senkte den HVAC-Energieverbrauch um 15,8 %, sparte jährlich rund 37 t CO₂ und 42 000 $ Kosten – alles vollautomatisch und ohne Eingriffe seitens des Gebäudemanagements TIME.
3. DFAB House (Empa): Bis zu 30 % Energieeinsparung
Szenario & Ziel: Im Forschungsgebäude DFAB House (Empa, Schweiz) wurde ein RL-Agent trainiert, der Raumtemperatur und bidirektionales E-Fahrzeugladen gemeinsam optimiert.
RL-App-Konfiguration (Beispiel):
Daten-Inputs: Raumtemperatur, Außenwetterdaten, PV-Erzeugung, EV-SoC, Stromtarif
Steuerbare Aktoren: Heizkörpersollwert, Ladestationleistung
Reward-Definition: Maximierung von Komfort-Score + PV-Eigenverbrauch, Minimierung von Netzbezugskosten
Ergebnis: Im realen Drei-Wochen-Feldtest während der Heizperiode erreichte das RL-System bis zu 30 % Energieeinsparung gegenüber konventionellen Reglerstrategien, bei gleichbleibendem Komfortniveau arXiv.
Schlussfolgerung:
Diese Szenarien zeigen, dass RL-gestützte Anwendungen in unterschiedlichsten Gebäudetypen und Betriebsmodi heute einsatzreif sind. Mit einfachen Konfigurationsschritten in der Eliona-RL-App lassen sich mit wenigen Klicks ähnliche Ergebnisse erzielen – von Bürokomplexen über Hochhäuser bis zu intelligenten Forschungsgebäuden.
Last updated
Was this helpful?