KI in der Massenverwaltung:

- Drei Governance-Probleme und ein Lösungsvorschlag -

Von Dr. iur. Dr. rer. pol. Fabian Teichmann

Dr. Dr. Fabian Teichmann

Dr. iur. Dr. rer. pol., LL.M., EMBA (Oxford), Rechtsanwalt und Notar.
Gründer und Geschäftsführer der Teichmann International (IT Solutions) AG mit Standorten in St. Gallen und Zürich. Berät mit über 40 Mitarbeitenden Kunden aus Finanzwesen, Gesundheitssektor, Industrie und Dienstleistungen.

Deutsche Verwaltungen setzen KI-Systeme ein, um Massenverfahren effizienter zu steuern. Am weitesten fortgeschritten ist die Steuerverwaltung. Nordrhein-Westfalen nutzt seit Mai 2025 als erstes Bundesland ein KI-gestütztes Risikomanagementsystem in der Steuerveranlagung. Gemeinsam mit Fraunhofer IAIS erprobt die Finanzverwaltung NRW zudem die KI-gestützte Auswertung digitaler Asservate in der Steuerfahndung. Bayern kooperiert mit der TU Nürnberg an Machine-Learning-Modellen zur Fallauswahl. Hessen betreibt einen KI-Chatbot für den steuerlichen Bürgerservice und einen internen KI-Assistenten für die Beschäftigten der Finanzverwaltung. Dieser Transformationsprozess ist nicht auf die Steuerverwaltung beschränkt. Algorithmische Systeme steuern zunehmend auch die Fallbearbeitung in der Sozialverwaltung, die Risikoklassifizierung in der Ausländerverwaltung, Predictive Policing in der Ordnungsverwaltung und Ermessensentscheidungen in der Kommunalverwaltung.

Die rechtsstaatlichen Grundkoordinaten verschieben sich dabei in dreifacher Hinsicht: Entscheidungsvorbereitungsschritte werden an algorithmische Systeme delegiert, deterministische Grundlagen weichen probabilistischen Verfahren, und die Verwaltungsqualität hängt zunehmend von der Qualität der eingesetzten Systeme ab.

Normativ präzise Lösungen setzen eine techniktypologische Differenzierung voraus. Deterministische Automatisierung arbeitet mit vorab definierten Regeln. Ihr Output ist reproduzierbar und vollständig dokumentierbar. ML-Scoring-Modelle generieren Wahrscheinlichkeitsaussagen anhand statistisch gelernter Merkmalskorrelationen – mit den Risiken von Modell-Drift und Bias-Anfälligkeit. Generative KI erzeugt Inhalte in natürlicher Sprache. Ihr spezifisches Risiko sind Halluzinationen: faktisch unzutreffende, aber stilistisch kohärente Inhalte, die ein strukturelles Merkmal probabilistischer Sprachmodelle sind. Diese drei Systemtypen werfen fundamental unterschiedliche Governance-Probleme auf: Zurechnung, Gleichheit und menschliche Kontrolle.

Wer verantwortet die KI-gestützte Entscheidung?

Das klassische verwaltungsrechtliche Modell setzt eine zurechenbare behördliche Willensbildung voraus: Ein Amtsträger ermittelt, subsumiert und formuliert. Generative KI stört dieses Modell. Sie wird als Formulierungs-, Analyse- und Recherchewerkzeug eingesetzt. Ihr Output fließt in die Willensbildung ein, ohne dass der Amtsträger vollständig überblickt, auf welchen Grundlagen ein Textvorschlag basiert.

Hinzu tritt der Automation Bias¹ – die kognitive Tendenz, maschinellen Outputs zu vertrauen, auch wenn eigene Expertise zum Zweifeln Anlass gäbe. Ein Amtsträger, der einen KI-generierten Begründungsentwurf ohne substanzielle Prüfung übernimmt, erfüllt formal die Anforderungen an die menschliche Verantwortung. Materiell liegt aber eine faktische Delegation vor, die der normative Anspruch zurechenbarer Willensbildung nicht deckt. Die Begründungspflicht wird so zum prozeduralen Zurechnungsgaranten: Sie zwingt zur Verifikation und schafft die Voraussetzung für effektiven Rechtsschutz.

Gleichheit nicht nur im Ergebnis, sondern in der Prüfungslast

Art. 3 Abs. 1 GG verpflichtet die Verwaltung nicht nur zur materiell gleichmäßigen Behandlung, sondern auch zur sachlich gerechtfertigten Verteilung verfahrensbezogener Belastungen. Wer häufiger geprüft wird, ohne dass sachliche Risikofaktoren dies rechtfertigen, trägt eine höhere Mitwirkungs- und Informationslast. Diese prozedurale Ungleichbehandlung verletzt Art. 3 Abs. 1 GG unabhängig davon, ob sie im Einzelfall zu einer materiell unrichtigen Entscheidung führt.

Drei ausländische Fälle illustrieren die Risiken. Die niederländische „toeslagenaffaire“ zeigt, wie diskriminierendes Profiling bei Kindergeldbeziehern über Jahre systemische Ungleichbehandlung produzierte. Das australische „Robodebt“-System belegt, wie eine automatisierte Massenerhebung ohne hinreichende Rechtsbasis fortgeführt wurde, weil die Entscheidungslogik für Kontrollinstanzen undurchdringlich war. Empirische Forschung zu US-amerikanischen IRS-Prüfungen zeigt, dass erhebliche Disparitäten über sozio-ökonomische Proxy-Variablen entstehen, ohne dass explizit nach geschützten Merkmalen differenziert wird. Algorithmischer Bias verletzt Art. 3 Abs. 1 GG als Strukturproblem, nicht als Absichtsproblem. Bias-Audits und Feature-Governance sind daher verfassungsrechtliche Pflichten.

Human Oversight als Rechtspflicht

Human in the Loop ist im Verwaltungsrecht keine technische Best Practice², sondern eine rechtliche Anforderung aus mehreren Quellen: der Anlassschwelle des § 155 Abs. 4 AO, der Ermessensschranke des § 35a VwVfG, dem Individualisierungsauftrag des § 31a Satz 2 SGB X, Art. 22 Abs. 3 DSGVO und Art. 14 Abs. 1 des EU AI Act. Nicht jede Entscheidung erfordert dieselbe Kontrollintensität. Ein risikoadaptiertes Modell differenziert nach der Grundrechtsintensität des Entscheidungsfeldes.

Drei Kontrollstufen bilden die Governance-Architektur: erstens die systembezogene Vorabkontrolle mit Bias-Tests, Datenschutz-Folgenabschätzung und Rechtskonformitätsprüfung vor dem Einsatz; zweitens die fallbezogene Verifikation im laufenden Betrieb mit risikoadaptierter Anlassschwelle, Random-Sampling und Feedback-Schleifen aus Rechtsbehelfsverfahren; drittens die institutionelle Außenkontrolle durch periodische Audits unabhängiger Stellen.

Das „Erklärfenster“ als Kernanliegen

Die zentrale Governance-Herausforderung liegt in der Kollision zwischen dem Systemschutzinteresse der Verwaltung und dem Rechtsschutzgebot nach Art. 19 Abs. 4 GG. Bei algorithmischen Entscheidungen setzt effektiver Rechtsschutz eine Mindestinformation über den entscheidungstragenden Verarbeitungsvorgang voraus. Zugleich hat die Verwaltung ein legitimes Interesse daran, die konkreten Selektionsschwellen geheim zu halten, um strategische Anpassungen zu verhindern.

Das dreistufige „Erklärfenster“ löst diese Kollision durch gestufte Differenzierung auf. Stufe 1 ist ein Standardhinweis im Bescheid darüber, dass die Entscheidung unter Einsatz automatisierter Verfahren getroffen wurde. Dieser Hinweis kollidiert nicht mit dem Systemschutzinteresse. Stufe 2 bietet auf Antrag im Rechtsbehelfsverfahren abstrahierte Informationen über die fallentscheidenden Faktoren: die Kategorien der verwendeten Datenbasis und die Art des Risikosignals – ohne konkrete Schwellenwerte. Stufe 3 gewährleistet die vollständige Modelldokumentation für Aufsichtsbehörden und Gerichte unter Vertraulichkeitsbindung, etwa über In-camera-Verfahren.

Diese Architektur ist nicht auf die Steuerverwaltung beschränkt. Sie adressiert ein strukturelles Problem, das in jeder algorithmisch geprägten Entscheidungssituation auftritt: die Informationsasymmetrie zwischen Behörde und Betroffenem.

Handlungsbedarf für den Gesetzgeber

Das deutsche Verwaltungsrecht verfügt über ein normativ entwickeltes Fundament, dessen steuerrechtlicher Kern – §§ 88 Abs. 5, 155 Abs. 4 AO – auf die gesamte öffentliche Verwaltung übertragbar ist. Generative KI stellt dieses Fundament nicht grundlegend in Frage, verschärft aber bestehende Spannungen.

Der Gesetzgeber ist aufgefordert, das Automationsregime gezielt fortzuentwickeln:

durch eine Klarstellung, dass Risikomanagementsysteme auch KI-gestützte Mechanismen umfassen;
durch einen Regelbeispielkatalog zur Operationalisierung des Anlasskriteriums für probabilistische Systeme; durch ein dreistufiges Erklärfenster als Rechtsanspruch;
und durch eine sektorübergreifende Rahmennorm im VwVfG, die Mindestpflichten zu Dokumentation, Auditierung und Transparenz für alle Verwaltungsbereiche verbindlich festlegt.

Die richtige Regelungstechnik ist eine zweistufige Architektur: ein schlanker Mindestkern im VwVfG, ergänzt durch steuerrechtliche, sozialrechtliche und polizeirechtliche Spezialnormen.

Bis zu einer Gesetzesänderung können Verwaltungsvorschriften Governance-Standards implementieren – etwa eine AEAO-Weiterentwicklung zu § 88 Abs. 5 AO oder BMF-Schreiben zu Kennzeichnungspflichten bei KI-assistierten Bescheiden. Soft Law³ hat jedoch strukturelle Grenzen: Es schafft keine subjektiven Rechte und kann den Gesetzesvorbehalt nicht substituieren. Für das Erklärfenster als Rechtsanspruch bleibt eine parlamentarisch legitimierte Grundlage unverzichtbar. Die Steuerverwaltung ist Prototyp, nicht Solitär.⁴

¹Databricks, Was ist Automatisierungsbias, abrufbar unter: https://www.databricks.com/de/blog/what-is-automation-bias (21.4.2026).

²New Work Glossar, Was sind Best Practice, abrufbar unter: https://newworkglossar.de/was-sind-best-practices/ (21.4.2026).

³ECCHR, hard law/soft law, abrufbar unter: https://www.ecchr.eu/glossar/hard-law-soft-law/ (21.4.2026).

⁴Ausführlich zum Thema dieses Beitrags demnächst Fabian Teichmann, KI in der Massenverwaltung, DÖV 2026, i.E.