Transparenz

Überblick

Unser KI-Dokumentenanalyse-Tool läuft vollständig in Ihrem Webbrowser. Diese Seite legt die vollständigen Trainingsdaten, die Modellarchitektur und die Verarbeitungsmethodik gemäss dem EU AI Act (Verordnung EU 2024/1689) offen.

Lokale Verarbeitungsarchitektur

Wenn Sie unser Dokumentenanalyse-Tool verwenden, erfolgt die gesamte Verarbeitung lokal auf Ihrem Gerät:

Das KI-Modell wird einmalig in Ihren Browser heruntergeladen und lokal gecacht
Ihre PDF-Dokumente werden vollständig im Browser-Speicher verarbeitet
Extrahierter Text, Entitäten und Wissensgraphen verlassen nie Ihr Gerät
Keine Analytik, kein Tracking, keine Cookies und keine Telemetrie jeglicher Art
Exportierte .snv.json-Dateien werden direkt in Ihrem lokalen Dateisystem gespeichert

Modellinformationen

Basismodell	Phi-3-mini-4k-instruct (Microsoft, 3,8 Mrd. Parameter)
Modell-Lizenz	MIT-Lizenz (Open Source)
Feinabstimmungsmethode	LoRA (Low-Rank Adaptation) auf fachspezifischen Rechtstexten
Quantisierung	INT4 (ONNX-Format für Browser-Inferenz)
Inferenz-Engine	ONNX Runtime Web mit WebGPU-Beschleunigung

Evaluierungsergebnisse

Wir veröffentlichen unsere Modellevaluierungsergebnisse offen. Diese Zahlen spiegeln die ehrliche Leistung auf zurückgehaltenen Testdaten wider, nicht ausgewählte Beispiele:

Aufgabe	Präzision	Recall	F1	Parserate
Entitätserkennung (Prefix 0)	69.4%	59.6%	62.3%	100%

Evaluierung auf 61 zurückgehaltenen Beispielen aus GDPR- und CCPA-Texten. Weitere Prefix-Evaluierungen werden veröffentlicht, sobald sie abgeschlossen sind. Diese Ergebnisse stellen ein 3,8B-Parameter-Modell dar, das auf 324 Beispielen feinabgestimmt wurde — kein Frontier-Modell.

Bekannte Einschränkungen

Wir glauben, dass die ehrliche Offenlegung von Einschränkungen wertvoller ist als Marketingaussagen. Dieses Modell:

Unterstützt nur englischen Text (Deutsch und andere Sprachen nicht trainiert)
Deckt nur GDPR und CCPA/CPRA-Datenschutzrecht ab (noch kein Vertragsrecht, Regulierungsrecht oder andere Bereiche)
Enthält keine Rechtsprechung, Gerichtsurteile oder regulatorische Leitlinien (nur Gesetzestext)
Ist KEIN Ersatz für Rechtsberatung — Ausgaben sind KI-generierte Zusammenfassungen, die von qualifizierten Fachleuten überprüft werden müssen
Hat ein 1024-Token-Kontextfenster — sehr lange Artikel können abgeschnitten werden
Der NER-F1-Wert von 62,3% bedeutet, dass etwa 1 von 3 Entitäten übersehen oder falsch klassifiziert werden kann
Fällt auf regelbasierte Extraktion zurück, wenn das KI-Modell nicht verfügbar ist (geringere Qualität, aber funktional)

Trainingsdatenquellen

Das Modell wurde ausschliesslich auf öffentlich zugänglichen offiziellen Rechtstexten feinabgestimmt. Jede Quelle ist mit vollständiger Herkunft dokumentiert:

Quelle	Dokumente	Lizenz	Rechtsordnung
GDPR (Regulation EU 2016/679)	99 Artikel	CC-BY-4.0	EU/EEA
CCPA/CPRA (Cal. Civ. Code 1798)	23 Abschnitte	Gemeinfrei (US-Staatsgesetz)	California

Gesamt: 324 Trainingsbeispiele über 5 Aufgabentypen (NER-Extraktion, Textbereinigung, Wissensgraph-Extraktion, Abfragezerlegung, Antwortsynthese). Alle Trainingsbeispiele wurden manuell aus echtem Rechtstext erstellt — keine synthetischen oder KI-generierten Trainingsdaten.

Trainingsmethodik

Quelltexte sind offizielle Rechtsdokumente, heruntergeladen von Regierungswebseiten (EUR-Lex, California Legislature)
Benannte Entitäten wurden mit @nlpjs/ner und einem kuratierten juristischen Entitätswörterbuch extrahiert
Wissensgraph-Beziehungen wurden manuell identifiziert und von Fachexperten verifiziert
Alle Trainings-Ein-/Ausgabepaare (Golden Records) sind mit SHA-256-Prüfsummen für Reproduzierbarkeit archiviert
Das Training wurde auf Google Cloud TPU v6e-Infrastruktur in der EU (europe-west4) durchgeführt

Keine synthetischen Trainingsdaten

Wir verwenden keine KI-generierten oder synthetischen Trainingsbeispiele. Jedes Trainingsbeispiel wurde von Menschen mit echtem Rechtstext erstellt. Dies stellt sicher, dass das Modell aus autoritativen Quellen lernt, nicht aus KI-Halluzinationen oder zirkulären Trainingsmustern.

Offene Golden Records

Trainingsdaten für unsere öffentlich zugänglichen Tools sind vollständig offen und herunterladbar. Dies sind die von Menschen verifizierten Ein-/Ausgabepaare, die zum Trainieren und Evaluieren des Modells verwendet wurden. Jeder kann unsere Trainingsmethodik einsehen, reproduzieren oder hinterfragen. Alle Datensätze sind mit SHA-256-Prüfsummen archiviert und verfügbar unter models.synavistra.ai/training-data/.

Pipeline-Stufe	GDPR-Paare	CCPA-Paare
Textextraktion	47	14
NER-Extraktion	53	8
Wissensgraph	54	7
Abfragezerlegung	52	9
Antwortsynthese	46	15
Gesamt	252	53

Umweltauswirkungen

Wir gestalten jede Phase des KI-Lebenszyklus für minimale Umweltauswirkungen:

Training

Hardware	Google Cloud TPU v6e (Einzelchip, ct6e-standard-1t)
Rechenzentrum	europe-west4 (Niederlande) — 82% kohlenstofffreie Energie
Gesamtenergie pro Modell	~1 kWh — einschließlich aller Trainings-, Evaluierungs-, Scoring-, ONNX-Export- und fehlgeschlagenen Versuche. <a href="https://models.synavistra.ai/audits/phi3-legal-privacy-v1.json" rel="noopener">Detailliertes Audit (JSON)</a>.

Feinabstimmung ist der technisch korrekte Ansatz für unseren Datenumfang (324 Beispiele aus 122 Rechtsdokumenten), der Phi-3s bestehendes Verständnis aus Billionen von Pre-Training-Tokens nutzt. Feinabstimmung hat zudem den Vorteil einer geringen Umweltbelastung.

Inferenz

Browser-lokale Inferenz: KI läuft auf dem vorhandenen Gerät des Nutzers — keine Cloud-GPU-Server erforderlich
INT4-Quantisierung reduziert den Rechenaufwand pro Inferenz um ~4x im Vergleich zu FP16 und senkt den Energieverbrauch auf jedem Gerät
Kein Leerlauf-Energieverbrauch: keine Server laufen 24/7 und warten auf Anfragen — Rechenleistung wird nur verbraucht, wenn ein Nutzer das Tool aktiv verwendet
Modell wird einmal heruntergeladen und im Browser gecacht — nachfolgende Nutzungen erfordern keine Netzwerkübertragung

Lizenzierung

Alle von Synavistra produzierten Artefakte für öffentlich zugängliche Tools sind unter Apache 2.0 lizenziert. Drittanbieter-Komponenten behalten ihre ursprünglichen Lizenzen.

Artefakt	Lizenz	Anmerkung
Feinabgestimmte Modellgewichte	Apache-2.0	Synavistra-Bearbeitung
Golden Records (Trainingsdaten)	Apache-2.0	Von Synavistra manuell erstellt
Energie-Audits, Manifeste	Apache-2.0	Synavistra-Dokumentation
DSGVO-Quelltext	CC-BY-4.0	EU-Amtsdokument, Namensnennung erforderlich
CCPA-Quelltext	Gemeinfrei	US-Staatsgesetz, uneingeschränkt
Phi-3-mini Basismodell	MIT	Microsoft, eingebunden gemäss MIT-Bedingungen

Phi-3 MIT-Lizenzhinweis (erforderliche Namensnennung)

MIT-Lizenz

Copyright (c) Microsoft Corporation.

Hiermit wird jeder Person, die eine Kopie dieser Software und der zugehörigen Dokumentationsdateien (die "Software") erhält, kostenlos die Erlaubnis erteilt, mit der Software ohne Einschränkung zu handeln, einschliesslich und ohne Einschränkung der Rechte zur Nutzung, zum Kopieren, Ändern, Zusammenführen, Veröffentlichen, Verteilen, Unterlizenzieren und/oder zum Verkauf von Kopien der Software, und Personen, denen die Software zur Verfügung gestellt wird, dies unter den folgenden Bedingungen zu gestatten:

Der obige Urheberrechtshinweis und dieser Genehmigungshinweis müssen in allen Kopien oder wesentlichen Teilen der Software enthalten sein.

DIE SOFTWARE WIRD "WIE BESEHEN" OHNE JEGLICHE AUSDRÜCKLICHE ODER STILLSCHWEIGENDE GEWÄHRLEISTUNG ZUR VERFÜGUNG GESTELLT.

EU-KI-Verordnung Compliance

Diese Offenlegung erfolgt gemäss Artikel 53 des EU AI Act (Verordnung EU 2024/1689) bezüglich der Transparenzpflichten für allgemeine KI-Modelle. Synavistra GmbH, Feldkirch, Österreich, ist der Anbieter dieses KI-Systems. Für Fragen zu unseren KI-Praktiken kontaktieren Sie uns unter der in unserem Impressum angegebenen Adresse.

Unabhängige Überprüfung

Wir laden unabhängige Prüfer, Forscher und Regulierungsbehörden ein, jede Aussage auf dieser Seite zu überprüfen. Alle Daten sind herunterladbar: Trainingsdaten-Registry, Energie-Audit und Golden Records für jede Pipeline-Stufe. Wenn Sie eine Ungenauigkeit oder ein Anliegen feststellen, kontaktieren Sie uns bitte.

Fragen

Wenn Sie Fragen zu unseren KI-Transparenzpraktiken, Trainingsdaten oder Verarbeitungsmethodik haben, kontaktieren Sie uns bitte.