Zum Hauptinhalt springen

Start Sommer 2026

Synavistra verpflichtet sich zur vollständigen Transparenz darüber, wie unsere KI-Modelle erstellt werden, auf welchen Daten sie trainiert wurden und wie sie Ihre Dokumente verarbeiten.

Überblick

Unser KI-Dokumentenanalyse-Tool läuft vollständig in Ihrem Webbrowser. Diese Seite legt die vollständigen Trainingsdaten, die Modellarchitektur und die Verarbeitungsmethodik gemäss dem EU AI Act (Verordnung EU 2024/1689) offen.

Lokale Verarbeitungsarchitektur

Wenn Sie unser Dokumentenanalyse-Tool verwenden, erfolgt die gesamte Verarbeitung lokal auf Ihrem Gerät:

  • Das KI-Modell wird einmalig in Ihren Browser heruntergeladen und lokal gecacht
  • Ihre PDF-Dokumente werden vollständig im Browser-Speicher verarbeitet
  • Extrahierter Text, Entitäten und Wissensgraphen verlassen nie Ihr Gerät
  • Keine Analytik, kein Tracking, keine Cookies und keine Telemetrie jeglicher Art
  • Exportierte .snv.json-Dateien werden direkt in Ihrem lokalen Dateisystem gespeichert

Modellinformationen

BasismodellPhi-3-mini-4k-instruct (Microsoft, 3,8 Mrd. Parameter)
Modell-LizenzMIT-Lizenz (Open Source)
FeinabstimmungsmethodeLoRA (Low-Rank Adaptation) auf fachspezifischen Rechtstexten
QuantisierungINT4 (ONNX-Format für Browser-Inferenz)
Inferenz-EngineONNX Runtime Web mit WebGPU-Beschleunigung

Evaluierungsergebnisse

Wir veröffentlichen unsere Modellevaluierungsergebnisse offen. Diese Zahlen spiegeln die ehrliche Leistung auf zurückgehaltenen Testdaten wider, nicht ausgewählte Beispiele:

Aufgabe Präzision Recall F1 Parserate
Entitätserkennung (Prefix 0) 69.4% 59.6% 62.3% 100%

Evaluierung auf 61 zurückgehaltenen Beispielen aus GDPR- und CCPA-Texten. Weitere Prefix-Evaluierungen werden veröffentlicht, sobald sie abgeschlossen sind. Diese Ergebnisse stellen ein 3,8B-Parameter-Modell dar, das auf 324 Beispielen feinabgestimmt wurde — kein Frontier-Modell.

Bekannte Einschränkungen

Wir glauben, dass die ehrliche Offenlegung von Einschränkungen wertvoller ist als Marketingaussagen. Dieses Modell:

  • Unterstützt nur englischen Text (Deutsch und andere Sprachen nicht trainiert)
  • Deckt nur GDPR und CCPA/CPRA-Datenschutzrecht ab (noch kein Vertragsrecht, Regulierungsrecht oder andere Bereiche)
  • Enthält keine Rechtsprechung, Gerichtsurteile oder regulatorische Leitlinien (nur Gesetzestext)
  • Ist KEIN Ersatz für Rechtsberatung — Ausgaben sind KI-generierte Zusammenfassungen, die von qualifizierten Fachleuten überprüft werden müssen
  • Hat ein 1024-Token-Kontextfenster — sehr lange Artikel können abgeschnitten werden
  • Der NER-F1-Wert von 62,3% bedeutet, dass etwa 1 von 3 Entitäten übersehen oder falsch klassifiziert werden kann
  • Fällt auf regelbasierte Extraktion zurück, wenn das KI-Modell nicht verfügbar ist (geringere Qualität, aber funktional)

Trainingsdatenquellen

Das Modell wurde ausschliesslich auf öffentlich zugänglichen offiziellen Rechtstexten feinabgestimmt. Jede Quelle ist mit vollständiger Herkunft dokumentiert:

Quelle Dokumente Lizenz Rechtsordnung
GDPR (Regulation EU 2016/679) 99 Artikel CC-BY-4.0 EU/EEA
CCPA/CPRA (Cal. Civ. Code 1798) 23 Abschnitte Gemeinfrei (US-Staatsgesetz) California

Gesamt: 324 Trainingsbeispiele über 5 Aufgabentypen (NER-Extraktion, Textbereinigung, Wissensgraph-Extraktion, Abfragezerlegung, Antwortsynthese). Alle Trainingsbeispiele wurden manuell aus echtem Rechtstext erstellt — keine synthetischen oder KI-generierten Trainingsdaten.

Trainingsmethodik

  • Quelltexte sind offizielle Rechtsdokumente, heruntergeladen von Regierungswebseiten (EUR-Lex, California Legislature)
  • Benannte Entitäten wurden mit @nlpjs/ner und einem kuratierten juristischen Entitätswörterbuch extrahiert
  • Wissensgraph-Beziehungen wurden manuell identifiziert und von Fachexperten verifiziert
  • Alle Trainings-Ein-/Ausgabepaare (Golden Records) sind mit SHA-256-Prüfsummen für Reproduzierbarkeit archiviert
  • Das Training wurde auf Google Cloud TPU v6e-Infrastruktur in der EU (europe-west4) durchgeführt

Keine synthetischen Trainingsdaten

Wir verwenden keine KI-generierten oder synthetischen Trainingsbeispiele. Jedes Trainingsbeispiel wurde von Menschen mit echtem Rechtstext erstellt. Dies stellt sicher, dass das Modell aus autoritativen Quellen lernt, nicht aus KI-Halluzinationen oder zirkulären Trainingsmustern.

Offene Golden Records

Trainingsdaten für unsere öffentlich zugänglichen Tools sind vollständig offen und herunterladbar. Dies sind die von Menschen verifizierten Ein-/Ausgabepaare, die zum Trainieren und Evaluieren des Modells verwendet wurden. Jeder kann unsere Trainingsmethodik einsehen, reproduzieren oder hinterfragen. Alle Datensätze sind mit SHA-256-Prüfsummen archiviert und verfügbar unter models.synavistra.ai/training-data/.

Pipeline-Stufe GDPR-Paare CCPA-Paare
Textextraktion4714
NER-Extraktion538
Wissensgraph547
Abfragezerlegung529
Antwortsynthese4615
Gesamt25253

Umweltauswirkungen

Wir gestalten jede Phase des KI-Lebenszyklus für minimale Umweltauswirkungen:

Training

HardwareGoogle Cloud TPU v6e (Einzelchip, ct6e-standard-1t)
Rechenzentrumeurope-west4 (Niederlande) — 82% kohlenstofffreie Energie
Gesamtenergie pro Modell~1 kWh — einschließlich aller Trainings-, Evaluierungs-, Scoring-, ONNX-Export- und fehlgeschlagenen Versuche. <a href="https://models.synavistra.ai/audits/phi3-legal-privacy-v1.json" rel="noopener">Detailliertes Audit (JSON)</a>.

Feinabstimmung ist der technisch korrekte Ansatz für unseren Datenumfang (324 Beispiele aus 122 Rechtsdokumenten), der Phi-3s bestehendes Verständnis aus Billionen von Pre-Training-Tokens nutzt. Feinabstimmung hat zudem den Vorteil einer geringen Umweltbelastung.

Inferenz

  • Browser-lokale Inferenz: KI läuft auf dem vorhandenen Gerät des Nutzers — keine Cloud-GPU-Server erforderlich
  • INT4-Quantisierung reduziert den Rechenaufwand pro Inferenz um ~4x im Vergleich zu FP16 und senkt den Energieverbrauch auf jedem Gerät
  • Kein Leerlauf-Energieverbrauch: keine Server laufen 24/7 und warten auf Anfragen — Rechenleistung wird nur verbraucht, wenn ein Nutzer das Tool aktiv verwendet
  • Modell wird einmal heruntergeladen und im Browser gecacht — nachfolgende Nutzungen erfordern keine Netzwerkübertragung

Lizenzierung

Alle von Synavistra produzierten Artefakte für öffentlich zugängliche Tools sind unter Apache 2.0 lizenziert. Drittanbieter-Komponenten behalten ihre ursprünglichen Lizenzen.

Artefakt Lizenz Anmerkung
Feinabgestimmte ModellgewichteApache-2.0Synavistra-Bearbeitung
Golden Records (Trainingsdaten)Apache-2.0Von Synavistra manuell erstellt
Energie-Audits, ManifesteApache-2.0Synavistra-Dokumentation
DSGVO-QuelltextCC-BY-4.0EU-Amtsdokument, Namensnennung erforderlich
CCPA-QuelltextGemeinfreiUS-Staatsgesetz, uneingeschränkt
Phi-3-mini BasismodellMITMicrosoft, eingebunden gemäss MIT-Bedingungen
Phi-3 MIT-Lizenzhinweis (erforderliche Namensnennung)
MIT-Lizenz

Copyright (c) Microsoft Corporation.

Hiermit wird jeder Person, die eine Kopie dieser Software und der zugehörigen Dokumentationsdateien (die "Software") erhält, kostenlos die Erlaubnis erteilt, mit der Software ohne Einschränkung zu handeln, einschliesslich und ohne Einschränkung der Rechte zur Nutzung, zum Kopieren, Ändern, Zusammenführen, Veröffentlichen, Verteilen, Unterlizenzieren und/oder zum Verkauf von Kopien der Software, und Personen, denen die Software zur Verfügung gestellt wird, dies unter den folgenden Bedingungen zu gestatten:

Der obige Urheberrechtshinweis und dieser Genehmigungshinweis müssen in allen Kopien oder wesentlichen Teilen der Software enthalten sein.

DIE SOFTWARE WIRD "WIE BESEHEN" OHNE JEGLICHE AUSDRÜCKLICHE ODER STILLSCHWEIGENDE GEWÄHRLEISTUNG ZUR VERFÜGUNG GESTELLT.

EU-KI-Verordnung Compliance

Diese Offenlegung erfolgt gemäss Artikel 53 des EU AI Act (Verordnung EU 2024/1689) bezüglich der Transparenzpflichten für allgemeine KI-Modelle. Synavistra GmbH, Feldkirch, Österreich, ist der Anbieter dieses KI-Systems. Für Fragen zu unseren KI-Praktiken kontaktieren Sie uns unter der in unserem Impressum angegebenen Adresse.

Unabhängige Überprüfung

Wir laden unabhängige Prüfer, Forscher und Regulierungsbehörden ein, jede Aussage auf dieser Seite zu überprüfen. Alle Daten sind herunterladbar: Trainingsdaten-Registry, Energie-Audit und Golden Records für jede Pipeline-Stufe. Wenn Sie eine Ungenauigkeit oder ein Anliegen feststellen, kontaktieren Sie uns bitte.

Fragen

Wenn Sie Fragen zu unseren KI-Transparenzpraktiken, Trainingsdaten oder Verarbeitungsmethodik haben, kontaktieren Sie uns bitte.

Häufig gestellte Fragen