Synavistra verpflichtet sich zur vollständigen Transparenz darüber, wie unsere KI-Modelle erstellt werden, auf welchen Daten sie trainiert wurden und wie sie Ihre Dokumente verarbeiten.
Überblick
Unser KI-Dokumentenanalyse-Tool läuft vollständig in Ihrem Webbrowser. Diese Seite legt die vollständigen Trainingsdaten, die Modellarchitektur und die Verarbeitungsmethodik gemäss dem EU AI Act (Verordnung EU 2024/1689) offen.
Lokale Verarbeitungsarchitektur
Wenn Sie unser Dokumentenanalyse-Tool verwenden, erfolgt die gesamte Verarbeitung lokal auf Ihrem Gerät:
- Das KI-Modell wird einmalig in Ihren Browser heruntergeladen und lokal gecacht
- Ihre PDF-Dokumente werden vollständig im Browser-Speicher verarbeitet
- Extrahierter Text, Entitäten und Wissensgraphen verlassen nie Ihr Gerät
- Keine Analytik, kein Tracking, keine Cookies und keine Telemetrie jeglicher Art
- Exportierte .snv.json-Dateien werden direkt in Ihrem lokalen Dateisystem gespeichert
Modellinformationen
| Basismodell | Phi-3-mini-4k-instruct (Microsoft, 3,8 Mrd. Parameter) |
| Modell-Lizenz | MIT-Lizenz (Open Source) |
| Feinabstimmungsmethode | LoRA (Low-Rank Adaptation) auf fachspezifischen Rechtstexten |
| Quantisierung | INT4 (ONNX-Format für Browser-Inferenz) |
| Inferenz-Engine | ONNX Runtime Web mit WebGPU-Beschleunigung |
Evaluierungsergebnisse
Wir veröffentlichen unsere Modellevaluierungsergebnisse offen. Diese Zahlen spiegeln die ehrliche Leistung auf zurückgehaltenen Testdaten wider, nicht ausgewählte Beispiele:
| Aufgabe | Präzision | Recall | F1 | Parserate |
|---|---|---|---|---|
| Entitätserkennung (Prefix 0) | 69.4% | 59.6% | 62.3% | 100% |
Evaluierung auf 61 zurückgehaltenen Beispielen aus GDPR- und CCPA-Texten. Weitere Prefix-Evaluierungen werden veröffentlicht, sobald sie abgeschlossen sind. Diese Ergebnisse stellen ein 3,8B-Parameter-Modell dar, das auf 324 Beispielen feinabgestimmt wurde — kein Frontier-Modell.
Bekannte Einschränkungen
Wir glauben, dass die ehrliche Offenlegung von Einschränkungen wertvoller ist als Marketingaussagen. Dieses Modell:
- Unterstützt nur englischen Text (Deutsch und andere Sprachen nicht trainiert)
- Deckt nur GDPR und CCPA/CPRA-Datenschutzrecht ab (noch kein Vertragsrecht, Regulierungsrecht oder andere Bereiche)
- Enthält keine Rechtsprechung, Gerichtsurteile oder regulatorische Leitlinien (nur Gesetzestext)
- Ist KEIN Ersatz für Rechtsberatung — Ausgaben sind KI-generierte Zusammenfassungen, die von qualifizierten Fachleuten überprüft werden müssen
- Hat ein 1024-Token-Kontextfenster — sehr lange Artikel können abgeschnitten werden
- Der NER-F1-Wert von 62,3% bedeutet, dass etwa 1 von 3 Entitäten übersehen oder falsch klassifiziert werden kann
- Fällt auf regelbasierte Extraktion zurück, wenn das KI-Modell nicht verfügbar ist (geringere Qualität, aber funktional)
Trainingsdatenquellen
Das Modell wurde ausschliesslich auf öffentlich zugänglichen offiziellen Rechtstexten feinabgestimmt. Jede Quelle ist mit vollständiger Herkunft dokumentiert:
| Quelle | Dokumente | Lizenz | Rechtsordnung |
|---|---|---|---|
| GDPR (Regulation EU 2016/679) | 99 Artikel | CC-BY-4.0 | EU/EEA |
| CCPA/CPRA (Cal. Civ. Code 1798) | 23 Abschnitte | Gemeinfrei (US-Staatsgesetz) | California |
Gesamt: 324 Trainingsbeispiele über 5 Aufgabentypen (NER-Extraktion, Textbereinigung, Wissensgraph-Extraktion, Abfragezerlegung, Antwortsynthese). Alle Trainingsbeispiele wurden manuell aus echtem Rechtstext erstellt — keine synthetischen oder KI-generierten Trainingsdaten.
Trainingsmethodik
- Quelltexte sind offizielle Rechtsdokumente, heruntergeladen von Regierungswebseiten (EUR-Lex, California Legislature)
- Benannte Entitäten wurden mit @nlpjs/ner und einem kuratierten juristischen Entitätswörterbuch extrahiert
- Wissensgraph-Beziehungen wurden manuell identifiziert und von Fachexperten verifiziert
- Alle Trainings-Ein-/Ausgabepaare (Golden Records) sind mit SHA-256-Prüfsummen für Reproduzierbarkeit archiviert
- Das Training wurde auf Google Cloud TPU v6e-Infrastruktur in der EU (europe-west4) durchgeführt
Keine synthetischen Trainingsdaten
Wir verwenden keine KI-generierten oder synthetischen Trainingsbeispiele. Jedes Trainingsbeispiel wurde von Menschen mit echtem Rechtstext erstellt. Dies stellt sicher, dass das Modell aus autoritativen Quellen lernt, nicht aus KI-Halluzinationen oder zirkulären Trainingsmustern.
Offene Golden Records
Trainingsdaten für unsere öffentlich zugänglichen Tools sind vollständig offen und herunterladbar. Dies sind die von Menschen verifizierten Ein-/Ausgabepaare, die zum Trainieren und Evaluieren des Modells verwendet wurden. Jeder kann unsere Trainingsmethodik einsehen, reproduzieren oder hinterfragen. Alle Datensätze sind mit SHA-256-Prüfsummen archiviert und verfügbar unter models.synavistra.ai/training-data/.
| Pipeline-Stufe | GDPR-Paare | CCPA-Paare |
|---|---|---|
| Textextraktion | 47 | 14 |
| NER-Extraktion | 53 | 8 |
| Wissensgraph | 54 | 7 |
| Abfragezerlegung | 52 | 9 |
| Antwortsynthese | 46 | 15 |
| Gesamt | 252 | 53 |
Umweltauswirkungen
Wir gestalten jede Phase des KI-Lebenszyklus für minimale Umweltauswirkungen:
Training
| Hardware | Google Cloud TPU v6e (Einzelchip, ct6e-standard-1t) |
| Rechenzentrum | europe-west4 (Niederlande) — 82% kohlenstofffreie Energie |
| Gesamtenergie pro Modell | ~1 kWh — einschließlich aller Trainings-, Evaluierungs-, Scoring-, ONNX-Export- und fehlgeschlagenen Versuche. <a href="https://models.synavistra.ai/audits/phi3-legal-privacy-v1.json" rel="noopener">Detailliertes Audit (JSON)</a>. |
Feinabstimmung ist der technisch korrekte Ansatz für unseren Datenumfang (324 Beispiele aus 122 Rechtsdokumenten), der Phi-3s bestehendes Verständnis aus Billionen von Pre-Training-Tokens nutzt. Feinabstimmung hat zudem den Vorteil einer geringen Umweltbelastung.
Inferenz
- Browser-lokale Inferenz: KI läuft auf dem vorhandenen Gerät des Nutzers — keine Cloud-GPU-Server erforderlich
- INT4-Quantisierung reduziert den Rechenaufwand pro Inferenz um ~4x im Vergleich zu FP16 und senkt den Energieverbrauch auf jedem Gerät
- Kein Leerlauf-Energieverbrauch: keine Server laufen 24/7 und warten auf Anfragen — Rechenleistung wird nur verbraucht, wenn ein Nutzer das Tool aktiv verwendet
- Modell wird einmal heruntergeladen und im Browser gecacht — nachfolgende Nutzungen erfordern keine Netzwerkübertragung
Lizenzierung
Alle von Synavistra produzierten Artefakte für öffentlich zugängliche Tools sind unter Apache 2.0 lizenziert. Drittanbieter-Komponenten behalten ihre ursprünglichen Lizenzen.
| Artefakt | Lizenz | Anmerkung |
|---|---|---|
| Feinabgestimmte Modellgewichte | Apache-2.0 | Synavistra-Bearbeitung |
| Golden Records (Trainingsdaten) | Apache-2.0 | Von Synavistra manuell erstellt |
| Energie-Audits, Manifeste | Apache-2.0 | Synavistra-Dokumentation |
| DSGVO-Quelltext | CC-BY-4.0 | EU-Amtsdokument, Namensnennung erforderlich |
| CCPA-Quelltext | Gemeinfrei | US-Staatsgesetz, uneingeschränkt |
| Phi-3-mini Basismodell | MIT | Microsoft, eingebunden gemäss MIT-Bedingungen |
Phi-3 MIT-Lizenzhinweis (erforderliche Namensnennung)
MIT-Lizenz Copyright (c) Microsoft Corporation. Hiermit wird jeder Person, die eine Kopie dieser Software und der zugehörigen Dokumentationsdateien (die "Software") erhält, kostenlos die Erlaubnis erteilt, mit der Software ohne Einschränkung zu handeln, einschliesslich und ohne Einschränkung der Rechte zur Nutzung, zum Kopieren, Ändern, Zusammenführen, Veröffentlichen, Verteilen, Unterlizenzieren und/oder zum Verkauf von Kopien der Software, und Personen, denen die Software zur Verfügung gestellt wird, dies unter den folgenden Bedingungen zu gestatten: Der obige Urheberrechtshinweis und dieser Genehmigungshinweis müssen in allen Kopien oder wesentlichen Teilen der Software enthalten sein. DIE SOFTWARE WIRD "WIE BESEHEN" OHNE JEGLICHE AUSDRÜCKLICHE ODER STILLSCHWEIGENDE GEWÄHRLEISTUNG ZUR VERFÜGUNG GESTELLT.
EU-KI-Verordnung Compliance
Diese Offenlegung erfolgt gemäss Artikel 53 des EU AI Act (Verordnung EU 2024/1689) bezüglich der Transparenzpflichten für allgemeine KI-Modelle. Synavistra GmbH, Feldkirch, Österreich, ist der Anbieter dieses KI-Systems. Für Fragen zu unseren KI-Praktiken kontaktieren Sie uns unter der in unserem Impressum angegebenen Adresse.
Unabhängige Überprüfung
Wir laden unabhängige Prüfer, Forscher und Regulierungsbehörden ein, jede Aussage auf dieser Seite zu überprüfen. Alle Daten sind herunterladbar: Trainingsdaten-Registry, Energie-Audit und Golden Records für jede Pipeline-Stufe. Wenn Sie eine Ungenauigkeit oder ein Anliegen feststellen, kontaktieren Sie uns bitte.
Fragen
Wenn Sie Fragen zu unseren KI-Transparenzpraktiken, Trainingsdaten oder Verarbeitungsmethodik haben, kontaktieren Sie uns bitte.