Technik fortgeschritten

Vektordatenbank

Eine Vektordatenbank ist ein spezialisiertes Datenbanksystem, das hochdimensionale Vektoren (Embeddings) speichert und nach semantischer Ähnlichkeit durchsucht, anstatt nur exakte Übereinstimmungen zu finden.

Ausführliche Erklärung

Vektordatenbanken unterscheiden sich grundlegend von klassischen relationalen Datenbanken. Während herkömmliche Systeme nach exakten Übereinstimmungen suchen, finden Vektordatenbanken Inhalte nach ihrer semantischen Nähe. Sie speichern Daten als mehrdimensionale Zahlenvektoren (typischerweise 384 bis 1536 Dimensionen), die von KI-Modellen erzeugt werden und die Bedeutung von Texten, Bildern oder anderen Inhalten mathematisch repräsentieren. Ähnliche Inhalte liegen in diesem Vektorraum näher beieinander als unähnliche.

Für KMU werden Vektordatenbanken besonders im Kontext von generativer KI relevant. Sie bilden die technische Grundlage für RAG-Systeme (Retrieval-Augmented Generation), bei denen KI-Chatbots auf unternehmensspezifische Wissensdatenbanken zugreifen. Auch semantische Suchfunktionen, die Inhalte nach Bedeutung statt nach Schlüsselwörtern finden, basieren auf dieser Technologie. Ein wichtiger Vorteil: Die Suche funktioniert auch bei ungenauen Formulierungen oder Synonymen.

Typische Anwendungsfälle umfassen Wissensmanagement-Systeme, intelligente Produktsuchen im E-Commerce, Support-Chatbots mit Zugriff auf Handbücher und Tickethistorien sowie Empfehlungssysteme. Bekannte Lösungen sind Pinecone (vollständig verwalteter Cloud-Service), Weaviate und Qdrant (flexibel, selbst hostbar), Chroma (für kleinere Projekte) sowie pgvector (Erweiterung für PostgreSQL).

Die technische Herausforderung liegt darin, Milliarden von Vektoren in Millisekunden auf Ähnlichkeit zu prüfen. Dafür nutzen Vektordatenbanken spezialisierte Indexierungsverfahren wie HNSW (Hierarchical Navigable Small World) oder IVF (Inverted File Index), die deutlich schneller arbeiten als ein vollständiger Abgleich aller Einträge.

Praxisbeispiel

Ein österreichisches IT-Beratungsunternehmen mit 35 Mitarbeiter:innen setzt eine Vektordatenbank ein, um die interne Wissensdatenbank durchsuchbar zu machen. Projektdokumentationen, technische Konzepte und Lösungsbeschreibungen aus zehn Jahren werden als Embeddings gespeichert. Wenn Berater:innen nun eine Kundenanfrage erhalten, findet das System innerhalb von Sekunden ähnliche Projekte und bewährte Lösungsansätze – auch wenn andere Begriffe verwendet werden. Das verkürzt die Angebotsphase und verbessert die Qualität der Beratung.

Code-Beispiel

import chromadb

# Chroma-Client initialisieren
client = chromadb.Client()

# Collection erstellen
collection = client.create_collection("wissensbank")

# Dokumente mit Embeddings hinzufügen
collection.add(
    documents=["Projektdoku A", "Angebot B"],
    ids=["doc1", "doc2"]
)

# Semantische Suche durchführen
results = collection.query(
    query_texts=["Ähnliches Projekt"],
    n_results=3
)

Ausführliche Erklärung

Praxisbeispiel

Code-Beispiel

Quellen

Vertiefende Artikel im KI-Hub

Internes Wissen für KI-Systeme nutzbar machen — RAG ohne Cloud

Was ist RAG und wann lohnt es sich wirklich? Ein Leitfaden für KMU