
GPT-3.5 Turbo: das Modell, das die API-Ökonomie geschaffen hat⚠️ Veraltetes Modell. OpenAI hat dieses Modell ausgemustert. Für neue Projekte siehe GPT-4o mini für kosteneffizienten Allgemeingebrauch oder GPT-4.1 für anspruchsvolleres Reasoning. Bestehende Integrationen sollten die Migration planen, bevor der API-Endpunkt abgeschaltet wird.
GPT-3.5 Turbo ist die Floating-Tag-Version des Modells, das die OpenAI Chat Completions API zum Standard für eine ganze Produktgeneration gemacht hat. Veröffentlicht im März 2023 und über mehrere Snapshot-Daten hinweg weiterentwickelt, trieb es alles von Kundensupport-Chats über Datenextraktions-Pipelines bis hin zur ersten Welle LLM-gestützter SaaS-Produkte an, die 2023 und 2024 auf den Markt kamen.
Es ist inzwischen außer Dienst gestellt. Der Endpunkt antwortet weiterhin auf den Floating Tag, aber neue Projekte sollten ihn nicht mehr ansprechen.
Warum dieses Modell wichtig war
Drei Dinge machten GPT-3.5 Turbo zum Wendepunkt.
Kosten. Als das Modell erschien, war GPT-3.5 Turbo eine Größenordnung günstiger als das einen Monat später erscheinende GPT-4 und kostete pro Token etwa ein Zehntel von GPT-3's davinci. Dieser Preispunkt war es, der LLM-gestützte Features von der „interessanten Demo" zur „lieferfähigen Produktlinie" machte. Die Margen funktionierten.
Geschwindigkeit. Das Latenzprofil war ein Quantensprung gegenüber früheren OpenAI-Modellen. Interaktiver Chat wurde tatsächlich interaktiv. Streaming funktionierte gut genug, dass Produkte eine Schreibmaschinen-UI ausliefern konnten, die sich nicht zäh anfühlte.
Die API-Form. GPT-3.5 Turbo war das Modell, mit dem OpenAI die Chat-Completions-Oberfläche einführte — das messages-Array, die system-Rolle, das rollenbasierte Prompting-Muster, das zum Industriestandard wurde. Die nächste Generation von Modellen erbte diese Form. Das Muster, das die meisten heutigen LLM-Codes verwenden, hat hier seinen Ursprung.
Was darauf aufgebaut wurde
Eine ganze Menge. Erstgenerations-Kundensupport-Chatbots im Einzelhandel und Finanzdienstleistungssektor. Die frühe Welle von Schreibassistenten. Content-Generierungsdienste, die die ersten SaaS-Plakatwände füllten. Frühe Agent-Frameworks, die auf günstigen Modellaufrufen pro Schritt beruhten. Übersetzungs- und Zusammenfassungsdienste, deren Unit Economics aufgehen mussten. Das Modell tauchte überall auf, weil das Dreieck aus Preis, Qualität und Latenz zum ersten Mal ausgewogen genug war, um in großem Maßstab ausgeliefert werden zu können.
Die ehrliche Einordnung lautet: Viele dieser Produkte hätten die Umstellung auf GPT-4 nicht überlebt, wenn 4o und die GPT-4.1-Familie nicht später erschienen wären, um die Fähigkeiten der Frontier-Klasse in Richtung der Preise der 3.5-Klasse zu bringen. Die 3.5-Generation hat den Markt geschaffen; die nachfolgenden Generationen haben ihn konsolidiert.
Wo das Modell zu kurz kam
Reasoning-Tiefe. GPT-3.5 Turbo war für oberflächliche Aufgaben brauchbar. Mehrstufiges Reasoning, neuartige Code-Synthese, dichte Logik — all das war sichtbar schwächer als das, was GPT-4 einen Monat später lieferte. Die meisten Produktionsdeployments umgingen das, indem sie Aufgaben in kleinere Schritte zerlegten oder schwierige Prompts an GPT-4 weiterleiteten und 3.5 für den Großteil des Traffics reservierten.
Faktentreue. Das Modell halluzinierte ungeniert. Selbstbewusst falsche Antworten waren ein häufiges Phänomen und erforderten entweder Retrieval-Augmented Generation oder eine menschliche Überprüfung auf jedem faktischen Behauptungspfad.
Verweigerungskalibrierung. Der Verweigerungsstil von 3.5 war inkonsistent — bei einigen Prompts zu schnell ablehnend, bei anderen zu kooperativ, bei denen Frontier-Modelle zurückgeschlagen hätten. Produktionsteams schrieben Guardrails auf Prompt-Ebene, um das auszugleichen.
Migrationspfade
Die von OpenAI empfohlenen Nachfolger sind GPT-4o mini für kosteneffizienten Allgemeingebrauch und GPT-4.1 für anspruchsvolleres Reasoning. Die richtige Wahl hängt vom Workload ab.
Für Chat-förmigen Traffic, der ohne Beanstandungen auf 3.5 Turbo lief, ist GPT-4o mini die behaviorisch nächstgelegene Migration. Die Latenz ist vergleichbar, die API-Oberfläche ist identisch, und der Qualitätssprung ist groß genug, dass die meisten Teams steigende Eval-Werte ohne Prompt-Änderungen sehen.
Für Workloads, die 3.5 über seine Reasoning-Grenzen hinaustrieben — Agent-Schleifen, mehrstufige Extraktion, Code-nahe Arbeit — ergibt der Wechsel zu gpt-4.1-mini oder dem vollen GPT-4.1 mehr Sinn. Die Mini-Variante hält ein Kostenprofil ein, das die meisten Deployments aus der 3.5-Ära verkraften können; das volle Modell ist für jene Prompts, bei denen Reasoning-Qualität tatsächlich zählt.
Für hochvolumige Klassifikationsarbeiten, die zur Kostendeckelung auf 3.5 liefen, sind gpt-4.1-nano oder ein Open-Weight-Modell aus der Gemma-3-Familie das bessere Ziel. Der Kostenvorteil von 3.5 gilt nicht mehr; günstigere Alternativen existieren.
Was heute zu tun ist
Wenn Sie 3.5 Turbo noch in der Produktion betreiben, sind die Maßnahmen konkret.
Erstens: Bestätigen Sie Ihr Migrationsziel mit einem echten Eval-Zyklus auf Ihren eigenen Prompts. Die Versionsnummern-Arithmetik suggeriert, dass das neue Modell „offensichtlich besser" sei, aber Workloads variieren, und Sie wollen gemessene Deltas, keine vermuteten.
Zweitens: Behalten Sie den Deprecation-Kalender im Auge. OpenAI hat Sunset-Daten für die 3.5-Familie angekündigt, und der Floating Tag wird irgendwann nicht mehr antworten. Planen Sie den Umstieg für ein Release-Fenster Ihrer Wahl.
Drittens: Wenn Ihre Prompts irgendetwas Spezifisches für die Eigenheiten von 3.5 enthalten — Workarounds auf Prompt-Ebene für bekannte Verweigerungsmuster, handabgestimmte Formulierungen, um einen bestimmten Output-Stil zu erzielen — auditieren Sie diese bei der Migration erneut. Neuere Modelle benötigen oft anderes Prompting, und das unveränderte Mitschleppen von Prompt-Engineering aus der 3.5-Ära kann einen Nachfolger schlechter aussehen lassen, als er ist.
Für den modellübergreifenden Vergleich siehe /benchmarks/leaderboard. Für die breitere Richtung der OpenAI-Modellpalette siehe GPT-4.1.
Wann es zu wählen ist
Wählen Sie dieses Modell nicht für neue Builds. Es ist veraltet und der Floating Tag wird abgeschaltet werden. Für bestehende Integrationen planen Sie die Migration zu GPT-4o mini, GPT-4.1 mini oder GPT-4.1 je nach Workload-Form und halten Sie den Umstieg bereit, bevor das Deprecation-Datum erreicht ist.
Die GPT-3.5-Generation hat das Fundament gelegt, auf dem die heutige API-Ökonomie läuft. Sie muss nicht das Modell sein, mit dem Ihr nächstes Projekt an den Start geht.
Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

