Zum Inhalt
Tier C — Spezialist
Läuft in:USErstellt in:United States
OpenAI

gpt-3.5-turbo

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

GPT-3.5-turbo ist ein großes Sprachmodell von OpenAI, das auf der GPT-3.5-Architektur basiert. Es stellt eine optimierte Version von OpenAIs GPT-3.5-Serie dar, die speziell für Chat-basierte Anwendungen und Konversationsschnittstellen entwickelt wurde. Das Modell nutzt eine Transformer-basierte neuronale Netzwerkarchitektur und wurde mittels Reinforcement Learning from Human Feedback (RLHF) verfeinert, um seine Fähigkeit zu verbessern, Anweisungen zu folgen und kontextuell angemessene Antworten zu generieren. Dieses Modell ist für eine breite Palette von Natural Language Processing-Aufgaben konzipiert, darunter konversationelle KI, Textvervollständigung, Fragenbeantwortung, Zusammenfassungen und allgemeine Textgenerierung. Es verarbeitet Eingaben als eine Reihe von Nachrichten und erzeugt kohärente, kontextuell relevante Antworten. Obwohl die genaue Kontextfenstergröße von OpenAI nicht öffentlich bekannt gegeben wurde, behält das Modell den Konversationskontext über mehrere Austausche innerhalb einer Sitzung bei. GPT-3.5-turbo zeigt starke Leistung bei der Aufrechterhaltung des Gesprächsflusses, dem Verstehen nuancierter Anweisungen und der Anpassung seines Ausgabestils basierend auf Nutzer-Prompts. Innerhalb von OpenAIs Modell-Lineup steht GPT-3.5-turbo hinsichtlich Fähigkeiten und Reasoning-Leistung unter der fortschrittlicheren GPT-4-Serie, bietet jedoch schnellere Antwortzeiten und breitere Zugänglichkeit. Es diente als OpenAIs primäres Modell für ChatGPT während der ersten öffentlichen Veröffentlichung des Dienstes und bleibt eine weitverbreitete Option für Entwickler, die Chat-Anwendungen, Kundenservice-Bots und interaktive KI-Assistenten entwickeln. Das Modell repräsentiert eine Balance zwischen Leistungsfähigkeit und Effizienz für standardmäßige Konversations- und Textgenerierungsaufgaben.

GPT-3.5-turbo etablierte sich als das Arbeitspferd für Conversational AI und bleibt dank seiner Balance aus Geschwindigkeit, Zuverlässigkeit und breiter Verfügbarkeit eine pragmatische Wahl für Produktionsumgebungen.

Tokonomix Modellanalyse
Abschnitt 01

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

100
Codegenerierung
97
Mehrsprachig
78
Schlussfolgern
Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — gpt-3.5-turbo
$0.5000 pro 1M Input-Tokens
$1.50 pro 1M Output-Tokens
≈ $0.0006 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.5000
pro 1M Output-Tokens$1.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.5000

input / 1M

— stable

$1.50

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 03

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Schnelle AntwortzeitenOptimiert für Chat-AnwendungenGute InstruktionsbefolgungStabiler KonversationsflussBreite API-VerfügbarkeitBewährte ProduktionsreifeVielseitige NLP-AufgabenSolide Textzusammenfassungen

Schwächen

Begrenzte Reasoning-FähigkeitenÄlterer WissensstichtagKeine BildverarbeitungSchwächen bei komplexer Logik
Abschnitt 04

Fähigkeiten

toolssource: litellmprompt cachingmax output tokens: 4096
Abschnitt 05

Häufig gestellte Fragen

GPT-3.5-turbo bietet schnellere Antwortzeiten und ist kostengünstiger, verfügt jedoch über schwächere Reasoning-Fähigkeiten und kann komplexe logische Aufgaben weniger zuverlässig lösen. GPT-4 zeigt deutlich bessere Leistung bei anspruchsvollen Aufgaben, längeren Kontexten und multimodalen Anwendungen.

Für Anwendungen, die solide Sprachverarbeitung ohne hochkomplexes Reasoning benötigen, bietet GPT-3.5-turbo ein bewährtes Fundament. Wer jedoch fortgeschrittene logische Fähigkeiten oder multimodale Verarbeitung benötigt, sollte neuere Alternativen in Betracht ziehen.

Tokonomix Redaktion
Abschnitt 06

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-581/100 · 76 runs
48 correct15 partial13 wrong63% accuracy
2026-06-14

New tool calling and prompt caching capabilities added

GPT-3.5 Turbo has introduced two notable capabilities in this benchmark window: tool calling and prompt caching support. The addition of tool calling functionality enables the model to interact with external functions and APIs, expanding its utility for developers building agentic applications and structured workflows. Prompt caching support offers potential performance and efficiency improvements for applications with repeated context, though specific performance metrics are not yet available in the benchmark data. These additions represent meaningful enhancements to the model's feature set, bringing capabilities that were previously only available in more advanced models. However, without performance benchmarks in either the current or previous windows, we cannot assess the model's core capabilities in areas such as reasoning accuracy, response quality, latency, or reliability. Users should note that while these new features expand what's technically possible with GPT-3.5 Turbo, the absence of benchmark data means the model's fundamental performance characteristics remain unvalidated in this assessment period. These capability additions suggest continued investment in the model's ecosystem despite its position as a more economical option in OpenAI's model lineup.

Quality

Latency p50

Test runs

0

Tool calling support added Prompt caching now available
Abschnitt 08

Vollständiges Modellprofil

gpt-3.5-turbo — illustration 1

⚠️ Veraltetes Modell. OpenAI hat dieses Modell ausgemustert. Für neue Projekte siehe GPT-4o mini für kosteneffizienten Allgemeingebrauch oder GPT-4.1 für anspruchsvolleres Reasoning. Bestehende Integrationen sollten die Migration planen, bevor der API-Endpunkt abgeschaltet wird.

GPT-3.5 Turbo: das Modell, das die API-Ökonomie geschaffen hat

GPT-3.5 Turbo ist die Floating-Tag-Version des Modells, das die OpenAI Chat Completions API zum Standard für eine ganze Produktgeneration gemacht hat. Veröffentlicht im März 2023 und über mehrere Snapshot-Daten hinweg weiterentwickelt, trieb es alles von Kundensupport-Chats über Datenextraktions-Pipelines bis hin zur ersten Welle LLM-gestützter SaaS-Produkte an, die 2023 und 2024 auf den Markt kamen.

Es ist inzwischen außer Dienst gestellt. Der Endpunkt antwortet weiterhin auf den Floating Tag, aber neue Projekte sollten ihn nicht mehr ansprechen.

Warum dieses Modell wichtig war

Drei Dinge machten GPT-3.5 Turbo zum Wendepunkt.

Kosten. Als das Modell erschien, war GPT-3.5 Turbo eine Größenordnung günstiger als das einen Monat später erscheinende GPT-4 und kostete pro Token etwa ein Zehntel von GPT-3's davinci. Dieser Preispunkt war es, der LLM-gestützte Features von der „interessanten Demo" zur „lieferfähigen Produktlinie" machte. Die Margen funktionierten.

Geschwindigkeit. Das Latenzprofil war ein Quantensprung gegenüber früheren OpenAI-Modellen. Interaktiver Chat wurde tatsächlich interaktiv. Streaming funktionierte gut genug, dass Produkte eine Schreibmaschinen-UI ausliefern konnten, die sich nicht zäh anfühlte.

Die API-Form. GPT-3.5 Turbo war das Modell, mit dem OpenAI die Chat-Completions-Oberfläche einführte — das messages-Array, die system-Rolle, das rollenbasierte Prompting-Muster, das zum Industriestandard wurde. Die nächste Generation von Modellen erbte diese Form. Das Muster, das die meisten heutigen LLM-Codes verwenden, hat hier seinen Ursprung.

Was darauf aufgebaut wurde

Eine ganze Menge. Erstgenerations-Kundensupport-Chatbots im Einzelhandel und Finanzdienstleistungssektor. Die frühe Welle von Schreibassistenten. Content-Generierungsdienste, die die ersten SaaS-Plakatwände füllten. Frühe Agent-Frameworks, die auf günstigen Modellaufrufen pro Schritt beruhten. Übersetzungs- und Zusammenfassungsdienste, deren Unit Economics aufgehen mussten. Das Modell tauchte überall auf, weil das Dreieck aus Preis, Qualität und Latenz zum ersten Mal ausgewogen genug war, um in großem Maßstab ausgeliefert werden zu können.

Die ehrliche Einordnung lautet: Viele dieser Produkte hätten die Umstellung auf GPT-4 nicht überlebt, wenn 4o und die GPT-4.1-Familie nicht später erschienen wären, um die Fähigkeiten der Frontier-Klasse in Richtung der Preise der 3.5-Klasse zu bringen. Die 3.5-Generation hat den Markt geschaffen; die nachfolgenden Generationen haben ihn konsolidiert.

Wo das Modell zu kurz kam

Reasoning-Tiefe. GPT-3.5 Turbo war für oberflächliche Aufgaben brauchbar. Mehrstufiges Reasoning, neuartige Code-Synthese, dichte Logik — all das war sichtbar schwächer als das, was GPT-4 einen Monat später lieferte. Die meisten Produktionsdeployments umgingen das, indem sie Aufgaben in kleinere Schritte zerlegten oder schwierige Prompts an GPT-4 weiterleiteten und 3.5 für den Großteil des Traffics reservierten.

Faktentreue. Das Modell halluzinierte ungeniert. Selbstbewusst falsche Antworten waren ein häufiges Phänomen und erforderten entweder Retrieval-Augmented Generation oder eine menschliche Überprüfung auf jedem faktischen Behauptungspfad.

Verweigerungskalibrierung. Der Verweigerungsstil von 3.5 war inkonsistent — bei einigen Prompts zu schnell ablehnend, bei anderen zu kooperativ, bei denen Frontier-Modelle zurückgeschlagen hätten. Produktionsteams schrieben Guardrails auf Prompt-Ebene, um das auszugleichen.

Migrationspfade

Die von OpenAI empfohlenen Nachfolger sind GPT-4o mini für kosteneffizienten Allgemeingebrauch und GPT-4.1 für anspruchsvolleres Reasoning. Die richtige Wahl hängt vom Workload ab.

Für Chat-förmigen Traffic, der ohne Beanstandungen auf 3.5 Turbo lief, ist GPT-4o mini die behaviorisch nächstgelegene Migration. Die Latenz ist vergleichbar, die API-Oberfläche ist identisch, und der Qualitätssprung ist groß genug, dass die meisten Teams steigende Eval-Werte ohne Prompt-Änderungen sehen.

Für Workloads, die 3.5 über seine Reasoning-Grenzen hinaustrieben — Agent-Schleifen, mehrstufige Extraktion, Code-nahe Arbeit — ergibt der Wechsel zu gpt-4.1-mini oder dem vollen GPT-4.1 mehr Sinn. Die Mini-Variante hält ein Kostenprofil ein, das die meisten Deployments aus der 3.5-Ära verkraften können; das volle Modell ist für jene Prompts, bei denen Reasoning-Qualität tatsächlich zählt.

Für hochvolumige Klassifikationsarbeiten, die zur Kostendeckelung auf 3.5 liefen, sind gpt-4.1-nano oder ein Open-Weight-Modell aus der Gemma-3-Familie das bessere Ziel. Der Kostenvorteil von 3.5 gilt nicht mehr; günstigere Alternativen existieren.

Was heute zu tun ist

Wenn Sie 3.5 Turbo noch in der Produktion betreiben, sind die Maßnahmen konkret.

Erstens: Bestätigen Sie Ihr Migrationsziel mit einem echten Eval-Zyklus auf Ihren eigenen Prompts. Die Versionsnummern-Arithmetik suggeriert, dass das neue Modell „offensichtlich besser" sei, aber Workloads variieren, und Sie wollen gemessene Deltas, keine vermuteten.

Zweitens: Behalten Sie den Deprecation-Kalender im Auge. OpenAI hat Sunset-Daten für die 3.5-Familie angekündigt, und der Floating Tag wird irgendwann nicht mehr antworten. Planen Sie den Umstieg für ein Release-Fenster Ihrer Wahl.

Drittens: Wenn Ihre Prompts irgendetwas Spezifisches für die Eigenheiten von 3.5 enthalten — Workarounds auf Prompt-Ebene für bekannte Verweigerungsmuster, handabgestimmte Formulierungen, um einen bestimmten Output-Stil zu erzielen — auditieren Sie diese bei der Migration erneut. Neuere Modelle benötigen oft anderes Prompting, und das unveränderte Mitschleppen von Prompt-Engineering aus der 3.5-Ära kann einen Nachfolger schlechter aussehen lassen, als er ist.

Für den modellübergreifenden Vergleich siehe /benchmarks/leaderboard. Für die breitere Richtung der OpenAI-Modellpalette siehe GPT-4.1.

Wann es zu wählen ist

Wählen Sie dieses Modell nicht für neue Builds. Es ist veraltet und der Floating Tag wird abgeschaltet werden. Für bestehende Integrationen planen Sie die Migration zu GPT-4o mini, GPT-4.1 mini oder GPT-4.1 je nach Workload-Form und halten Sie den Umstieg bereit, bevor das Deprecation-Datum erreicht ist.

Die GPT-3.5-Generation hat das Fundament gelegt, auf dem die heutige API-Ökonomie läuft. Sie muss nicht das Modell sein, mit dem Ihr nächstes Projekt an den Start geht.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

gpt-3.5-turbo — illustration 2gpt-3.5-turbo — illustration 3
Letzter automatisierter Test
14. Juni 2026 · 04:59 UTC · Benchmark
P50-Latenz
1995 ms
P95-Latenz
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026