
gpt-3.5-turbo-instruct: de completions-stijl 3.5⚠️ Verouderd model. OpenAI heeft dit model uit gebruik genomen. Voor nieuwe projecten, zie GPT-4o mini voor kostenefficiënt algemeen gebruik of GPT-4.1 voor sterker redeneren. Bestaande integraties moeten migratie plannen voordat het API-endpoint wordt stopgezet.
gpt-3.5-turbo-instruct is de GPT-3.5 Turbo-variant die het model beschikbaar stelde via de legacy Completions API in plaats van de Chat Completions-interface. Enkelvoudige tekst-in, tekst-uit, geen messages-array, geen rollen, geen chat-opmaak rond de prompt — gewoon de prompt zelf, en wat het model daarmee vervolgt.
Het is nu verouderd. Het endpoint reageert nog steeds, maar de Completions API-oppervlakte zelf wordt geleidelijk afgebouwd binnen het OpenAI-aanbod, en dit model is een van de laatste betekenisvolle overgebleven exemplaren.
Waarom er een afzonderlijke variant bestond
Toen OpenAI GPT-3.5 Turbo in maart 2023 uitbracht, was de Chat Completions API het nieuwe patroon. De messages-array, de systeemrol, de rolgebaseerde prompting — dat was allemaal nieuwe infrastructuur. Veel code in het wild was geschreven tegen de oudere Completions API die door GPT-3 werd gebruikt, waar je een string stuurde en het model deze voortzette.
Die code naar de chat-interface migreren was niet triviaal. Prompts moesten worden geherstructureerd, rolgrenzen moesten worden gedefinieerd, en edge cases waarbij de chat-opmaak het modelgedrag veranderde moesten worden gedebugd. Voor teams die productiepijplijnen hadden gebouwd tegen het oudere API-oppervlak, leverde OpenAI gpt-3.5-turbo-instruct als een brug — dezelfde modelgewichten als de reguliere 3.5 Turbo, beschikbaar gesteld via de oude API-vorm.
De variant was bijzonder nuttig voor drie workload-vormen. Classificatie- en tagging-pijplijnen waar je een enkel token of kort label wilde zonder dat het model een conversationele respons eromheen wikkelde. Code-completion-achtige workflows waar de prompt al een gedeeltelijke output was en je voortzetting wilde, geen chat-beurt. Logprobs-afhankelijke pijplijnen waar de Completions API token-waarschijnlijkheden directer blootlegde dan de chat-oppervlakte deed.
Voor alle drie voegde de chat-interface overhead toe — extra tokens voor opmaak, modelgedrag gevormd door training op chat-stijl responsen, enigszins andere output-stijl. De instruct-variant liet die workloads op de oude manier blijven draaien.
Hoe het model zich gedroeg
Hetzelfde 3.5-generatie gedrag als de rest van de familie. Redeneringdiepte op het 3.5-niveau. Feitelijkheid die retrieval-augmentation of menselijke review nodig had op feitelijke paden. Weigeringsijking die af en toe te gretig was en af en toe te meegaand.
Waar het zich niet als gedroeg was een chatmodel. De instruct-variant wikkelde responsen niet in conversationele framing, produceerde geen "als AI-assistent" boilerplate, temperde niet op de chat-getrainde manieren. Voor workloads die schone voortzetting wilden was het een betere fit dan de reguliere 3.5 Turbo, ook al was de onderliggende capaciteit dezelfde.
Het contextvenster van 16.385 tokens was geërfd van de bredere 3.5-familie.
Waarom teams aan instruct vasthielden
Twee redenen naast de legacy-code reden hierboven.
Ten eerste, logprobs-toegang. De Completions API legde token-niveau logprobs directer bloot dan de chat-interface deed. Teams die constrained decoding, structured-output sampling, classificatie met betrouwbaarheidsscores, of enig logprobs-bewust downstream werk deden, hielden vast aan de instruct-variant voor dat oppervlak. De chat-interface groeide uiteindelijk vergelijkbare mogelijkheden, maar de instruct API was lange tijd de schonere vorm voor dat soort werk.
Ten tweede, minder opmaaktokens. De chat-interface voegt een paar tokens opmaak toe aan elk verzoek, wat zich ophoopt bij hoog volume. Voor workloads met zeer korte prompts en zeer korte completions was de tokenisatie-overhead van de instruct-variant lager, wat zich vertaalde in iets goedkopere per-call kosten en iets lagere latentie.
Beide redenen zijn in de loop der tijd verzwakt naarmate de chat-interface matuurder werd, maar de oorspronkelijke vastpinningen zitten nog steeds in productiecode die niet opnieuw is gearchitectureerd.
Migratie
De toegewijde instruct-variant heeft geen directe opvolger in het OpenAI-aanbod. De Completions API is genoeg afgebouwd dat geen enkel huidig model erdoorheen wordt aangeboden als primair oppervlak.
Voor workloads die aan instruct vasthielden om legacy-code redenen, is de migratie naar de chat-interface op een huidig model. GPT-4o mini is de dichtste gedragsmatige match voor het chat-vormige verkeer. De prompt-herarchtitectuur is het leeuwendeel van het werk — zodra een workload op de chat-interface is, is de modelupgrade zelf een tag-swap.
Voor logprobs-afhankelijke workloads legt de chat-interface op huidige OpenAI-modellen de relevante data bloot, hoewel de integratiepatronen verschillend zijn. Teams die constrained decoding of structured sampling doen, vinden mogelijk de strikte structured-outputs feature op GPT-4o en GPT-4.1 een betere fit dan logprobs-bewuste sampling tegen een ouder instruct-model.
Voor hoogvolume classificatie waar opmaaktoken-overhead ertoe doet, is gpt-4.1-nano of een open-weight model uit de Gemma 3-familie een betere fit dan een andere instruct-stijl 3.5-variant. De per-call kosten op huidige goedkope-tier modellen liggen ruim onder het 3.5 Turbo-prijspunt.
Wat vandaag te doen
Als gpt-3.5-turbo-instruct nog steeds in je stack zit, is de migratie een van de zwaardere in de 3.5-familie. Het API-oppervlak zelf verandert, niet alleen het model. Herarchtitectureren rond de chat-interface is meer werk dan het verwisselen van een model-identifier.
Plan het weloverwogen. Auditeer elke call site. Besluit voor elk of de workload überhaupt nog op een klein model thuishoort, of dat de juiste zet is om het te consolideren in een bredere pijplijn die op een huidig frontier- of mid-tier model draait. De meeste teams die eerlijk auditeren, ontdekken dat de oorspronkelijke instruct-deployment een probleem oploste dat niet langer bestaat.
Voor de bredere 3.5-context, zie GPT-3.5 Turbo. Voor de richting van het huidige OpenAI-aanbod, zie GPT-4.1.
Dit kiezen
Kies deze variant niet voor nieuwe builds. De Completions API wordt afgebouwd binnen het OpenAI-aanbod en de 3.5-generatie is verouderd.
Voor bestaande integraties is de migratie naar de chat-interface op een huidig model. Plan dit voordat de verouderdatum arriveert.
Laatste technische review: 2026-05-22 — Tokonomix.ai
