Eind december 2024 introduceerde OpenAI o3, een nieuw AI-model dat de manier waarop AI-systemen informatie verwerken, verbetert. In tegenstelling tot de GPT-serie maakt o3 gebruik van een innovatieve benadering van probleemoplossing die nauw aansluit bij menselijke cognitieve processen.
Modelnaam
De modelnaamgeving van OpenAI laat zien dat er vooruitgang is geboekt op het gebied van mogelijkheden en ontwerp. De “o”-serie, beginnend met o1, benadrukt modellen die de nadruk leggen op geavanceerde redeneer- en probleemoplossende vaardigheden, wat afwijkt van de “GPT”-nomenclatuur. Terwijl GPT-4o (“o” voor “omni”) richt zich op multimodale functies, het verwerken van tekst, afbeeldingen en audio, terwijl het o3-model zich richt op redeneer- en analysetaken.
Technische innovatie
O3 implementeert ‘test-time computing’, wat het mogelijk maakt om lange tijd te besteden aan het onderzoeken van oplossingen, vergelijkbaar met menselijk denken. Het werkt in twee modi: hoge rekenkracht voor maximale prestaties en lage rekenkracht voor efficiëntie. Zelfs in de lage rekenmodus toont o3 mogelijkheden die de gemiddelde menselijke criteria overtreffen. De prestaties van de modelbenchmark omvatten:
- 87,5% nauwkeurigheid op ARC-AGI benchmark in hoge rekenmodus
- 25,2% nauwkeurigheid op de Frontier Math-benchmark, oplossen van wiskundige problemen op onderzoeksniveau
76% nauwkeurigheid op ARC-AGI in de lage rekenmodus, waarmee een nieuwe basis wordt gelegd voor efficiënte AI-prestaties
- Deze maatregelen vormen een aanzienlijke vooruitgang in de probleemoplossende mogelijkheden van AI.
Wat is OpenAI o3?
OpenAI is van mening dat de o1- en oXNUMX-modellen o3 staan aan de voorhoede van de LLM-ontwikkeling. Als redeneermodel is o3 ontworpen om complexere taken aan te kunnen dan bestaande modeltypen, zoals GPT-4o. Het o3-model maakt gebruik van een proces dat gesimuleerd redeneren heet. Hiermee kan het model even pauzeren en reflecteren op zijn interne denkprocessen voordat het reageert. Gesimuleerd redeneren gaat verder dan het aansturen van een gedachteketen (CoT) en biedt een geavanceerdere, geïntegreerde en autonome benadering van zelfanalyse en reflectie op de uitkomsten van het model. Gesimuleerd redeneren bootst menselijk redeneren na door patronen te identificeren en op basis daarvan conclusies te trekken.
Wat kan OpenAI o3 doen?
Als transformer-gebaseerd model kan het algemene LLM-activiteiten aan, zoals kennisgebaseerde antwoorden, samenvattingen en tekstgeneratie. Het o3-model heeft geavanceerde mogelijkheden op verschillende gebieden :
- Geavanceerd redeneren. Het model is in staat tot stapsgewijs logisch redeneren en kan complexe taken aan die een gedetailleerde analyse vereisen.
- Programmeren en coderen. Het o3-model is zeer competent in codering en behaalt een nauwkeurigheid van 71,7% op SWE-bench Verified, een benchmark die bestaat uit echte softwaretaken. Dit is een verbetering van 20% ten opzichte van het o1-model.
- Wiskunde. Gebruikers kunnen complexe wiskundige bewerkingen uitvoeren met het model, met een capaciteit die o1 overtreft. OpenAI meldde dat o3 een nauwkeurigheid van 96,7% behaalde bij het American Invitational Mathematics Examination (AIME), vergeleken met 83,3% voor o1.
- Wetenschap. Het o3-model is ook nuttig voor wetenschappelijk onderzoek. Volgens OpenAI behaalde het model een nauwkeurigheid van 87,7% op GPQA Diamond, een benchmark die wetenschappelijke vragen op PhD-niveau test.
- Zelfcontrole van feiten. O3 kan zelf feiten controleren, waardoor de nauwkeurigheid van de antwoorden wordt verbeterd.
- Aanpassingsvermogen aan algemene kunstmatige intelligentie. Een van de belangrijkste verbeteringen die OpenAI voor o3 claimt, zijn de prestaties op de ARC-AGI-benchmark.
OpenAI of 3-mini
Op 31 januari 2025 bracht OpenAI uit o3-mini voor alle ChatGPT-gebruikers (inclusief de gratis versie) en sommige API-gebruikers. O3-mini biedt drie niveaus van redeneerinspanning: laag, gemiddeld en hoog. De gratis versie maakt gebruik van het medium. De variant waarbij meer berekeningen nodig zijn, heet o3-mini-high en is beschikbaar voor betalende abonnees.
OpenAI o3-mini is het nieuwste en meest kosteneffectieve model in hun redeneerreeks. Dit model verlegt de grenzen van wat kleine modellen kunnen bereiken en levert uitzonderlijke STEM-mogelijkheden – met een bijzondere nadruk op wetenschap, wiskunde en codering – terwijl de lage kosten en lage latentie van OpenAI o1-mini behouden blijven.
Ontwikkelaars kunnen kiezen uit drie opties voor de redeneerinspanning: laag, gemiddeld en hoog, om hun specifieke use cases te optimaliseren. Deze flexibiliteit stelt o3-mini in staat om ‘harder na te denken’ bij het aanpakken van complexe uitdagingen of om snelheid prioriteit te geven wanneer latentie een probleem is.
Toegang en beschikbaarheid van OpenAI o3 en o3-mini
De eerste versie van het o3-model was beperkt en werd voornamelijk gebruikt voor testen van de openbare veiligheid. Potentiële gebruikers moesten hiervoor om toegang vragen. Vanaf 3 februari 2025 is het basis-o3-model alleen beschikbaar als onderdeel van de OpenAI deep search-service, die in eerste instantie exclusief is voor ChatGPT Pro-gebruikers. Het o3-mini model werd algemeen beschikbaar op 31 januari 2025. Het is toegankelijk via verschillende kanalen:
- toegang ChatGPT :
- Gratis gebruikers hebben beperkte toegang tot het o3-mini model met snelheidsbeperkingen. Om hier toegang toe te krijgen, kunnen gebruikers van het gratis plan 'Reden' selecteren in de berichtopsteller of een antwoord opnieuw genereren. Dit is de eerste keer dat een redeneermodel beschikbaar is voor gratis gebruikers in ChatGPT.
- ChatGPT Plus-gebruikers hebben toegang tot het o3-mini-model met een limiet van 150 berichten per dag. Als onderdeel van de upgrade verdrievoudigt OpenAI de doorvoerlimiet voor Plus- en Team-gebruikers van 50 berichten per dag met o1-mini naar 150 berichten per dag met o3-mini.
- ChatGPT Pro-gebruikers hebben onbeperkte toegang tot het o3-mini-model. Pro-gebruikers hebben ook de mogelijkheid om te selecteren o3-mini-hoog in de sjabloonselector voor een slimmere versie die er iets langer over doet om reacties te genereren.
- API-toegang: Het o3-mini-model is beschikbaar via API voor ontwikkelaars met een initiële prijs van $ 1,10 per miljoen inputtokens en $ 4,40 per miljoen outputtokens. OpenAI o3-mini wordt vanaf 31 januari 2025 uitgerold naar de Chat Completion API, Assistants API en Batch API voor geselecteerde ontwikkelaars in API-gebruiksniveaus 3-5.
In ChatGPT gebruikt o3-mini gemiddelde redeneerinspanning om snelheid en nauwkeurigheid in evenwicht te brengen. Alle betalende gebruikers hebben ook de mogelijkheid om te selecteren o3-mini-hoog in de sjabloonselector voor een slimmere versie die er iets langer over doet om reacties te genereren.
Beveiligingstechnieken
Het o3-model maakt gebruik van een beveiligingstechniek die deliberative alignment wordt genoemd. Hierbij wordt gebruikgemaakt van modelredenering om de beveiligingsimplicaties van gebruikersverzoeken te evalueren. Met deze aanpak kan het model prompts analyseren en verborgen intenties identificeren, waardoor de nauwkeurigheid van het afwijzen van gevaarlijke content wordt verbeterd en onnodige afwijzingen van veilige content worden vermeden. Op 6 februari 2025 kondigde OpenAI een update aan om de transparantie van het denkproces in zijn o3-mini-model te verbeteren.
Impact
De introductie van het o3-model markeert een evolutie naar AI-systemen die complexe redeneer- en probleemoplossingstaken aankunnen. Dankzij de verbeterde prestaties en innovatieve functies is het een waardevol hulpmiddel voor uiteenlopende toepassingen, van codering tot wetenschappelijk onderzoek.