GPT-4.5: Gigante o passo intermedio? Un'analisi critica del nuovo modello di OpenAI
Come il nuovo modello di OpenAI segna la fine dell'era dello Scaling e l'inizio di una nuova fase nell'evoluzione dell'AI
Ieri mentre testavo GPT-4.5 mi sono ritrovata a pensare che fossimo nel 2020, quando ogni nuovo modello sembrava un salto quantico. Oggi ci ritroviamo a discutere su miglioramenti incrementali che costano miliardi e consumano energia quanto una piccola nazione. Ma è davvero così? O siamo noi umani che abbiamo già dimenticato quanto è straordinario tutto questo?
Il 27 febbraio 2025, OpenAI ha rilasciato GPT-4.5, presentandolo come "il modello più grande e più informato finora". Un momento che segna l'ultima evoluzione nella corsa ai modelli linguistici di grandi dimensioni, in un contesto dove la competizione è feroce e i vincoli computazionali reali.
Questo rilascio solleva domande fondamentali sul futuro dell'AI: stiamo ancora vedendo benefici significativi dallo scaling? L'approccio all'apprendimento non supervisionato rimane la strada giusta? E soprattutto, quali sono le implicazioni strategiche di questo rilascio per OpenAI e per l'intero ecosistema?
Un modello diverso dagli altri
GPT-4.5 si distingue immediatamente dai recenti modelli di OpenAI per un aspetto fondamentale: non è un modello di ragionamento. Mentre modelli come o1, o3-mini e competitors esterni come DeepSeek R1 - ai quali dedicherò un’analisi a breve - hanno puntato sul ragionamento strutturato (chain-of-thought), GPT-4.5 segue un approccio differente, concentrandosi su conversazioni più naturali e intuitive.
Sam Altman ha descritto GPT-4.5 come "la prima AI che sembra davvero come parlare con una persona riflessiva". Questa descrizione evidenzia il focus del modello: interazioni fluide, meno allucinazioni, e risposte più chiare e concise rispetto ai predecessori.
Specifiche tecniche:un gigante nell'ombra
OpenAI mantiene la tradizione di rivelare pochi dettagli tecnici precisi, ma ci sono elementi che possiamo dedurre:
Dimensioni: Probabilmente il modello più grande rilasciato pubblicamente finora, con stime che suggeriscono tra i 5-7 trilioni di parametri totali (contro il trilione circa di GPT-4)
Potenza computazionale: Circa 10 volte la potenza di calcolo utilizzata per GPT-4, secondo analisti del settore
Approccio: Forte focus sull'apprendimento non supervisionato anziché sul ragionamento strutturato
Data di cut-off*: Sorprendentemente, rimane ottobre 2023, la stessa di GPT-4o
*Uno dei motivi per cui OpenAI mantiene il cut-off a ottobre 2023 potrebbe essere la crescente contaminazione di internet dopo quella data, ironicamente proprio da contenuti generati da ChatGPT stesso. È come se il modello stesse iniziando a incontrare i propri "elaborati" sul web, creando un potenziale loop di feedback che potrebbe distorcere l'apprendimento.
Context window: 128.000 token, invariata rispetto a GPT-4o
Il fatto più sorprendente è che nella sistema card iniziale, poi modificata, il modello veniva definito come "not a frontier model" (non un modello di frontiera). Questa dichiarazione contradditoria evidenzia l'incertezza anche all'interno di OpenAI sul posizionamento di questo prodotto.
Prestazioni: migliore conoscenza, minor ragionamento
Le performance di GPT-4.5 riflettono le sue priorità di design. I benchmark mostrano un quadro misto ma coerente:
Forza nella precisione fattuale
Nel benchmark SimpleQA, che valuta la precisione fattuale su oltre 4.300 domande brevi, GPT-4.5 raggiunge un'accuratezza del 62,5%, superando significativamente GPT-4o (38,2%), o1 (47%) e o3-mini (15%).
Il tasso di allucinazioni - un problema critico nei modelli di linguaggio - è sceso al 37,1%, un miglioramento sostanziale rispetto a GPT-4o (61,8%) e o1 (44%).
Nel test PersonQA, che riguarda domande su individui, e in GPQA, la valutazione Google-proof della conoscenza, GPT-4.5 stabilisce nuovi standard di precisione.
Debolezza nel ragionamento complesso
Le prestazioni cambiano quando si passa a compiti che richiedono ragionamento strutturato:
Come evidenziato dalla tabella, GPT-4.5 migliora rispetto a GPT-4o, ma viene surclassato da o3-mini nei task di ragionamento scientifico, matematico e coding avanzato.
Esperienza utente più naturale
Le valutazioni umane mostrano che GPT-4.5 vince contro GPT-4o nel 57% delle query quotidiane, nel 63,2% delle query professionali, e nel 56,8% delle interazioni creative.
Nei test diretti, GPT-4.5 dimostra una maggiore intelligenza emotiva e sociale, riformulando richieste aggressive in modo più costruttivo e fornendo spiegazioni più concise e memorabili. Ad esempio, quando richiesto di scrivere un messaggio arrabbiato, GPT-4.5 tende a proporre alternative più equilibrate, riconoscendo la frustrazione sottostante senza seguire ciecamente la richiesta letterale.
Un gigante costoso: pricing e accessibilità
Il pricing di GPT-4.5 è probabilmente l'aspetto più controverso del rilascio:
Input: $75.00 per milione di token
Input in cache: $37.50 per milione di token
Output: $150.00 per milione di token
Per contestualizzare: GPT-4o costa $2.50/$10 per milione di token (input/output), rendendo GPT-4.5 30 volte più costoso per l'input e 15 volte per l'output.
Ho fatto un rapido calcolo: generare l'articolo che stai leggendo con GPT-4.5 via API costerebbe oltre $25. Non esattamente il modello che userò per la mia newsletter quotidiana!
Questa struttura di prezzo ricorda il lancio iniziale di GPT-4 nel marzo 2023, che aveva costi simili. Come per quel modello, possiamo aspettarci riduzioni significative nel tempo, man mano che l'infrastruttura migliora - GPT-4 ha visto una riduzione dei costi di circa 10 volte in un anno.
L'accessibilità è altrettanto limitata: disponibile inizialmente solo per utenti Pro ($200/mese) e sviluppatori API, con una promessa di espansione graduale agli utenti Plus e altri tier nei prossimi giorni.
Analisi critica: la fine dello Scaling semplice?
GPT-4.5 rappresenta un punto di inflessione nella narrativa dell'AI: il puro scaling dell'addestramento da solo non offre più i salti importanti di capacità a cui eravamo abituati.
Scaling vs Efficienza
La dimensione e i requisiti computazionali di GPT-4.5 sollevano seri dubbi sulla sostenibilità di questo approccio. Mentre i modelli diventano sempre più grandi, i guadagni marginali sembrano diminuire, evidenziando quella che Ilya Sutskever di OpenAI aveva predetto: "Il pre-training come lo conosciamo finirà".
La lentezza del modello è particolarmente evidente: i test mostrano che la generazione di risposte può richiedere oltre 100 secondi, contro i pochi secondi di GPT-4o o o3-mini.
Miglioramento nell'intuizione psicologica e profondità
Uno dei risultati più sorprendenti dei miei test è la capacità di GPT-4.5 di articolare intuizioni profonde sulla natura umana. Quando ho chiesto al modello di fornire "un'idea davvero profonda, nuova, fuori dagli schemi e sorprendentemente semplice sulla natura umana", ha elaborato una risposta notevole:
La Teoria della Conservazione Emotiva: il modello ha spiegato come gli esseri umani tendano a preservare e proteggere i propri stati emotivi dominanti, anche quando negativi o dolorosi. Ha descritto come le persone sviluppino inconsciamente meccanismi per mantenere vive emozioni ricorrenti perché queste diventano parte integrante della loro identità, offrendo un paradossale senso di sicurezza psicologica.
Questa risposta mostra una comprensione sorprendentemente sofisticata della psicologia umana, articolando un principio che chiarisce perché molte persone persistono in comportamenti apparentemente controproducenti. È un esempio concreto di come GPT-4.5 possa andare oltre le semplici informazioni fattuali per offrire insight genuinamente illuminanti.
Compromesso tra intuizione e ragionamento
Concentrandosi sull'intuizione linguistica, GPT-4.5 sacrifica il ragionamento strutturato, un trade-off che limita la sua efficacia in compiti analitici. Questo posiziona il modello come complementare piuttosto che superiore a modelli di ragionamento come o1 e o3-mini.
Contesto strategico: perché ora?
Il rilascio di GPT-4.5 sembra motivato da diverse considerazioni strategiche piuttosto che da un semplice progresso tecnologico.
Pressione competitiva
Nel panorama AI altamente competitivo, OpenAI affronta sfide da aziende come Anthropic (Claude 3.7), DeepSeek (R1), Google (Gemini) e X (Grok 3). Questo rilascio potrebbe essere una mossa per mantenere la leadership percepita nel settore.
Curiosamente, Anthropic ha confermato indirettamente che i suoi prossimi modelli utilizzeranno "10 volte più potenza di calcolo", suggerendo che la corsa allo scaling non è ancora finita.
Limitazioni infrastrutturali
Sam Altman ha recentemente discusso pubblicamente delle carenze di capacità GPU che OpenAI sta affrontando. GPT-4.5 potrebbe essere stato addestrato tempo fa (come suggerito dalla data di cut-off rimasta al 2023) e tenuto in serbo fino a quando necessario.
Strategia di prodotto
È probabile che GPT-4.5 sia un precursore o un componente di GPT-5, con OpenAI che testa le acque rilasciando un'anteprima del loro modello più avanzato. Questo spiegherebbe anche perché OpenAI ha specificato che potrebbero non mantenere GPT-4.5 nell'API a lungo termine.
Un aspetto chiave della strategia di OpenAI sembra essere l'uso di modelli più grandi come GPT-4.5 per distillare modelli più piccoli e veloci come GPT-4o. Questo spiegherebbe perché GPT-4o-latest mostra capacità simili in un formato molto più efficiente.
Implicazioni future: oltre lo Scaling tradizionale
GPT-4.5 segnala un cambiamento significativo nella traiettoria dello sviluppo dell'AI.
Diversificazione degli approcci
Il futuro potrebbe vedere una maggiore specializzazione dei modelli. Anziché un unico "modello che fa tutto", potremmo assistere a:
Modelli di ragionamento ottimizzati per matematica, coding e problem-solving
Modelli conversazionali per interazioni naturali e creative
Modelli di conoscenza focalizzati sulla precisione fattuale e sulla riduzione delle allucinazioni
Integrazione di diverse linee di sviluppo
Il vero valore di GPT-4.5 potrebbe emergere quando la sua potenza viene combinata con altre tecniche avanzate. Ad esempio, l'addestramento RL (Reinforcement Learning) funziona meglio su modelli più grandi, e GPT-4.5 potrebbe essere la base per future distillazioni come "o4".
Nel giro di un anno, è probabile che la maggior parte dei modelli raggiungano la scala di GPT-4.5 ma con velocità ed efficienza molto maggiori, grazie a progressi nell'infrastruttura di servizio.
Nuove sfide etiche e di sostenibilità
Con l'aumento delle dimensioni dei modelli, emergono preoccupazioni significative:
Sostenibilità energetica: I requisiti computazionali di questi modelli giganti sollevano dubbi sulla loro impronta di carbonio
Accessibilità: L'alto costo di addestramento e esecuzione potrebbe concentrare il potere dell'AI nelle mani di poche corporazioni
Trasparenza: La mancanza di dettagli tecnici precisi rende difficile la valutazione indipendente e la ricerca accademica
Conclusione: un passo intermedio verso un nuovo paradigma
GPT-4.5 rappresenta una tappa significativa ma transitoria nell'evoluzione dell'AI. Non è tanto un prodotto finale quanto un esperimento su larga scala che ci mostra i limiti del pure scaling e la necessità di approcci più diversificati.
Per gli utenti:
Uso quotidiano: GPT-4o rimane l'opzione più pratica ed economica
Compiti di ragionamento: o1, o3-mini o DeepSeek R1 offrono prestazioni superiori
Applicazioni specializzate: GPT-4.5 potrebbe giustificare il suo costo per applicazioni che richiedono massima precisione fattuale e conversazioni naturali
Per il settore dell'AI, GPT-4.5 segna la fine dell'era in cui il puro scaling garantiva miglioramenti drammatici e l'inizio di una fase più matura, dove l'ottimizzazione, la specializzazione e l'integrazione diventeranno priorità.
Come ha sottolineato Nathan Lambert, analista AI: "GPT-4.5 è, stranamente, in anticipo sui tempi". Il suo vero impatto si vedrà probabilmente quando sarà integrato in prodotti più ampi e accessibili, piuttosto che come modello conversazionale standalone.
Personalmente, vedo GPT-4.5 come un promemoria che l'apprendimento strategico è essenziale anche per le AI: non è la quantità di conoscenza accumulata che conta, ma come questa viene applicata a problemi specifici. OpenAI sta scoprendo, proprio come noi umani, che a volte è meglio sapere meno ma applicarlo meglio, che sapere tutto ma in modo superficiale.
Fonti utilizzate, utili e correlate:
OpenAI unveils GPT-4.5 'Orion,' its largest AI model yet | TechCrunch
OpenAI Cancels o3 Release and Announces Roadmap for GPT 4.5, 5 - InfoQ
GPT 4.5: Features, Access, GPT-4o Comparison & More | DataCamp
GPT-4.5: A Comprehensive Analysis of OpenAI’s Latest AI Model | by Rajesh Kumar | Feb, 2025 | Medium
ChatGPT-4.5 vs GPT-4o: Which AI Model Is Right for You? - Latenode
The computational limits of deep learning - Nature Machine Intelligence
The ethical implications of large language models - Communications of the ACM
SimpleQA: A New AI Benchmark that Measures the Factuality of Language Models - OpenAI
A.I. Startups Are Rushing to Release Their Own Versions of ChatGPT - The New York Times
The race to build the world’s most powerful AI – and the ethical dilemmas it poses - The Guardian
The Future of Customer Service Is AI-Powered - Harvard Business Review