DeepSeek

2 views
Skip to first unread message

Mario Alexandro Santini

unread,
Jan 28, 2025, 2:53:50 AMJan 28
to socr...@googlegroups.com
Buongiorno a tutti,

immagino abbiate letto o sentito di DeepSeek R1.

La cosa che trovo interessante è che questo modello ha il pregio di aver ridotto enormemente il costo del training e anche dell'inferenza.

Si parla di una differenza di 50 volte!

Ma penso che la cosa più interessante sia il fatto che abbia dimostrato che è possibile abbattere il costo, mantenendo una elevata performance.

Finora i modelli ridotti, da far girare in locale, avevano una significativa, anche se modesta, perdita di efficacia.

E lo studio di strategie ed architetture nuove per ridurre i costi c'è già, ora avrà più impulso. Probabilmente anche i giganti come OpenAI e Antropic ci investiranno di più.

Che cosa ne pensate?


Mario

Chris Mair

unread,
Jan 28, 2025, 3:57:17 AMJan 28
to socr...@googlegroups.com
Ciao,

i modelli rilasciati di DeepSeek sono eccezionali. E questo è un fatto.

Tutto il resto in questo momento è un po' caotico. In questo spazio le news di 24 ore
sono come mesi in altri campi.

Il mio feeling è che "Open" (leggi: "Closed")-AI si sia un po' fermata già da tempo
e la concorrenza ormai abbia tranquillamente raggiunto (se non superato) la loro
performance. Questo già prima dell'apparizione di DeepSeek sulla scena. Avranno contributo
anche i litigi interni (vedi l'affaire Altmann, mi sembra fine 2023 - scrivo a memoria).

(E a mio avviso li sta bene.)

Detto questo, DeepSeek è entrato a gamba tesa, non solo con modelli eccezionali, ma
anche con ottimizzazioni che rendono inference e sopratutto training più efficienti.

Almeno per quanto riguarda l'inference, questo è verificabile: infatti i modelli (i pesi)
di DeepSeek allo stato attuale hanno licenze Open Source e possono essere eseguiti in locale.
Inoltre è supportato dal fatto che DeepSeek stesso effettivamente offre i modelli as a
service a prezzi stracciati rispetto ai costi di altri.

Per quanto riguarda il training, anche se non confermato da terzi, io tendo a credere
a DeepSeek sul fatto che anche li abbiano speso tipo due ordini di grandezza meno soldi
rispetto agli altri grazie alle loro ottimizzazioni.

Ora, aggiungi il quadro geopolitico del momento, anche tralasciano le guerre in corso,
con DeepSeek che è cinese, gli USA che sembra abbiano deciso di diventare ufficialmente
un oligarchia, embarghi che non sono serviti a fermare DeepSeek, dazi incrociati annunciati,
lo stock market che si accorge che forse Nvidia non valeva N fantastiliardi, la questione
Taiwan/TSMC...

Insomma. Interesting times.

Bye,
Chris.


Mario Alexandro Santini

unread,
Jan 28, 2025, 7:35:46 AMJan 28
to socr...@googlegroups.com


On Tue, Jan 28, 2025 at 9:57 AM 'Chris Mair' via Socraten <socr...@googlegroups.com> wrote:
Ciao,

Ciao,
 
Il mio feeling è che "Open" (leggi: "Closed")-AI si sia un po' fermata già da tempo
e la concorrenza ormai abbia tranquillamente raggiunto (se non superato) la loro
performance. Questo già prima dell'apparizione di DeepSeek sulla scena. Avranno contributo
anche i litigi interni (vedi l'affaire Altmann, mi sembra fine 2023 - scrivo a memoria).


Aggiungo che ha avuto una certa emorragia di ingegneri, alcuni dei quali hanno creato aziende competitor che sono uscite con dei buoni prodotti subito.



Per quanto riguarda il training, anche se non confermato da terzi, io tendo a credere
a DeepSeek sul fatto che anche li abbiano speso tipo due ordini di grandezza meno soldi
rispetto agli altri grazie alle loro ottimizzazioni.

Occorre anche tenere presente che DeepSeek è una azienda di circa 200 persone, che appartiene ad un colosso finanziario cinese, che ha il portafoglio in gradi di permettersi di mantenere quest'azienda.

Ovvero, potrebbe essere dentro anche un po' di dumping, con lo scopo di attrarre capitali nel settore in Cina.
Ovviamente è solo una mia speculazione e vale quanto vale.

Quello che è certo, avvalorato da più fonti è che hanno sviluppato un modo per addestrare le reti in modo efficace con meno risorse. E che hanno pure un sistema per farle girare con meno costi.
Che questa differenza è più che significativa.

Inoltre, il risultato sembra essere quanto meno allo stesso livello del modello O1 di OpenAI (se ho capito bene), ad essere gentili con OpenAI.


Insomma. Interesting times.

La cosa più interessante è che ancora non c'è un quadro preciso dell'utilizzo di questa tecnologia.

Certo ci si scrive il codice, ma ancora non ci siamo.
Ho visto gli esperimenti di ThePrimagen con Devin...

Quindi è anche difficile stabilire il reale valore di business di tutti questi investimenti che si stanno facendo.
 
Se non lo scopriamo, uno dei prossimi modelli potrebbe rivelarcelo... ;)

Bye,
Chris.


Mario

Luca Guadagnini

unread,
Jan 28, 2025, 1:43:07 PMJan 28
to socr...@googlegroups.com
In che senso "non c'è un quadro preciso dell'utilizzo di questa tecnologia"? 🤔

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Socraten" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a socraten+u...@googlegroups.com.
Per visualizzare questa discussione, visita https://groups.google.com/d/msgid/socraten/CAMUoZec-QmBh2035HPG2Se6q4hQNTevb-CRaAWSyot2beYCLJA%40mail.gmail.com.

Mario Alexandro Santini

unread,
Jan 28, 2025, 2:27:07 PMJan 28
to socr...@googlegroups.com

On 1/28/25 19:42, Luca Guadagnini wrote:
> In che senso "non c'è un quadro preciso dell'utilizzo di questa
> tecnologia"? 🤔
>
Ciao Luca,

mi riferisco al fatto che ancora non ci sono dei business consolidati.

Portei sbagliarmi, ma anche i servizi a pagamento non rientrano dei
costi di esercizio, figuriamoci degli investimenti.

Magari mi sto sbagliando.


Mario

Reply all
Reply to author
Forward
0 new messages