Η εταιρεία Cerebras Systems, με έδρα την Καλιφόρνια, παρουσίασε το Wafer Scale Engine (WSE-3), το πιο πρόσφατο τσιπ τεχνητής νοημοσύνης (AI) με τέσσερα τρισεκατομμύρια τρανζίστορ. Παρέχει διπλάσιες επιδόσεις από τον προκάτοχό του, το Cerebras WSE-2, το οποίο κατείχε προηγουμένως το ρεκόρ του ταχύτερου τσιπ. Τα συστήματα που κατασκευάζονται με τη χρήση του WSE-3 θα είναι σε θέση να τελειοποιήσουν μοντέλα με 70 δισεκατομμύρια παραμέτρους σε μία μόνο ημέρα, αναφέρεται σε δελτίο τύπου.

Μοντέλα τεχνητής νοημοσύνης όπως το GPT έχουν κατακλύσει τον κόσμο με τις τεράστιες δυνατότητές τους. Ωστόσο, οι εταιρείες τεχνολογίας γνωρίζουν ότι τα μοντέλα AI βρίσκονται ακόμη σε νηπιακό στάδιο και χρειάζονται περαιτέρω ανάπτυξη για να διαταράξουν την αγορά.

Για να γίνει αυτό, τα μοντέλα AI πρέπει να εκπαιδευτούν σε μεγαλύτερα σύνολα δεδομένων που θα απαιτήσουν ακόμη μεγαλύτερη υποδομή. Η εταιρεία κατασκευής τσιπ Nvidia έχει ανέβει στα ύψη χάρη στη ζήτηση για νεότερα, μεγαλύτερα και ισχυρότερα τσιπ. Η εμπορικά διαθέσιμη προσφορά της, H200, χρησιμοποιείται για την εκπαίδευση μοντέλων AI και διαθέτει 80 δισεκατομμύρια τρανζίστορ. Παρόλα αυτά, με το WSE-3, η Cerebras στοχεύει να ξεπεράσει την απόδοση κατά 57 φορές.

Ο WSE-3 χρησιμοποιεί την αρχιτεκτονική των 5 nm και έχει σχεδιαστεί για να παρέχει 900.000 πυρήνες βελτιστοποιημένους για την επεξεργασία δεδομένων τεχνητής νοημοσύνης όταν χρησιμοποιείται στον CS-3, τον υπερυπολογιστή τεχνητής νοημοσύνης της εταιρείας. Ο υπερυπολογιστής διαθέτει 44 GB SRAM στο chip. Μπορεί να αποθηκεύσει 24 τρισεκατομμύρια παραμέτρους σε έναν ενιαίο λογικό χώρο μνήμης χωρίς διαμερισμό ή διαθλάσεις. Αυτό έχει ως στόχο να "απλοποιήσει δραματικά" τη ροή εργασίας της εκπαίδευσης και να βελτιώσει την παραγωγικότητα του προγραμματιστή, αναφέρει το δελτίο τύπου.

Η εξωτερική μνήμη του CS-3 μπορεί να επεκταθεί από 1,5 terabytes έως 1,2 petabytes, ανάλογα με τις απαιτήσεις του υπό εκπαίδευση μοντέλου τεχνητής νοημοσύνης. Αυτό γίνεται για την εκπαίδευση μοντέλων δέκα φορές μεγαλύτερων από το GPT-4 ή το Gemini. Η εταιρεία ισχυρίζεται ότι η εκπαίδευση ενός μοντέλου με ένα τρισεκατομμύριο παραμέτρους στο CS-3 είναι τόσο απλή όσο η εκπαίδευση ενός μοντέλου με ένα δισεκατομμύριο παραμέτρους σε τσιπ GPU.

Όπου απαιτείται, το CS-3 μπορεί να κατασκευαστεί για ανάγκες επιχειρήσεων ή υπερκλίμακας. Σε μια διαμόρφωση τεσσάρων συστημάτων, το CS-3 μπορεί να τελειοποιήσει μοντέλα τεχνητής νοημοσύνης που αποτελούνται από 70 δισεκατομμύρια ημερήσιες παραμέτρους. Όταν εγκαθίσταται σε διαμόρφωση 2048 συστημάτων, θα μπορούσε να εκπαιδεύσει το μοντέλο Llama με 70 δισεκατομμύρια παραμέτρους από το μηδέν σε μία ημέρα.

Σε μια εποχή που η κατανάλωση ενέργειας των GPU διπλασιάζεται με κάθε νέα γενιά, η Cerebras εξασφάλισε ότι τα τελευταία της τσιπ παρέχουν διπλάσιες επιδόσεις χωρίς καμία αύξηση στο μέγεθος ή την κατανάλωση ενέργειας.

Το ειδικό για την AI τσιπ απαιτεί επίσης 97 τοις εκατό λιγότερο κώδικα για την εκπαίδευση μεγάλων γλωσσικών μοντέλων (LLM) σε σύγκριση με τις GPU. Για παράδειγμα, μια τυπική υλοποίηση ενός μοντέλου μεγέθους GPT-3 επιτεύχθηκε με μόλις 565 γραμμές κώδικα, προστίθεται στο δελτίο τύπου.

Η Cerebras σχεδιάζει να αναπτύξει τον WSE-3 σε εγκαταστάσεις των μακροχρόνιων συνεργατών της, του Εθνικού Εργαστηρίου Argonne και της Κλινικής Mayo, για να προωθήσει τις ερευνητικές δυνατότητες των εν λόγω ιδρυμάτων.

Μαζί με την G42, τους συνεργάτες της στην ανάπτυξη των υπερυπολογιστών τεχνητής νοημοσύνης Condor Galaxy 1 (CG-1) και Condor Galaxy 2 (CG-2) στην Καλιφόρνια, η Cerebras ανακοίνωσε ότι τώρα κατασκευάζει τον Condor Galaxy-3 (CG-3), έναν από τους μεγαλύτερους υπερυπολογιστές τεχνητής νοημοσύνης στον κόσμο. Όταν θα είναι έτοιμος, ο CG-3 θα αποτελείται από 64 μονάδες CS-3 και θα παρέχει οκτώ exaFLOPS υπολογιστικής ικανότητας AI.

"Η στρατηγική μας συνεργασία με την Cerebras έχει συμβάλει καθοριστικά στην προώθηση της καινοτομίας στην G42 και θα συμβάλει στην επιτάχυνση της επανάστασης της Τεχνητής Νοημοσύνης σε παγκόσμια κλίμακα", πρόσθεσε ο Kiril Evtimov, Group CTO της G42, στο δελτίο τύπου.

πηγή via DeepL