Το NVIDIA NeMo RL Επιτυγχάνει 48% Ταχύτερη Εκπαίδευση με End-to-End FP8 Precision Training

Jessie A Ellis 20 Απρ 2026 23:41

Η νέα συνταγή FP8 της NVIDIA για ενισχυτική μάθηση προσφέρει 48% ταχύτερη εκπαίδευση ενώ ταιριάζει την ακρίβεια του BF16, μειώνοντας σημαντικά το κόστος υποδομής τεχνητής νοημοσύνης.

Το NVIDIA NeMo RL Επιτυγχάνει 48% Ταχύτερη Εκπαίδευση με End-to-End FP8 Precision Training

Η NVIDIA έχει κυκλοφορήσει μια ολοκληρωμένη συνταγή ακριβείας FP8 για ενισχυτική μάθηση που παρέχει έως 48% ταχύτερη απόδοση εκπαίδευσης διατηρώντας ισοδύναμη ακρίβεια με τις παραδοσιακές προσεγγίσεις BF16—μια εξέλιξη με σημαντικές επιπτώσεις για το κόστος υποδομής τεχνητής νοημοσύνης και τα οικονομικά υπολογιστικής ισχύος GPU.

Η τεχνική, που περιγράφεται λεπτομερώς σε μια τεχνική ανάρτηση ιστολογίου από τον Guyue Huang της NVIDIA, αντιμετωπίζει ένα από τα πιο δύσκολα προβλήματα της εκπαίδευσης RL: την αριθμητική ασυμφωνία μεταξύ των φάσεων παραγωγής και εκπαίδευσης όταν χρησιμοποιούνται διαφορετικά επίπεδα ακρίβειας σε ξεχωριστές μηχανές.

Η Τεχνολογική Καινοτομία

Οι παραδοσιακές διαδικασίες RL χρησιμοποιούν το vLLM για rollouts και το Megatron Core για εκπαίδευση—το καθένα με μοναδικούς πυρήνες CUDA που εισάγουν σωρευτικές αριθμητικές διαφορές. Αυτές οι αποκλίσεις μεγεθύνονται σε χαμηλότερα επίπεδα ακρίβειας, περιορίζοντας ιστορικά την υιοθέτηση του FP8.

Η λύση της NVIDIA; Εφαρμόστε το FP8 με συνέπεια τόσο στην παραγωγή όσο και στην εκπαίδευση αντί να αναμειγνύονται τα επίπεδα ακρίβειας. Οι δοκιμές στο Llama 3.1 8B Instruct έδειξαν ακρίβεια επικύρωσης 0,613 με end-to-end FP8 έναντι 0,616 για το BF16—κλείνοντας αποτελεσματικά το χάσμα. Εν τω μεταξύ, η χρήση FP8 μόνο για παραγωγή μείωσε την ακρίβεια στο 0,586.

Η συνταγή χρησιμοποιεί κβαντισμένο FP8 κατά μπλοκ (μορφή E4M3) με κοκκώδη δομή 128x128 για βάρη και 1x128 για ενεργοποιήσεις. Τα γραμμικά επίπεδα εκτελούν μαθηματικές πράξεις FP8 με 2x θεωρητική μέγιστη απόδοση έναντι του BF16, ενώ η προσοχή, η κανονικοποίηση και οι μη γραμμικές συναρτήσεις παραμένουν σε BF16.

Πραγματικά Κέρδη Απόδοσης

Μόνο για γραμμικά επίπεδα, η συνταγή FP8 παρέχει σταθερές βελτιώσεις απόδοσης 15-25%. Το χάσμα μεταξύ της θεωρητικής επιτάχυνσης 2x και των πραγματικών κερδών προέρχεται από τα επίπεδα προσοχής που παραμένουν σε BF16 συν το επιπλέον κόστος του πυρήνα κβαντισμού.

Η επέκταση του FP8 στην cache KV και στις λειτουργίες προσοχής ωθεί τη συνολική επιτάχυνση σε περίπου 48% σε σχέση με τις βάσεις BF16. Το πρόβλημα: Τα συνεχώς ενημερωμένα βάρη πολιτικής του RL απαιτούν δυναμική επαναβαθμονόμηση των κλιμάκων κβαντισμού μετά από κάθε βήμα εκπαίδευσης. Η προσέγγιση της NVIDIA προσθέτει περίπου 2-3% επιπλέον κόστος για αυτήν την επαναβαθμονόμηση—ένα μικρό κόστος για ουσιαστική επιτάχυνση.

Οι δοκιμές στο Qwen3-30B (ένα μοντέλο μείγματος ειδικών) έδειξαν ταιριαστές καμπύλες ακρίβειας μεταξύ των διαμορφώσεων FP8 και BF16, υποδηλώνοντας ότι η τεχνική κλιμακώνεται σε διάφορες αρχιτεκτονικές.

Γιατί Αυτό Έχει Σημασία για τα Οικονομικά της Τεχνητής Νοημοσύνης

Η εκπαίδευση RL για μοντέλα ικανά για συλλογισμό όπως αυτά πίσω από προηγμένους βοηθούς τεχνητής νοημοσύνης απαιτεί τεράστια υπολογιστική ισχύ. Μια επιτάχυνση 48% μεταφράζεται άμεσα σε μειωμένες ώρες GPU και χαμηλότερους λογαριασμούς ηλεκτρικής ενέργειας για οργανισμούς που εκπαιδεύουν αυτά τα συστήματα.

Η τεχνική δειγματοληψίας σημασίας που επιτρέπει τη διατήρηση της ακρίβειας θα μπορούσε να αποδειχθεί εξίσου πολύτιμη. Διορθώνοντας τις αναντιστοιχίες κατανομής μεταξύ μοντέλων παραγωγής και εκπαίδευσης σε βάση ανά token, επιτρέπει επιθετική μείωση ακρίβειας χωρίς θυσία της ποιότητας του μοντέλου.

Η πλήρης υλοποίηση είναι διαθέσιμη στη βιβλιοθήκη ανοιχτού κώδικα NeMo RL της NVIDIA, με προδιαμορφωμένες συνταγές για τα μοντέλα Llama 3.1 8B και Moonlight 16B. Οι προχωρημένοι χρήστες μπορούν να ρυθμίσουν με ακρίβεια την προσέγγιση—διατηρώντας συγκεκριμένα επίπεδα transformer σε BF16 ή μεταβαίνοντας σε παράγοντες κλιμάκωσης δύναμης του 2 για πρόσθετη βελτιστοποίηση.

Για τους διαχειριστές υποδομής τεχνητής νοημοσύνης που παρακολουθούν το κόστος υπολογιστικής ισχύος να αυξάνεται παράλληλα με την πολυπλοκότητα του μοντέλου, αυτό αντιπροσωπεύει έναν σημαντικό μοχλό αποδοτικότητας που δεν απαιτεί αναβαθμίσεις υλικού—απλώς πιο έξυπνη χρήση των υπαρχουσών δυνατοτήτων H100.

Πηγή εικόνας: Shutterstock

nvidia
εκπαίδευση τεχνητής νοημοσύνης
ακρίβεια fp8
μηχανική μάθηση
nemo rl

Το NVIDIA NeMo RL Επιτυγχάνει Επιτάχυνση 48% με Εκπαίδευση Ακριβείας FP8 από Άκρο σε Άκρο

Το NVIDIA NeMo RL Επιτυγχάνει 48% Ταχύτερη Εκπαίδευση με End-to-End FP8 Precision Training

Η Τεχνολογική Καινοτομία

Πραγματικά Κέρδη Απόδοσης

Γιατί Αυτό Έχει Σημασία για τα Οικονομικά της Τεχνητής Νοημοσύνης

Μπορεί επίσης να σας αρέσει

Η Etihad εισάγει δρομολόγια προς Ασμάρα, Άκρα, Κινσάσα, Λουμπουμπάσι, Λάγος και Χαράρε

Ο Βασιλιάς Κάρολος τιμά την 'αγαπημένη του μαμά' στα 100ά της γενέθλια

Το Bitcoin ETF της Morgan Stanley Προσέλκυσε Πάνω από $100 Εκατομμύρια την Πρώτη Εβδομάδα

Νέες τάσεις

Ο Γερουσιαστής Tillis πιέζει την Επιτροπή Τραπεζικών της Γερουσίας να προωθήσει το νομοσχέδιο δομής της αγοράς crypto τον Μάιο

Η έκρηξη επενδύσεων σε τιλάπια στη Ρουάντα οδηγεί σε άνθηση της υδατοκαλλιέργειας

Το Rave Token Καταρρέει 95% Καθώς Κατηγορίες για Χειραγώγηση Προκαλούν Πανικό

Πρόβλεψη Τιμής Polygon Ecosystem Token – Η Τιμή POL Αναμένεται να Πέσει στα $ 0.072935 Έως τις 25 Απρ 2026

Η επιλογή του Τραμπ για τη διάσωση της αμερικανικής οικονομίας αντιμετωπίζει τεράστιο εμπόδιο

Ζωντανά νέα 24/7

Crypto Prices