Η νέα συνταγή FP8 της NVIDIA για ενισχυτική μάθηση προσφέρει 48% ταχύτερη εκπαίδευση ενώ ταυτίζεται με την ακρίβεια BF16, μειώνοντας σημαντικά το κόστος υποδομής AI. (ΔιαβάστεΗ νέα συνταγή FP8 της NVIDIA για ενισχυτική μάθηση προσφέρει 48% ταχύτερη εκπαίδευση ενώ ταυτίζεται με την ακρίβεια BF16, μειώνοντας σημαντικά το κόστος υποδομής AI. (Διαβάστε

Το NVIDIA NeMo RL Επιτυγχάνει Επιτάχυνση 48% με Εκπαίδευση Ακριβείας FP8 από Άκρο σε Άκρο

2026/04/21 07:41
Ανάγνωση 3 λεπτών
Για feedback ή ανησυχίες σας σχετικά με αυτό το περιεχόμενο, επικοινωνήστε μαζί μας στη διεύθυνση crypto.news@mexc.com

Το NVIDIA NeMo RL Επιτυγχάνει 48% Ταχύτερη Εκπαίδευση με End-to-End FP8 Precision Training

Jessie A Ellis 20 Απρ 2026 23:41

Η νέα συνταγή FP8 της NVIDIA για ενισχυτική μάθηση προσφέρει 48% ταχύτερη εκπαίδευση ενώ ταιριάζει την ακρίβεια του BF16, μειώνοντας σημαντικά το κόστος υποδομής τεχνητής νοημοσύνης.

Το NVIDIA NeMo RL Επιτυγχάνει 48% Ταχύτερη Εκπαίδευση με End-to-End FP8 Precision Training

Η NVIDIA έχει κυκλοφορήσει μια ολοκληρωμένη συνταγή ακριβείας FP8 για ενισχυτική μάθηση που παρέχει έως 48% ταχύτερη απόδοση εκπαίδευσης διατηρώντας ισοδύναμη ακρίβεια με τις παραδοσιακές προσεγγίσεις BF16—μια εξέλιξη με σημαντικές επιπτώσεις για το κόστος υποδομής τεχνητής νοημοσύνης και τα οικονομικά υπολογιστικής ισχύος GPU.

Η τεχνική, που περιγράφεται λεπτομερώς σε μια τεχνική ανάρτηση ιστολογίου από τον Guyue Huang της NVIDIA, αντιμετωπίζει ένα από τα πιο δύσκολα προβλήματα της εκπαίδευσης RL: την αριθμητική ασυμφωνία μεταξύ των φάσεων παραγωγής και εκπαίδευσης όταν χρησιμοποιούνται διαφορετικά επίπεδα ακρίβειας σε ξεχωριστές μηχανές.

Η Τεχνολογική Καινοτομία

Οι παραδοσιακές διαδικασίες RL χρησιμοποιούν το vLLM για rollouts και το Megatron Core για εκπαίδευση—το καθένα με μοναδικούς πυρήνες CUDA που εισάγουν σωρευτικές αριθμητικές διαφορές. Αυτές οι αποκλίσεις μεγεθύνονται σε χαμηλότερα επίπεδα ακρίβειας, περιορίζοντας ιστορικά την υιοθέτηση του FP8.

Η λύση της NVIDIA; Εφαρμόστε το FP8 με συνέπεια τόσο στην παραγωγή όσο και στην εκπαίδευση αντί να αναμειγνύονται τα επίπεδα ακρίβειας. Οι δοκιμές στο Llama 3.1 8B Instruct έδειξαν ακρίβεια επικύρωσης 0,613 με end-to-end FP8 έναντι 0,616 για το BF16—κλείνοντας αποτελεσματικά το χάσμα. Εν τω μεταξύ, η χρήση FP8 μόνο για παραγωγή μείωσε την ακρίβεια στο 0,586.

Η συνταγή χρησιμοποιεί κβαντισμένο FP8 κατά μπλοκ (μορφή E4M3) με κοκκώδη δομή 128x128 για βάρη και 1x128 για ενεργοποιήσεις. Τα γραμμικά επίπεδα εκτελούν μαθηματικές πράξεις FP8 με 2x θεωρητική μέγιστη απόδοση έναντι του BF16, ενώ η προσοχή, η κανονικοποίηση και οι μη γραμμικές συναρτήσεις παραμένουν σε BF16.

Πραγματικά Κέρδη Απόδοσης

Μόνο για γραμμικά επίπεδα, η συνταγή FP8 παρέχει σταθερές βελτιώσεις απόδοσης 15-25%. Το χάσμα μεταξύ της θεωρητικής επιτάχυνσης 2x και των πραγματικών κερδών προέρχεται από τα επίπεδα προσοχής που παραμένουν σε BF16 συν το επιπλέον κόστος του πυρήνα κβαντισμού.

Η επέκταση του FP8 στην cache KV και στις λειτουργίες προσοχής ωθεί τη συνολική επιτάχυνση σε περίπου 48% σε σχέση με τις βάσεις BF16. Το πρόβλημα: Τα συνεχώς ενημερωμένα βάρη πολιτικής του RL απαιτούν δυναμική επαναβαθμονόμηση των κλιμάκων κβαντισμού μετά από κάθε βήμα εκπαίδευσης. Η προσέγγιση της NVIDIA προσθέτει περίπου 2-3% επιπλέον κόστος για αυτήν την επαναβαθμονόμηση—ένα μικρό κόστος για ουσιαστική επιτάχυνση.

Οι δοκιμές στο Qwen3-30B (ένα μοντέλο μείγματος ειδικών) έδειξαν ταιριαστές καμπύλες ακρίβειας μεταξύ των διαμορφώσεων FP8 και BF16, υποδηλώνοντας ότι η τεχνική κλιμακώνεται σε διάφορες αρχιτεκτονικές.

Γιατί Αυτό Έχει Σημασία για τα Οικονομικά της Τεχνητής Νοημοσύνης

Η εκπαίδευση RL για μοντέλα ικανά για συλλογισμό όπως αυτά πίσω από προηγμένους βοηθούς τεχνητής νοημοσύνης απαιτεί τεράστια υπολογιστική ισχύ. Μια επιτάχυνση 48% μεταφράζεται άμεσα σε μειωμένες ώρες GPU και χαμηλότερους λογαριασμούς ηλεκτρικής ενέργειας για οργανισμούς που εκπαιδεύουν αυτά τα συστήματα.

Η τεχνική δειγματοληψίας σημασίας που επιτρέπει τη διατήρηση της ακρίβειας θα μπορούσε να αποδειχθεί εξίσου πολύτιμη. Διορθώνοντας τις αναντιστοιχίες κατανομής μεταξύ μοντέλων παραγωγής και εκπαίδευσης σε βάση ανά token, επιτρέπει επιθετική μείωση ακρίβειας χωρίς θυσία της ποιότητας του μοντέλου.

Η πλήρης υλοποίηση είναι διαθέσιμη στη βιβλιοθήκη ανοιχτού κώδικα NeMo RL της NVIDIA, με προδιαμορφωμένες συνταγές για τα μοντέλα Llama 3.1 8B και Moonlight 16B. Οι προχωρημένοι χρήστες μπορούν να ρυθμίσουν με ακρίβεια την προσέγγιση—διατηρώντας συγκεκριμένα επίπεδα transformer σε BF16 ή μεταβαίνοντας σε παράγοντες κλιμάκωσης δύναμης του 2 για πρόσθετη βελτιστοποίηση.

Για τους διαχειριστές υποδομής τεχνητής νοημοσύνης που παρακολουθούν το κόστος υπολογιστικής ισχύος να αυξάνεται παράλληλα με την πολυπλοκότητα του μοντέλου, αυτό αντιπροσωπεύει έναν σημαντικό μοχλό αποδοτικότητας που δεν απαιτεί αναβαθμίσεις υλικού—απλώς πιο έξυπνη χρήση των υπαρχουσών δυνατοτήτων H100.

Πηγή εικόνας: Shutterstock
  • nvidia
  • εκπαίδευση τεχνητής νοημοσύνης
  • ακρίβεια fp8
  • μηχανική μάθηση
  • nemo rl
Αποποίηση ευθύνης: Τα άρθρα που αναδημοσιεύονται σε αυτόν τον ιστότοπο προέρχονται από δημόσιες πλατφόρμες και παρέχονται μόνο για ενημερωτικούς σκοπούς. Δεν αντικατοπτρίζουν απαραίτητα τις απόψεις της MEXC. Όλα τα πνευματικά δικαιώματα ανήκουν στους αρχικούς συγγραφείς. Εάν πιστεύετε ότι οποιοδήποτε περιεχόμενο παραβιάζει τα δικαιώματα τρίτου μέρους, επικοινωνήστε με τη διεύθυνση crypto.news@mexc.com για την αφαίρεσή του. Η MEXC δεν παρέχει εγγυήσεις σχετικά με την ακρίβεια, την πληρότητα ή την επικαιρότητα του περιεχομένου και δεν ευθύνεται για οποιεσδήποτε ενέργειες που γίνονται με βάση τις παρεχόμενες πληροφορίες. Το περιεχόμενο δεν αποτελεί οικονομική, νομική ή άλλη επαγγελματική συμβουλή, ούτε θα πρέπει να θεωρηθεί σύσταση ή προώθηση της MEXC.

Μπορεί επίσης να σας αρέσει

Η Etihad εισάγει δρομολόγια προς Ασμάρα, Άκρα, Κινσάσα, Λουμπουμπάσι, Λάγος και Χαράρε

Η Etihad εισάγει δρομολόγια προς Ασμάρα, Άκρα, Κινσάσα, Λουμπουμπάσι, Λάγος και Χαράρε

Έξι νέες διαδρομές Άμπου Ντάμπι-Αφρική αναδιαμορφώνουν τις εμπορικές ροές της ηπείρου, συνδέοντας τη Λάγκος, την Άκρα και το Κινσάσα με τις ασιατικές αγορές Η δημοσίευση της Etihad παρουσιάζει διαδρομές προς την Ασμάρα,
Κοινοποίηση
Furtherafrica2026/04/21 10:00
Ο Βασιλιάς Κάρολος τιμά την 'αγαπημένη του μαμά' στα 100ά της γενέθλια

Ο Βασιλιάς Κάρολος τιμά την 'αγαπημένη του μαμά' στα 100ά της γενέθλια

ΒΡΕΤΑΝΙΚΗ ΒΑΣΙΛΙΚΗ ΟΙΚΟΓΕΝΕΙΑ. Η Κάθριν της Βρετανίας, Δούκισσα του Κέιμπριτζ (Α) γελά καθώς η Βασίλισσα Ελισάβετ χειρονομεί ενώ παρακολουθούν μέρος μιας παιδικής αθλητικής εκδήλωσης κατά τη διάρκεια επίσκεψης
Κοινοποίηση
Rappler2026/04/21 10:17
Το Bitcoin ETF της Morgan Stanley Προσέλκυσε Πάνω από $100 Εκατομμύρια την Πρώτη Εβδομάδα

Το Bitcoin ETF της Morgan Stanley Προσέλκυσε Πάνω από $100 Εκατομμύρια την Πρώτη Εβδομάδα

Βασικές Πληροφορίες Το spot Bitcoin exchange-traded fund (ETF) MSBT της Morgan Stanley κατέγραψε εισροές άνω των $100 εκατομμυρίων μόνο την πρώτη εβδομάδα του, ένα σημάδι τεράστιου θεσμικού ενδιαφέροντος
Κοινοποίηση
Themarketperiodical2026/04/21 10:29

Ζωντανά νέα 24/7

Περισσότερα

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!