أعلنت خدمات أمازون ويب يوم الجمعة أنها ستضع معالجات من Cerebras داخل مراكز البيانات الخاصة بها في إطار شراكة متعددة السنوات تركز على الاستدلال بالذكاء الاصطناعي.
تمنح الصفقة أمازون طريقة جديدة لتسريع كيفية استجابة نماذج الذكاء الاصطناعي للمطالبات وكتابة الأكواد والتعامل مع طلبات المستخدمين المباشرة. قالت AWS إنها ستستخدم تقنية Cerebras، بما في ذلك محرك Wafer-Scale Engine، لمهام الاستدلال.
لم تشارك الشركتان الشروط المالية. من المخطط إعداد هذا النظام لخدمة Amazon Bedrock داخل مراكز بيانات AWS، مما يضع الشراكة مباشرة داخل أحد منتجات الذكاء الاصطناعي الرئيسية لأمازون.
قالت AWS إن النظام سيجمع بين خوادم Amazon Trainium وأنظمة Cerebras CS-3 وشبكات Amazon's Elastic Fabric Adapter.
في وقت لاحق من هذا العام، تخطط AWS أيضًا لتقديم نماذج اللغة الكبيرة الرائدة مفتوحة المصدر وAmazon Nova على أجهزة Cerebras. قال ديفيد براون، نائب رئيس خدمات الحوسبة والتعلم الآلي في AWS، إن السرعة لا تزال مشكلة كبيرة في الاستدلال بالذكاء الاصطناعي، خاصة بالنسبة للمساعدة في البرمجة في الوقت الفعلي والتطبيقات التفاعلية.
قال ديفيد: "الاستدلال هو المكان الذي يقدم فيه الذكاء الاصطناعي قيمة حقيقية للعملاء، لكن السرعة تظل عنق زجاجة حرج لأحمال العمل الصعبة مثل المساعدة في البرمجة في الوقت الفعلي والتطبيقات التفاعلية."
قالت AWS إن التصميم يستخدم طريقة تسمى تفكيك الاستدلال. وهذا يعني تقسيم استدلال الذكاء الاصطناعي إلى جزأين. الجزء الأول هو معالجة المطالبات، ويسمى أيضًا prefill. الجزء الثاني هو توليد المخرجات، ويسمى أيضًا decode.
قالت AWS إن المهمتين تتصرفان بشكل مختلف تمامًا. Prefill متوازي وثقيل في الحوسبة ويحتاج إلى نطاق ترددي معتدل للذاكرة. Decode متسلسل وأخف في الحوسبة ويعتمد بشكل أكبر على نطاق ترددي الذاكرة. يستغرق Decode أيضًا معظم الوقت في هذه الحالات لأنه يجب إنتاج كل رمز مخرج واحدًا تلو الآخر.
لهذا السبب تقوم AWS بتعيين أجهزة مختلفة لكل مرحلة. سيتعامل Trainium مع prefill. سيتعامل Cerebras CS-3 مع decode.
قالت AWS إن شبكات EFA منخفضة الكمون وعالية النطاق الترددي ستربط كلا الجانبين بحيث يمكن للنظام العمل كخدمة واحدة بينما يركز كل معالج على مهمة منفصلة.
قال ديفيد: "ما نبنيه مع Cerebras يحل ذلك: من خلال تقسيم حمل عمل الاستدلال عبر Trainium وCS-3، وربطها بمحول Amazon's Elastic Fabric Adapter، يقوم كل نظام بما يتقنه. ستكون النتيجة استدلالًا أسرع بمقدار رتبة من حيث الحجم وأداء أعلى مما هو متاح اليوم."
قالت AWS أيضًا إن الخدمة ستعمل على نظام AWS Nitro System، وهو الطبقة الأساسية لبنيتها التحتية السحابية.
وهذا يعني أنه من المتوقع أن تعمل أنظمة Cerebras CS-3 ومثيلات Trainium بنفس الأمان والعزل والاتساق الذي يستخدمه عملاء AWS بالفعل.
يمنح الإعلان أيضًا أمازون فرصة أخرى لدفع Trainium ضد رقائق من Nvidia وAMD وشركات الرقائق الكبيرة الأخرى. تصف AWS Trainium على أنها رقاقة الذكاء الاصطناعي الداخلية المصممة للأداء القابل للتوسع والكفاءة من حيث التكلفة عبر التدريب والاستدلال.
قالت AWS إن اثنين من مختبرات الذكاء الاصطناعي الكبرى ملتزمان به بالفعل. سمت Anthropic AWS شريكها التدريبي الأساسي وتستخدم Trainium لتدريب ونشر النماذج. ستستهلك OpenAI سعة 2 جيجاواط من Trainium من خلال البنية التحتية لـ AWS لبيئة التشغيل الحالية ونماذج الحدود وأحمال العمل المتقدمة الأخرى.
أضافت AWS أن Trainium3 شهد اعتمادًا قويًا منذ إصداره الأخير، حيث التزم العملاء عبر الصناعات بسعة كبيرة.
تتعامل Cerebras مع جانب decode من الإعداد. قالت AWS إن CS-3 مخصص لتسريع فك التشفير، مما يمنحه مساحة أكبر لرموز المخرجات السريعة. تقول Cerebras إن CS-3 هو أسرع نظام استدلال بالذكاء الاصطناعي في العالم ويوفر نطاقًا تردديًا للذاكرة أكبر بآلاف المرات من أسرع GPU.
قالت الشركة إن نماذج التفكير تشكل الآن حصة أكبر من عمل الاستدلال وتولد المزيد من الرموز لكل طلب أثناء العمل على المشكلات. قالت Cerebras أيضًا إن OpenAI وCognition وMistral وآخرين يستخدمون أنظمتها لأحمال العمل الصعبة، خاصة البرمجة القائمة على الوكلاء.
قال أندرو فيلدمان، مؤسس ورئيس تنفيذي لشركة Cerebras Systems: "الشراكة مع AWS لبناء حل استدلال مفكك ستجلب أسرع استدلال إلى قاعدة عملاء عالمية."
أضاف أندرو: "ستتمكن كل مؤسسة في جميع أنحاء العالم من الاستفادة من الاستدلال السريع للغاية ضمن بيئة AWS الحالية الخاصة بها."
تضيف الصفقة مزيدًا من الضغط على Nvidia، التي وقعت في ديسمبر اتفاقية ترخيص بقيمة 20 مليار دولار مع Groq وتخطط الأسبوع المقبل للكشف عن نظام استدلال جديد باستخدام تقنية Groq.
إذا كنت تقرأ هذا، فأنت متقدم بالفعل. ابق هناك مع نشرتنا الإخبارية.


