انویدیا برنامههای خود را برای استفاده از نور جهت ارتباط بین پردازندههای گرافیکی هوش مصنوعی تا سال ۲۰۲۶ تشریح میکند
تقاضاهای شدید برای انتقال ارتباطات بین خوشههای رو به رشد پردازندههای گرافیکی هوش مصنوعی، حرکت به سمت استفاده از نور برای ارتباطات در لایههای شبکه را تقویت میکند. اوایل امسال، انویدیا اعلام کرد که پلتفرمهای هوش مصنوعی در مقیاس رک نسل بعدی آن از اتصالات فوتونیک سیلیکونی با اپتیک همبستهبندیشده (CPO) برای نرخ انتقال بالاتر با مصرف انرژی کمتر استفاده خواهند کرد. در کنفرانس Hot Chips امسال، انویدیا اطلاعات بیشتری در مورد راهحلهای اتصال فوتونیک نسل بعدی Quantum-X و Spectrum-X خود و زمان عرضه آنها در سال ۲۰۲۶ منتشر کرد.
نقشه راه انویدیا احتمالاً از نزدیک نقشه راه COUPE شرکت TSMC را دنبال خواهد کرد که در سه مرحله توسعه مییابد. نسل اول یک موتور نوری برای کانکتورهای OSFP است که انتقال داده ۱.۶ ترابیت بر ثانیه را با کاهش مصرف انرژی ارائه میدهد. نسل دوم به بستهبندی CoWoS با اپتیک همبستهبندیشده منتقل میشود و ۶.۴ ترابیت بر ثانیه را در سطح مادربرد امکانپذیر میسازد. نسل سوم ۱۲.۸ ترابیت بر ثانیه را در داخل بستههای پردازنده هدف قرار داده و کاهش بیشتر در مصرف انرژی و تأخیر را دنبال میکند.
چرا CPO؟
در خوشههای هوش مصنوعی در مقیاس بزرگ، هزاران پردازنده گرافیکی باید به عنوان یک سیستم واحد عمل کنند، که چالشهایی را در نحوه اتصال این پردازندهها ایجاد میکند: به جای اینکه هر رک سوئیچ Tier-1 (Top-of-Rack) خود را با کابلهای مسی کوتاه داشته باشد، سوئیچها به انتهای ردیف منتقل میشوند تا یک شبکه سازگار و با تأخیر کم در چندین رک ایجاد کنند. این جابجایی فاصله بین سرورها و اولین سوئیچ آنها را به شدت افزایش میدهد، که استفاده از مس را در سرعتهایی مانند ۸۰۰ گیگابیت بر ثانیه غیرعملی میکند، بنابراین اتصالات نوری برای تقریباً هر لینک سرور به سوئیچ و سوئیچ به سوئیچ مورد نیاز است.
استفاده از ماژولهای نوری قابل اتصال در این محیط محدودیتهای واضحی را ایجاد میکند: سیگنالهای داده در چنین طرحهایی از ASIC خارج شده، از طریق برد و کانکتورها عبور میکنند و تنها پس از آن به نور تبدیل میشوند. این روش اتلاف الکتریکی شدیدی را تولید میکند، تا حدود ۲۲ دسیبل در کانالهای ۲۰۰ گیگابیت بر ثانیه، که نیاز به جبرانسازی با استفاده از پردازش پیچیده و افزایش مصرف برق هر پورت تا ۳۰ وات دارد (که به نوبه خود نیاز به خنککننده اضافی دارد و یک نقطه شکست احتمالی ایجاد میکند)، که به گفته انویدیا، با رشد مقیاس استقرار هوش مصنوعی تقریباً غیرقابل تحمل میشود.
CPO با جاسازی موتور تبدیل نوری در کنار ASIC سوئیچ، از مشکلات ماژولهای نوری قابل اتصال سنتی جلوگیری میکند، بنابراین به جای عبور از مسیرهای الکتریکی طولانی، سیگنال تقریباً بلافاصله به فیبر نوری متصل میشود. در نتیجه، اتلاف الکتریکی به ۴ دسیبل کاهش مییابد و مصرف برق هر پورت به ۹ وات میرسد. چنین طرحی اجزای متعددی را که ممکن است از کار بیفتند حذف کرده و پیادهسازی اتصالات نوری را به شدت ساده میکند.
انویدیا ادعا میکند که با کنار گذاشتن فرستندههای نوری قابل اتصال سنتی و ادغام مستقیم موتورهای نوری در سیلیکون سوئیچ (به لطف پلتفرم COUPE شرکت TSMC)، به دستاوردهای بسیار قابل توجهی در کارایی، قابلیت اطمینان و مقیاسپذیری میرسد. به گفته انویدیا، بهبودهای CPO در مقایسه با ماژولهای قابل اتصال چشمگیر است: افزایش ۳.۵ برابری در بهرهوری انرژی، ۶۴ برابر بهبود در یکپارچگی سیگنال، ۱۰ برابر افزایش در انعطافپذیری به دلیل تعداد کمتر دستگاههای فعال، و تقریباً ۳۰٪ استقرار سریعتر به دلیل سادگی سرویس و مونتاژ.
CPO برای اترنت و اینفینیبند
انویدیا پلتفرمهای اتصال نوری مبتنی بر CPO را هم برای فناوریهای اترنت و هم اینفینیبند معرفی خواهد کرد. ابتدا، این شرکت قصد دارد سوئیچهای Quantum-X InfiniBand را در اوایل سال ۲۰۲۶ عرضه کند. هر سوئیچ ۱۱۵ ترابیت بر ثانیه توان عملیاتی ارائه میدهد و از ۱۴۴ پورت با سرعت ۸۰۰ گیگابیت بر ثانیه پشتیبانی میکند. این سیستم همچنین یک ASIC با ۱۴.۴ ترافلاپس پردازش درون شبکه را ادغام کرده و از پروتکل SHARP (Scalable Hierarchical Aggregation Reduction Protocol) نسل چهارم انویدیا برای کاهش تأخیر در عملیات جمعی پشتیبانی میکند. این سوئیچها با مایع خنک میشوند.
به موازات آن، انویدیا قصد دارد CPO را با پلتفرم Spectrum-X Photonics خود در نیمه دوم سال ۲۰۲۶ به اترنت بیاورد. این پلتفرم بر اساس ASIC Spectrum-6 خواهد بود که دو دستگاه را تغذیه میکند: SN6810 که ۱۰۲.۴ ترابیت بر ثانیه پهنای باند با ۱۲۸ پورت ۸۰۰ گیگابیت بر ثانیه ارائه میدهد، و SN6800 بزرگتر که تا ۴۰۹.۶ ترابیت بر ثانیه و ۵۱۲ پورت با همان سرعت مقیاسپذیر است. هر دو نیز از خنککننده مایع استفاده میکنند.
انویدیا پیشبینی میکند که سوئیچهای مبتنی بر CPO آن، خوشههای هوش مصنوعی جدید را برای کاربردهای هوش مصنوعی مولد که در حال بزرگتر و پیچیدهتر شدن هستند، تغذیه خواهند کرد. به دلیل استفاده از CPO، چنین خوشههایی هزاران جزء مجزا را حذف میکنند و نصب سریعتر، سرویسدهی آسانتر و کاهش مصرف برق به ازای هر اتصال را ارائه میدهند. در نتیجه، خوشههایی که از Quantum-X InfiniBand و Spectrum-X Photonics استفاده میکنند، در معیارهایی مانند زمان روشن شدن، زمان تا اولین توکن و قابلیت اطمینان بلندمدت بهبودهایی را ارائه میدهند.
انویدیا تاکید میکند که اپتیک همبستهبندیشده یک بهبود اختیاری نیست، بلکه یک نیاز ساختاری برای مراکز داده هوش مصنوعی آینده است، که به این معنی است که این شرکت اتصالات نوری خود را به عنوان برخی از مزایای کلیدی نسبت به راهحلهای هوش مصنوعی در مقیاس رک از رقبایی مانند AMD معرفی خواهد کرد. البته به همین دلیل است که AMD شرکت Enosemi را خریداری کرده است.
مسیر پیش رو
یک نکته مهم در مورد ابتکار فوتونیک سیلیکونی انویدیا این است که تکامل آن به شدت با تکامل پلتفرم COUPE (Compact Universal Photonic Engine) شرکت TSMC همسو است، که قرار است در سالهای آینده توسعه یابد و در نتیجه پلتفرمهای CPO انویدیا را نیز بهبود بخشد. نسل اول COUPE شرکت TSMC با انباشت یک مدار مجتمع الکترونیکی (EIC) ۶۵ نانومتری با یک مدار مجتمع فوتونیک (PIC) با استفاده از فناوری بستهبندی SoIC-X این شرکت ساخته شده است.
نقشه راه COUPE شرکت TSMC در سه مرحله توسعه مییابد. نسل اول یک موتور نوری برای کانکتورهای OSFP است که انتقال داده ۱.۶ ترابیت بر ثانیه را با کاهش مصرف انرژی ارائه میدهد. نسل دوم به بستهبندی CoWoS با اپتیک همبستهبندیشده منتقل میشود و ۶.۴ ترابیت بر ثانیه را در سطح مادربرد امکانپذیر میسازد. نسل سوم ۱۲.۸ ترابیت بر ثانیه را در داخل بستههای پردازنده هدف قرار داده و کاهش بیشتر در مصرف انرژی و تأخیر را دنبال میکند.
برای دریافت اخبار، تحلیلها و بررسیهای بهروز ما در فیدهای خود، در Google News را دنبال کنید. حتماً دکمه دنبال کردن را کلیک کنید.
- کولبات
- شهریور 2, 1404
- 43 بازدید






