After six years of promises and no shipping silicon, Tachyum revises Prodigy processor specs to 1,024 cores with 1,600W of power consumption — likely another 5-year delay, company claims its chip is 20 times faster than Nvidia's Rubin NVL576 rack | Tom's Hardware

پس از شش سال وعده و عدم عرضه سیلیکون، Tachyum مشخصات پردازنده Prodigy را به ۱۰۲۴ هسته با مصرف برق ۱۶۰۰ وات بازنگری می‌کند

این هفته، Tachyum، شرکتی که شش سال است وعده پردازنده‌ای را می‌دهد که هنوز عرضه نشده، مشخصات هدف جدید و عملکرد مورد انتظار برای پردازنده همه‌منظوره Prodigy خود را منتشر کرده است، تنها یک ماه پس از اعلام آخرین دور تأمین مالی و قصد خود برای “ارتقاء” پردازنده Prodigy که تنها روی کاغذ وجود دارد.

با تعیین مشخصات هدف برای قدرتمندترین پردازنده Prodigy، که برخی از آنها در یک بازه زمانی واقع‌بینانه دست‌نیافتنی به نظر می‌رسند، Tachyum ادعا می‌کند که یک رک مجهز به سخت‌افزار Prodigy Ultimate آن بیش از ۲۱ برابر سریع‌تر از رک NVL576 آینده انویدیا خواهد بود که بر پایه پردازنده‌های گرافیکی Rubin Ultra است. با این حال، جزئیات منتشر شده این هفته درباره پردازنده Prodigy شرکت Tachyum ممکن است نشان دهد که این دستگاه در بهترین حالت چهار تا پنج سال دیگر تأخیر خواهد داشت.

سخت‌افزار شگفت‌انگیز

همانطور که یک ماه پیش گزارش شد، پردازنده Prodigy شرکت Tachyum — یا بهتر بگوییم، سیستم-در-بسته (SiP) — قرار است از طراحی چند-چیپلت استفاده کند، که هر چیپلت بر روی گره ۲ نانومتری TSMC ساخته شده و دارای حداکثر ۲۵۶ هسته بسیار سفارشی با خط لوله اجرای سوپراسکالر ۸-طرفه خارج از ترتیب و شتاب‌دهنده‌های ماتریسی و برداری است.

Tachyum قصد دارد ۱۲ مدل (SKU) از Prodigy را معرفی کند، که مدل برتر Prodigy Ultimate دارای چهار چیپلت و ارائه ۷۶۸ یا ۱۰۲۴ هسته، حداکثر ۱ گیگابایت حافظه کش L2 و L3، ۱۲۸ مسیر PCIe و یک زیرسیستم حافظه ۲۴ کاناله است که از حداکثر ۴۸ ترابایت حافظه DDR5-17600 در هر سوکت و حداکثر پهنای باند ۳.۳۸ ترابایت بر ثانیه در هر سوکت پشتیبانی می‌کند. مدل Prodigy Premium با دو چیپلت کار می‌کند و ۲۵۶ تا ۵۱۲ هسته و یک زیرسیستم حافظه ۱۶ کاناله ارائه می‌دهد، در حالی که مدل Prodigy Entry دارای ۳۲ تا ۲۵۶ هسته و یک زیرسیستم حافظه ۸ کاناله است.

Tachyum

بر اساس سند Tachyum، هر چیپلت شامل آنچه به نظر می‌رسد یک آرایه سیستولیک از ۲۶۴ هسته است که در چهار گروه ۱۱×۶ (۶۶ هسته در هر گروه) سازماندهی شده‌اند، که هر کدام هشت هسته اضافی را یکپارچه می‌کنند، برای مجموع ۲۵۶ هسته/واحد ماتریس ۲۵۶ عنصری قابل مشاهده برای نرم‌افزار در هر چیپلت.

این ادعای Tachyum را تأیید می‌کند که پردازنده ماتریسی داخلی آن از عملیات ۱۶×۱۶، ۸×۸ و ۴×۴ پشتیبانی می‌کند. همچنین، چنین طراحی یک هسته CPU/عنصر MAC اضافی در هر ردیف و یک هسته CPU/عنصر MAC اضافی در هر ستون فراهم می‌کند، که با روش‌های طراحی آرایه سیستولیک که تمایل به شامل کردن عناصر یدکی برای بازده و قابلیت تعمیر دارند، سازگار است. با این حال، به خاطر داشته باشید که CPUها به دلیل جریان‌های داده پیچیده و افزایش تأخیرها، تمایل به استفاده از آرایش‌های شبیه آرایه سیستولیک ندارند.

از آنچه می‌توانیم بگوییم، هر چیپلت به گونه‌ای طراحی شده است که یک پردازنده کاملاً کاربردی با حداکثر ۲۵۶ هسته، ۲۵۶ مگابایت حافظه کش L2 و L3، زیرسیستم حافظه DDR5 هشت کاناله خود و ورودی/خروجی شامل حداکثر ۹۶ مسیر PCIe 7.0 با ۱۶ کنترلر باشد. توجه داشته باشید که Tachyum به نظر می‌رسد از PCIe PHY برای اتصالات بین-دای و سوکت-به-سوکت استفاده مجدد می‌کند، بنابراین Prodigy Ultimate برتر “فقط” ۱۲۸ مسیر PCIe 7.0 را ارائه می‌دهد.

Tachyum

همانند همیشه، مشخصات Tachyum از نظر اعداد چشمگیر هستند، اما ماهیت بسیار اغراق‌آمیز این اعداد، همراه با سابقه شرکت در عدم تحویل محصول، باور کردن و حتی انتظار تحقق آنها را دشوار می‌کند.

به عنوان مثال، یک CPU با قابلیت محاسبات عمومی با ۱۰۲۴ هسته که با فرکانس ۶.۰ گیگاهرتز کار می‌کند و تا ۱۶۰۰ وات برق مصرف می‌کند، امروزه غیرواقعی به نظر می‌رسد، به خصوص از شرکتی با تجربه صفر در تولید چنین طرح‌هایی.

همچنین، در حالی که فناوری MRDIMM به طور بالقوه می‌تواند ماژول‌های DDR5-17600 را با ICهای واقعی که داده‌ها را در حالت DDR5-8800 منتقل می‌کنند، فعال کند، در حال حاضر چنین مشخصاتی وجود ندارد. علاوه بر این، ماژول‌های حافظه ۲ ترابایتی DDR5 امروزه وجود ندارند و انتظار نمی‌رود به زودی محقق شوند، بنابراین وعده پشتیبانی از حداکثر ۴۸ ترابایت حافظه در هر سوکت کمی زودرس به نظر می‌رسد.

وعده‌های عملکرد شگفت‌انگیز

اما در حالی که مشخصات Tachyum برای پردازنده همه‌منظوره Prodigy آن اغراق‌آمیز به نظر می‌رسد، باید به خاطر داشته باشید که این دستگاه‌ها تا پایان دهه عرضه نخواهند شد. حتی با در نظر گرفتن این موضوع، وعده‌های عملکرد Tachyum، در مقایسه با سخت‌افزار غیرموجود، کاملاً عجیب به نظر می‌رسند.

Tachyum

Tachyum قبلاً وعده می‌داد که Prodigy آن “عملکرد هوش مصنوعی را چندین برابر، ۳ برابر عملکرد بهترین پردازنده‌های x86 و ۶ برابر عملکرد HPC سریع‌ترین GPGPU را ارائه می‌دهد، اما بدون ارائه هیچ داده کمی.”

لحن شرکت در آخرین بیانیه مطبوعاتی تغییر کرد، زیرا Prodigy را به گونه‌ای توصیف کرد که تا پنج برابر توان عملیاتی عدد صحیح، تا ۱۶ برابر عملکرد هوش مصنوعی، ۸ برابر پهنای باند حافظه، چهار برابر پهنای باند بین-تراشه و ورودی/خروجی، چهار برابر مقیاس‌پذیری چند-سوکت با پشتیبانی از ۱۶ سوکت، و تقریباً دو برابر بهره‌وری انرژی را ارائه می‌دهد، باز هم بدون ارائه هیچ عدد واقعی. تنها استثنا شاید ادعای پهنای باند حافظه (۳.۳۸ ترابایت بر ثانیه) باشد، اما این مقدار در مقایسه با CPUهای سری EPYC 9005 شرکت AMD هشت برابر بیشتر نیست.

شاید برای رفع نگرانی‌ها در مورد عدم ارائه مداوم اعداد، Tachyum فاش کرد که Prodigy ۲ نانومتری آن بیش از “۱۰۰۰ PFLOPS در استنتاج” ارائه خواهد داد و این عدد را با GPU Rubin انویدیا مقایسه کرد، که ادعا می‌شود ۵۰ NVFP4 PFLOPS ارائه می‌دهد، که نشان می‌دهد پردازنده آن با فرمت داده مشابهی (مانند FP4، MXFP4 یا یک فرمت ۴ بیتی اختصاصی) سروکار دارد.

با این حال، این ادعا ممکن است با عقل سلیم در تضاد باشد، زیرا دستیابی به ۲۰ برابر عملکرد بالاتر از GPU Rubin در حالی که پهنای باند حافظه ۳.۸ برابر کمتر است، برای بارهای کاری استنتاج هوش مصنوعی که محدود به پهنای باند هستند، بسیار دشوار است. در همین حال، رقم ۲۰ برابر عملکرد بالاتر به نظر می‌رسد مبنایی برای این ادعا باشد که یک راه‌حل مبتنی بر Prodigy در مقیاس رک، ۲۱.۳ برابر سریع‌تر از NVL576 انویدیا خواهد بود، که شامل ۱۴۴ بسته GPU Rubin Ultra است.

شاید تنها عدد مفیدی که Tachyum این هفته فاش کرد، ادعای عملکرد “۴۰۰ FP64 TFLOPS برای HPC” برای پردازنده برتر Prodigy Ultimate با ۱۰۲۴ هسته آن بود. اگر این درست باشد، پس این پردازنده واقعاً ۱۰ برابر سریع‌تر از Blackwell B200 انویدیا (۴۰ FP64 TFLOPS) با ۴۰۰ وات توان بیشتر، و پنج برابر سریع‌تر از Instinct MI355X شرکت AMD (۷۸.۶ FP64 TFLOPS) است، اما از آنجایی که نمی‌دانیم کدام واحد این نتیجه را تولید کرده و چگونه به دست آمده است، نمی‌توانیم واقعاً این مقایسه را انجام دهیم. در واقع، با توجه به تمایل Tachyum به ایجاد معیارهای اختصاصی (مانند ‘TAI PFLOPS’)، رقم ‘۴۰۰ DP TFLOPS’ ممکن است از حسابداری استاندارد FLOP پیروی نکند (به عنوان مثال، اگر از دقت معادل DP استفاده کند).

تأخیر عمده دیگر

اعلامیه این هفته Tachyum برخی جنبه‌های عملکردی پردازنده همه‌منظوره Prodigy را پوشش می‌دهد، تغییرات عمده طراحی (طراحی چند-چیپلت، گره ۲ نانومتری) را فاش می‌کند، تغییرات مشخصات قبلاً اعلام شده (هسته‌های بیشتر در هر چیپلت، کانال‌های حافظه کمتر در هر چیپلت، پشتیبانی از PCIe 7.0 و غیره) را آشکار می‌سازد و نشان می‌دهد که این شرکت قصد دارد پردازنده را با استفاده از فناوری ساخت ۲ نانومتری، احتمالاً در TSMC، بسازد. همه اینها تلاشی است برای ترسیم تصویری مثبت از پردازنده. با این حال، تمام این جزئیات به تأخیر عمده دیگری در Prodigy شرکت Tachyum اشاره دارند.

Mask

حدود یک سال پیش، Tachyum قصد داشت پردازنده Prodigy ۱۹۲ هسته‌ای خود را که بر روی فناوری ساخت ۵ نانومتری پیاده‌سازی شده بود، در سال ۲۰۲۵ به مرحله tape out برساند. این نشان می‌دهد که سیلیکون حداقل به عنوان کد HDL (RTL کامل) وجود داشته است؛ تأیید و شبیه‌سازی آن باید در حال انجام یا عمدتاً انجام شده باشد، بنابراین شرکت فقط باید طراحی فیزیکی را سنتز می‌کرد و سپس فایل GDSII خود را به شریک تولیدی خود می‌فرستاد تا فوتوماسک‌ها را ایجاد کرده و اولین ویفر را بسازد.

با این حال، اکنون که Tachyum قصد دارد طراحی را بهبود بخشد و از فناوری فرآیند ۵ نانومتری مبتنی بر FinFET به گره ساخت ۲ نانومتری مبتنی بر ترانزیستور gate-all-around منتقل شود، باید طراحی سطح بالای خود را بهبود بخشد و سپس به فاز طراحی RTL تراشه بازگردد، زیرا تقریباً تمام محدودیت‌های فیزیکی تراشه با نوع ترانزیستور تغییر می‌کند.

از آنجایی که همه چیز برای Prodigy با بازطراحی و پذیرش فناوری ۲ نانومتری GAA تغییر می‌کند، Tachyum اکنون باید RTL خود را از ابتدا کاملاً بازسازی کند، که با توجه به اینکه تیمی بین ۵۱ تا ۲۰۰ کارمند دارد، بیش از یک سال (به احتمال زیاد ۱.۵ سال، ما خوشبین هستیم) طول خواهد کشید. تأیید و اعتبارسنجی کامل تراشه (پیش از چیدمان) احتمالاً ۱۲ تا ۱۸ ماه دیگر طول می‌کشد، با توجه به اینکه این یک چیپلت پیچیده است که بر روی یک فناوری ساخت پیشرفته پیاده‌سازی شده است.

سناریوهای واقع‌بینانه به اواخر سال ۲۰۳۰ اشاره دارند

پس از رفع بدترین اشکالات عملکردی، تیم Tachyum ممکن است شروع به سنتز طراحی فیزیکی کند، که تا حدی با تأیید و اعتبارسنجی همپوشانی خواهد داشت، اما همچنان بیش از ۱۸ ماه طول می‌کشد. پس از آن، شرکت ممکن است به مرحله tape out برود، که نیم سال دیگر طول می‌کشد، و سپس راه‌اندازی اولین سیلیکون و اعتبارسنجی پس از سیلیکون، که حدود یک سال طول می‌کشد اگر اولین تراشه به درستی کار کند (اگر چیزی نیاز به respin داشته باشد، ۱۸ ماه دیگر اضافه کنید). تا زمانی که این مراحل کامل شوند، Prodigy برای تولید انبوه آماده خواهد بود. با این حال، هم سیلیکون و هم پلتفرم حداقل شش ماه دیگر برای افزایش تولید زمان خواهند برد.

در نتیجه، Tachyum بسیار خوش‌شانس خواهد بود اگر سیلیکون Prodigy خود را در ۶۰ ماه آینده آماده عرضه کند، اگر امروز کار را شروع کند، که به معنای اواخر سال ۲۰۲۹ در بهترین حالت ممکن است، با عرضه محصولات واقعی تا سال ۲۰۳۰. یک سناریوی واقع‌بینانه‌تر این است که سیلیکون در حدود پنج سال (تا اواخر سال ۲۰۳۰) آماده شود، و اگر سیلیکون نیاز به respin داشته باشد، همه چیز تا سال‌های ۲۰۳۱ – ۲۰۳۲ به تأخیر می‌افتد.

البته، ما در مورد سناریویی صحبت می‌کنیم که Tachyum همه چیز را به صورت داخلی مدیریت می‌کند. با این حال، شرکت می‌تواند طراحی RTL خود را به صورت داخلی تکمیل کند (زیرا برون‌سپاری RTL در سطح ریزمعماری نادر، پرخطر، گران‌قیمت، دشوار برای اشکال‌زدایی و غیرمعمول در صنعت است) و سپس بقیه کارها را به یک طراح تراشه قراردادی باتجربه برون‌سپاری کند. در این صورت، اگر Tachyum خوش‌شانس باشد، ممکن است Prodigy را در این دهه در تولید ببینیم.

اما زمان ممکن است بزرگترین مشکل Tachyum نباشد: ممکن است قبل از اینکه سیلیکون Prodigy را از کارخانه دریافت کند، پولش تمام شود، زیرا طراحی یک تراشه ۲ نانومتری مبتنی بر GAA از RTL تا تولید انبوه صدها میلیون دلار، بیش از ۳۰۰ میلیون دلار، بسته به پیچیدگی تراشه، هزینه خواهد داشت. شاید شرکت هنوز هم بتواند پروژه Prodigy را با برون‌سپاری گسترده به سرانجام برساند، اما حتی در آن صورت، آیا پردازنده در حدود سال ۲۰۳۰ با راه‌حل‌های موجود در بازار رقابتی خواهد بود؟ علاوه بر این، اگر Tachyum مایل بود طراحی Prodigy را زودتر برون‌سپاری کند، چرا تاکنون این کار را نکرده است؟

قدرتمند، اما هزینه‌ها و رقابت در کمین است

مشخصات جدید و ارتقا یافته پردازنده همه‌منظوره Prodigy شرکت Tachyum آن را به رقیبی قدرتمند در دنیای CPU تبدیل می‌کند. با این حال، این مشخصات جدید نشان می‌دهد که Tachyum باید بخش زیادی از کار طراحی و تأیید را از سر بگیرد و پروژه را حداقل چهار تا پنج سال به عقب بیندازد. با توجه به منابع محدود شرکت، سابقه عدم پایبندی به زمان‌بندی‌ها و هزینه هنگفت طراحی یک تراشه ۲ نانومتری GAA پیشرفته، Prodigy ممکن است تا زمان عرضه واقعی خود برای رقابتی ماندن با مشکل مواجه شود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

جستجو در سایت

سبد خرید

درحال بارگذاری ...
بستن
مقایسه
مقایسه محصولات
لیست مقایسه محصولات شما خالی می باشد!