پس از شش سال وعده و عدم عرضه سیلیکون، Tachyum مشخصات پردازنده Prodigy را به ۱۰۲۴ هسته با مصرف برق ۱۶۰۰ وات بازنگری میکند
این هفته، Tachyum، شرکتی که شش سال است وعده پردازندهای را میدهد که هنوز عرضه نشده، مشخصات هدف جدید و عملکرد مورد انتظار برای پردازنده همهمنظوره Prodigy خود را منتشر کرده است، تنها یک ماه پس از اعلام آخرین دور تأمین مالی و قصد خود برای “ارتقاء” پردازنده Prodigy که تنها روی کاغذ وجود دارد.
با تعیین مشخصات هدف برای قدرتمندترین پردازنده Prodigy، که برخی از آنها در یک بازه زمانی واقعبینانه دستنیافتنی به نظر میرسند، Tachyum ادعا میکند که یک رک مجهز به سختافزار Prodigy Ultimate آن بیش از ۲۱ برابر سریعتر از رک NVL576 آینده انویدیا خواهد بود که بر پایه پردازندههای گرافیکی Rubin Ultra است. با این حال، جزئیات منتشر شده این هفته درباره پردازنده Prodigy شرکت Tachyum ممکن است نشان دهد که این دستگاه در بهترین حالت چهار تا پنج سال دیگر تأخیر خواهد داشت.
سختافزار شگفتانگیز
همانطور که یک ماه پیش گزارش شد، پردازنده Prodigy شرکت Tachyum — یا بهتر بگوییم، سیستم-در-بسته (SiP) — قرار است از طراحی چند-چیپلت استفاده کند، که هر چیپلت بر روی گره ۲ نانومتری TSMC ساخته شده و دارای حداکثر ۲۵۶ هسته بسیار سفارشی با خط لوله اجرای سوپراسکالر ۸-طرفه خارج از ترتیب و شتابدهندههای ماتریسی و برداری است.
Tachyum قصد دارد ۱۲ مدل (SKU) از Prodigy را معرفی کند، که مدل برتر Prodigy Ultimate دارای چهار چیپلت و ارائه ۷۶۸ یا ۱۰۲۴ هسته، حداکثر ۱ گیگابایت حافظه کش L2 و L3، ۱۲۸ مسیر PCIe و یک زیرسیستم حافظه ۲۴ کاناله است که از حداکثر ۴۸ ترابایت حافظه DDR5-17600 در هر سوکت و حداکثر پهنای باند ۳.۳۸ ترابایت بر ثانیه در هر سوکت پشتیبانی میکند. مدل Prodigy Premium با دو چیپلت کار میکند و ۲۵۶ تا ۵۱۲ هسته و یک زیرسیستم حافظه ۱۶ کاناله ارائه میدهد، در حالی که مدل Prodigy Entry دارای ۳۲ تا ۲۵۶ هسته و یک زیرسیستم حافظه ۸ کاناله است.
بر اساس سند Tachyum، هر چیپلت شامل آنچه به نظر میرسد یک آرایه سیستولیک از ۲۶۴ هسته است که در چهار گروه ۱۱×۶ (۶۶ هسته در هر گروه) سازماندهی شدهاند، که هر کدام هشت هسته اضافی را یکپارچه میکنند، برای مجموع ۲۵۶ هسته/واحد ماتریس ۲۵۶ عنصری قابل مشاهده برای نرمافزار در هر چیپلت.
این ادعای Tachyum را تأیید میکند که پردازنده ماتریسی داخلی آن از عملیات ۱۶×۱۶، ۸×۸ و ۴×۴ پشتیبانی میکند. همچنین، چنین طراحی یک هسته CPU/عنصر MAC اضافی در هر ردیف و یک هسته CPU/عنصر MAC اضافی در هر ستون فراهم میکند، که با روشهای طراحی آرایه سیستولیک که تمایل به شامل کردن عناصر یدکی برای بازده و قابلیت تعمیر دارند، سازگار است. با این حال، به خاطر داشته باشید که CPUها به دلیل جریانهای داده پیچیده و افزایش تأخیرها، تمایل به استفاده از آرایشهای شبیه آرایه سیستولیک ندارند.
از آنچه میتوانیم بگوییم، هر چیپلت به گونهای طراحی شده است که یک پردازنده کاملاً کاربردی با حداکثر ۲۵۶ هسته، ۲۵۶ مگابایت حافظه کش L2 و L3، زیرسیستم حافظه DDR5 هشت کاناله خود و ورودی/خروجی شامل حداکثر ۹۶ مسیر PCIe 7.0 با ۱۶ کنترلر باشد. توجه داشته باشید که Tachyum به نظر میرسد از PCIe PHY برای اتصالات بین-دای و سوکت-به-سوکت استفاده مجدد میکند، بنابراین Prodigy Ultimate برتر “فقط” ۱۲۸ مسیر PCIe 7.0 را ارائه میدهد.
همانند همیشه، مشخصات Tachyum از نظر اعداد چشمگیر هستند، اما ماهیت بسیار اغراقآمیز این اعداد، همراه با سابقه شرکت در عدم تحویل محصول، باور کردن و حتی انتظار تحقق آنها را دشوار میکند.
به عنوان مثال، یک CPU با قابلیت محاسبات عمومی با ۱۰۲۴ هسته که با فرکانس ۶.۰ گیگاهرتز کار میکند و تا ۱۶۰۰ وات برق مصرف میکند، امروزه غیرواقعی به نظر میرسد، به خصوص از شرکتی با تجربه صفر در تولید چنین طرحهایی.
همچنین، در حالی که فناوری MRDIMM به طور بالقوه میتواند ماژولهای DDR5-17600 را با ICهای واقعی که دادهها را در حالت DDR5-8800 منتقل میکنند، فعال کند، در حال حاضر چنین مشخصاتی وجود ندارد. علاوه بر این، ماژولهای حافظه ۲ ترابایتی DDR5 امروزه وجود ندارند و انتظار نمیرود به زودی محقق شوند، بنابراین وعده پشتیبانی از حداکثر ۴۸ ترابایت حافظه در هر سوکت کمی زودرس به نظر میرسد.
وعدههای عملکرد شگفتانگیز
اما در حالی که مشخصات Tachyum برای پردازنده همهمنظوره Prodigy آن اغراقآمیز به نظر میرسد، باید به خاطر داشته باشید که این دستگاهها تا پایان دهه عرضه نخواهند شد. حتی با در نظر گرفتن این موضوع، وعدههای عملکرد Tachyum، در مقایسه با سختافزار غیرموجود، کاملاً عجیب به نظر میرسند.
Tachyum قبلاً وعده میداد که Prodigy آن “عملکرد هوش مصنوعی را چندین برابر، ۳ برابر عملکرد بهترین پردازندههای x86 و ۶ برابر عملکرد HPC سریعترین GPGPU را ارائه میدهد، اما بدون ارائه هیچ داده کمی.”
لحن شرکت در آخرین بیانیه مطبوعاتی تغییر کرد، زیرا Prodigy را به گونهای توصیف کرد که تا پنج برابر توان عملیاتی عدد صحیح، تا ۱۶ برابر عملکرد هوش مصنوعی، ۸ برابر پهنای باند حافظه، چهار برابر پهنای باند بین-تراشه و ورودی/خروجی، چهار برابر مقیاسپذیری چند-سوکت با پشتیبانی از ۱۶ سوکت، و تقریباً دو برابر بهرهوری انرژی را ارائه میدهد، باز هم بدون ارائه هیچ عدد واقعی. تنها استثنا شاید ادعای پهنای باند حافظه (۳.۳۸ ترابایت بر ثانیه) باشد، اما این مقدار در مقایسه با CPUهای سری EPYC 9005 شرکت AMD هشت برابر بیشتر نیست.
شاید برای رفع نگرانیها در مورد عدم ارائه مداوم اعداد، Tachyum فاش کرد که Prodigy ۲ نانومتری آن بیش از “۱۰۰۰ PFLOPS در استنتاج” ارائه خواهد داد و این عدد را با GPU Rubin انویدیا مقایسه کرد، که ادعا میشود ۵۰ NVFP4 PFLOPS ارائه میدهد، که نشان میدهد پردازنده آن با فرمت داده مشابهی (مانند FP4، MXFP4 یا یک فرمت ۴ بیتی اختصاصی) سروکار دارد.
با این حال، این ادعا ممکن است با عقل سلیم در تضاد باشد، زیرا دستیابی به ۲۰ برابر عملکرد بالاتر از GPU Rubin در حالی که پهنای باند حافظه ۳.۸ برابر کمتر است، برای بارهای کاری استنتاج هوش مصنوعی که محدود به پهنای باند هستند، بسیار دشوار است. در همین حال، رقم ۲۰ برابر عملکرد بالاتر به نظر میرسد مبنایی برای این ادعا باشد که یک راهحل مبتنی بر Prodigy در مقیاس رک، ۲۱.۳ برابر سریعتر از NVL576 انویدیا خواهد بود، که شامل ۱۴۴ بسته GPU Rubin Ultra است.
شاید تنها عدد مفیدی که Tachyum این هفته فاش کرد، ادعای عملکرد “۴۰۰ FP64 TFLOPS برای HPC” برای پردازنده برتر Prodigy Ultimate با ۱۰۲۴ هسته آن بود. اگر این درست باشد، پس این پردازنده واقعاً ۱۰ برابر سریعتر از Blackwell B200 انویدیا (۴۰ FP64 TFLOPS) با ۴۰۰ وات توان بیشتر، و پنج برابر سریعتر از Instinct MI355X شرکت AMD (۷۸.۶ FP64 TFLOPS) است، اما از آنجایی که نمیدانیم کدام واحد این نتیجه را تولید کرده و چگونه به دست آمده است، نمیتوانیم واقعاً این مقایسه را انجام دهیم. در واقع، با توجه به تمایل Tachyum به ایجاد معیارهای اختصاصی (مانند ‘TAI PFLOPS’)، رقم ‘۴۰۰ DP TFLOPS’ ممکن است از حسابداری استاندارد FLOP پیروی نکند (به عنوان مثال، اگر از دقت معادل DP استفاده کند).
تأخیر عمده دیگر
اعلامیه این هفته Tachyum برخی جنبههای عملکردی پردازنده همهمنظوره Prodigy را پوشش میدهد، تغییرات عمده طراحی (طراحی چند-چیپلت، گره ۲ نانومتری) را فاش میکند، تغییرات مشخصات قبلاً اعلام شده (هستههای بیشتر در هر چیپلت، کانالهای حافظه کمتر در هر چیپلت، پشتیبانی از PCIe 7.0 و غیره) را آشکار میسازد و نشان میدهد که این شرکت قصد دارد پردازنده را با استفاده از فناوری ساخت ۲ نانومتری، احتمالاً در TSMC، بسازد. همه اینها تلاشی است برای ترسیم تصویری مثبت از پردازنده. با این حال، تمام این جزئیات به تأخیر عمده دیگری در Prodigy شرکت Tachyum اشاره دارند.
حدود یک سال پیش، Tachyum قصد داشت پردازنده Prodigy ۱۹۲ هستهای خود را که بر روی فناوری ساخت ۵ نانومتری پیادهسازی شده بود، در سال ۲۰۲۵ به مرحله tape out برساند. این نشان میدهد که سیلیکون حداقل به عنوان کد HDL (RTL کامل) وجود داشته است؛ تأیید و شبیهسازی آن باید در حال انجام یا عمدتاً انجام شده باشد، بنابراین شرکت فقط باید طراحی فیزیکی را سنتز میکرد و سپس فایل GDSII خود را به شریک تولیدی خود میفرستاد تا فوتوماسکها را ایجاد کرده و اولین ویفر را بسازد.
با این حال، اکنون که Tachyum قصد دارد طراحی را بهبود بخشد و از فناوری فرآیند ۵ نانومتری مبتنی بر FinFET به گره ساخت ۲ نانومتری مبتنی بر ترانزیستور gate-all-around منتقل شود، باید طراحی سطح بالای خود را بهبود بخشد و سپس به فاز طراحی RTL تراشه بازگردد، زیرا تقریباً تمام محدودیتهای فیزیکی تراشه با نوع ترانزیستور تغییر میکند.
از آنجایی که همه چیز برای Prodigy با بازطراحی و پذیرش فناوری ۲ نانومتری GAA تغییر میکند، Tachyum اکنون باید RTL خود را از ابتدا کاملاً بازسازی کند، که با توجه به اینکه تیمی بین ۵۱ تا ۲۰۰ کارمند دارد، بیش از یک سال (به احتمال زیاد ۱.۵ سال، ما خوشبین هستیم) طول خواهد کشید. تأیید و اعتبارسنجی کامل تراشه (پیش از چیدمان) احتمالاً ۱۲ تا ۱۸ ماه دیگر طول میکشد، با توجه به اینکه این یک چیپلت پیچیده است که بر روی یک فناوری ساخت پیشرفته پیادهسازی شده است.
سناریوهای واقعبینانه به اواخر سال ۲۰۳۰ اشاره دارند
پس از رفع بدترین اشکالات عملکردی، تیم Tachyum ممکن است شروع به سنتز طراحی فیزیکی کند، که تا حدی با تأیید و اعتبارسنجی همپوشانی خواهد داشت، اما همچنان بیش از ۱۸ ماه طول میکشد. پس از آن، شرکت ممکن است به مرحله tape out برود، که نیم سال دیگر طول میکشد، و سپس راهاندازی اولین سیلیکون و اعتبارسنجی پس از سیلیکون، که حدود یک سال طول میکشد اگر اولین تراشه به درستی کار کند (اگر چیزی نیاز به respin داشته باشد، ۱۸ ماه دیگر اضافه کنید). تا زمانی که این مراحل کامل شوند، Prodigy برای تولید انبوه آماده خواهد بود. با این حال، هم سیلیکون و هم پلتفرم حداقل شش ماه دیگر برای افزایش تولید زمان خواهند برد.
در نتیجه، Tachyum بسیار خوششانس خواهد بود اگر سیلیکون Prodigy خود را در ۶۰ ماه آینده آماده عرضه کند، اگر امروز کار را شروع کند، که به معنای اواخر سال ۲۰۲۹ در بهترین حالت ممکن است، با عرضه محصولات واقعی تا سال ۲۰۳۰. یک سناریوی واقعبینانهتر این است که سیلیکون در حدود پنج سال (تا اواخر سال ۲۰۳۰) آماده شود، و اگر سیلیکون نیاز به respin داشته باشد، همه چیز تا سالهای ۲۰۳۱ – ۲۰۳۲ به تأخیر میافتد.
البته، ما در مورد سناریویی صحبت میکنیم که Tachyum همه چیز را به صورت داخلی مدیریت میکند. با این حال، شرکت میتواند طراحی RTL خود را به صورت داخلی تکمیل کند (زیرا برونسپاری RTL در سطح ریزمعماری نادر، پرخطر، گرانقیمت، دشوار برای اشکالزدایی و غیرمعمول در صنعت است) و سپس بقیه کارها را به یک طراح تراشه قراردادی باتجربه برونسپاری کند. در این صورت، اگر Tachyum خوششانس باشد، ممکن است Prodigy را در این دهه در تولید ببینیم.
اما زمان ممکن است بزرگترین مشکل Tachyum نباشد: ممکن است قبل از اینکه سیلیکون Prodigy را از کارخانه دریافت کند، پولش تمام شود، زیرا طراحی یک تراشه ۲ نانومتری مبتنی بر GAA از RTL تا تولید انبوه صدها میلیون دلار، بیش از ۳۰۰ میلیون دلار، بسته به پیچیدگی تراشه، هزینه خواهد داشت. شاید شرکت هنوز هم بتواند پروژه Prodigy را با برونسپاری گسترده به سرانجام برساند، اما حتی در آن صورت، آیا پردازنده در حدود سال ۲۰۳۰ با راهحلهای موجود در بازار رقابتی خواهد بود؟ علاوه بر این، اگر Tachyum مایل بود طراحی Prodigy را زودتر برونسپاری کند، چرا تاکنون این کار را نکرده است؟
قدرتمند، اما هزینهها و رقابت در کمین است
مشخصات جدید و ارتقا یافته پردازنده همهمنظوره Prodigy شرکت Tachyum آن را به رقیبی قدرتمند در دنیای CPU تبدیل میکند. با این حال، این مشخصات جدید نشان میدهد که Tachyum باید بخش زیادی از کار طراحی و تأیید را از سر بگیرد و پروژه را حداقل چهار تا پنج سال به عقب بیندازد. با توجه به منابع محدود شرکت، سابقه عدم پایبندی به زمانبندیها و هزینه هنگفت طراحی یک تراشه ۲ نانومتری GAA پیشرفته، Prodigy ممکن است تا زمان عرضه واقعی خود برای رقابتی ماندن با مشکل مواجه شود.
- کولبات
- آبان 23, 1404
- 36 بازدید






