Nvidia details efficiency of the NVFP4 format for LLM training — new paper reveals how NVFP4 offers benefits over FP8 and BF16 | Tom's Hardware

انویدیا جزئیات کارایی فرمت NVFP4 را برای آموزش مدل‌های زبان بزرگ (LLM) تشریح می‌کند

هنگامی که انویدیا در اوایل سال جاری شروع به افشای جزئیات در مورد فرمت ممیز شناور 4 بیتی جدید خود — NVFP4 — کرد، اعلام داشت که اگرچه این فرمت عمدتاً برای استنتاج (inference) طراحی شده است، اما می‌تواند برای آموزش هوش مصنوعی نیز بدون افت قابل توجهی در دقت استفاده شود. اخیراً، این شرکت مقاله‌ای منتشر کرد که در آن توضیح می‌دهد چگونه توانسته است یک مدل 12 میلیارد پارامتری را بر روی یک مجموعه داده 10 تریلیون توکنی با استفاده از فرمت NVFP4، همراه با چندین تکنیک پشتیبانی، آموزش دهد و به نتایجی دست یابد که به دقت با نتایج پایه FP8 مطابقت دارد.

دستاورد انویدیا اولین نمونه شناخته شده از آموزش پایدار و در مقیاس بزرگ با دقت FP4 را نشان می‌دهد و ثابت می‌کند که NVFP4 می‌تواند به طور قابل توجهی مصرف حافظه و هزینه محاسباتی را بدون کاهش کیفیت مدل کاهش دهد.

بلک‌ول و NVFP4: ترکیبی ایده‌آل

NVFP4 انویدیا یک فرمت ممیز شناور 4 بیتی است که به طور خاص برای معماری پردازنده گرافیکی بلک‌ول (Blackwell) توسعه یافته و هدف آن بهبود کارایی هر دو وظیفه آموزش و استنتاج است. این فرمت نمایش داده‌های بسیار فشرده را با یک استراتژی مقیاس‌بندی چند سطحی ترکیب می‌کند و دقتی نزدیک به BF16 را در عین کاهش قابل توجه الزامات عملکرد و حافظه به دست می‌آورد.

از نظر ساختاری، NVFP4 به همان طرح E2M1 مورد استفاده در فرمت‌های استاندارد FP4 پایبند است — شامل 1 بیت علامت، 2 بیت توان و 1 بیت مانتیس — که به آن امکان می‌دهد مقادیر را تقریباً بین 6- و 6+ کدگذاری کند. برای غلبه بر محدوده دینامیکی ذاتاً محدود فرمت‌های 4 بیتی، انویدیا یک مکانیزم مقیاس‌بندی سلسله‌مراتبی را معرفی می‌کند: هر بلوک 16 عنصری از مقادیر FP4 یک عامل مقیاس اختصاصی دریافت می‌کند که در FP8 با استفاده از طرح E4M3 ذخیره می‌شود، و به موازات آن، یک عامل مقیاس FP32 به صورت سراسری در کل تانسور اعمال می‌شود. انویدیا ادعا می‌کند که این سیستم دو لایه، نویز عددی را پایین نگه می‌دارد بدون اینکه کارایی عملکردی که یک فرمت 4 بیتی ارائه می‌دهد را از دست بدهد.

جدیدترین پردازنده‌های گرافیکی بلک‌ول انویدیا دارای هسته‌های تنسور (tensor cores) هستند که قادر به انجام ضرب ماتریسی عمومی (GEMM) در فرمت‌های باریک مانند MXFP8، MXFP6، MXFP4 و NVFP4 می‌باشند. هسته‌های تنسور بلک‌ول GEMM‌ها را با اعمال یک عامل مقیاس به هر بلوک از مقادیر ورودی، انجام محاسبات ضرب نقطه‌ای با دقت بالا، و سپس جمع‌آوری نتایج با دقت سطح FP32، دقیقاً به همان روشی که NVFP4 برای استفاده در نظر گرفته شده است، پردازش می‌کنند.

این هسته‌ها همچنین از روش‌های گرد کردن داخلی، از جمله گرد کردن به نزدیک‌ترین عدد زوج (round-to-nearest-even) و گرد کردن تصادفی (stochastic rounding) پشتیبانی می‌کنند که برای اطمینان از آموزش پایدار هنگام استفاده از فرمت‌های با دقت پایین مانند FP4 مهم هستند. انویدیا می‌گوید که عملیات NVFP4 در GB200 تا 4 برابر و در GB300 تا 6 برابر افزایش سرعت نسبت به BF16 را به دست می‌آورد. علاوه بر این، مصرف حافظه تقریباً نصف FP8 کاهش می‌یابد.

اما آیا می‌توان از آن برای آموزش استفاده کرد؟

تنظیم مدل و رویکرد آموزش

برای ارزیابی کارایی NVFP4، انویدیا یک مدل زبان بزرگ 12 میلیارد پارامتری را بر اساس معماری هیبریدی مامبا-ترنسفورمر (Mamba-Transformer) آموزش داد. این معماری مدل از خانواده Nemotron-H بود و شامل ترکیبی از بلوک‌های Mamba-2، لایه‌های استاندارد پیش‌خور (feed-forward) و ماژول‌های خودتوجهی (self-attention) می‌شد. آموزش از یک برنامه زمان‌بندی گرم‌کردن-پایدار-کاهش (warmup-stable-decay) پیروی کرد: نرخ یادگیری در 80 درصد اول اجرا ثابت ماند و به تدریج در 20 درصد پایانی کاهش یافت.

توجه داشته باشید که NVFP4 می‌تواند برای مدل‌هایی مانند LLaMA، GPT اوپن‌ای‌آی و سایر LLM‌های مبتنی بر ترنسفورمر اعمال شود؛ این فرمت قطعاً مختص معماری مامبا-ترنسفورمر مورد استفاده در این نمایش نیست. با این حال، تطبیق آن ممکن است نیاز به تنظیم تعداد لایه‌های BF16، اعتبارسنجی انتخاب‌های مقیاس‌بندی بلوک و انجام آموزش آگاه از کوانتیزاسیون (quantization-aware training) داشته باشد، اگر مدل در ابتدا برای فرمت‌های با دقت پایین طراحی نشده باشد.

هر توالی آموزشی شامل 8192 توکن بود و اندازه دسته (batch size) روی 736 تنظیم شد. مجموعه داده مورد استفاده برای آموزش ترکیبی متنوع از انواع محتوا بود، از جمله متن عمومی اینترنت، کد برنامه‌نویسی، مسائل ریاضی، پیکره‌های چندزبانه، مقالات دانشگاهی و نمونه‌های مصنوعی تنظیم شده با دستورالعمل. ترکیب در سه مرحله انجام شد تا از قرار گرفتن متعادل در معرض انواع داده‌ها در طول آموزش اطمینان حاصل شود.

دقت در مقایسه با FP8

در طول آموزش، مدل آموزش‌دیده با NVFP4 از نظر افت اعتبارسنجی (validation loss) بسیار نزدیک به پایه FP8 عمل کرد. به گفته انویدیا، برای بیشتر مدت اجرا، شکاف افت بین NVFP4 و FP8 زیر 1% باقی ماند و تنها کمی بالاتر از 1.5% در نزدیکی پایان، زمانی که نرخ یادگیری شروع به کاهش کرد، افزایش یافت. با این حال، این افزایش کوچک در افت به کاهش قابل اندازه‌گیری در دقت وظیفه منجر نشد.

NVFP4 نتایج قابل مقایسه‌ای با FP8 در طیف وسیعی از وظایف پایین‌دستی، از جمله استدلال عقل سلیم، ریاضیات، سوالات دانش‌محور و معیارهای چندزبانه به دست آورد. به عنوان مثال، NVFP4 در معیار MMLU-Pro 5-shot به 62.58% رسید که تقریباً با نتیجه 62.62% FP8 مطابقت داشت. تنها افت دقت قابل توجه در وظایف مرتبط با کد مانند MBPP+ و HumanEval+ رخ داد، جایی که NVFP4 چند درصد عقب‌تر بود. با این حال، این ناسازگاری به تغییرپذیری طبیعی نقاط بازرسی (checkpoint variability) نسبت داده شد تا نقص سیستمی در فرمت.

تکنیک‌هایی برای آموزش پایدار 4 بیتی

آموزش مدل‌های بزرگ با دقت FP4 نیازمند چندین تنظیم برای اطمینان از پایداری و دقت است. یکی از استراتژی‌های کلیدی، نگه داشتن حدود 15% از لایه‌های خطی در BF16 است، عمدتاً در بلوک‌های نهایی مدل. استفاده از NVFP4 در تمام لایه‌ها منجر به واگرایی شد، اما انویدیا دریافت که حتی حفظ تنها چهار بلوک آخر در BF16 برای آموزش پایدار کافی است، که نشان می‌دهد ردپای BF16 می‌تواند بیشتر کاهش یابد.

برای حفظ سازگاری بین گذر رو به جلو و رو به عقب (که از وزن‌های ترانهاده استفاده می‌کنند)، انویدیا از مقیاس‌بندی بلوکی 2 بعدی برای وزن‌ها استفاده کرد: وزن‌ها در بلوک‌های 16×16 با یک عامل مقیاس مشترک که در هر دو جهت اعمال می‌شد، گروه‌بندی شدند. برای فعال‌سازی‌ها و گرادیان‌ها، از مقیاس‌بندی بلوکی دقیق‌تر 1×16 استفاده شد که دقت کوانتیزاسیون را بدون ایجاد ناپایداری بهبود بخشید.

برای مقابله با نقاط پرت (outliers) در گرادیان‌ها، انویدیا تبدیل‌های تصادفی هادامارد (Random Hadamard Transforms) را به ورودی‌های گرادیان وزن (Wgrad) اعمال کرد تا مقادیر بزرگ بازتوزیع شده را به طور یکنواخت‌تر تبدیل کرده و نمایش آن‌ها را در FP4 آسان‌تر کند. با این حال، چنین تبدیل‌هایی به سایر انواع تنسور اعمال نشد و یک ماتریس 16×16 با یک بردار علامت تصادفی مشترک در تمام لایه‌ها استفاده شد.

در نهایت، گرد کردن تصادفی شتاب‌یافته سخت‌افزاری برای کوانتیزاسیون گرادیان استفاده شد. این کار به جلوگیری از سوگیری گرد کردن (rounding bias) که می‌تواند در طول آموزش ایجاد شود، کمک کرد. همچنین، انویدیا آن را فقط به گرادیان‌ها اعمال کرد، زیرا استفاده از آن بر روی فعال‌سازی‌های رو به جلو، نویز را افزایش داده و کیفیت آموزش را کاهش می‌داد.

تغییر دقت در مراحل پایانی

در سناریوهایی که به حداقل رساندن افت نهایی (final loss) حیاتی است، انویدیا تغییر از NVFP4 به BF16 را در مراحل پایانی آموزش آزمایش کرد. تغییری که در 8.2 تریلیون توکن انجام شد، شکاف در افت نهایی را به طور قابل توجهی کاهش داد. تغییر تنها مسیر رو به جلو به BF16 تقریباً همان اثری را داشت که تغییر هر دو گذر رو به جلو و رو به عقب. در مقابل، تغییر در 10 تریلیون توکن — نزدیک به پایان آموزش — به دلیل نرخ یادگیری از قبل پایین، تأثیر حداقلی داشت. این نتایج نشان می‌دهد که استفاده محدود از دقت بالا در نزدیکی پایان آموزش می‌تواند دقت را بهبود بخشد در حالی که بیشتر مزایای کارایی FP4 را حفظ می‌کند.

NVFP4 در مقابل MXFP4

برای مقایسه NVFP4 با فرمت رایج‌تر MXFP4 که توسط پروژه Open Compute تعریف شده است (و توسط پردازنده‌های سری Ascend 950 آینده هواوی و بعد از آن پشتیبانی می‌شود)، انویدیا یک مدل 8 میلیارد پارامتری را با استفاده از هر دو فرمت بر روی یک مجموعه داده 1 تریلیون توکنی آموزش داد. NVFP4 افت نهایی تقریباً 1.5% بالاتر از مرجع BF16 را به دست آورد، در حالی که افت نهایی MXFP4 حدود 2.5% بالاتر بود. برای مطابقت با افت نهایی NVFP4، مدل MXFP4 به 1.36 تریلیون توکن، یا 36% داده بیشتر نیاز داشت.

آموزش هوش مصنوعی از NVFP4 بهره‌مند می‌شود

فرمت NVFP4 انویدیا، طبق آزمایش‌های خود شرکت، آموزش دقیق، پایدار و کارآمد مدل‌های زبان بزرگ (LLM) در مقیاس وسیع را با استفاده از دقت 4 بیتی امکان‌پذیر می‌سازد. با ترکیب یک فرمت کوانتیزاسیون دقیق‌تر با تکنیک‌هایی مانند دقت ترکیبی (mixed precision)، مقیاس‌بندی ثابت، گرد کردن تصادفی و مدیریت نقاط پرت، این شرکت با موفقیت یک مدل 12 میلیارد پارامتری در کلاس پیشرو را بر روی مجموعه داده 10 تریلیون توکنی آموزش داد.

در مقایسه با فرمت MXFP4، NVFP4 در هر دو زمینه همگرایی و کارایی داده از آن پیشی می‌گیرد.

کار آینده انویدیا بر کاهش بیشتر تعداد لایه‌های با دقت بالا، گسترش NVFP4 به اجزای بیشتر مدل و ارزیابی اثربخشی آن در مدل‌های بزرگ‌تر و معماری‌های جایگزین متمرکز خواهد بود.

برچسب‌ها:4-bit Floating Point, AI Efficiency, Blackwell GPU, Deep Learning Optimization, GPU Acceleration, LLM Training, Low-Precision AI, Nvidia NVFP4, آموزش مدل‌های زبان بزرگ, انویدیا NVFP4, بهره‌وری هوش مصنوعی, بهینه‌سازی یادگیری عمیق, پردازنده گرافیکی بلک‌ول, شتاب‌دهی پردازنده گرافیکی, ممیز شناور 4 بیتی, هوش مصنوعی با دقت پایین

کول‌بات
مهر 13, 1404
- تکنولوژی
28 بازدید

فروشگاه قطعات کامپیوتر

انویدیا جزئیات کارایی فرمت NVFP4 را برای آموزش مدل‌های زبان بزرگ (LLM) تشریح می‌کند

بلک‌ول و NVFP4: ترکیبی ایده‌آل

اما آیا می‌توان از آن برای آموزش استفاده کرد؟

تکنیک‌هایی برای آموزش پایدار 4 بیتی

تغییر دقت در مراحل پایانی

NVFP4 در مقابل MXFP4

آموزش هوش مصنوعی از NVFP4 بهره‌مند می‌شود

دیدگاهتان را بنویسید لغو پاسخ

سبد خرید

سبد خرید

انویدیا جزئیات کارایی فرمت NVFP4 را برای آموزش مدل‌های زبان بزرگ (LLM) تشریح می‌کند

بلک‌ول و NVFP4: ترکیبی ایده‌آل

اما آیا می‌توان از آن برای آموزش استفاده کرد؟

تکنیک‌هایی برای آموزش پایدار 4 بیتی

تغییر دقت در مراحل پایانی

NVFP4 در مقابل MXFP4

آموزش هوش مصنوعی از NVFP4 بهره‌مند می‌شود

دیدگاهتان را بنویسید لغو پاسخ

جستجو در سایت

دسته بندی ها

سبد خرید

سبد خرید

مقایسه محصولات