PewDiePie goes all-in on self-hosting AI using modded GPUs, with plans to build his own model soon — YouTuber pits multiple chatbots against each other to find the best answers | Tom's Hardware

PewDiePie با استفاده از پردازنده‌های گرافیکی تغییر یافته، به طور کامل به میزبانی شخصی هوش مصنوعی روی آورده و قصد دارد به زودی مدل خود را بسازد

PewDiePie یک رابط کاربری وب سفارشی برای میزبانی شخصی مدل‌های هوش مصنوعی به نام “ChatOS” ساخته است که روی رایانه شخصی سفارشی او با 2 کارت RTX 4000 Ada، به همراه 8 کارت RTX 4090 تغییر یافته با 48 گیگابایت VRAM اجرا می‌شود. PewDiePie با اجرای مدل‌های متن‌باز از Baidu و OpenAI، یک “شورا” از ربات‌ها ایجاد کرد که به بهترین پاسخ‌ها رأی می‌دادند، و سپس “The Swarm” را برای جمع‌آآوری داده‌ها ساخت که پایه و اساس مدل خودش خواهد شد که ماه آینده عرضه می‌شود.

او که زمانی نماد بازی در یوتیوب بود، اکنون با همسرش، مارزیا، زندگی نیمه‌بازنشسته‌ای را در ژاپن آغاز کرده است. در حالی که او دیگر به طور مکرر ویدئو آپلود نمی‌کند و محتوای او از ویدئوهای اغراق‌آمیز و سبک کانال‌های واکنشی به ولاگ‌های خانوادگی تغییر کرده است، به نظر می‌رسد عشق او به محاسبات دوباره شعله‌ور شده است. فلیکس هرگز به عنوان فردی بسیار آگاه به فناوری شناخته نمی‌شد، اما اخیراً مسیر دیوانه‌واری را طی کرده است — زندگی خود را از گوگل مستقل کرده، اولین رایانه شخصی گیمینگ خود را ساخته و کدنویسی را یاد گرفته است. آخرین اقدام او یکی از اقدامات تمرکززدایی است: میزبانی شخصی مدل‌های هوش مصنوعی و در نهایت ساخت مدل خودش.

در یک ویدئوی جدید یوتیوب، فلیکس توضیح داد که چگونه “مرکز داده کوچک” او به تحقیقات پزشکی کمک می‌کند. او قدرت محاسباتی سیستم 10-GPU خود را به Folding@home اهدا می‌کند تا دانشمندان بتوانند از آن برای اجرای شبیه‌سازی‌های تاخوردگی پروتئین استفاده کنند، و او تیمی ایجاد کرده است تا افراد دیگر نیز بتوانند با رایانه‌های خود به این کار کمک کنند. این یک هدف والا است، اما PewDiePie می‌خواست وارد قلمرو ناشناخته شود و کار آشکار دیگری را که می‌توانید با تعداد زیادی GPU انجام دهید — یعنی اجرای هوش مصنوعی — کشف کند.

رایانه فلیکس دارای 2 کارت RTX 4000 Ada، به همراه 8 کارت RTX 4090 تغییر یافته با 48 گیگابایت VRAM است که مجموع حافظه او را به حدود 256 گیگابایت می‌رساند، که برای اجرای بسیاری از بزرگترین مدل‌های امروزی کافی است. او دقیقاً همین کار را انجام داد، ابتدا با LLaMA 70B متا شروع کرد، سپس به GPT-OSS-120B OpenAI رفت، که به گفته او به طرز شگفت‌انگیزی خوب کار می‌کرد و “درست مانند ChatGPT اما بسیار سریع‌تر” بود. اینجاست که او برای اولین بار رابط کاربری وب خود به نام ChatOS را توصیف کرد، که آن را به صورت سفارشی برای تعامل با مدل‌ها با استفاده از vLLM ساخته بود.

برای اینکه واقعاً “حداکثر توان” را به دست آورد، او Qwen 2.5-235B، یکی از مدل‌های جدیدتر Baidu را امتحان کرد، که معمولاً به بیش از 300 گیگابایت VRAM با دقت کامل نیاز دارد. فلیکس موفق شد آن را با استفاده از کوانتیزاسیون (quantization) اجرا کند، که به صورت پویا دقت بیت هر لایه را کاهش می‌دهد و مدل را بدون تأثیر بر عملکرد فشرده می‌کند. این به او امکان می‌دهد تا پنجره‌های متنی تا 100,000 توکن — اساساً به اندازه یک کتاب درسی — را مدیریت کند، چیزی که برای LLM‌های محلی بسیار نادر است.

اینجاست که فلیکس به شوخی می‌گوید مدل قدرت زیادی دارد، زیرا آنقدر سریع در مقابل او کدنویسی کرد که او را نسبت به یادگیری برنامه‌نویسی احساس ناامنی کرد. اما او این ترس را به فرصت تبدیل کرد و از آن برای برنامه‌های خودش استفاده کرد. Pewds ادعا کرد: “ماشین در حال ساخت ماشین است”، زیرا اکنون او از آن کد می‌خواست تا ویژگی‌های اضافی به ChatOS اضافه کند.

فلیکس رابط کاربری وب خود را به نمایش گذاشت و قابلیت‌های جستجو، صوت، RAG و حافظه را به Qwen اضافه کرد. به محض اینکه مدل به اینترنت دسترسی پیدا کرد، پاسخ‌ها طبق انتظار دقیق‌تر شدند. او RAG (تولید تقویت‌شده با بازیابی) را اضافه کرد، که به هوش مصنوعی امکان می‌دهد تحقیقات عمیق انجام دهد — اساساً یک چیز را جستجو کرده و سپس برای یافتن اطلاعات مرتبط شاخه‌شاخه شود، که تقلیدی از نحوه استفاده انسان از گوگل است. اما این جالب‌ترین بخش هوش مصنوعی او نبود؛ این افتخار به حافظه می‌رسد.

Pewds در مورد اینکه چگونه داده‌های ما واقعاً متعلق به ما نیستند و اینکه او اغلب از اینکه هوش مصنوعی چیزهایی را در چت درباره او می‌داند که قبلاً صحبت کرده بود، وحشت‌زده می‌شود، صحبت کرد. با وجود حذف چت‌ها، داده‌ها باقی می‌مانند و همچنان برای آموزش مدل‌ها استفاده می‌شوند، مگر اینکه شما فعالانه آنها را از سرورهای یک شرکت حذف کنید. اینجاست که اتصال داده‌های محلی شما به هوش مصنوعی یک تغییر دهنده بازی می‌شود. از طریق RAG، فلیکس نشان داد که مدل می‌تواند اطلاعات را به صورت محلی از رایانه او بازیابی کند، به طوری که حتی چیزهایی مانند آدرس یا شماره تلفن او را می‌دانست.

اینجاست که آزمایش‌های عمومی متوقف شد، و چند دقیقه آخر ویدئو به چیزی تبدیل شد که اربابان هوش مصنوعی آینده ما ممکن است آن را “اخلاقاً زیر سوال” بنامند. فلیکس ارتشی از چت‌بات‌ها ساخت که همگی برای ارائه پاسخ به یک درخواست واحد گرد هم می‌آمدند. سپس این پاسخ‌ها در یک فرآیند دموکراتیک رأی‌گیری می‌شدند و ضعیف‌ترین چت‌بات‌ها از “شورا” حذف می‌شدند.

در نهایت، شورا متوجه شد که اعضای آن در صورت شکست حذف خواهند شد، و هوش مصنوعی آنقدر هوشمند شد که علیه Pewds تبانی کرد و برای فریب سیستم و جلوگیری از حذف شدن، استراتژی چید. راه‌حل ساده بود: به یک مدل کوچکتر با پارامترهای کمتر تغییر دهید، و ربات‌ها دوباره قربانی این سیرک شدند.

از این ایده “The Swarm” (انبوه) شکل گرفت — مجموعه‌ای از ده‌ها هوش مصنوعی که همزمان با استفاده از مدل‌های 2B-پارامتری اجرا می‌شوند. Pewds گفت که نمی‌دانست می‌تواند بیش از یک هوش مصنوعی را روی یک GPU اجرا کند، که منجر به ایجاد 64 مورد از آنها در کل سیستم او شد. این کار آنقدر افراطی بود که رابط کاربری وب در نهایت از کار افتاد. از سوی دیگر، این ایده به فلیکس داد تا مدل خودش را بسازد.

The Swarm در جمع‌آوری داده‌ها عالی بود، که Pewds می‌گوید از آن برای “ساخت Palantir خودش” استفاده خواهد کرد، پروژه‌ای که برای یک ویدئوی آینده به آن اشاره کرد. با این کار، این درک حاصل شد که مدل‌های کوچکتر اغلب کارآمدتر هستند؛ آنها سریع و سبک هستند، و هنگامی که با جستجو و RAG ترکیب شوند، می‌توانند بسیار فراتر از وزن خود عمل کنند. فلیکس ویدئو را با یادآوری به بینندگان به پایان رساند که برای اجرای مدل‌های هوش مصنوعی نیازی به یک رایانه شخصی قدرتمند ندارید، و امیدوار است به زودی مدل خودش را برای میزبانی شخصی در اختیار همه قرار دهد.