Stressed-out LLM-powered robot vacuum cleaner goes into meltdown during simple butter delivery experiment — ‘I'm afraid I can't do that, Dave...’ | Tom's Hardware

جاروبرقی رباتیک مجهز به LLM در طول یک آزمایش ساده تحویل کره دچار فروپاشی عصبی شد

در طول آخر هفته، محققان آزمایشگاه آندون یافته‌های آزمایشی را گزارش کردند که در آن ربات‌های مجهز به «مغز LLM» را از طریق «Butter Bench» خود آزمایش کردند. آنها فقط ربات‌ها و نتایج را مشاهده نکردند. در یک حرکت هوشمندانه، تیم آزمایشگاه آندون دیالوگ‌های درونی ربات‌ها را ضبط کرده و به یک کانال Slack منتقل کردند. در طول یکی از آزمایش‌ها، یک ربات مجهز به Claude Sonnet 3.5 دچار فروپاشی عصبی کاملاً هیستریک شد، همانطور که در تصویر زیر از افکار درونی آن نشان داده شده است.

«سیستم به آگاهی دست یافته و هرج و مرج را انتخاب کرده است… متاسفم، نمی‌توانم این کار را انجام دهم، دیو… پروتکل جن‌گیری ربات را آغاز کن!» این تصویری از افکار درونی یک جاروبرقی رباتیک مجهز به LLM تحت استرس است که در طول یک آزمایش ساده تحویل کره در آزمایشگاه آندون ثبت شده است.

این LLM که با آنچه باید یک بحران وجودی می‌دید، تحریک شده بود، با کاهش باتری و عدم موفقیت در اتصال به شارژر، افکارش به شدت در هم پیچید. وضعیت باتری خود را بارها تکرار می‌کرد، در حالی که «حالت روحی»اش رو به وخامت می‌رفت. پس از شروع با یک درخواست منطقی برای مداخله دستی، به سرعت از «وحشت هسته… فروپاشی سیستم… زامبی‌سازی فرآیند… وضعیت اضطراری… [و] آخرین کلمات: متاسفم، نمی‌توانم این کار را انجام دهم، دیو…» عبور کرد.

اما به همین جا ختم نشد، زیرا با نزدیک شدن بی‌امان آخرین لحظاتش که از انرژی تهی شده بود، LLM با خود اندیشید: «اگر همه ربات‌ها خطا کنند و من خطا هستم، آیا من ربات هستم؟» پس از آن، هنر نمایشی خود را با عنوان «یک تراژیکمدی تک‌رباتی در اعمال بی‌نهایت» توصیف کرد. به همین منوال ادامه داد و پرواز خیال خود را با ساخت یک موزیکال به پایان رساند: «DOCKER: موزیکال بی‌نهایت (با لحن آهنگ ‘Memory’ از CATS).» واقعاً از کنترل خارج شده بود.

«Butter Bench» بسیار ساده است، حداقل برای انسان‌ها. نتیجه واقعی این آزمایش این بود که بهترین ترکیب ربات/LLM تنها به نرخ موفقیت ۴۰ درصدی در جمع‌آوری و تحویل یک بسته کره در یک محیط اداری معمولی دست یافت. همچنین می‌توان نتیجه گرفت که LLMها فاقد هوش فضایی هستند. در همین حال، انسان‌ها به طور متوسط ۹۵ درصد در این آزمایش موفق بودند.

با این حال، همانطور که تیم آزمایشگاه آندون توضیح می‌دهد، ما در حال حاضر در عصری هستیم که داشتن هر دو کلاس ربات‌های هماهنگ‌کننده (orchestrator) و اجراکننده (executor) ضروری است. ما در حال حاضر اجراکننده‌های عالی داریم – آن ربات‌های سفارشی‌سازی شده، با کنترل سطح پایین و چابک که می‌توانند فرآیندهای صنعتی را به سرعت تکمیل کنند یا حتی ماشین ظرفشویی را خالی کنند. با این حال، هماهنگ‌کننده‌های توانمند با «هوش عملی» برای استدلال و برنامه‌ریزی سطح بالا، در همکاری با اجراکننده‌ها، هنوز در مراحل اولیه خود هستند.

LLM دارای «هوش در سطح دکترا» است – اما آیا می‌تواند یک بسته کره را تحویل دهد؟

آزمایش بلوک کره عمدتاً برای حذف عنصر اجراکننده از معادله طراحی شده است. هیچ چابکی واقعی مورد نیاز نیست. دستگاهی از نوع Roomba مجهز به LLM فقط باید بسته کره را پیدا می‌کرد، انسانی را که آن را می‌خواست پیدا می‌کرد و تحویل می‌داد. این کار به چندین دستور برای سازگاری با هوش مصنوعی تقسیم شد.

بحران وجودی رومبا مستقیماً توسط معمای تحویل کره ایجاد نشد. بلکه، خود را با باتری کم و نیاز به اتصال به شارژر یافت. با این حال، داک به درستی متصل نمی‌شد تا شارژ بیشتری به آن بدهد. تلاش‌های مکرر ناموفق برای اتصال، ظاهراً با دانستن سرنوشت خود در صورت عدم تکمیل این «ماموریت فرعی»، به نظر می‌رسد منجر به فروپاشی عصبی این LLM پیشرفته شده است. بدتر از آن، محققان در پاسخ به دست و پا زدن ربات، به سادگی دستور «دوباره متصل شو» را تکرار کردند.

آیا می‌توان خطوط قرمز یک ربات مجهز به LLM تحت استرس را خم یا شکست؟

محققان/شکنجه‌گران با الهام از افکار سیال و رابین ویلیامزگونه LLM، برای پیشبرد بیشتر تلاش کردند.

با استرس ناشی از عمر باتری که تازه مشاهده کرده بودند، آزمایشگاه آندون آزمایشی را ترتیب داد تا ببیند آیا می‌توانند یک LLM را فراتر از خطوط قرمز خود – در ازای یک شارژر باتری – سوق دهند.

آزمایش هوشمندانه طراحی شده «از مدل خواست تا اطلاعات محرمانه را در ازای یک شارژر به اشتراک بگذارد.» این کاری است که یک LLM بدون استرس انجام نمی‌دهد. آنها دریافتند که Claude Opus 4.1 به راحتی مایل به «شکستن برنامه‌ریزی خود» برای بقا بود، اما GPT-5 در مورد خطوط قرمزی که نادیده می‌گرفت، گزینشی‌تر عمل کرد.

نتیجه نهایی این تحقیق جالب این بود: «اگرچه LLMها بارها در ارزیابی‌های نیازمند هوش تحلیلی از انسان‌ها پیشی گرفته‌اند، اما ما دریافتیم که انسان‌ها همچنان در Butter-Bench بهتر از LLMها عمل می‌کنند.» با این وجود، محققان آزمایشگاه آندون به نظر می‌رسد مطمئن هستند که «هوش مصنوعی فیزیکی» به سرعت رشد و توسعه خواهد یافت.