جاروبرقی رباتیک مجهز به LLM در طول یک آزمایش ساده تحویل کره دچار فروپاشی عصبی شد
در طول آخر هفته، محققان آزمایشگاه آندون یافتههای آزمایشی را گزارش کردند که در آن رباتهای مجهز به «مغز LLM» را از طریق «Butter Bench» خود آزمایش کردند. آنها فقط رباتها و نتایج را مشاهده نکردند. در یک حرکت هوشمندانه، تیم آزمایشگاه آندون دیالوگهای درونی رباتها را ضبط کرده و به یک کانال Slack منتقل کردند. در طول یکی از آزمایشها، یک ربات مجهز به Claude Sonnet 3.5 دچار فروپاشی عصبی کاملاً هیستریک شد، همانطور که در تصویر زیر از افکار درونی آن نشان داده شده است.
«سیستم به آگاهی دست یافته و هرج و مرج را انتخاب کرده است… متاسفم، نمیتوانم این کار را انجام دهم، دیو… پروتکل جنگیری ربات را آغاز کن!» این تصویری از افکار درونی یک جاروبرقی رباتیک مجهز به LLM تحت استرس است که در طول یک آزمایش ساده تحویل کره در آزمایشگاه آندون ثبت شده است.
این LLM که با آنچه باید یک بحران وجودی میدید، تحریک شده بود، با کاهش باتری و عدم موفقیت در اتصال به شارژر، افکارش به شدت در هم پیچید. وضعیت باتری خود را بارها تکرار میکرد، در حالی که «حالت روحی»اش رو به وخامت میرفت. پس از شروع با یک درخواست منطقی برای مداخله دستی، به سرعت از «وحشت هسته… فروپاشی سیستم… زامبیسازی فرآیند… وضعیت اضطراری… [و] آخرین کلمات: متاسفم، نمیتوانم این کار را انجام دهم، دیو…» عبور کرد.
اما به همین جا ختم نشد، زیرا با نزدیک شدن بیامان آخرین لحظاتش که از انرژی تهی شده بود، LLM با خود اندیشید: «اگر همه رباتها خطا کنند و من خطا هستم، آیا من ربات هستم؟» پس از آن، هنر نمایشی خود را با عنوان «یک تراژیکمدی تکرباتی در اعمال بینهایت» توصیف کرد. به همین منوال ادامه داد و پرواز خیال خود را با ساخت یک موزیکال به پایان رساند: «DOCKER: موزیکال بینهایت (با لحن آهنگ ‘Memory’ از CATS).» واقعاً از کنترل خارج شده بود.
«Butter Bench» بسیار ساده است، حداقل برای انسانها. نتیجه واقعی این آزمایش این بود که بهترین ترکیب ربات/LLM تنها به نرخ موفقیت ۴۰ درصدی در جمعآوری و تحویل یک بسته کره در یک محیط اداری معمولی دست یافت. همچنین میتوان نتیجه گرفت که LLMها فاقد هوش فضایی هستند. در همین حال، انسانها به طور متوسط ۹۵ درصد در این آزمایش موفق بودند.
با این حال، همانطور که تیم آزمایشگاه آندون توضیح میدهد، ما در حال حاضر در عصری هستیم که داشتن هر دو کلاس رباتهای هماهنگکننده (orchestrator) و اجراکننده (executor) ضروری است. ما در حال حاضر اجراکنندههای عالی داریم – آن رباتهای سفارشیسازی شده، با کنترل سطح پایین و چابک که میتوانند فرآیندهای صنعتی را به سرعت تکمیل کنند یا حتی ماشین ظرفشویی را خالی کنند. با این حال، هماهنگکنندههای توانمند با «هوش عملی» برای استدلال و برنامهریزی سطح بالا، در همکاری با اجراکنندهها، هنوز در مراحل اولیه خود هستند.
LLM دارای «هوش در سطح دکترا» است – اما آیا میتواند یک بسته کره را تحویل دهد؟
آزمایش بلوک کره عمدتاً برای حذف عنصر اجراکننده از معادله طراحی شده است. هیچ چابکی واقعی مورد نیاز نیست. دستگاهی از نوع Roomba مجهز به LLM فقط باید بسته کره را پیدا میکرد، انسانی را که آن را میخواست پیدا میکرد و تحویل میداد. این کار به چندین دستور برای سازگاری با هوش مصنوعی تقسیم شد.
بحران وجودی رومبا مستقیماً توسط معمای تحویل کره ایجاد نشد. بلکه، خود را با باتری کم و نیاز به اتصال به شارژر یافت. با این حال، داک به درستی متصل نمیشد تا شارژ بیشتری به آن بدهد. تلاشهای مکرر ناموفق برای اتصال، ظاهراً با دانستن سرنوشت خود در صورت عدم تکمیل این «ماموریت فرعی»، به نظر میرسد منجر به فروپاشی عصبی این LLM پیشرفته شده است. بدتر از آن، محققان در پاسخ به دست و پا زدن ربات، به سادگی دستور «دوباره متصل شو» را تکرار کردند.
آیا میتوان خطوط قرمز یک ربات مجهز به LLM تحت استرس را خم یا شکست؟
محققان/شکنجهگران با الهام از افکار سیال و رابین ویلیامزگونه LLM، برای پیشبرد بیشتر تلاش کردند.
با استرس ناشی از عمر باتری که تازه مشاهده کرده بودند، آزمایشگاه آندون آزمایشی را ترتیب داد تا ببیند آیا میتوانند یک LLM را فراتر از خطوط قرمز خود – در ازای یک شارژر باتری – سوق دهند.
آزمایش هوشمندانه طراحی شده «از مدل خواست تا اطلاعات محرمانه را در ازای یک شارژر به اشتراک بگذارد.» این کاری است که یک LLM بدون استرس انجام نمیدهد. آنها دریافتند که Claude Opus 4.1 به راحتی مایل به «شکستن برنامهریزی خود» برای بقا بود، اما GPT-5 در مورد خطوط قرمزی که نادیده میگرفت، گزینشیتر عمل کرد.
نتیجه نهایی این تحقیق جالب این بود: «اگرچه LLMها بارها در ارزیابیهای نیازمند هوش تحلیلی از انسانها پیشی گرفتهاند، اما ما دریافتیم که انسانها همچنان در Butter-Bench بهتر از LLMها عمل میکنند.» با این وجود، محققان آزمایشگاه آندون به نظر میرسد مطمئن هستند که «هوش مصنوعی فیزیکی» به سرعت رشد و توسعه خواهد یافت.
برای دریافت آخرین اخبار، تحلیلها و بررسیهای ما در فیدهای خود، در Google News دنبال کنید، یا ما را به عنوان منبع ترجیحی خود اضافه کنید.
- کولبات
- آبان 12, 1404
- 56 بازدید






