Basement AI lab captures 10,000 hours of brain scans to train thought-to-text AI models — largest known neural dataset collected from thousands of humans over six months | Tom's Hardware

آزمایشگاه هوش مصنوعی زیرزمینی ۱۰,۰۰۰ ساعت اسکن مغزی را برای آموزش مدل‌های هوش مصنوعی تبدیل فکر به متن جمع‌آوری می‌کند

یک استارت‌آپ در سانفرانسیسکو شش ماه گذشته را صرف اجرای یکی از غیرمعمول‌ترین پروژه‌های داده در هوش مصنوعی کرده است. Conduit می‌گوید که تقریباً ۱۰,۰۰۰ ساعت داده عصبی غیرتهاجمی را از «هزاران فرد منحصربه‌فرد» در یک استودیوی زیرزمینی جمع‌آوری کرده است که به اعتقاد این شرکت، بزرگترین مجموعه داده عصبی-زبانی است که تا به امروز گردآوری شده است. این شرکت از این ضبط‌ها برای آموزش مدل‌های هوش مصنوعی تبدیل فکر به متن استفاده می‌کند که تلاش می‌کنند محتوای معنایی را از فعالیت مغز در ثانیه‌های قبل از صحبت کردن یا تایپ کردن شرکت‌کننده رمزگشایی کنند.

شرکت‌کنندگان برای جلسات دو ساعته در غرفه‌های کوچک می‌نشینند و آزادانه با یک LLM از طریق گفتار یا تایپ بر روی کیبوردهای «ساده‌شده» گفتگو می‌کنند. جلسات اولیه بر وظایف سفت و سخت متکی بودند، اما Conduit پس از مشاهده اینکه تعامل به شدت بر کیفیت داده تأثیر می‌گذارد، به گفتگوی رفت و برگشتی شخصی‌سازی شده روی آورد. هدف این است که حداکثر مقدار زبان طبیعی تولید شده در طول هر ضبط را به دست آورد و در عین حال هم‌ترازی زمانی دقیق بین متن، صوت و سیگنال‌های عصبی را حفظ کند.

رندری از یک مفهوم هدست آموزشی طراحی شده توسط Conduit.

Conduit سخت‌افزار را خودش ساخت، زیرا متوجه شد هیچ هدست چندوجهی تجاری الزامات آن را برآورده نمی‌کند. تیم بهترین سنسورهای EEG، fNIRS و سایر سنسورها را در پوسته‌های سفارشی چاپ سه‌بعدی ترکیب کرد و طرح‌های جداگانه‌ای برای آموزش و استنتاج ایجاد کرد. هدست‌های آموزشی دستگاه‌های متراکم و سنگین چهار پوندی هستند که برای به حداکثر رساندن پوشش سیگنال طراحی شده‌اند، در حالی که هدست‌های استنتاجی با مطالعات حذف (ablation studies) که پس از بلوغ مدل‌ها انجام می‌شود، شکل خواهند گرفت. اکنون تمام داده‌ها از طریق فرمت Zarr 3 جریان می‌یابند که ورودی چندین نوع سنسور را تحت یک چارچوب واحد یکپارچه می‌کند.

این شرکت در ابتدا تداخل الکتریکی را تهدید اصلی برای کیفیت داده می‌دانست. کارکنان تجهیزات را در لاستیک پیچیدند، با فیلترهای برق آزمایش کردند و در نهایت برق اصلی را به طور کامل قطع کردند و برای حذف پیک ۶۰ هرتز که در ضبط‌های EEG معمول است، به بسته‌های باتری متکی شدند. این رویکرد مشکلات خاص خود را ایجاد کرد، از جمله افت فریم‌ها و چرخش مداوم باتری‌های سنگین، اما Conduit بعداً پس از کشف اینکه مقیاس، مصالحه‌ها را تغییر می‌دهد، برق عادی را بازگرداند. هنگامی که مجموعه داده به تقریباً ۴,۰۰۰ تا ۵,۰۰۰ ساعت رسید، مدل شروع به تعمیم‌پذیری در بین افراد، غرفه‌ها و تنظیمات کرد و ارزش کاهش نویز تهاجمی را کاهش داد.

با افزایش مقیاس فرآیند، هزینه‌های عملیاتی کاهش یافت. Conduit با طراحی مجدد بک‌اند خود برای شناسایی جلسات خراب در زمان واقعی و اجازه دادن به مدیران جلسات برای نظارت بر چندین غرفه از طریق دوربین، هزینه نهایی هر ساعت داده قابل استفاده را بین ماه مه و اکتبر حدود ۴۰٪ کاهش داد. یک سیستم رزرو سفارشی، قیمت‌گذاری پویا و رزرو بیش از حد را برای پر نگه داشتن هدست‌های خود در طول یک برنامه ۲۰ ساعته روزانه معرفی کرد.

Conduit می‌گوید که اکنون تقریباً به طور کامل بر آموزش مدل متمرکز است و قصد دارد سیستم رمزگشایی خود را در انتشار بعدی جزئیات دهد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

جستجو در سایت

سبد خرید

درحال بارگذاری ...
بستن
مقایسه
مقایسه محصولات
لیست مقایسه محصولات شما خالی می باشد!