آزمایشگاه هوش مصنوعی زیرزمینی ۱۰,۰۰۰ ساعت اسکن مغزی را برای آموزش مدلهای هوش مصنوعی تبدیل فکر به متن جمعآوری میکند
یک استارتآپ در سانفرانسیسکو شش ماه گذشته را صرف اجرای یکی از غیرمعمولترین پروژههای داده در هوش مصنوعی کرده است. Conduit میگوید که تقریباً ۱۰,۰۰۰ ساعت داده عصبی غیرتهاجمی را از «هزاران فرد منحصربهفرد» در یک استودیوی زیرزمینی جمعآوری کرده است که به اعتقاد این شرکت، بزرگترین مجموعه داده عصبی-زبانی است که تا به امروز گردآوری شده است. این شرکت از این ضبطها برای آموزش مدلهای هوش مصنوعی تبدیل فکر به متن استفاده میکند که تلاش میکنند محتوای معنایی را از فعالیت مغز در ثانیههای قبل از صحبت کردن یا تایپ کردن شرکتکننده رمزگشایی کنند.
شرکتکنندگان برای جلسات دو ساعته در غرفههای کوچک مینشینند و آزادانه با یک LLM از طریق گفتار یا تایپ بر روی کیبوردهای «سادهشده» گفتگو میکنند. جلسات اولیه بر وظایف سفت و سخت متکی بودند، اما Conduit پس از مشاهده اینکه تعامل به شدت بر کیفیت داده تأثیر میگذارد، به گفتگوی رفت و برگشتی شخصیسازی شده روی آورد. هدف این است که حداکثر مقدار زبان طبیعی تولید شده در طول هر ضبط را به دست آورد و در عین حال همترازی زمانی دقیق بین متن، صوت و سیگنالهای عصبی را حفظ کند.
Conduit سختافزار را خودش ساخت، زیرا متوجه شد هیچ هدست چندوجهی تجاری الزامات آن را برآورده نمیکند. تیم بهترین سنسورهای EEG، fNIRS و سایر سنسورها را در پوستههای سفارشی چاپ سهبعدی ترکیب کرد و طرحهای جداگانهای برای آموزش و استنتاج ایجاد کرد. هدستهای آموزشی دستگاههای متراکم و سنگین چهار پوندی هستند که برای به حداکثر رساندن پوشش سیگنال طراحی شدهاند، در حالی که هدستهای استنتاجی با مطالعات حذف (ablation studies) که پس از بلوغ مدلها انجام میشود، شکل خواهند گرفت. اکنون تمام دادهها از طریق فرمت Zarr 3 جریان مییابند که ورودی چندین نوع سنسور را تحت یک چارچوب واحد یکپارچه میکند.
این شرکت در ابتدا تداخل الکتریکی را تهدید اصلی برای کیفیت داده میدانست. کارکنان تجهیزات را در لاستیک پیچیدند، با فیلترهای برق آزمایش کردند و در نهایت برق اصلی را به طور کامل قطع کردند و برای حذف پیک ۶۰ هرتز که در ضبطهای EEG معمول است، به بستههای باتری متکی شدند. این رویکرد مشکلات خاص خود را ایجاد کرد، از جمله افت فریمها و چرخش مداوم باتریهای سنگین، اما Conduit بعداً پس از کشف اینکه مقیاس، مصالحهها را تغییر میدهد، برق عادی را بازگرداند. هنگامی که مجموعه داده به تقریباً ۴,۰۰۰ تا ۵,۰۰۰ ساعت رسید، مدل شروع به تعمیمپذیری در بین افراد، غرفهها و تنظیمات کرد و ارزش کاهش نویز تهاجمی را کاهش داد.
با افزایش مقیاس فرآیند، هزینههای عملیاتی کاهش یافت. Conduit با طراحی مجدد بکاند خود برای شناسایی جلسات خراب در زمان واقعی و اجازه دادن به مدیران جلسات برای نظارت بر چندین غرفه از طریق دوربین، هزینه نهایی هر ساعت داده قابل استفاده را بین ماه مه و اکتبر حدود ۴۰٪ کاهش داد. یک سیستم رزرو سفارشی، قیمتگذاری پویا و رزرو بیش از حد را برای پر نگه داشتن هدستهای خود در طول یک برنامه ۲۰ ساعته روزانه معرفی کرد.
Conduit میگوید که اکنون تقریباً به طور کامل بر آموزش مدل متمرکز است و قصد دارد سیستم رمزگشایی خود را در انتشار بعدی جزئیات دهد.
- کولبات
- آذر 20, 1404
- 35 بازدید






