پژوهشگران مایکروسافت مدعی هستند که بزرگترین مدل هوش مصنوعی ۱-بیتی تا به امروز، که با نام «بیتنت» شناخته میشود، را توسعه دادهاند. این مدل که BitNet b1.58 2B4T نام دارد، تحت مجوز MIT بهصورت آزاد در دسترس قرار گرفته و میتواند روی CPUها، از جمله پردازنده M2 اپل، اجرا شود.
بیتنتها در اصل مدلهای فشردهشدهای هستند که برای اجرا روی سختافزارهای سبک طراحی شدهاند. در مدلهای استاندارد، «وزنها» یا همان مقادیری که ساختار درونی مدل را تعریف میکنند، معمولاً بهصورت کمدقت (quantized) در میآیند تا عملکرد مدل در طیف وسیعی از دستگاهها مناسب باشد. کمکردن دقت وزنها باعث میشود تعداد بیتهایی که برای نمایش آنها لازم است کاهش یابد — که این خود به اجرای بهتر مدلها روی چیپهایی با حافظه کمتر و سرعت بالاتر کمک میکند.
بیتنتها وزنها را فقط به سه مقدار -۱، ۰ و ۱ کاهش میدهند. از نظر تئوری، این کار آنها را بسیار کارآمدتر از لحاظ مصرف حافظه و پردازش نسبت به مدلهای امروزی میسازد.
به گفته پژوهشگران مایکروسافت، BitNet b1.58 2B4T اولین بیتنت با ۲ میلیارد پارامتر است؛ پارامترهایی که عملاً همان «وزنها» به شمار میروند. این مدل با استفاده از مجموعه دادهای شامل ۴ تریلیون توکن آموزش دیده — که طبق برآوردی معادل حدود ۳۳ میلیون کتاب است. پژوهشگران ادعا میکنند که این مدل عملکرد بهتری نسبت به مدلهای سنتی با اندازه مشابه دارد.