چرا استارتاپ های حوزه هوش مصنوعی خودشان اطلاعات را جمع آوری می کنند؟

بهروز فیض
0

 در طول یک هفته از تابستان امسال، تیلور و هم‌اتاقی‌اش دوربین‌های گوپرو را به پیشانی خود بستند و هنگام نقاشی، مجسمه‌سازی و انجام کارهای خانه فیلم‌برداری کردند. آن‌ها در حال آموزش یک مدل بینایی هوش مصنوعی بودند و با هماهنگ‌سازی دقیق زمان ضبط، امکان ثبت رفتارها از زوایای مختلف را فراهم می‌کردند. این کار از جهات مختلف دشوار بود، اما دستمزد خوبی داشت و به تیلور اجازه می‌داد بیشتر روز را صرف خلق آثار هنری کند.



او گفت هر روز طبق روال معمول از خواب بیدار می‌شدند، دوربین‌ها را روی سر می‌گذاشتند و زمان‌ها را با هم هماهنگ می‌کردند، سپس صبحانه درست می‌کردند و ظرف‌ها را می‌شستند و بعد هرکدام به کار هنری خود مشغول می‌شدند.

قرارداد آن‌ها شامل تولید پنج ساعت فیلم هماهنگ در روز بود، اما تیلور خیلی زود فهمید که باید هفت ساعت در روز برای این کار وقت بگذارد تا زمان کافی برای استراحت و بازیابی جسمی داشته باشد. او گفت این دوربین‌ها باعث سردرد می‌شدند و بعد از برداشتنشان، جای قرمز روی پیشانی باقی می‌ماند.

تیلور که نخواست نام خانوادگی‌اش فاش شود، به‌عنوان فریلنسر داده با شرکت هوش مصنوعی Turing همکاری می‌کرد؛ شرکتی که او را به رسانه TechCrunch معرفی کرده بود. هدف تورینگ آموزش نقاشی نبود، بلکه توسعه توانایی‌های انتزاعی مانند حل مسائل متوالی و استدلال بصری بود. برخلاف مدل‌های زبانی بزرگ، مدل بینایی تورینگ کاملاً بر اساس ویدیو آموزش داده می‌شود و بیشتر داده‌ها مستقیماً توسط خود شرکت جمع‌آوری می‌شود.

علاوه بر هنرمندانی مانند تیلور، تورینگ با آشپزها، کارگران ساختمانی و برق‌کارها نیز قرارداد بسته است؛ افرادی که با دست کار می‌کنند. رئیس بخش AGI تورینگ، سودهارشان سیوارامان، گفت تنها راه دستیابی به مجموعه داده متنوع، جمع‌آوری دستی اطلاعات است. او گفت این کار را برای انواع مختلف مشاغل یدی انجام می‌دهند تا تنوع داده‌ها در مرحله پیش‌آموزش تضمین شود و پس از ثبت این اطلاعات، مدل‌ها بتوانند درک کنند که هر وظیفه چگونه انجام می‌شود.


فعالیت شرکت Turing در زمینه مدل‌های بینایی بخشی از تغییرات گسترده‌تری در نحوه برخورد شرکت‌های هوش مصنوعی با داده‌هاست. در گذشته، مجموعه‌های آموزشی اغلب به‌صورت رایگان از وب جمع‌آوری می‌شدند یا توسط نیروهای کم‌دستمزد برچسب‌گذاری می‌شدند، اما اکنون شرکت‌ها برای داده‌های گزینش‌شده و باکیفیت هزینه‌های بالایی پرداخت می‌کنند.

با تثبیت قدرت خام هوش مصنوعی، شرکت‌ها به داده‌های اختصاصی به‌عنوان مزیت رقابتی نگاه می‌کنند و به‌جای واگذاری کار به پیمانکاران، اغلب خودشان مسئولیت جمع‌آوری داده را برعهده می‌گیرند.

شرکت ایمیل Fyxer نمونه‌ای از این رویکرد است؛ شرکتی که از مدل‌های هوش مصنوعی برای مرتب‌سازی ایمیل‌ها و نگارش پاسخ‌ها استفاده می‌کند. بنیان‌گذار آن، ریچارد هالینگزورث، پس از چند آزمایش اولیه دریافت که بهترین روش استفاده از مجموعه‌ای از مدل‌های کوچک با داده‌های آموزشی متمرکز است. برخلاف Turing، Fyxer از مدل پایه شرکت دیگری استفاده می‌کند، اما اصل ماجرا یکسان است: کیفیت داده‌ها مهم‌تر از کمیت آن‌هاست.


در عمل، این رویکرد به انتخاب‌های غیرمعمول در نیروی انسانی منجر شد. در روزهای ابتدایی، تعداد دستیاران اجرایی باتجربه که برای آموزش مدل به کار گرفته می‌شدند، چهار برابر مهندسان و مدیران شرکت بود. هدف آموزش مدل درباره اصول اولیه پاسخ‌دادن به ایمیل‌ها بود؛ مسئله‌ای که به‌شدت وابسته به درک انسانی است و یافتن افراد مناسب برای آن دشوار است.

فرایند جمع‌آوری داده هرگز متوقف نشد، اما با گذشت زمان، هالینگزورث نسبت به مجموعه‌های داده حساس‌تر شد و در مرحله پس‌آموزش، مجموعه‌های کوچک‌تر و دقیق‌تر را ترجیح داد. او تأکید می‌کند که کیفیت داده‌ها عامل اصلی تعیین‌کننده عملکرد مدل است.

این موضوع به‌ویژه در مورد داده‌های مصنوعی اهمیت دارد، زیرا هم دامنه سناریوهای آموزشی را گسترش می‌دهد و هم نقص‌های موجود در داده‌های اولیه را تشدید می‌کند. در مدل‌های بینایی Turing، حدود ۷۵ تا ۸۰ درصد داده‌ها مصنوعی هستند و از ویدیوهای گوپرو استخراج شده‌اند، بنابراین حفظ کیفیت اولیه داده‌ها اهمیت بیشتری پیدا می‌کند. سیوارامان می‌گوید اگر داده‌های اولیه کیفیت خوبی نداشته باشند، داده‌های مصنوعی نیز بی‌کیفیت خواهند بود.

فراتر از دغدغه‌های کیفی، منطق رقابتی قدرتمندی پشت جمع‌آوری داخلی داده‌ها وجود دارد. برای Fyxer، سختی کار جمع‌آوری داده یکی از بهترین سدهای دفاعی در برابر رقباست. از دیدگاه هالینگزورث، هر کسی می‌تواند یک مدل متن‌باز را وارد محصول خود کند، اما همه نمی‌توانند نیروهای متخصصی برای آموزش آن پیدا کنند. او معتقد است بهترین راه، استفاده از داده‌های اختصاصی، ساخت مدل‌های سفارشی و آموزش انسانی باکیفیت است.


برچسب ها

ارسال یک نظر

0 نظرات

ارسال یک نظر (0)
3/related/default