یک مطالعه جدید عملکرد مدلهای زبانی بزرگ را در موقعیتهای مختلف پزشکی، از جمله موارد واقعی در بخش اورژانس، بررسی کرده و نشان داده که دستکم یکی از این مدلها در برخی موارد از پزشکان انسانی دقیقتر عمل کرده است.
این پژوهش در نشریه Science منتشر شده و توسط گروهی از پزشکان و متخصصان علوم کامپیوتر در دانشکده پزشکی هاروارد و مرکز پزشکی Beth Israel Deaconess انجام شده است. پژوهشگران در این مطالعه تلاش کردند عملکرد مدلهای شرکت OpenAI را با پزشکان مقایسه کنند.
در یکی از آزمایشها، وضعیت ۷۶ بیمار که به بخش اورژانس این مرکز مراجعه کرده بودند بررسی شد. در این بررسی، تشخیصهای دو پزشک متخصص داخلی با تشخیصهای ارائهشده توسط مدلهای o1 و 4o از OpenAI مقایسه شد. این تشخیصها توسط دو پزشک دیگر ارزیابی شدند، بدون اینکه بدانند کدام تشخیص مربوط به انسان و کدام مربوط به هوش مصنوعی است.
بر اساس نتایج، مدل o1 در هر مرحله از فرایند تشخیص یا عملکردی بهتر از پزشکان داشت یا در همان سطح عمل کرد و مدل 4o نیز نتایج مشابهی نشان داد. تفاوتها بهویژه در مرحله اولیه تشخیص در اورژانس بیشتر بود، جایی که اطلاعات کمتری درباره بیمار در دسترس است و نیاز به تصمیمگیری سریع وجود دارد.
پژوهشگران در بیانیه دانشکده پزشکی هاروارد تأکید کردند که هیچگونه پیشپردازشی روی دادهها انجام نشده و مدلهای هوش مصنوعی دقیقاً به همان اطلاعاتی دسترسی داشتند که در زمان تشخیص در پروندههای الکترونیکی بیماران ثبت شده بود.
