اورژانسها و دیگر مراکز درمانی در سراسر جهان اکنون یک قدم به این نزدیکتر شدهاند که شبیه کابین خلبانی «میلنیوم فالکون» شوند؛ جایی که پزشکان انسانی برای تشخیص بیماران از هوش مصنوعی مشورت میگیرند، با آن بحث میکنند و در بسیاری موارد به توصیههای آن اعتماد میکنند.
پژوهشگرانی از دانشگاه هاروارد و مرکز پزشکی Beth Israel Deaconess در بوستون، یک مدل زبانی پیشرفته را در مقایسه با دو پزشک متخصص انسانی در مرحله تریاژ اورژانس (اولین مرحله تشخیص وضعیت بیمار) آزمایش کردهاند.
این مدل، یعنی o1-preview از اوپنایآی که نخستین مدل موسوم به «استدلالگر» این شرکت است، در ۶۷.۱ درصد از ۷۶ پرونده واقعی اورژانس، تشخیص درست یا بسیار نزدیک به درست ارائه داد. این نتایج در مطالعهای که امروز در نشریه Science منتشر شده گزارش شده است. در مقابل، دو پزشک متخصص از مؤسسات دانشگاهی معتبر به ترتیب ۵۵.۳ درصد و ۵۰ درصد دقت داشتند. همچنین داوران پزشکی که نتایج را بهصورت کور بررسی کرده بودند، نتوانستند تشخیصهای ارائهشده توسط هوش مصنوعی و انسان را از یکدیگر تفکیک کنند.
در این مطالعه همچنین مدل o1 و مدلهای قبلی اوپنایآی مانند ChatGPT-4 در برابر عملکرد پایه پزشکان در تشخیص ۱۴۳ مورد پیچیده که بهصورت سناریوهای بالینی در مجله New England Journal of Medicine منتشر شده بود، مورد آزمایش قرار گرفتند.
