OpenAI روز پنجشنبه اعلام کرد رابط برنامهنویسی کاربردی (API) این شرکت به مجموعهای از قابلیتهای جدید هوش صوتی مجهز شده است تا توسعهدهندگان بتوانند اپلیکیشنهایی بسازند که با کاربران گفتگو کنند، مکالمات را به متن تبدیل کنند و ترجمه همزمان انجام دهند.
مدل جدید «GPT-Realtime-2» یکی از تازهترین مدلهای صوتی OpenAI است که برای شبیهسازی طبیعی صدا و مکالمه روان با کاربران طراحی شده است. این مدل برخلاف نسخه قبلی خود، یعنی «GPT-Realtime-1.5»، از توانایی استدلال در سطح مدلهای GPT-5 بهره میبرد و به گفته OpenAI میتواند درخواستهای پیچیدهتر کاربران را بهتر مدیریت کند.
این شرکت همچنین مدل «GPT-Realtime-Translate» را معرفی کرده که برای ترجمه همزمان مکالمات طراحی شده است. به گفته OpenAI، این قابلیت میتواند همزمان با صحبت کاربر، گفتگو را ترجمه کند. این سرویس از بیش از ۷۰ زبان ورودی پشتیبانی میکند و ترجمه را در ۱۳ زبان خروجی ارائه میدهد.
در کنار این ابزارها، OpenAI قابلیت جدیدی برای تبدیل زنده گفتار به متن با نام «GPT-Realtime-Whisper» نیز عرضه کرده است. این سیستم میتواند همزمان با انجام مکالمه، متن گفتگو را ثبت و نمایش دهد.
OpenAI اعلام کرده مجموعه مدلهای جدید این شرکت، قابلیتهای صوتی لحظهای را از یک سیستم ساده پرسش و پاسخ فراتر میبرد و آن را به رابطهایی تبدیل میکند که میتوانند همزمان گوش دهند، تحلیل کنند، ترجمه انجام دهند، متن تولید کنند و در جریان مکالمه اقدامات مختلفی انجام دهند.
