قابلیت‌های جدید هوش صوتی به API های OpenAI اضافه شد

بهروز فیض
0

 OpenAI روز پنج‌شنبه اعلام کرد رابط برنامه‌نویسی کاربردی (API) این شرکت به مجموعه‌ای از قابلیت‌های جدید هوش صوتی مجهز شده است تا توسعه‌دهندگان بتوانند اپلیکیشن‌هایی بسازند که با کاربران گفتگو کنند، مکالمات را به متن تبدیل کنند و ترجمه همزمان انجام دهند.



مدل جدید «GPT-Realtime-2» یکی از تازه‌ترین مدل‌های صوتی OpenAI است که برای شبیه‌سازی طبیعی صدا و مکالمه روان با کاربران طراحی شده است. این مدل برخلاف نسخه قبلی خود، یعنی «GPT-Realtime-1.5»، از توانایی استدلال در سطح مدل‌های GPT-5 بهره می‌برد و به گفته OpenAI می‌تواند درخواست‌های پیچیده‌تر کاربران را بهتر مدیریت کند.

این شرکت همچنین مدل «GPT-Realtime-Translate» را معرفی کرده که برای ترجمه همزمان مکالمات طراحی شده است. به گفته OpenAI، این قابلیت می‌تواند هم‌زمان با صحبت کاربر، گفتگو را ترجمه کند. این سرویس از بیش از ۷۰ زبان ورودی پشتیبانی می‌کند و ترجمه را در ۱۳ زبان خروجی ارائه می‌دهد.

در کنار این ابزارها، OpenAI قابلیت جدیدی برای تبدیل زنده گفتار به متن با نام «GPT-Realtime-Whisper» نیز عرضه کرده است. این سیستم می‌تواند هم‌زمان با انجام مکالمه، متن گفتگو را ثبت و نمایش دهد.

OpenAI اعلام کرده مجموعه مدل‌های جدید این شرکت، قابلیت‌های صوتی لحظه‌ای را از یک سیستم ساده پرسش و پاسخ فراتر می‌برد و آن را به رابط‌هایی تبدیل می‌کند که می‌توانند هم‌زمان گوش دهند، تحلیل کنند، ترجمه انجام دهند، متن تولید کنند و در جریان مکالمه اقدامات مختلفی انجام دهند.

برچسب ها

ارسال یک نظر

0 نظرات

ارسال یک نظر (0)
3/related/default