گوگل روز پنجشنبه اعلام کرد که در حال ارائه ویژگیهای جدید هوش مصنوعی و دسترسیپذیری برای اندروید و مرورگر کروم است. مهمترین آنها، قابلیت جدیدی در TalkBack (صفحهخوان اندروید) است که اکنون به کاربران اجازه میدهد با Gemini درباره محتوای تصاویر و آنچه روی صفحه نمایش است سؤال بپرسند.
سال گذشته، گوگل قابلیتهای Gemini را به TalkBack اضافه کرد تا به افراد نابینا یا کمبینا امکان دسترسی به توضیحات تولیدشده با هوش مصنوعی برای تصاویر را بدهد، حتی زمانی که متن جایگزین (Alt text) وجود ندارد. اکنون کاربران میتوانند درباره تصاویر خود سؤال بپرسند و پاسخ دریافت کنند.
برای مثال، اگر دوستی برایتان عکسی از گیتار جدیدش بفرستد، میتوانید توضیحی درباره آن دریافت کنید و سؤالاتی در مورد برند و رنگ آن بپرسید. علاوه بر این، اکنون میتوانید توضیحاتی درباره کل صفحه نمایش گوشی خود دریافت کرده و سؤالاتی مطرح کنید. بنابراین، اگر در یک اپلیکیشن خرید میکنید، میتوانید از Gemini بپرسید جنس یک محصول چیست یا آیا تخفیفی برای آن وجود دارد یا نه.
گوگل همچنین امروز اعلام کرد که قابلیت Expressive Captions (زیرنویسگذاری زنده اندروید) را بهروزرسانی کرده است. این ویژگی با استفاده از هوش مصنوعی، نهتنها گفتههای افراد را بهصورت زنده زیرنویس میکند، بلکه نحوه بیان آنها را نیز در نظر میگیرد.
گوگل میگوید میداند که یکی از راههای بیان احساسات توسط افراد، کش دادن صداهاست. به همین دلیل، ویژگی جدیدی به نام مدت زمان بیان (Duration) را به Expressive Captions افزوده است. حالا میتوانید متوجه شوید که مثلاً گزارشگر ورزشی دارد یک «شووووت فوقالعاده» را فریاد میزند یا کسی فقط نمیگوید «نه»، بلکه با تأکید میگوید «نهههههه». همچنین، برچسبهای جدیدی برای صداها اضافه شدهاند، مثلاً وقتی کسی سوت میزند یا سینهاش را صاف میکند، اینها نیز در زیرنویس نمایش داده میشوند.