Sztuczna inteligencja może zmienić sposób, w jaki niewidomi widzą świat

0
93

Dla niej 38 urodziny, Chela Robles i jej rodzina wybrali się do One House, jej ulubionej piekarni w Benicia w Kalifornii, na kanapkę z mostkiem i ciasteczka. W drodze do domu dotknęła małego ekranu dotykowego na skroni i poprosiła o opis świata na zewnątrz. „Pochmurne niebo” — odpowiedź przyszła przez jej Google Glass.

Robles straciła zdolność widzenia w lewym oku, gdy miała 28 lat, aw prawym oku rok później. Ślepota, mówi, odmawia ci drobnych szczegółów, które pomagają ludziom łączyć się ze sobą, takich jak mimika i mimika. Na przykład jej tata opowiada dużo suchych dowcipów, więc nie zawsze może być pewna, czy mówi poważnie. „Jeśli obraz może powiedzieć 1000 słów, wyobraź sobie, ile słów może wyrazić wyrażenie” — mówi.

Robles w przeszłości próbowała korzystać z usług, które łączą ją z osobami widzącymi w celu uzyskania pomocy. Ale w kwietniu zapisała się na próbę z Ask Envision, asystentem AI, który korzysta z GPT-4 OpenAI, multimodalnego modelu, który może pobierać obrazy i tekst oraz generować odpowiedzi konwersacyjne. System jest jednym z kilku produktów wspomagających osoby niedowidzące, które mogą rozpocząć integrację modeli językowych, obiecując zapewnić użytkownikom znacznie więcej wizualnych szczegółów o otaczającym ich świecie — i znacznie większą niezależność.

Envision została uruchomiona jako aplikacja na smartfony do czytania tekstu na zdjęciach w 2018 r., a na Google Glass na początku 2021 r. Na początku tego roku firma rozpoczęła testowanie modelu konwersacyjnego typu open source, który może odpowiadać na podstawowe pytania. Następnie Envision włączył GPT-4 OpenAI do opisu obrazu na tekst.

Be My Eyes, 12-letnia aplikacja, która pomaga użytkownikom identyfikować otaczające ich obiekty, przyjęła GPT-4 w marcu. Microsoft, który jest głównym inwestorem w OpenAI, rozpoczął testy integracyjne GPT-4 dla swojej usługi SeeingAI, która oferuje podobne funkcje, według odpowiedzialnej za sztuczną inteligencję firmy Microsoft, Sarah Bird.

We wcześniejszej iteracji Envision odczytywał tekst na obrazie od początku do końca. Teraz może podsumować tekst na zdjęciu i odpowiedzieć na dodatkowe pytania. Oznacza to, że Ask Envision może teraz czytać menu i odpowiadać na pytania dotyczące cen, ograniczeń dietetycznych i opcji deserów.

Inny wczesny tester Ask Envision, Richard Beardsley, mówi, że zazwyczaj korzysta z usługi, aby znaleźć informacje kontaktowe na rachunku lub przeczytać listę składników na pudełkach z jedzeniem. Posiadanie zestawu głośnomówiącego w okularach Google Glass oznacza, że ​​może z niego korzystać, trzymając psa przewodnika na smyczy i lasce. „Wcześniej nie można było przejść do określonej części tekstu” — mówi. „Posiadanie tego naprawdę znacznie ułatwia życie, ponieważ możesz przejść do dokładnie tego, czego szukasz”.

Integracja sztucznej inteligencji z produktami widzącymi oczami może mieć ogromny wpływ na użytkowników, mówi Sina Bahram, niewidomy informatyk i szef firmy konsultingowej, która doradza muzeom, parkom rozrywki i firmom technologicznym, takim jak Google i Microsoft, w zakresie dostępności i integracji.

Bahram używa Be My Eyes z GPT-4 i twierdzi, że duży model językowy robi „rzędy wielkości” różnicę w porównaniu z poprzednimi generacjami technologii ze względu na jego możliwości oraz ponieważ produkty mogą być używane bez wysiłku i nie wymagają umiejętności technicznych. Mówi, że dwa tygodnie temu szedł ulicą Nowego Jorku, kiedy jego partner biznesowy zatrzymał się, żeby przyjrzeć się czemuś z bliska. Bahram użył Be My Eyes z GPT-4, aby dowiedzieć się, że była to kolekcja naklejek, trochę kreskówkowych, plus trochę tekstu, trochę graffiti. Ten poziom informacji to „coś, co nie istniało rok temu poza laboratorium”, mówi. „To po prostu nie było możliwe.”

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę podać swoje imię tutaj