Microsoft AI rysuje obiekty z opisów tekstowych

Zgodnie z artykułem akademickim opublikowanym przez badaczy Microsoft, nowe oprogramowanie sztucznej inteligencji opracowane w Microsoft jest w stanie „wyciągnąć” zasadniczo wszystko z opisów tekstowych. Na przykład, jeśli użytkownik poprosi komputer o „narysowanie żółtego ptaka z czarnymi skrzydłami i małym dziobem”, wynikiem będzie ten, który widać na obrazie.

Ptaki te mogą nie istnieć w prawdziwym świecie, są tylko aspektem wyobraźni naszego komputera na temat ptaków.

„Jeśli otworzysz wyszukiwanie ptaków Bing, zobaczysz zdjęcia ptaków. Ale tutaj zdjęcia są tworzone przez komputer, piksel po pikselu, od zera ”- skomentował Xiaodong He, lider badań w Microsoft, w oficjalnej publikacji Microsoft. „Ptaki te mogą nie istnieć w prawdziwym świecie, są tylko aspektem wyobraźni ptaków naszego komputera” - dodał.

Dalej wyjaśnia, że ​​obecne wyniki przynoszone przez komputer nie są idealne, ale mogą się zbliżyć. Chodzi o to, że takie inteligentne oprogramowanie może ostatecznie służyć jako asystent rysowania dla artystów, a nawet projektantów wnętrz.

Microsoft

W przyszłości taki profesjonalista może sfotografować środowisko domowe, a następnie poprosić o komputer: „Dodaj lewy narożny szary tapicerowany drewniany fotel”. Komputer może nie tylko pomóc w konfiguracji środowiska, ale także stworzyć meble i inne elementy.

Proces

Początkowe badania zespołu pracującego nad tym projektem w firmie Microsoft rozpoczęły się od eksperymentów z CaptionBot, systemem sztucznej inteligencji, który może pisać opisowe podpisy do każdego zdjęcia. Następnie stworzyli kolejne oprogramowanie AI, które może odpowiedzieć na pytania ludzi dotyczące zdjęcia, SeenAI, które może być szczególnie przydatne dla osób niedowidzących.

Wreszcie grupa była w stanie opracować technologię umożliwiającą generowanie tych rysunków na podstawie opisów tekstowych. Pierwsza część nosi nazwę Generative Adversarial Network (GAN), zaprojektowaną do generowania obrazów, a druga część jest znana jako „dyskryminator”, który ocenia jakość zdjęć.

Uwaga jest ludzką koncepcją; używamy matematyki, aby uwaga była koncepcją obliczeniową

Ten system został przeszkolony z użyciem par podpisów obrazów, aby oprogramowanie mogło zrozumieć, które słowa pasują do których obrazów. Później konieczne było stworzenie modelu matematycznego, aby skupić się na stworzeniu opracowanym przez system. „Uwaga jest ludzką koncepcją; używamy matematyki, aby uwaga stała się koncepcją obliczeniową ”- powiedział He.

Badacz uważa, że ​​w końcu możliwe będzie tworzenie filmów animowanych ze skryptów napisanych przy użyciu takich systemów, ale nie przewidujemy, kiedy coś takiego może być komercyjnie zastosowane do dowolnego produktu Microsoft.

Microsoft AI „rysuje” obiekty z opisów tekstowych za pośrednictwem TecMundo