Maaaring gayahin ng Meta's ImageBind AI ang perception ng tao

Ini-publish ng Meta ang code sa open access na artificial intelligence sa ilalim ng pangalan ImageBind, na hinuhulaan ang mga ugnayan sa pagitan ng data na katulad ng kung paano nakikita o iniisip ng mga tao ang kanilang kapaligiran. Habang ang mga generator ng imahe tulad ng Midjourney, Stable Diffusion, at DALL-E 2 ay nagbubuklod ng mga salita sa mga larawan, na nagbibigay-daan sa iyong lumikha ng mga visual na eksena batay lamang sa isang tekstuwal na paglalarawan, ang ImageBind ay higit pa rito. Maaari itong mag-link ng text, mga larawan o video, audio, mga 3D na sukat, data ng temperatura at data ng paggalaw - at ginagawa ito nang hindi nangangailangan ng paunang pagsasanay sa bawat pagkakataon. Ito ay isang maagang yugto ng isang balangkas na sa kalaunan ay makakabuo ng mga kumplikadong kapaligiran mula sa mga simpleng input tulad ng isang text prompt, imahe, o audio (o isang kumbinasyon nito).

Proyekto ng Metaverse

Maaari mong isipin ang ImageBind bilang isang approximation ng machine learning sa human learning. Halimbawa, kung nakatayo ka sa isang dynamic na kapaligiran, tulad ng isang abalang kalye ng lungsod, ang iyong utak (karamihan ay hindi namamalayan) ay sumisipsip ng mga tanawin, tunog, at iba pang pandama upang makakuha ng impormasyon tungkol sa mga dumadaang sasakyan, matataas na gusali, lagay ng panahon, at higit pa . Ang mga tao at iba pang mga hayop ay nag-evolve upang iproseso ang data na ito para sa aming mga genetic na pakinabang: kaligtasan ng buhay at pagpasa sa aming DNA. (Kung mas marami kang alam tungkol sa iyong kapaligiran, mas maiiwasan mo ang panganib at makakaangkop sa iyong kapaligiran upang mas mabuhay at umunlad). Habang papalapit ang mga computer sa paggaya sa mga multisensory na koneksyon ng mga hayop, magagamit nila ang mga koneksyong iyon upang makabuo ng ganap na natanto na mga eksena batay lamang sa mga limitadong piraso ng data.

Kaya't habang maaari mong gamitin ang Midjourney upang lumikha ng "isang basset hound sa isang Gandalf costume na nagbabalanse sa isang bola sa beach" at makakuha ng medyo makatotohanang larawan ng kakaibang eksenang iyon, ang isang multimodal AI tool tulad ng ImageBind ay maaaring humantong sa paglikha ng isang video kasama ang aso na may kaugnayan. mga tunog, kabilang ang isang detalyadong sala, temperatura ng silid at ang eksaktong lokasyon ng aso at lahat ng iba pa sa eksena. "Ito ay lumilikha ng isang mahusay na pagkakataon upang lumikha ng mga animation mula sa mga static na larawan sa pamamagitan ng pagsasama-sama ng mga ito sa mga audio prompt," ang tala ng mga mananaliksik ng Meta sa kanilang blog na nakatuon sa developer. "Halimbawa, maaaring pagsamahin ng isang creator ang isang larawan sa isang alarm clock at isang tumilaok na tandang at gumamit ng isang audio cue upang i-segment ang tandang o ang tunog ng alarm clock upang i-segment ang orasan at i-animate pareho sa isang video sequence."

meta

Kung tungkol sa kung ano pa ang maaaring gawin sa bagong laruang ito, malinaw na itinuturo nito ang isa sa mga pangunahing ambisyon ng Meta: VR, mixed reality, at metaspace. Halimbawa, isipin ang isang hinaharap na headset na maaaring bumuo ng ganap na natanto na mga 3D na eksena (na may tunog, paggalaw, atbp.) sa mabilisang. O maaaring gamitin ito ng mga virtual na developer ng laro upang iligtas ang kanilang sarili bilang isang mahalagang bahagi ng maingat na gawain sa proseso ng disenyo. Gayundin, ang mga tagalikha ng nilalaman ay maaaring lumikha ng mga nakaka-engganyong video na may makatotohanang mga soundtrack at galaw batay lamang sa teksto, mga larawan, o audio. Madaling isipin kung paano nagbubukas ang isang tool tulad ng ImageBind ng mga bagong pinto sa pagiging naa-access sa pamamagitan ng pagbuo ng mga real-time na paglalarawan ng multimedia upang matulungan ang mga taong may kapansanan sa paningin o pandinig na mas maunawaan ang kanilang kapaligiran.

Interesante din: Ang pinakamahusay na mga tool batay sa artificial intelligence

"Sa mga karaniwang AI system, mayroong isang partikular na pag-embed (ibig sabihin, mga vector ng mga numero na maaaring kumatawan sa data at ang kanilang mga relasyon sa machine learning) para sa bawat nauugnay na modality," sabi ng Meta. "Ipinapakita ng ImageBind na posibleng lumikha ng isang karaniwang espasyo sa pag-embed para sa maraming modalidad nang hindi kinakailangang magsanay sa data sa bawat indibidwal na kumbinasyon ng mga modalidad. Mahalaga ito dahil hindi makakagawa ang mga mananaliksik ng mga dataset na may mga sample na naglalaman, halimbawa, audio data at thermal data mula sa isang abalang kalye ng lungsod, o depth data at isang textual na paglalarawan ng isang seaside cliff."

Naniniwala ang Meta na ang teknolohiyang ito ay lalampas sa kasalukuyang anim na "senses", wika nga. "Bagaman nag-imbestiga kami ng anim na modalidad sa aming kasalukuyang pag-aaral, naniniwala kami na ang pagpapakilala ng mga bagong modalidad na nagkokonekta sa maraming mga pandama hangga't maaari - tulad ng pagpindot, pagsasalita, amoy at mga signal ng utak ng fMRI - ay magbibigay-daan para sa mas mahuhusay na modelo ng AI na nakasentro sa tao." Ang mga developer na interesado sa paggalugad sa bagong sandbox na ito ay maaaring magsimula sa pamamagitan ng pagsisid sa open source code ng Meta.

Basahin din:

JereloEngadget

Mag-sign up

0 Comments

Naka-embed na Mga Review

Tingnan ang lahat ng komento

Iba pang mga artikulo

Maaaring gayahin ng Meta's ImageBind AI ang perception ng tao

Mga kamakailang komento