Microsoft Binibigyan ng Kosmos-1 ang daan patungo sa AI sa antas ng tao

Sa simula ng linggong ito, ang mga mananaliksik mula sa Microsoft ipinakita ang Kosmos-1, isang multimodal artificial intelligence model na maaaring magsuri ng mga larawan para sa nilalaman, malutas ang mga visual na puzzle, magsagawa ng visual text recognition, kumuha ng visual IQ test, at maunawaan ang mga tagubilin sa natural na wika. Ayon sa mga mananaliksik, ang ganitong mga modelo ng AI ay ang unang hakbang patungo sa paglikha ng isang artificial general intelligence (AI) na maaaring magsagawa ng magkasanib na mga gawain sa antas ng tao. Iyon ay, ang teknolohiyang ito ay magagawang palitan ang isang tao sa anumang intelektwal na gawain. At ito ang nakasaad na layunin ng OpenAI, isang pangunahing kasosyo sa negosyo Microsoft sa larangan ng artificial intelligence.

Sa kasong ito, ang Kosmos-1 ay isang purong personal na pag-unlad ng kumpanya Microsoft. Tinatawag ng mga mananaliksik ang kanilang paglikha na isang "multimodal broad language model" (MLLM) dahil ang mga ugat nito ay nasa text-only na natural na pagproseso ng wika gaya ng LLM, gaya ng ChatGPT. Upang matanggap ng modelo ang mga input na larawan, dapat munang i-convert ng mga mananaliksik ang mga larawan sa isang espesyal na serye ng mga token (pangunahin ang teksto) na mauunawaan ng LLM.

Ang Kosmos-1 ay sinanay sa isang database mula sa Internet, kabilang ang mga extract mula sa The Pile (isang 800 GB English text resource) at Common Crawl. Pagkatapos ay sinubukan ang modelo na may ilang mga pagsubok para sa pag-unawa sa pagsasalita, pagbuo ng pagsasalita, pag-uuri ng teksto nang walang optical character recognition, captioning ng imahe, pagsagot sa tanong na visual, pagsagot sa tanong sa web page, at pag-uuri ng imahe na may lokalisasyon. Ayon kay Microsoft, Naungusan ng Kosmos-1 ang mga kasalukuyang modelo sa marami sa mga pagsubok na ito.

Partikular na kawili-wili ang pagsubok ng Progressive Reasoning ng Raven, na sumusukat sa visual IQ sa pamamagitan ng pagpapakita ng pagkakasunod-sunod ng mga hugis at pagtatanong sa paksa na kumpletuhin ang pagkakasunud-sunod. Ang Kosmos-1 ay nakapagbigay ng tamang sagot sa 22% ng mga kaso.

Ang mga maagang hakbang na ito, na may pag-optimize sa hinaharap, ay maaaring magbunga ng mas makabuluhang mga resulta, na nagpapahintulot sa mga modelo ng AI na makita at maimpluwensyahan ang anumang anyo ng media, na lubos na nagpapalawak ng mga kakayahan ng mga artipisyal na katulong.

Basahin din:

Jereloarttechnica

Mag-sign up

0 Comments

Naka-embed na Mga Review

Tingnan ang lahat ng komento

Iba pang mga artikulo

Microsoft nagpakita ng isang multimodal na diskarte na nagbibigay daan sa AI sa antas ng tao

Mga kamakailang komento