Ginagawa ng Google na totoo ang pag-zoom at pagpapahusay ng larawan

Malamang na nakakita ka na ng mga pantasyang pelikula o palabas sa TV kung saan hinihiling ng pangunahing tauhan na palakihin ang larawan at pagbutihin ang resulta - upang magpakita ng mukha, o plaka ng lisensya, o anumang iba pang pangunahing detalye. Ang pinakabagong mga sistema ng artificial intelligence (AI) ng Google, batay sa tinatawag na mga modelo ng pagsasabog, ay kayang gawin ang trick na ito.

Ito ay isang nakakalito na proseso upang makabisado dahil ito ay mahalagang pagdaragdag ng mga detalye sa isang imahe na hindi orihinal na nakuha ng camera, gamit ang mga super-smart na hula batay sa iba pang katulad na mga larawan.

Google

Sa Google, ang pamamaraang ito ay tinatawag na natural na synthesis ng imahe, at sa partikular na sitwasyong ito, napakataas na resolution ng imahe. Magsisimula ka sa isang maliit, pixelated na larawan at magtatapos sa isang bagay na matalas, malinaw at natural. Maaaring hindi ito eksakto ang orihinal, ngunit ito ay sapat na malapit upang magmukhang totoo sa mata ng tao.

Ipinakilala ng Google ang dalawang bagong tool sa AI para sa trabahong ito. Ang una ay tinatawag na SR3, o Super-Resolution sa pamamagitan ng Repeated Refinement, at ito ay gumagana sa pamamagitan ng pagdaragdag ng ingay sa isang imahe at pagkatapos ay alisin ito. Sa pamamagitan ng isang serye ng mga probabilistikong kalkulasyon batay sa isang malaking database ng mga imahe at ilang machine learning magic, maiisip ng SR3 kung ano ang hitsura ng super-high-resolution na bersyon ng isang low-resolution na pixel na imahe.

Ang pangalawang tool ay CDM, o Cascaded Diffusion Models. Inilalarawan ng Google ang mga ito bilang "mga pipeline" kung saan ang mga modelo ng diffusion – kabilang ang SR3 – ay maaaring idirekta para sa mataas na kalidad na pag-upscale ng imahe. Nangangailangan ito ng mga modelo ng pagpapahusay at ginagawa itong mas malalaking larawan.

Google

Sa pamamagitan ng paggamit ng iba't ibang mga modelo ng pagpapahusay sa iba't ibang mga resolusyon, nagagawa ng diskarte sa CDM na higitan ang mga alternatibong pamamaraan ng pag-upscale ng imahe, ayon sa Google. Ang bagong AI engine ay sinubukan sa ImageNet, isang higanteng database ng mga larawan ng pagsasanay na karaniwang ginagamit para sa pananaliksik sa visual object recognition.

Ang mga huling resulta ng SR3 at CDM ay kahanga-hanga. Sa isang karaniwang pagsubok na may 50 boluntaryong tao, ang mga larawan ng mga mukha ng tao na nabuo ng SR3 ay napagkamalan bilang mga tunay na larawan halos 50% ng oras – at kung isasaalang-alang na ang isang perpektong algorithm ay dapat makamit ang 50%, iyon ay kahanga-hanga. Ito ay nagkakahalaga ng pag-uulit na ang mga pinahusay na larawang ito ay hindi eksaktong tugma sa mga orihinal, ang mga ito ay maingat na kinakalkula ang mga simulation batay sa matematika ng posibilidad.

Google

Nangangako ang Google ng higit pa mula sa mga bagong AI engine nito at mga kaugnay na teknolohiya – hindi lamang sa mga tuntunin ng pagpapalaki ng mga larawan ng mga mukha at iba pang natural na bagay, kundi pati na rin sa iba pang larangan ng probabilistic modeling.

Basahin din:

Jereloagham alerto

Mag-sign up

0 Comments

Naka-embed na Mga Review

Tingnan ang lahat ng komento

Iba pang mga artikulo

Tulad ng sa mga pelikula: Ang bagong pagpoproseso ng larawan ng Google na AI ay ginagawang realidad ang pag-scale at pagpapahusay sa mga ito

Mga kamakailang komento