Google-ի նոր նեյրոցանցը ստեղծում է նկարներ՝ ըստ նկարագրության

18:10 2022-05-29

Google-ի նոր նեյրոցանցը ստեղծում է նկարներ՝ ըստ նկարագրության, և դա անում է առնվազն նույնքան լավ, որքան DALL-E 2-ը: Google-ը հայտարարել է Imagen նեյրոնային ցանցի մասին, որը տեքստային հարցումները վերածում է պատկերների: Սա OpenAI-ի DALL-E 2-ի անմիջական մրցակիցն է, որն ավելի լավ է աշխատում որոշ սցենարներում:

Տեքստային հարցումը ճանաչելու համար նեյրոնային ցանցն օգտագործում է լեզվական մեծ մոդելներ, որոնց վրա են հիմնված նաև խոսքի մշակման բնական ալգորիթմները, ինչպիսին է GPT-3-ը:

Համակարգն աշխատում է երեք փուլով։ Առաջինը նկարում է փոքր 64 x 64 պիքսել պատկեր, որը զտվում է այնքան ժամանակ, մինչև նեյրոնային ցանցը կարողանա փոխել այն՝ ավելի լավ համապատասխանեցնելու սկզբնական խնդրանքին: Այնուհետև պատկերը չափվում է մինչև 256 x 256 պիքսել, և Imagen-ը ճշգրտում է մանրամասները: Երրորդ փուլում նույնը կրկնվում է արդեն վերջնական չափսի կտավի հետ՝ 1024 x 1024 պիքսել։

Հետազոտության տեքստում նշվում է, որ Imagen-ը ավելի լավ է հասկանում բարդ հարցումները, քան DALL-E 2-ը: Օրինակ՝ «Panda make latte art» հարցման համար DALL-E 2-ը թողարկել է միայն լատտե արտ պանդաների հետ, մինչդեռ Google-ի նեյրոնային ցանցերին հաջողվել է ճիշտ պատկեր ստանալ։

Անկախ դիտողների գնահատման արդյունքները ցույց են տալիս, որ Imagen-ը գերազանցում է DALL-E 2-ին ճշգրտության և համապատասխանության առումով: Եվ չնայած այս համեմատությունը կարելի է սուբյեկտիվ համարել, նման արդյունքները դեռևս տպավորիչ են, հաշվի առնելով, որ DALL-E 2-ը մինչ այժմ անհասանելի իդեալ է եղել, որի հետ նման նպատակի այլ նեյրոնային ցանցերը չեն կարող համեմատվել:

Ամեն դեպքում, Imagen-ն առայժմ մնում է փորձարարական նախագիծ, որին սովորական օգտատերերը մուտք չունեն։ Պարզ չէ, թե որքան ժամանակ կպահանջվի Google-ի կողմից դրա հիման վրա բաց մուտքի ծառայություն ստեղծելու համար:

Սիրարփի Աղաբաբյան

Google-ի նոր նեյրոցանցը ստեղծում է նկարներ՝ ըստ նկարագրության

Նման նյութեր