Google-ի նոր նեյրոցանցը ստեղծում է նկարներ՝ ըստ նկարագրության, և դա անում է առնվազն նույնքան լավ, որքան DALL-E 2-ը: Google-ը հայտարարել է Imagen նեյրոնային ցանցի մասին, որը տեքստային հարցումները վերածում է պատկերների: Սա OpenAI-ի DALL-E 2-ի անմիջական մրցակիցն է, որն ավելի լավ է աշխատում որոշ սցենարներում:
Տեքստային հարցումը ճանաչելու համար նեյրոնային ցանցն օգտագործում է լեզվական մեծ մոդելներ, որոնց վրա են հիմնված նաև խոսքի մշակման բնական ալգորիթմները, ինչպիսին է GPT-3-ը:
Համակարգն աշխատում է երեք փուլով։ Առաջինը նկարում է փոքր 64 x 64 պիքսել պատկեր, որը զտվում է այնքան ժամանակ, մինչև նեյրոնային ցանցը կարողանա փոխել այն՝ ավելի լավ համապատասխանեցնելու սկզբնական խնդրանքին: Այնուհետև պատկերը չափվում է մինչև 256 x 256 պիքսել, և Imagen-ը ճշգրտում է մանրամասները: Երրորդ փուլում նույնը կրկնվում է արդեն վերջնական չափսի կտավի հետ՝ 1024 x 1024 պիքսել։
Հետազոտության տեքստում նշվում է, որ Imagen-ը ավելի լավ է հասկանում բարդ հարցումները, քան DALL-E 2-ը: Օրինակ՝ «Panda make latte art» հարցման համար DALL-E 2-ը թողարկել է միայն լատտե արտ պանդաների հետ, մինչդեռ Google-ի նեյրոնային ցանցերին հաջողվել է ճիշտ պատկեր ստանալ։
Անկախ դիտողների գնահատման արդյունքները ցույց են տալիս, որ Imagen-ը գերազանցում է DALL-E 2-ին ճշգրտության և համապատասխանության առումով: Եվ չնայած այս համեմատությունը կարելի է սուբյեկտիվ համարել, նման արդյունքները դեռևս տպավորիչ են, հաշվի առնելով, որ DALL-E 2-ը մինչ այժմ անհասանելի իդեալ է եղել, որի հետ նման նպատակի այլ նեյրոնային ցանցերը չեն կարող համեմատվել:
Ամեն դեպքում, Imagen-ն առայժմ մնում է փորձարարական նախագիծ, որին սովորական օգտատերերը մուտք չունեն։ Պարզ չէ, թե որքան ժամանակ կպահանջվի Google-ի կողմից դրա հիման վրա բաց մուտքի ծառայություն ստեղծելու համար:
Սիրարփի Աղաբաբյան