Вештачката интелигенција или AI (Artificial Intelligence) во последната деценија доживеа огромен подем и денес е една од највлијателните технологии во нашето општество. Повеќе не е ограничена на истражувања и научни трудови, туку активно се користи во секојдневието – со „Чет-ГПТ“ и „Џемини“, како водечки алатки што генерираат текст, слики и видео.
Основната идеја на вештачката интелигенција е развој на компјутерските системи што може да учат од податоци и да донесуваат одлуки без експлицитно програмирани правила. Наместо човекот однапред да дефинира што треба точно да се направи, системот сам учи преку примери, открива обрасци и со текот на времето станува сè попрецизен.
Во овој динамичен домен се одвиваше и истражувачкиот пат на младата Македонка Ивона Најденкоска, која во рамките на Универзитетот во Амстердам, Холандија, го заврши докторатот во ноември 2025. Нејзиниот докторат дава одговор на прашањето како може вештачката интелигенција подобро да учи од мултимодален контекст, односно како може компјутерските модели да обработуваат и разбираат сложени информации на начин поблизок до човекот. Со неа поразговаравме за оваа нова технологија што го менува светот.
*Која е областа на Вашето истражување?
– Луѓето го разбираат светот преку комбинација на различни типови информации. Кога гледаме некоја фотографија, ја интерпретираме преку претходно знаење, јазик и искуство. Кога читаме текст, често си создаваме и визуелна претстава. За разлика од ова, многу традиционални AI-системи долго време беа ограничени на еден тип податоци – или текст, или слика, или звук.

Моето истражување се фокусира на надминувањето на оваа поделба, преку развој и анализа на мултимодални модели, кои истовремено учат од слики и текст и ја разбираат нивната поврзаност. Светот во кој живееме е мултимодален по природа – ние истовремено гледаме, читаме, слушаме и интерпретираме. Затоа интелигентните системи што треба да комуницираат со луѓето или да носат одлуки во реални услови, мора да го разбираат овој комплексен сплет на информации.
Во рамките на мојот докторат, работев на методи што им овозможуваат на мултимодалните модели да користат подолги текстуални описи и побогат визуелен контекст. Целта беше овие системи не само да препознаваат поединечни елементи туку и да развијат подлабоко разбирање на целината. Во практика, ваквите модели може да се користат за попрецизно пребарување на слики. На пример, во големи архиви, каде што корисникот може да внесе детален опис и системот да ја пронајде најсоодветната слика. Дополнително, тие овозможуваат генерирање детален текст за слики и видеа, што е особено корисно за медиумите, дигиталните архиви и пристапноста за лицата со оштетен вид. Друг важен пример е анализата на сложени документи што комбинираат текст и визуелни елементи, како што се медицинските извештаи со снимки, научните трудови итн.
*Вашиот докторат се занимава со тоа како може да учи ВИ од мултимодален контекст. Може да објасните што значи точно тоа во практика?
– Учењето од мултимодален контекст значи дека вештачката интелигенција истовремено комбинира различни типови податоци – текст, слики, аудио, видео. Мојот докторат истражува како може да учат т.н. мултимодални фундаментални модели од ваков контекст за подобро разбирање и генерирање содржина што поврзува визуелни и текстуални податоци. Поточно, станува збор за развој на методи што им овозможуваат на овие модели да се адаптираат ефикасно преку примери и инструкции, на пример, преку текстуални или сликовити примери што му покажуваат на моделот како треба да се изврши одредена задача, како треба да се генерира слика преку други слични слики или скици или како правилно да се претстави и разбере подолг текстуален опис, односно т.н. промпт (анг. prompt).
*Кои се главните предизвици за ВИ кога треба да комбинира текст, слики, звук и други медиуми за учење?
– Еден од главните предизвици е усогласувањето на различните модалитети со еден модел. Секој модалитет има различна структура: текстот е симболички и се состои од зборови и реченици, сликите имаат просторна структура, додека видеото и аудиото содржат и временска компонента. Предизвикот се состои во тоа да се изгради модел што ќе биде доволно генерален за да може да научи како да ги претстави овие различни типови податоци. Друг предизвик е количината и квалитетот на податоците. За да се тренираат вакви модели, потребни се големи количини податоци, на пример, зборуваме за милиони и милиони слики и описи, кои ќе бидат разновидни и правилно поврзани, на пример, слики со точни и детални текстуални описи или видео со соодветен звук и транскрипт. Таквите податоци не се секогаш лесно достапни. Исто така, ваквите модели се многу комплексни и бараат голема компјутерска моќ за да може да се тренираат, што претставува огромен трошок дури и за големите компании.

*Колку е важно поврзувањето на академската работа и индустријата за развој на вештачката интелигенција?
– Покрај академската работа, работев и на истражување во индустриски контекст, во „Meта“, компанијата која стои зад платформите како „Фејсбук“, „Инстаграм“ и „Вотсап“ и која интензивно инвестира во истражувањата за вештачката интелигенција и генеративните модели. Во рамките на ова искуство, работев на модели за генерирање слики и разбирање визуелна содржина, што ми овозможи да ги поврзам истражувачките идеи со реални системи што се користат на глобално ниво. За разлика од академската средина, каде што најчесто фокусот е на развивањето нови концепти и методи, индустриското истражување бара моделите да бидат стабилни, ефикасни и одговорни – подготвени за реална употреба. Ова искуство беше особено значајно, затоа што покажа како фундаменталното академско истражување директно го инспирира развојот на практичните апликации.
*Како се справува ВИ со „присуството на пристрасност“ или „халуцинации“ при мултимодалното учење?
– Проблемот со халуцинациите на јазичните модели е активна тема на истражување. Моделите како „Чет-ГПТ“, „Џемини“ или „Клауд“, всушност, немаат вистинска база на проверени податоци, туку генерираат одговори со предвидување кои зборови, најверојатно, следуваат врз основа на претходните зборови. Поради тоа, моделот понекогаш може да генерира одговор што звучи убедливо, но не е целосно точен.

Еден начин за намалување на халуцинациите е добар prompt engineering, односно начинот на кој му поставуваме прашања на моделот. Со внимателно формулирани промптови, можеме да го насочиме моделот да дава посигурни одговори, на пример, да го објасни одговорот чекор по чекор или да цитира конкретни извори. Друг пристап е користењето техники како retrieval-augmented generation (RAG), при што системот прво пребарува информации од надворешни извори според промптот – како бази на податоци или веб-страници – и ги додава како дополнителен контекст за моделот при генерирањето на одговорот. На тој начин моделот станува поинформиран и има помала потреба да „погодува“ доколку му недостига информација.
*Податоците покажуваат дека младите во Македонија користат ВИ помалку од европскиот просек. Што ни кажува тоа за дигиталната писменост и за подготовката на идните генерации?
– Овој факт, можеби, укажува на тоа дека вештачката интелигенција сè уште не е доволно присутна во образовниот систем. Дефинитивно е важно да се инвестира во дигиталната писменост и во образовните програми што ќе ги запознаат младите со можностите на вештачката интелигенција. Важно е фокусот да не биде само на користењето на моделите туку и на разбирањето како функционираат, како може да се приспособат за нашите потреби и кои се нивните ограничувања. На тој начин идните генерации ќе бидат подобро подготвени не само да ја користат вештачката интелигенција туку и активно да учествуваат во нејзиното развивање.
*Колку е важен институционалниот пристап за интеграција на ВИ во образованието и како се одразува тоа на квалитетот на учењето?
– Институционалниот пристап е дефинитивно важен. Потребни се јасни стратегии, нови наставни програми и соодветна обука на наставниот кадар. На пример, на Универзитетот во Амстердам има редовни курсеви за наставниот кадар за тоа како соодветно да ги користи ВИ-моделите во наставата. Исто така, имаме и наша верзија на јазичен модел што е изграден да биде подоверлив и побезбеден за употреба и за студентите и за вработените на Универзитетот. Според ова, доколку е добро интегрирана, вештачката интелигенција може да го подобри квалитетот на образованието преку поголема интерактивност и персонализација според индивидуалните потреби на секој ученик. Слично како и со Интернетот – со текот на времето, образовните системи се адаптираа и денес е тешко да се замисли образованието без пристап до Интернет. Верувам дека може да се случи истото и со вештачката интелигенција, секако, доколку се користи одговорно.

*Како може наставниците и образовните системи да ги едуцираат учениците да ја користат ВИ критички, а не само да се потпираат на автоматизираните одговори?
– Според мене, клучот е вештачката интелигенција да се гледа како алатка за размислување, а не само како машина што генерира готови одговори. Наместо учениците само да ги прифаќаат одговорите што ги генерираат ВИ-моделите, важно е да се научат како критички да ги користат: да поставуваат поконкретни прашања, да ги проверуваат изворите на информации, да споредуваат различни одговори и да ги разберат ограничувањата на овие модели. Образовниот систем може да помогне така што ќе го интегрира користењето на вештачката интелигенција во наставата на начин што ќе поттикнува критичко размислување. Сметам дека не треба да се гледа на ВИ-моделите како на нешто негативно, туку како на технологија што може да помогне во учењето и продуктивноста.
*ВИ може да биде и алатка за манипулација, стигматизација или сајбер малтретирање. Како да се создадат правила и практика за одговорна и безбедна употреба на ВИ, особено во мултимодален контекст?
– Еден важен аспект е транспарентноста – корисниците треба да знаат кога е генерирана некоја содржина со помош на ВИ. Во мултимодален контекст, ова значи контрола на генерираните содржини како текст, слики, аудио и нивно јасно означување како ВИ-генерирани податоци (на пример, преку watermarking). Дел од моето истражување се фокусира токму на развивањето техники за детекција на ВИ-генерирани слики, со цел полесно да се идентификува кога е создадена некоја визуелна содржина од алгоритам. Покрај тоа, многу е важна и дигиталната писменост. Секоја информацијата што ја гледаме на Интернет треба критички да се процени и треба да бидеме свесни дека не секоја слика, видео или текст што изгледа реално е автентичен податок. Секако, потребна е и соработка меѓу истражувачите, индустријата и институциите за да се развијат регулативи што ќе обезбедат безбедна и одговорна употреба на вештачката интелигенција.
*Може ли да дадете пример како може да помогне мултимодалната ВИ во учењето сложени концепти (на пример, наука, историја, јазици)?
– Мултимодалната ВИ може да помогне во учењето сложени концепти со комбинирање различни типови информации – текст, слики, или видео, според потребите на корисникот. Јас често ги користам јазичните модели токму за ова. Нешто што ми се допаѓа кај овие модели е што даваат сугестии што друго би било корисно да прочитам или размислам кога истражувам некоја тема. На некој начин, моделот се однесува како соговорник и го прави целото искуство поинтерактивно. На пример, за разбирање научни концепти, порано требаше да пребаруваме низ книги, веб-страници или архиви, додека денес можеме да поставиме прашање и да добиеме објаснување што е приспособено на нашето ниво на знаење. Кај учењето јазици, ВИ може да го поврзе нашето претходно знаење со нови концепти, на пример, ако знаеме еден јазик и учиме нов, моделот може да ги објасни граматичките правила и да ги спореди со оние што веќе ги познаваме.

*Дали е можно ВИ да развие „креативност“ преку мултимодално учење и како се мери тоа?
– На некој начин, да, вештачката интелигенција може да покаже форми на креативност, а мултимодалното учење игра голема улога во тоа. На пример, вештачката интелигенција што видела слики и разни текстуални описи може да генерира оригинална слика од даден опис, да компонира музика инспирирана од слика или да дизајнира нешто ново преку комбинирање визуелни стилови.
Сепак, важно е да се нагласи дека оваа „креативност“ е различна од човечката. Моделите не создаваат идеи од лични искуства или имагинации, туку генерираат нови содржини врз основа на обрасците што ги научиле од податоците.
Мерењето на креативноста кај ВИ обично се прави преку тоа колку се резултатите оригинални, разновидни и релевантни. Истражувачите често комбинираат автоматски метрики и евалуација од страна на луѓе, бидејќи е тешко да се измери креативноста само со бројки. Сепак, целта не е вештачката интелигенција да ја замени човечката креативност, туку да служи како алатка што може да инспирира нови идеи и да помогне во креативниот процес.
Светлана БЛАЖЕВСКА












