Зашто вештачка интелигенција не говори све језике подједнако добро? Језички јаз који скривају алгоритми

Разлика у перформансама и доминација података

Постоји уобичајена заблуда да вештачка интелигенција (ВИ), попут модела ChatGPT, функционише подједнако добро на свим језицима. Међутим, стварност је другачија: модели не постижу исти учинак на енглеском, шпанском или баскијском језику. Разлог за ову асиметрију лежи у подацима којима се ови модели тренирају. Већина писаног садржаја на интернету је на енглеском језику, што је „прва велика асиметрија“. Иако компаније попут OpenAI не објављују тачне проценте, очигледно је да енглески доминира, праћен великим глобалним језицима, док су мањи језици, са ограниченом дигиталном присутношћу, далеко иза.

Последице недостатка података и грешке

Резултат ове неједнаке дистрибуције података је предвидив: ВИ функционише боље на језицима са више података, што није ствар афинитета, већ прилике за учење. Када модел види милионе примера на енглеском, боље учи граматику, речник, различите регистре и културну позадину. Насупрот томе, мањи број примера у неком језику резултира грешкама: недостатком слагања, изразима који звуче „преведени“, укоченим конструкцијама или претерано неутралним стилом. Недостатак података такође фаворизује језике који користе латинично писмо у односу на оне са мање дигитално проширеним системима (нпр. арапско или аутохтоно писмо), где је мањак примера узрок већем броју грешака.

Стратегије за смањење језичког јаза

Савремена ВИ развија стратегије за ублажавање неједнакости. Једна од најважнијих је балансирање корпуса, где се током тренинга повећава учесталост консултовања мањинских језика, а смањује изложеност доминантном енглеском, како мањи језици не би били „затрпани“. Друга кључна техника је вишејезични трансфер: модели деле интерне репрезентације, тако да знање стечено у шпанском језику помаже португалском или италијанском. Овај трансфер помаже језицима са мало података, под условом да припадају истовремено богатој језичкој породици; изоловани језици, попут јапанског или корејског, мање профитирају.

Улога људског фактора и избегавање „катастрофалног заборава“

У процесу обуке, користе се и синтетички подаци генерисани машинским превођењем, као и паралелни корпуси (документи међународних организација, верзије Википедије) за учење еквиваленција. У каснијим фазама интервенишу домаћи говорници (људски инструктори) који исправљају неадекватне изразе, појачавају одговарајући тон и подешавају културне нијансе које масовни подаци не могу да ухвате. Такође, постоје специфичне технике за избегавање „катастрофалног заборава“, који се дешава када модел наставља да се тренира на доминантном језику и почиње да деградира оно што зна у мањинским језицима, одржавајући на тај начин равнотежу.

Будућност лингвистичке разноликости

Упркос свим техничким ресурсима, јаз опстаје јер ниједан ресурс не може у потпуности да надокнади недостатак података у језицима са слабом обновом садржаја. Ово поставља важно питање: да ли ВИ може допринети губитку лингвистичке разноликости? Ризик је реалан; ако ВИ боље функционише на енглеском, може утицати на хомогенизацију стила писања и истиснути локалне регистре. Ипак, постоји и супротан потенцијал: ВИ може ревитализовати мањинске језике генерисањем едукативних материјала, документовањем речника и подршком пројектима дигитализације. Неједнак учинак ВИ је огледало неједнакости стварног света. Питање није да ли ВИ боље говори неке језике од других (одговор је јасан: да), већ како технологија може да смањи, а не репродукује, лингвистичке јазове.

Постави коментар

0 Коментари