De la papagali stocastici la criza datelor

21.02.2023 •

In ultima vreme, m-am tot gândit la machine learning. Poate pentru că lucrez în domeniu, poate pentru că am simțit mereu o tensiune între ce promitem și ce oferim. După ce am văzut imaginea postată de unul dintre cei mai imitați artiști de pe internet cu modele AI (Rutkowski - ArtStation), am zis să aștern și eu câteva gânduri.

Modelele de machine learning, cum ar fi Stable Diffusion, MidJourney, GPTChat, Github Copilot, au nevoie de o cantitate uriașă de date pentru a exista. Datele provin de pe internet, iar persoanele de la care provin datele nu primesc nimic înapoi, nici măcar recunoaștere. Ca să fiu și mai sincer, o mare parte din date nu pot fi utilizate în scopuri comerciale, dar acest aspect este ocolit prin folosirea lor pentru a construi modelul, pentru ca apoi modelul să fie folosit pentru a genera creații originale. V-am zăpăcit? Ei bine, funcționează un pic ca prin magie, bagi date cu drepturi de autor și ies date proaspete, originale și numai bune pentru scopuri comerciale.

Doar că internetul este tânăr, iar cei care au creat datele nu ne-au părăsit încă. Iar ei pot vedea cum munca lor este folosită pentru a face un profit frumos pentru companiile care dețin aceste modele. Iar ei nu pot face nimic în acest sens dacă nu doresc să fie parte din model.

OK, dar aceste modele generează date noi, originale, diferite de datele folosite pentru a le genera? My 2 cents: Uneori da, alteori Github Copilot reproduce linie cu linie 500 de linii de cod dintr-un repo GitHub scris de un programator a cărui licență cere în mod explicit acknowledgement-ul, ceea ce exasperează programatorul care urlă pe internet neputincios (DocSparse on Twitter).

StableDiffusion uneori generează imagini noi, alteori schimbă luminozitatea unei imagini cu 1% și o numește o imagine nouă. ChatGPT generează conversații noi, iar alteori reproduce răspunsuri din conversații care existau deja pe internet.

Ar putea exista o soluție simplă la această problemă. Când generează ceva, modelele ar putea să ne spună care sunt cele mai asemănătoare imagini, texte etc. din setul de date folosit pentru a-l antrena. În acest fel, am putea vedea dacă creația este originală sau dacă este doar o reproducere a ceva ce există deja. Dar acest lucru ar crea un coșmar legal, ar fi anti-comercial, așa că nu vom merge pe această cale, nu.

Cei care nu apreciază aceste modele, ca prietenul nostru Greg, le numesc modelele "pap

agali stocastici" (stochastic parrots). Iar cei care nu-i apreciază pe cei care nu apreciază aceste modele îi numesc ludiți. Ludiții au fost un grup de muncitori textili din Anglia sec. XIX, originari din Nottingham, care lucrau deja în condiții grele și se opuneau noilor mașini textile care puteau fi operate de muncitori necalificați și îi lăsau fără muncă. Așa că s-au pus pe distrugerea acestor noi aparate, iar guvernul s-a pus pe a sancționa acest sabotaj prin pedeapsa cu moartea. În cele din urmă, ludiții au fost înfrânți, iar din înalta societate doar Lord Byron, poetul, a simpatizat cu ludiți, numindu-le tratamentul inuman. Nu vom merge nici pe această cale.

Este clar că modelele ML/AI vor face parte din viața noastră, în multe cazuri ele eficientizează activități pe care le desfășurăm deja, iar în alte cazuri deschid/vor deschide noi posibilități. Peste 50 de ani, vom ridica din umeri și vom spune: “Ei bine, modelele sunt utile, iar cei care au generat datele nu mai sunt printre noi, deci care-i problema?”.

OK, a mai existat un individ care a simpatizat cu ludiții. Numele lui era William Blake și dacă îl rogi pe ChatGPT să-ți scrie un vers despre “dark satanic mills” vei afla mai multe, recitindu-i probabil versurile.