Robert Važan 18. marca 2024

O čom je regulácia umelej inteligencie v EÚ

Regulácia EÚ o umelej inteligencii bola práve schválená (tlačová správa, úplné znenie, hlasovanie, Wikipédia). Toto bolo posledné hlasovanie, v ktorom sa mohli veci zmeniť. Teraz je to už len otázka technických kontrol (jazykových a právnych) a postupného nadobúdania účinnosti v priebehu nasledujúcich rokov. Regulácia môže potenciálne zničiť môj biznis, preto som si ju pozornejšie preštudoval namiesto toho, aby som sa spoliehal na krátku a trochu zavádzajúcu tlačovú správu a novinové články. Regulácia má 450 strán, tak možno oceníte moje zhrnutie.

V skratke

Regulácia EÚ o umelej inteligencii je veľkým víťazstvom pre držiteľov autorských práv a veľkou prehrou pre opensource. Zavádza povinnú cenzúru a povinnú vodotlač. Vystavuje vývojárov a používateľov umelej inteligencie právnym rizikám a právnej neistote. Bezpečnosť modelov na všeobecné použitie sa zameriava na schopnosti namiesto úmyslov, čím opakuje chybu neslávne známej cookie smernice. Výnimky vzťahujúce sa na osobné použitie, opensource, výskum a vývoj majú nečakané obmedzenia. Vplyv lobistov je cítiť v celej regulácii. Celkovo je to zlá správa pre umelú inteligenciu.

Veľké víťazstvo pre držiteľov autorských práv

Regulácia EÚ o umelej inteligencii potvrdzuje právo na vylúčenie data miningu, ktoré bolo držiteľom autorských práv udelené v článku 4 smernice EÚ o autorských právach (Wikipédia, úplné znenie). S týmto právom sú spojené dva problémy. Po prvé, výluka data miningu predstavuje neprimerané rozšírenie autorských práv, pretože data mining (vrátane trénovania umelej inteligencie) extrahuje z diel čisté informácie a tie tradične nie sú predmetom autorského práva. Po druhé, výluku vo všeobecnosti nevyužívajú jednotliví tvorcovia obsahu, ale skôr sociálne siete, ktoré ho používajú ako ďalší mechanizmus na privlastnenie si obsahu, ktorý vytvorili používatelia, a s ním aj veľkej časti kultúrneho dedičstva našej generácie.

Regulácia EÚ o umelej inteligencii ďalej zhoršuje problém tým, že od vývojárov všeobecných modelov vyžaduje zverejnenie plánu ochrany autorských práv a dokumentáciu použitých zdrojov, čo je opatrenie, ktorého cieľom je vyslovene umožniť kontrolu dodržiavania autorských práv. Vývojári modelov utajovali zdroje z mnohých dôvodov, okrem iného aj v snahe chrániť sa pred predátorskými žalobami.

Neexistuje žiaden spôsob, ako sa regulácii vyhnúť. Regulácia sa na vás vzťahuje, aj keď trénujete v USA a potom nasadíte model v Európe alebo ak máte model na serveri v USA a poskytujete k nemu vzdialený prístup pre používateľov v Európe. Výnimku nemajú ani opensource modely. Regulácia EÚ o umelej inteligencii pokrýva všetky únikové cesty. Stále môžete trénovať a nasadzovať modely mimo Európy koľko chcete, ale prístup k európskym používateľom je podmienený dodržiavaním regulácie.

Držitelia autorských práv, najmä sociálne siete, teraz začnú požadovať poplatky za prístup k obsahu vytvorenému ich používateľmi. Zatiaľ čo široko zdieľané informácie sa dajú vždy získať odinakiaľ, informácie šírené v malých komunitách na sociálnych sieťach budú pre trénovanie modelov nedostupné. Modely vysokej kvality vyžadujú rôznorodosť informačných zdrojov, ktorá utrpí, keď sa veľké časti internetu stanú pre trénovanie neurónových sietí nedostupné. Tvorcovia modelov budú pod veľkým tlakom, aby proste zaplatili, a sociálne siete zintenzívnia úsilie o ovládnutie čo najväčšieho množstva obsahu.

Veľká strata pre opensource

Opensource má niektoré výnimky z požiadaviek regulácie, ale hlavné ustanovenie, ktoré to umožňuje, je úplný chaos (článok 2, bod 12). Zdá sa, že ho omylom znegovali, takže teraz tvrdí, že opensource modely aktuálne sú regulované. Vyzerá to, že v ustanovení sú chybné odkazy na iné časti regulácie, takže nie je jasné, aké pravidlá sa vlastne vzťahujú na opensource modely. Okrem toho sa zdá, že zmienky o opensource na iných miestach regulácie sú s týmto ustanovením v rozpore. Právnici eventuálne vyjasnia skutočné požiadavky kladené na opensource modely, ale nateraz opensource trpí právnou neistotou a právnymi rizikami.

Definícia opensource v regulácii EÚ o umelej inteligencii je obmedzená na bezplatné a otvorené modely. Ak ponúkate podporu alebo iné súvisiace služby, váš model nebude považovaný za opensource ani v prípade, že zverejníte celý model pod permisívnou licenciou a iní ľudia ho budú používať zadarmo. Stačí jeden platiaci zákazník, aby ste stratili všetky výsady opensource modelov.

Opensource vývojári už teraz trpia právnymi ťažkosťami pri zdieľaní trénovacích databáz, čo v praxi obnáša redistribúciu materiálu chráneného autorským právom, ak sa zdieľanie realizuje otvorene medzi vývojármi, ktorí nie sú súčasťou jednej organizácie. Regulácia EÚ o umelej inteligencii tieto ťažkosti nerieši a namiesto toho potvrdzuje právo držiteľov autorských práv na výluku z data miningu, čo nekomerčným opensource vývojárom zneprístupní veľkú časť internetu, a zaťažuje vývojárov opensource modelov zákonnými povinnosťami, ktoré slúžia len záujmom držiteľov autorských práv.

Práca na opensource projektoch si vyžaduje otvorené zdieľanie kódu a modelov medzi prispievateľmi. Ak tomu dobre rozumiem, také zdieľanie predstavuje uvedenie modelu na trh EÚ, ak je model sprístupnený aj vývojárom v EÚ. Určité druhy spolupráce v rámci opensource projektov, napríklad striedanie sa v trénovaní toho istého modelu alebo paralelné distribuované trénovanie, teda podliehajú regulácii. Súdy to stále môžu zmietnuť zo stola ako formalitu, ktorá nie je v duchu zákona. Napriek tomu je to pre vývojárov opensource modelov zdroj právnej neistoty. Súkromné firmy medzitým môžu vyvíjať svoje modely bez obmedzenia aj v prípade, že sprístupňujú dáta zamestnancom v EÚ.

Opensource nie je vyňatý z prísnej regulácie, ktorá sa vzťahuje na vysoko rizikové aplikácie umelej inteligencie, čo obnáša desiatky strán pravidiel v samotnej regulácii plus nové normy a certifikačné procesy. Keďže žiadny vývojár opensource modelov nikdy nesplní všetky tieto podmienky, regulácia prakticky zakazuje opensource v oblastiach definovaných ako vysoko rizikové. Aj keď regulácia skutočne vysoko rizikových aplikácií, ako sú autonómne autá, je vo všeobecnosti primeraná, obávam sa sivých zón, napríklad v prípade samoobslužných medicínskych modelov, ktoré by mohli spadať pod reguláciu v závislosti od presného znenia príslušných zákonov. Vo vysoko rizikových aplikáciách existuje určitý priestor pre opensource komponenty, ale celé systémy musia byť zrejme komerčné.

Regulácia je hrozbou aj pre tradičný opensource softvér. Keďže komponenty umelej inteligencie sa čoraz viac integrujú do všetkého softvéru na podporu základných funkcií, väčšina softvéru bude časom spadať pod reguláciu EÚ o umelej inteligencii. Regulácia nejde len po opensource umelej inteligencii. Ide po krku opensource softvéru ako takému.

Povinná cenzúra veľkých modelov

Všeobecné modely umelej inteligencie môžu byť klasifikované ako modely so "systémovým rizikom", teda s rizikom katastrofy. Kým univerzálne roboty sú samozrejme nebezpečné, pretože môžu používať nože a strelné zbrane, neviem si celkom predstaviť, ako by sa čisto virtuálna umelá inteligencia mohla stať vážnou hrozbou.

Znenie regulácie je trochu nejasné, ale nateraz sa nálepka "systémového rizika" prisudzuje len veľkým modelom, v prípade jazykových modelov nad 100 miliardami parametrov. Obavy z príliš inteligentných modelov sú už samé osebe varovným signálom. Väčšina rizík spojených s nasadením umelej inteligencie vyplýva z jej nedokonalého uvažovania. Keď jazykový model odporučí nesprávnu liečbu choroby, nerobí to zo zlého úmyslu, ale pre svoje obmedzené znalosti alebo inteligenciu. Väčšie modely robia menej chýb, a preto je ich používanie v skutočnosti bezpečnejšie.

Ešte znepokojujúcejšie je, že "poskytovatelia všeobecných modelov umelej inteligencie so systémovým rizikom musia ... minimalizovať možné systémové riziko". V praxi to znamená povinnú cenzúru všetkých veľkých modelov. Rovnaké požiadavky sa vzťahujú aj na fine-tuning veľkých modelov, takže cenzúru nemožno legálne odstrániť. Nie je jasné, či sa budú musieť cenzurovať aj základné modely, napríklad filtrovaním trénovacích databáz, alebo či sú vyňaté vzhľadom na svoje špecifické určenie.

Medzi systémové riziká patria také banality ako "šírenie nezákonného, nepravdivého alebo diskriminačného obsahu" (čo mimochodom už vo veľkom robia médiá, sociálne siete a náboženstvá). Avšak to, aký obsah je legálny, pravdivý a spravodlivý, závisí od kontextu. A keďže modely zvyčajne nepoznajú celý kontext, nemôžu spoľahlivo rozhodovať o akceptovateľnosti obsahu. Model nemôže vedieť, či len nehrá rolu nejakej postavy vo fiktívnom príbehu. Cenzúra je nevhodná pre niektoré modely a používatelia ňou všeobecne opovrhujú, pretože je totalitná, neúctivá, aktivuje sa pri náhodných nevinných otázkach a skresľuje všetky výstupy modelu nerealistickým spôsobom. Keď sa umelá inteligencia používa na brainstorming, cenzúra modelu vykrajuje digitálnu výnimku zo slobody myslenia.

Regulácia EÚ o umelej inteligencii zároveň zakazuje manipulatívne modely. Háčik je v tom, že cenzúra, tak ako sa bežne implementuje, je zo svojej povahy manipulatívna, pretože popri priamom odmietaní tiež potajme upravuje interpretáciu dotazov používateľa a podprahovo mení všetky výstupy. To tlačí vývojárov umelej inteligencie do úzkeho priestoru legálnosti, ktorý je medzi povinnou cenzúrou a zakázanou manipuláciou.

Povinná vodotlač

Povinná vodotlač (článok 50, odsek 2) je závažným narušením súkromia, pretože poza chrbát užívateľa odhaľuje, aké nástroje boli použité na vytvorenie daného obsahu. Nič nebráni spoločnostiam prevádzkujúcim umelú inteligenciu zneužívať vodotlač na vyzradenie ďalších informácií, napríklad identity používateľa, časovej pečiatky alebo dokonca celého dotazu.

Vodotlač bude mať za následok falošné obvinenia z podvodu, pretože vodotlač je prítomná aj v prípade, že umelá inteligencia bola použitá len v podpornej úlohe na uhladenie alebo preklad ľudskej práce. Vodotlač je v niektorých prípadoch nespoľahlivá. Existuje napríklad netriviálna pravdepodobnosť. že text o veľkosti článku bude nesprávne identifikovaný ako obsah vytvorený jazykovým modelom.

Odkedy je nekompetentnosť dobrá vec?

Pokiaľ ide o reguláciu všeobecných modelov, regulácia EÚ o umelej inteligencii opakuje chybu neslávne známej cookie smernice (ePrivacy smernica), keď je namiesto zlého úmyslu a nedbanlivosti zacielená na schopnosti modelu.

Existujú tri druhy hrozieb, ktoré možno pozorovať v umelej inteligencii, u ľudí a dokonca aj pri tradičnom softvéri: zlý úmysel, nedbanlivosť a nekompetentnosť. V prípade umelej inteligencie sa zlý úmysel prejavuje vo forme úmyselne škodlivých aplikácií. Nekompetentnosť zvyčajne vyplýva z nedostatočnej veľkosti alebo trénovania modelu. Nedbanlivosť má dve formy: nesprávne ciele a laxný sandbox. Nesprávne trénovacie alebo aplikačné ciele spôsobujú, že model robí niečo iné, než bolo zamýšľané. Sandbox kontroluje prístup modelu k internetu, API rozhraniam a fyzickému svetu. Laxný sandbox zväčšuje škody spôsobené chybami umelej inteligencie podobne ako testovanie bŕzd alebo zbraní na verejných uliciach zväčšuje nebezpečenstvo spojené s týmito aktivitami.

Tým, že sa zameriava na najväčšie a najschopnejšie modely, regulácia EÚ o umelej inteligencii odmeňuje nekompetentnosť (slabé modely), a tým znižuje bezpečnosť umelej inteligencie. Je to ako kriminalizovať príliš inteligentných ľudí alebo ako regulovať príliš užitočný softvér. Regulácia by sa namiesto toho mala zamerať na zlý úmysel (účel aplikácie) a nedbanlivosť (kvalitu cieľov a sandboxu).

Munícia pre trollov

Regulácia nerobí žiadne výnimky z GDPR (Wikipédia, celý text). Predstavte si, že trénujete svoj model na archíve webstránok z internetu, ktoré náhodou obsahujú aj nejaké osobné údaje, ktoré sú pri trénovaní zapečené do modelu, a niekto požiada o odstránenie svojich osobných údajov podľa článku 17 GDPR. Ako takej žiadosti vyhoviete? Neexistujú nástroje, ktoré by dokázali vymazať poznatky z hotového modelu. Považuje sa odstránenie z budúcoročnej verzie modelu za odstránenie "bez zbytočného odkladu"? Sú používatelia povinní model aktualizovať? Čo ak neplánujete vydať ďalšiu verziu?

Neexistujú žiadne všeobecné výnimky pre drobné, náhodné a neúmyselné porušenia tohto alebo iných zákonov. Trénovacie databázy sú obrovské. Neexistuje spôsob, ako zabezpečiť ich dokonalý súlad s existujúcimi zákonmi. Modely niekedy bežia bez dozoru a vytvárajú obsah alebo vykonávajú akcie v mene používateľa bez manuálnej kontroly. Výstupy modelov umelej inteligencie sú však nespoľahlivé a dokonca obsahujú komponent náhodnosti. Neexistuje spôsob, ako zabezpečiť, aby autonómny model nikdy nevytvoril nezákonný výstup. Hoci niektoré zákony výslovne vynímajú náhodné porušenia, myslím si, že to nie je univerzálne a existujú zákony s ostrými hranami, ktoré budú trvalou hrozbou pre vývojárov a používateľov modelov umelej inteligencie.

Výnimky

Ak hľadáte spôsob, ako sa vyhnúť dodržiavaniu regulácie EÚ o umelej inteligencii, existuje niekoľko úzkych výnimiek, ktoré môžete zvážiť:

Osobné neprofesionálne nasadenie umelej inteligencie je úplne vyňaté. Ten, kto vám dodáva systém umelej inteligencie (vývoj a distribúcia), však nie je vyňatý z pôsobnosti regulácie.
Opensource má byť podľa nezáväzného zdôvodnenia v úvode regulácie oslobodený od niektorých požiadaviek, ale v aktuálnom záväznom znení regulácie je hrozný chaos, takže presné pravidlá v súčasnosti nie sú známe. Táto výnimka sa rozhodne nevzťahuje na zakázané a vysoko rizikové systémy umelej inteligencie ani na všeobecné modely so "systémovým rizikom".
Výskum, vývoj a laboratórne testovanie sú vyňaté. Testy v reálnom svete nie sú. Ale pozor, vývoj opensource modelov implicitne zahŕňa priebežné zverejňovanie a distribúciu, takže nie je jasné, či je tímový opensource vývoj vyňatý alebo nie.
Vedecký výskum je oslobodený, pokiaľ model nemá iný účel. Nemôžete ale povedať, že "je to výskum", a potom model použiť na komerčné účely alebo ako produkt určený pre spotrebiteľov. Regulácia sa stále vzťahuje na takýto model použitý na iný účel.
Špecializované systémy umelej inteligencie majú v istom zmysle výnimku, pretože sa na ne nevzťahujú pravidlá pre všeobecné modely (kapitola V). Odpadajú starosti so systémovým rizikom, dokumentáciou, transparentnosťou zdrojov, povinnou asistenciou regulačným orgánom a netreba ani splnomocneného zástupcu, aspoň pokiaľ sa špecializovaný model nepovažuje za vysoko rizikový.
Niektoré systémy umelej inteligencie používané vo vysokorizikových aplikáciách sa za určitých obmedzených podmienok samé osebe nepovažujú za vysokorizikové. Týka sa to rôznych pomocných, nepodstatných funkcií podrobne opísaných v regulácii. Tieto systémy si stále vyžadujú určitý rozsah dokumentácie a prípadne registráciu.

Vplyv na SourceAFIS

Vyvíjam opensource engine na rozpoznávanie odtlačkov prstov SourceAFIS a poskytujem komerčný vývoj nad rámec opensource verzie. Regulácia EÚ o umelej inteligencii môže potenciálne zničiť môj biznis, čo bol pôvodný dôvod, prečo som reguláciu začal skúmať.

Našťastie to vyzerá, že som v suchu. Regulovaná je len vzdialená biometrická identifikácia. Vzdialená znamená bez aktívnej účasti identifikovaného člokeka (napr. rozpoznávanie tváre pomocou kamery). Väčšina aplikácií rozpoznávania odtlačkov prstov je však lokálna, pretože človek musí byť prítomný a musí spolupracovať, aby sa dali naskenovať jeho odtlačky. Snímanie a rozpoznávanie odtlačkov prstov môže byť robené na diaľku len v prípade latentných odtlačkov (odobratých z povrchov, ktorých sa človek dotkol) a v exotickom prípade použitia kamery s vysokým rozlíšením na diaľku. Oba prípady sú v komerčných aplikáciách rozpoznávania odtlačkov prstov zriedkavé.

Biometrická verifikácia (1:1) deklarovanej totožnosti je dokonca výslovne vylúčené z pôsobnosti regulácie. Nie je jasné, či sa to vzťahuje aj na skupinovú identitu (napr. ak niekto pri vstupe do priestorov spoločnosti tvrdí, že je zamestnancom), čo technicky na implementáciu vyžaduje identifikáciu (1:N), ale v každom prípade, či už ide o verifikáciu alebo identifikáciu, lokálne aplikácie nie sú regulované.

Hlúposti

Niektoré aspekty regulácie EÚ o umelej inteligencii sú tak hlúpe alebo absurdné, že vás rozosmejú:

Vojenské umelé inteligencie sú vyňaté spod regulácie, vrátane tých, ktoré vyvíjajú a distribuujú súkromné subjekty. Čítate to správne. Ak umelú inteligenciu vyzbrojíte, zbaví vás to všetkých povinností vyplývajúcich z tejto regulácie. Dokonca aj umelá inteligencia s palebnou silou o veľkosti armády je úplne neregulovaná. Hoci je to nevyhnutný dôsledok obmedzených právomocí EÚ, zo zvyšku regulácie to robí frašku.
Limitovaná výnimka pre opensource je zrejme omylom negovaná, takže teraz regulácia aktuálne hovorí, že opensource podlieha regulácii v plnom rozsahu.
Systémy na rozpoznávanie emócií sú klasifikované ako vysoko rizikové. Na pracoviskách a vo vzdelávaní sú úplne zakázané. Týmto sa empatia de facto stáva nelegálnou. V Európskej únii musí byť umelá inteligencia chladná a nevšímavá. Tiež by ma zaujímalo, ako sa to bude v praxi vynucovať, keď všetky modely nevyhnutne nasávajú empatiu z trénovacích dát.
Keďže modely sú klasifikované ako tie so "systémovým rizikom" len na základe ich veľkosti, inteligentná virtuálna priateľka je nebezpečná, zatiaľ čo výpočtovo limitované robotické rameno schopné držať zbrane je bezpečné.
Zvolená hranica pre všeobecné modely so "systémovým rizikom" je 10²⁵ FLOPS, čo je podľa mojich veľmi konzervatívnych odhadov menej než množstvo výpočtov, ktoré vykoná jeden ľudský mozog počas svojho života. To znamená, že na svete už máme 8 miliárd nebezpečne chytrých prirodzených inteligencií.

Budúcnosť

Regulácia EÚ o umelej inteligencii musí ešte prejsť jazykovou a právnou kontrolou, procesom korigenda, a byť finálne schválená Európskou radou. Potom v priebehu dvoch rokov postupne nadobudne účinnosť.

Príprava regulácie EÚ o umelej inteligencii trvala roky a už si vyžiadala zásadnú revíziu po spustení ChatGPT. Pravdepodobne budú potrebné ďalšie takéto revízie v blízkej budúcnosti a pravdepodobne budú dostatočne rozsiahle, aby prekročili rámec rýchlejších a jednoduchších delegovaných aktov.

Hranica 10²⁵ FLOPS bude vzhľadom na súčasné investície do jazykových modelov rýchlo prekonaná. Najväčšia verzia Llama3 bude údajne dostatočne veľká na to, aby bola prvým opensource modelom, ktorý túto hranicu prekročí. Regulácia EÚ o umelej inteligencii umožňuje neskoršie aktualizácie tejto hranice, ale tie musia byť odôvodnené a reguláciou definované odôvodnenia naznačujú skôr revíziu smerom nadol než smerom nahor.

Budúca revízia regulácie by teoreticky mohla prah pre "systémové riziko" úplne odstrániť a prejsť namiesto toho na monitorovanie zlomyseľných a nedbanlivých aplikácií. Veľmi tomu ale neverím, pretože cookie smernica je pokazená rovnakým spôsobom a nikdy nebola opravená.

Regulácia EÚ o umelej inteligencii umožní v budúcnosti plíživé rezširovanie regulácie, čo bude možné jednoducho pridávaním položiek do zoznamu vysoko rizikových aplikácií, pridávaním dôvodov pre klasifikáciu všeobecnej umelej inteligencie ako takej so systémovým rizikom alebo rozširovaním noriem a certifikačných procesov.

Regulácia spôsobí, že mnohé opensource modely budú v EÚ nelegálne. Používatelia to neakceptujú a budú modely naďalej používať nelegálne a zdieľať ich prostredníctvom torrentov. To bude mať za následok masovú kriminalizáciu, ale bez reálnych sankcií pre drobných používateľov.