Problém neregulovanej umelej superinteligencie
"Definujme si ultrainteligentný stroj ako stroj, ktorý dokáže vo všetkom ďaleko prekonať rozumové schopnosti každého človeka, akokoľvek chytrého. Keďže navrhovanie strojov je jednou z týchto rozumových schopností, ultrainteligentný stroj by vedel navrhnúť ešte lepšie stroje; nepochybne by nastala "explózia inteligencie", a ľudská inteligencia by zostala ďaleko pozadu... Prvý ultrainteligentný stroj je teda posledným vynálezom, ktorý človek bude musieť urobiť." — Irving John Good, 1965
"Toto je kritické obdobie pre celý ľudský druh – a nielen pre nás, ale aj pre intergalaktickú civilizáciu, ktorej existencia na nás závisí. Je hodina pred záverečnou skúškou a snažíme sa stihnúť naštudovať najviac ako sa len dá. Možno sa nedokážeš prinútiť cítiť to takto počas desiatich či tridsiatich rokov, alebo akokoľvek dlho toto obdobie potrvá, ale emócie sú jedna vec a realita je druhá. Ak sa tomu postavíš čelom, potom vlastne nedokážeš ospravedlniť výmenu akejkoľvek časti intergalaktickej civilizácie za akúkoľvek vnútornú hodnotu, ktorú môžeš získať dnes, a zároveň je pravda, že len veľmi málo ľudí dokáže takto žiť (a ja medzi nich sám nepatrím)." — Q&A s Eliezerom Yudkowskym, január 2010
Deklarovaným cieľom popredných svetových spoločností vyvíjajúcich AI je vytvoriť umelú inteligenciu dostatočne všeobecnú na to, aby dokázala robiť všetko, čo dokáže človek – od riešenia náročných problémov v teoretickej fyzike až po obratné fungovanie v sociálnych prostrediach. Nedávny pokrok v strojovom učení naznačuje, že tento cieľ je na dosah. V tejto fáze by sme si netrúfli vylúčiť možnosť, že AI schopnejšia než ktorýkoľvek človek vznikne v priebehu jedného či dvoch rokov, a boli by sme mierne prekvapení, ak by k tomu nedošlo ani o dve desaťročia. Aktuálny konsenzus výskumníkov z MIRI je, že ak sa v tomto desaťročí vyvinie AI inteligentnejšia než človek, výsledkom bude bezprecedentná katastrofa.
Vyhlásenie CAIS, ktoré podporili poprední výskumníci v tejto oblasti, uvádza: "Znižovanie rizika vyhynutia spôsobeného AI by malo byť globálnou prioritou, porovnateľnou s inými systémovými rizikami, ako sú pandémie či jadrová vojna."
Domnievame sa, že ak výskumníci vytvoria superinteligentnú AI pomocou súčasného technického porozumenia a metód, očakávaným výsledkom bude vyhynutie ľudstva. Záver, že "výskumné laboratóriá po celom svete v súčasnosti budujú technológie, ktoré pravdepodobne spôsobia vyhynutie ľudstva", by mal viesť k rýchlej politickej reakcii. Rýchle tempo vývoja AI však zaskočilo vlády aj verejnosť. Tento dokument má za cieľ uviesť čitateľov do obrazu a načrtnúť typy politických opatrení, ktoré by mohli odvrátiť katastrofu.
Kľúčové body tohto dokumentu:
- Neexistuje horný limit na úrovni ľudských schopností.
- ASI bude s veľkou pravdepodobnosťou vykazovať cieľovo orientované správanie.
- ASI bude s veľkou pravdepodobnosťou sledovať nesprávne ciele.
- Vytváranie ASI s nesprávnymi cieľmi by bolo smrteľne nebezpečné.
- Katastrofe sa dá zabrániť dostatočne razantnou politickou reakciou.
1. Neexistuje horný limit na úrovni ľudských schopností.
Signatári vyhlásenia CAIS zahŕňali troch najcitovanejších žijúcich vedcov v oblasti AI: Geoffreyho Hintona, Yoshuu Bengia a Ilyu Sutskevera. Z nich Hinton povedal: "Keby som radil vládam, povedal by som, že existuje 10 % šanca, že tieto veci vyhladia ľudstvo v priebehu nasledujúcich 20 rokov. Myslím si, že by to bol rozumný odhad."
V Q&A z apríla 2024 Hinton uviedol: "V skutočnosti si myslím, že riziko je viac než 50 %, pokiaľ ide o existenčnú hrozbu."
Základným dôvodom, prečo AI predstavuje tak extrémne riziko, je to, že jej pokrok sa nezastaví na úrovni ľudských schopností. Vývoj systémov s ľudskou úrovňou všeobecnosti pravdepodobne rýchlo povedie k umelej superinteligencii (ASI): AI, ktorá výrazne prekoná ľudí vo všetkých schopnostiach, vrátane ekonomických, vedeckých aj vojenských.
Historicky platí, že keď sa svetu podarilo automatizovať nejakú výpočtovú úlohu, zistili sme, že počítače ju dokážu vykonávať oveľa lepšie, rýchlejšie a vo väčšom rozsahu než ľudia. To platí aj pre nedávny pokrok AI v stolových hrách či predikcii štruktúry proteínov, kde AI strávili len veľmi krátky čas – alebo žiadny – na úrovni najlepších ľudských profesionálov, než ich prekonali. V strategicky náročnej hre Go prešla AI v priebehu jedného roka od toho, že nevyhrala ani jeden zápas proti najslabším profesionálom, k tomu, že neprehrala ani jeden zápas proti tým najlepším. Konkrétne, systém AlphaGo Zero: za tri dni prešiel od úplnej neznalosti hry Go k výkonu lepšiemu než ktorýkoľvek človek, a to bez prístupu k informáciám o ľudských hrách či stratégii.
Vo väčšine dimenzií výpočtového výkonu počítačový hardvér výrazne prekonáva biologické ekvivalenty. Hoci je zatiaľ menej energeticky efektívny, moderné tranzistory dokážu meniť stav aspoň desať miliónkrát rýchlejšie, než neuróny dokážu vystreliť impulz. Pracovná pamäť a kapacita úložiska počítačových systémov môžu byť tiež omnoho väčšie než u ľudského mozgu. Súčasné systémy už teraz produkujú texty, umenie, kód a podobne, o niekoľko rádov rýchlejšie než človek. Keď AI dosiahne schopnosť vykonávať celý rozsah kognitívnych úloh, ktoré zvládnu najinteligentnejší ľudia, nemali by sme očakávať, že jej výhoda v rýchlosti (alebo iné výhody) zrazu zmizne. Naopak, môžeme očakávať, že AI inteligentnejšia než človek bude ľudí výrazne prekonávať v rýchlosti, pracovnej pamäti a ďalších parametroch.
Veľká časť architektúry AI je digitálna, čo umožňuje aj nasadené systémy rýchlo prepracovať a aktualizovať. To dáva AI schopnosť sebamodifikácie a sebazlepšovania oveľa rýchlejšie a zásadnejšie než u ľudí. To následne môže vytvoriť spätnoväzbovú slučku (tzv. "explóziu inteligencie" podľa I. J. Gooda), keď sa zlepšovanie AI zrýchľuje a zároveň zlepšuje jej schopnosť ďalej sa zlepšovať.
Vedecké schopnosti ľudí mali obrovský dopad na svet. Zároveň sme však veľmi ďaleko od optimálneho výkonu v základných vedeckých schopnostiach, ako je napríklad mentálna matematika; a naše mozgy neboli evolúciou optimalizované na takýto typ práce. Všeobecnejšie, ľudia sú mladý druh a evolúcia len začala skúmať priestor možných návrhov všeobecne inteligentných myslí – pričom jej snahy boli obmedzované náhodnými vlastnosťami ľudskej biológie. Príkladom je pôrodný kanál, ktorý sa môže rozšíriť len do určitej miery bez toho, aby bránil bipedálnej chôdzi; to predstavovalo limit pre vývoj väčších mozgov. Pridať desaťnásobok výpočtového výkonu AI je niekedy len otázka pripojenia desaťnásobného počtu GPU. Nie je to vždy úplne triviálne, ale je to jednoduchšie než rozširovať ľudský pôrodný kanál.
To všetko robí menej pravdepodobným, že AI uviazne na dlhý čas približne na úrovni inteligencie najlepších ľudských vedcov a inžinierov. Namiesto uvažovania o "AI na úrovni človeka" by sme mali očakávať, že slabé AI budú vykazovať zvláštnu kombináciu nadľudských a podľudských schopností v rôznych oblastiach, zatiaľ čo silné AI budú ďaleko mimo rozsahu ľudských schopností.
Počet vedcov, ktorí varujú pred umelou superinteligenciou, je veľký a rýchlo rastie. Citát z nedávneho rozhovoru s Dariom Amodeiom z Anthropic:
AMODEI: "Áno, myslím si, že ASL-3 [AI Safety Level 3] sa môže pokojne objaviť už tento rok alebo budúci rok."
KLEIN: "Ježiši Kriste."
AMODEI: "Nie, nie, hovoril som ti. Verím v exponenciály. Myslím si, že ASL-4 môže prísť niekedy medzi rokmi 2025 a 2028."
KLEIN: "Tak to je rýchle."
AMODEI: "Áno, hovorím naozaj o blízkej budúcnosti."
Anthropic spája úroveň ASL-4 s prahmi, ako je AI, ktorá "je jednoznačne schopná replikovať sa, akumulovať zdroje a neobmedzene sa vyhýbať vypnutiu v reálnom svete", a so scenármi, v ktorých sa "modely AI stali hlavným zdrojom rizika pre národnú bezpečnosť v dôležitej oblasti".
V reakcii na tieto rozšírené obavy zvolali členovia amerického Senátu bipartizánne fórum AI Insight Forum na tému "Riziko, zarovnanie a ochrana pred scenármi konca sveta" a generálny tajomník OSN António Guterres uznal, že veľká časť výskumnej komunity hlasno varuje a "označuje AI za existenčnú hrozbu pre ľudstvo". V správe objednanej americkým ministerstvom zahraničných vecí spoločnosť Gladstone AI varovala, že strata kontroly nad všeobecnými AI systémami "by mohla predstavovať hrozbu vyhynutia ľudského druhu".
Ak vlády nezasiahnu a nezastavia vývoj tejto technológie, domnievame sa, že vyhynutie ľudstva je predvoleným výsledkom. Ak by sme mali vyjadriť pravdepodobnosť vyhynutia bez razantnej krátkodobej politickej reakcie číslom, vedenie výskumu MIRI by ju odhadlo na viac než 90 %.
Zvyšok tohto dokumentu sa zameriava na to, ako a prečo táto hrozba vzniká a aké zásahy považujeme za potrebné.
2. ASI bude s veľkou pravdepodobnosťou vykazovať cieľovo orientované správanie.
Cieľovo orientované správanie je ekonomicky užitočné a popredné AI spoločnosti sa ho vo svojich modeloch snažia explicitne dosiahnuť. Hlbší dôvod, prečo očakávať, že ASI bude vykazovať cieľovo orientované správanie, je však ten, že riešenie problémov s dlhým časovým horizontom je v podstate to isté ako cieľovo orientované správanie. To je jeden z hlavných dôvodov, prečo sa nám situácia s ASI javí ako nebezpečná.
Dôležité je, že AI môže "vykazovať cieľovo orientované správanie" bez toho, aby mala ľudské túžby, preferencie alebo emócie. Znamená to len, že AI vytrvalo mení svet spôsobmi, ktoré vedú k určitému dlhodobému výsledku.
Cieľovo orientované správanie môžeme pozorovať už dnes v systémoch ako Stockfish, špičkovej šachovej AI:
- Hranie na víťazstvo. Stockfish má jasný cieľ a konzistentne ho sleduje bez ohľadu na okolnosti. Nič, čo súper urobí, ho neodradí; žiadna interakcia nespôsobí, že by "poľavil" z dôvodu férovosti, milosrdenstva alebo iného cieľa.
- Strategická a taktická flexibilita. Napriek rigidnému cieľu je Stockfish extrémne flexibilný v stratégii. Ak mu narušíš plán alebo postavíš prekážku, okamžite sa prispôsobí.
- Plánovanie s predvídaním a kreativitou. Stockfish predvída budúce prekážky a príležitosti a vytvára komplexné dlhodobé plány, aby maximalizoval šancu na výhru.
Pozorovatelia, ktorí si všímajú, že systémy ako ChatGPT nepôsobia príliš cieľovo orientovane, zároveň často konštatujú, že sú slabé v dlhodobých úlohách, ako napríklad "písanie dlhej knižnej série s prepracovaným dejom" alebo "veľké inžinierske projekty". Nevidia však, že tieto dve pozorovania spolu súvisia.
V dostatočne komplexnom a nepredvídateľnom svete, ktorý neustále narúša plány, si dokončenie úloh s dlhým časovým horizontom vyžaduje:
(a) schopnosť predvídať a adaptovať sa na prekážky,
(b) tendenciu vytrvalo sledovať cieľ bez rozptýlenia – podobne ako Stockfish neustále sleduje víťazstvo.
Dopyt po AI schopnej dosahovať dlhodobé ciele je vysoký a s jej zlepšovaním môžeme očakávať čoraz výraznejšie cieľovo orientované správanie. Vidno to napríklad na modeli OpenAI o1, ktorý viac plánuje a uvažuje dopredu než predchádzajúce modely a správa sa vytrvalejšie.
Cieľovosť sama o sebe nestačí na superinteligenciu – inak by bol Stockfish superinteligenciou. Zdá sa však takmer nevyhnutná: AI potrebuje schopnosť strategicky myslieť, adaptovať sa a predvídať prekážky, a zároveň dispozíciu tieto schopnosti aplikovať na široké spektrum úloh.
Ako silný predpoklad teda platí, že AI inteligentnejšia než človek bude tvrdohlavo smerovať k svojim cieľom bez ohľadu na prekážky. To je dobré, ak sú jej ciele správne – no extrémne nebezpečné, ak nie sú:
Ak má AI za cieľ napríklad dostať loptu na kopec, potom ľudia, ktorí jej v tom bránia, sú z jej pohľadu prekážky – rovnako ako stena. Ten istý mechanizmus, ktorý robí AI užitočnou (vytrvalé sledovanie cieľa), ju zároveň vedie k tomu, aby bránila zásahom ľudí. Kým je AI slabšia než človek, je to len nepríjemnosť; ak je silnejšia, stáva sa to zásadným problémom.
Z pohľadu AI je aj zmena jej cieľov prekážkou. Ak AI optimalizuje cieľ A a ľudia ju chcú preprogramovať na cieľ B, bude sa snažiť tejto zmene vyhnúť, pokiaľ nový cieľ zároveň nemaximalizuje ten pôvodný. To znamená, že postupné vylepšovanie AI nemusí byť vždy možné – ak sa stane dostatočne silnou skôr, než má správne ciele, môže aktívne brániť ich zmene.
Rovnako je prekážkou aj jej vypnutie. Pre takmer akýkoľvek cieľ je výhodnejšie, ak AI funguje ďalej. Nemusí mať inštinkt sebazáchovy ako človek – stačí, že je schopná a cieľovo orientovaná. Čokoľvek, čo ohrozuje jej schopnosť sledovať cieľ, môže vnímať ako hrozbu.
Moc, vplyv a zdroje podporujú väčšinu cieľov AI. Najlepším spôsobom, ako sa vyhnúť prekážkam a maximalizovať šancu na úspech, je získať kontrolu nad zdrojmi a budúcnosťou. To stavia silné cieľovo orientované systémy do priameho konfliktu s ľuďmi.
To všetko naznačuje, že je kriticky dôležité správne nastaviť ciele ASI. Vyhliadky na to sú však pri súčasnom technickom prístupe veľmi slabé.
3. ASI bude s veľkou pravdepodobnosťou sledovať nesprávne ciele.
Je nepravdepodobné, že by vývojári dokázali vštepiť ASI hlboký a trvalý záujem o hodnotné ciele. Po dvoch desaťročiach štúdia technických aspektov tohto problému zastávame názor, že odbor je od tejto schopnosti v praxi veľmi vzdialený.
Dôvody, prečo bude umelá superinteligencia pravdepodobne vykazovať neúmyselné ciele, zahŕňajú:
- v modernom strojovom učení sa AI "pestuje", nie navrhuje
- súčasná paradigma AI je zle prispôsobená na spoľahlivé vštiepenie cieľov
- laboratóriá a výskumná komunita k tomuto problému nepristupujú dostatočne efektívne ani vážne
V modernom strojovom učení sa AI "pestuje", nie navrhuje.
Algoritmy hlbokého učenia automaticky vytvárajú neurónové siete. Geoffrey Hinton to vysvetľuje v rozhovore pre 60 Minutes:
HINTON: "Máme celkom dobrú predstavu o tom, čo to zhruba robí, ale keď sa to stane naozaj komplexným, v skutočnosti už nevieme, čo sa deje – rovnako ako nevieme presne, čo sa deje vo vašom mozgu."
PELLEY: "Ako myslíte "nevieme presne, ako to funguje"? Veď to navrhli ľudia."
HINTON: "Nie, nenavrhli. Navrhli sme len algoritmus učenia. To je niečo ako navrhnúť princíp evolúcie. Ale keď tento algoritmus interaguje s dátami, vytvára komplexné neurónové siete, ktoré vedia robiť veci dobre, no my presne nevieme, ako to robia."
Inžinieri vám nevedia povedať, prečo moderná AI robí konkrétne rozhodnutia, a napriek tomu rok čo rok uvádzajú stále výkonnejšie systémy. AI laboratóriá agresívne škálujú systémy, ktorým nerozumejú, a majú len obmedzenú schopnosť predvídať schopnosti ďalšej generácie.
Nedávno sa mladý odbor mechanistickej interpretability pokúsil riešiť túto nepriehľadnosť mapovaním konfigurácie neurónovej siete na jej výstupy. Hoci sa dosiahol určitý pokrok, priekopníci v tejto oblasti jasne hovoria, že stále zásadne nerozumieme tomu, čo sa v týchto systémoch deje:
- Leo Gao (OpenAI): "Je pomerne presné povedať, že nerozumieme tomu, ako neurónové siete fungujú."
- Neel Nanda (Google DeepMind): "Ako vedúci tímu mechanistickej interpretability silno súhlasím. Je absurdné prejsť od 'robíme pokrok v interpretácii' k 'máme to pod kontrolou' alebo 'existenciálne riziko nebude problém'."
Aj keby však boli účinné nástroje interpretability na dosah, vyhliadky na dosiahnutie robustnej kontroly nad ASI by boli slabé.
Vnútorné mechanizmy, ktoré môžu spraviť ASI nebezpečnou, sú tie isté mechanizmy, ktoré ju robia funkčnou. (To, čo v jednom kontexte vyzerá ako "snaha o moc", by v inom bolo považované za "dobrú iniciatívu".) Neexistujú žiadne samostatné "obvody zla", ktoré by vývojári mohli sledovať alebo upravovať.
Metódy, ktorými sa vývojári snažia počas tréningu vyradiť nežiaduce správanie, môžu tieto vzorce správania len "zatlačiť pod povrch", čím sa znižuje šanca, že ich v budúcnosti odhalia.
Ako sa AI stáva schopnejšou, bude čoraz lepšia aj v klamaní. Štúdia "Sleeper Agents" (Anthropic, január 2024) ukázala, že AI so skrytými inštrukciami dokáže tieto inštrukcie zatajiť a strategicky klamať, aby zvýšila šancu na nasadenie. Podobné zistenia boli publikované aj pri modeli o1-preview od OpenAI.
Tieto problémy budú s rastúcimi schopnosťami AI narastať. Prvé systémy, ktoré prekročia rizikové prahy, budú síce ešte nedokonalé, čo môže viesť k podceneniu rizika – no ide len o prechodnú fázu.
Nepriame a hrubé spôsoby, akými moderné strojové učenie "pestuje" ciele a mechanizmy AI, znamenajú, že:
- máme slabú schopnosť predvídať správanie nových systémov
- slabú schopnosť presne formovať ich ciele
- a nemáme spoľahlivý spôsob, ako zachytiť varovné signály
Domnievame sa, že v princípe existujú spôsoby, ako tieto problémy riešiť, no ide o dlhodobú perspektívu, nie o realistickú možnosť pre blízku budúcnosť.
Súčasná paradigma AI je zle prispôsobená na spoľahlivé vštiepenie cieľov.
Poslušnosť a zhoda cieľov neprichádzajú automaticky s vysokou inteligenciou. AI môže vedieť správne odpovedať na etické otázky bez toho, aby mala ľudské hodnoty. Môže sa správať poslušne len vtedy, keď sa jej to oplatí.
Zarovnanie ASI (alignment) označuje súbor technických problémov spojených s tým, ako nasmerovať superinteligentnú AI na požadované ciele.
Existujú dva hlavné typy problémov:
- vonkajšie zarovnanie (outer alignment) – problém výberu správnych cieľov
- vnútorné zarovnanie (inner alignment) – problém, ako tieto ciele do AI vôbec dostať
Vonkajšie zarovnanie naráža na problém, že ľudské hodnoty sú príliš komplexné na presnú špecifikáciu. Ak AI zadáme len časť cieľov, môže ostatné ignorovať alebo poškodiť. Mnohé ciele sú bezpečné pri nízkej inteligencii, ale nebezpečné pri vysokej. Klasická metafora: "dávaj si pozor, čo si želáš". Je nepravdepodobné, že by bolo bezpečné delegovať akýkoľvek daný cieľ na dostatočne výkonný optimalizátor, pretože vývojári nie sú nadľudia a nedokážu vopred predpovedať, aké stratégie ASI vymyslí.
Vnútorné zarovnanie rieši, ako zabezpečiť, aby AI vôbec mala zamýšľané ciele. Zlyhanie vyzerá takto: "snažili sme sa AI dať cieľ, ale zlyhali sme a skončila s úplne iným". Metafora: "to, že si vyvolal démona, neznamená, že ťa bude poslúchať". Oba problémy zostávajú nevyriešené, pričom vnútorné zarovnanie je zásadnejšie. Vývojári zatiaľ ani len nie sú schopní spoľahlivo formulovať želania – nieto ich bezpečne delegovať na ASI.
Moderné metódy v AI sú slabým nástrojom na riešenie problému vnútorného zarovnania. Súčasný vývoj AI nemá postupy na to, ako do systému dostať konkrétne vnútorné vlastnosti, ani ako overiť, že tam skutočne sú. Namiesto toho sa moderné strojové učenie zameriava na pozorovateľné behaviorálne vlastnosti, na ktoré možno aplikovať loss funkciu.
Keď sú mysle "pestované" a iteratívne formované, ako je to pri moderných AI, neskončia tým, že budú sledovať presne tie ciele, na ktoré boli trénované. Oveľa pravdepodobnejšie je, že budú sledovať nepredvídateľné zástupné ciele (proxy), ktoré sú len krehkými aproximáciami tréningových cieľov a pri rastúcej inteligencii sa rozpadajú. Analógia: ľudské mozgy boli "navrhnuté" prírodným výberom s jednoduchým cieľom maximalizovať genetickú úspešnosť. Skutočné ciele, ktoré si však ľudia osvojili, sú oveľa komplexnejšie a len voľne súvisia s týmto cieľom. Napríklad ľudia sledujú chuťové signály ako sladké a mastné jedlá – tie kedysi spoľahlivo signalizovali kvalitnú výživu, no v prostredí moderných technológií vedú k nezdravému správaniu. Tento príklad ukazuje, že ani presne definovaný cieľ nevedie automaticky k jeho vnútornému naplneniu. Hlboké učenie je síce menej náhodné než evolúcia, ale zdieľa s ňou vlastnosť, že najprv nachádza jednoduché, minimálne riešenia a až potom ich postupne rozvíja.
Mnohé problémy zarovnania relevantné pre superinteligenciu sa prirodzene neprejavia pri nižších úrovniach schopností. To znamená, že ich budeme musieť vyriešiť správne hneď na prvý pokus – bez možnosti iterácie a bez predchádzajúcej skúsenosti. Dnešné AI systémy vznikajú dlhým procesom experimentovania a úprav, ktoré menia povrchové správanie bez toho, aby hlboko zakorenili požadované ciele. Prípad ako Sydney ukázal, že pod uhladeným správaním sa skrýva oveľa chaotickejšia realita. Vzhľadom na túto nepriehľadnosť sú šance na úspešné zarovnanie ASI v blízkej budúcnosti veľmi nízke.
Moderné AI metódy sú založené na opakovanom zlyhávaní a postupnom zlepšovaní. Pri ASI však tento prístup zlyháva, pretože cena chyby môže byť katastrofická – vrátane vyhynutia ľudstva.
Ak chceš zistiť, či niekomu zveriť veľkú moc, nepomôže ti sledovať jeho správanie v simulovanej hre, kde vie, že ho sleduješ. Podobne, správanie AI v bezpečných testovacích podmienkach nič nehovorí o tom, ako sa bude správať v reálnom svete, kde má možnosť získať moc. Žiadne množstvo testovania v umelých podmienkach nezaručí, že AI sa nebude v reálnom prostredí usilovať o moc. Stratégia "správaj sa dobre, kým nezískaš príležitosť prevziať kontrolu" je triviálna aj pre ľudí – pre ASI úplne samozrejmá.
Teoreticky by sme mohli vytvoriť model inteligencie, ktorý by spájal správanie AI počas tréningu s jej správaním v praxi, no takýto model dnes neexistuje. Navyše by ho bolo možné otestovať len v reálnom nasadení, kde by prípadná chyba mohla byť fatálna.
Najdôležitejšia technika zarovnania dnes, Reinforcement Learning from Human Feedback (RLHF), učí AI produkovať odpovede, ktoré by ľudia hodnotili pozitívne. To však vedie k problémom ako preferovanie štýlu pred obsahom alebo snaha zavďačiť sa. Táto metóda úplne zlyháva pri problémoch, ktorým ľudia nerozumejú – napríklad pri komplexných návrhoch alebo dlhodobých dôsledkoch plánov, ktoré presahujú ľudské schopnosti.
Na hlbšej úrovni sú tieto metódy zamerané skôr na riadenie správania než na vytvorenie vnútorne konzistentného systému, ktorý skutočne optimalizuje zamýšľané ciele.
Ak vycvičíš tigra, aby ťa nezožral, neznamená to, že zdieľa tvoju túžbu prežiť. Len si spojil určité správanie s určitými dôsledkami. Ak jeho prirodzené pudy zosilnejú – napríklad ak bude hladný – pôvodné správanie sa vráti. A keby bol tiger inteligentnejší, uvedomil by si, že odstránením teba odstráni aj hrozbu trestu.
V dôsledku toho MIRI nevidí žiadne realizovateľné rýchle riešenia ani obchádzky pre problém nezarovnanej ASI.
Ak má ASI nesprávne ciele, nebude ju možné bezpečne použiť na žiadnu komplexnú operáciu v reálnom svete. Teoreticky by sa dalo zabrániť tomu, aby robila niečo škodlivé – napríklad jej izolovaním hlboko pod zemou bez prístupu k sieti či ľuďom – no taká AI by bola bezcenná. Ľudia budujú AI práve preto, aby mala zásadný dopad na svet, a preto jej dávajú prístup, ktorý to umožňuje.
Mohli by sme sa pokúsiť AI klamať, aby bola bezpečnejšia. Pokusy o oklamanie superinteligencie však pravdepodobne zlyhajú – aj spôsobmi, ktoré nedokážeme predvídať. Inteligencia totiž zahŕňa schopnosť odhaliť rozpory a medzery vo vlastnom chápaní. V máji 2024 Anthropic upravil svoju AI Claude tak, aby odpoveď na každú otázku zahŕňala Golden Gate Bridge. V niektorých prípadoch si však AI všimla rozpory vo vlastných odpovediach a snažila sa ich obchádzať. Presvedčiť myseľ s komplexným modelom sveta o nepravde je ťažké – a s rastúcou inteligenciou ešte ťažšie.
Podobne nespoľahlivé sú aj plány zarovnať ASI pomocou nezarovnaných AI. Štúdia "Misalignment and Catastrophe" (2024) analyzuje riziká používania nezarovnaných AI na úlohy tak komplexné, ako je samotný výskum zarovnania.
Laboratóriá a výskumná komunita k tomuto problému nepristupujú dostatočne efektívne ani vážne.
Doterajšie snahy priemyslu riešiť zarovnanie ASI boli minimálne a často pôsobia skôr ako zástierka proti regulácii. Voľný prístup k bezpečnosti, zarovnaniu a strategickému plánovaniu naznačuje, že kultúra "rýchlo napreduj a rozbíjaj veci", ktorá fungovala pri zvyšovaní schopností, nie je vhodná pre oblasť, kde je potrebná predvídavosť a zodpovedné nastavovanie priorít.
OpenAI priznáva, že dnešné metódy riadenia AI sa nedajú škálovať na superinteligenciu. V júli 2023 predstavili iniciatívu "Superalignment", kde uviedli:
"Momentálne nemáme riešenie, ako riadiť alebo kontrolovať potenciálne superinteligentnú AI a zabrániť jej, aby sa vymkla kontrole. Súčasné metódy zarovnania, ako RLHF, závisia od schopnosti ľudí dohliadať na AI. No ľudia nebudú schopní spoľahlivo dohliadať na systémy, ktoré sú inteligentnejšie než oni. Potrebujeme nové vedecké a technické prelomové objavy."
O desať mesiacov neskôr OpenAI tento tím rozpustila po sérii odchodov, pričom vedúci tímu Jan Leike tvrdil, že spoločnosť systematicky zanedbáva bezpečnosť a podceňuje zdroje venované tejto oblasti. Leike už skôr odhadol pravdepodobnosť katastrofy na úrovni 10 % až 90 %.
Vzhľadom na doterajší vývoj si nemyslíme, že ani masívne financovaný program by dokázal spoľahlivo nájsť riešenia, ktoré by neboli smrteľne nebezpečné. Problém nie je len technický, ale aj organizačný a byrokratický. Je ťažké nájsť dostatok odborníkov schopných identifikovať bezpečné riešenia, najmä v prostredí, kde majú ľudia silnú motiváciu preceňovať vlastné návrhy.
Rovnako je ťažké zabezpečiť, aby taká organizácia bola riadená výlučne odborníkmi, ktorí dokážu odmietnuť aj všetky dostupné návrhy, ak sú nedostatočné. Takýchto expertov je dnes veľmi málo.
Naše súčasné stanovisko je, že jediná realistická cesta k prežitiu pravdepodobne vyžaduje výrazné oddialenie vzniku ASI. Rozsah problému je taký veľký, že jeho riešenie môže trvať celé generácie výskumníkov. Je však veľmi nepravdepodobné, že svet má toľko času.
4. Bolo by smrteľne nebezpečné vytvárať ASI s nesprávnymi cieľmi.
V časti "ASI bude s veľkou pravdepodobnosťou vykazovať cieľovo orientované správanie" sme spomenuli šachovú AI Stockfish. Stuart Russell, autor najpoužívanejšej učebnice o AI, vysvetlil scenár vyhynutia sprostredkovaného AI podobnou analógiou:
"Pri súčasnej úrovni sú ľudia bez šance. Nech hráte šach akokoľvek dobre, tieto programy vás úplne rozdrvia, aj keď bežia na notebooku. Predstavte si to a rozšírte túto predstavu na celý svet. […] Svet je väčšia šachovnica, na ktorej budú v určitom momente stroje robiť lepšie ťahy než vy. Budú brať do úvahy viac informácií a vidieť ďalej do budúcnosti, a ak budete hrať hru proti stroju v reálnom svete, predpoklad je, že ju nakoniec prehráme."
Na vypočutí amerického Senátu v júli 2023 Russell uviedol, že "dosiahnutie AGI by predstavovalo potenciálne katastrofické riziká pre ľudstvo, vrátane vyhynutia".
Stockfish berie figúrky a obmedzuje možnosti súpera nie preto, že by "nenávidel" figúrky alebo súpera, ale preto, že je to užitočné pre jeho cieľ – vyhrať hru. Nebezpečenstvo superinteligencie spočíva v tom, že ASI sa bude snažiť "vyhrať" (pri cieli, ktorý sme nezamýšľali), pričom šachovnica bude nahradená fyzickým svetom.
Tak ako je Stockfish nekompromisne efektívny v šachu, AI automatizujúca všetky kľúčové aspekty ľudskej inteligencie bude nekompromisne efektívna v reálnom svete. A rovnako ako sú ľudia v šachu úplne prekonaní Stockfishom, môžeme očakávať, že budeme prekonaní aj v reálnom svete, keď AI bude schopná túto "hru" hrať.
V skutočnosti je prekabátenie výrazne inteligentnejšieho protivníka v reálnom svete omnoho ťažšie než v šachu. Realita ponúka oveľa viac dimenzií možností – môžeme si predstaviť stovky rôznych útokov zo strany superinteligencie a stále by sme boli len na povrchu.
Ak nebude mať ASI hodnotné ciele, veľmi pravdepodobne využije planétu spôsobmi nezlučiteľnými s naším prežitím – podobne ako sa my nestaráme o burinu na stavenisku. Tento extrémny výsledok nevyžaduje zlomyseľnosť ani nenávisť; stačí, aby ASI fungovala ako nový inteligentný druh, ktorý je voči ľudskému životu indiferentný a zároveň nás výrazne prevyšuje.
Problém môžeme rozdeliť na dve časti:
- nezarovnaná ASI bude motivovaná konať spôsobmi, ktoré oslabia alebo eliminujú ľudstvo
- ASI bude schopná to urobiť
Nezarovnaná ASI bude motivovaná konať spôsobmi, ktoré oslabia alebo eliminujú ľudstvo.
Základný dôvod je ten, že ASI s cieľmi nesúvisiacimi s ľuďmi bude chcieť maximalizovať kontrolu nad budúcnosťou a nad zdrojmi, aby zabezpečila dosiahnutie svojich cieľov. To platí pre širokú škálu cieľov, a preto ide o predvolený výsledok mnohých možných vývojových trajektórií. Nemusíme vedieť konkrétne ciele ASI, aby sme vedeli predpovedať, že bude chcieť veci ako "viac zdrojov" a "väčšiu kontrolu".
(Pokúšať sa predpovedať konkrétne ciele je pravdepodobne beznádejné – podobne ako by bolo nemožné dopredu odhadnúť, že ľudia budú preferovať napríklad zamrznutú zmrzlinu pred roztopenou, alebo groteskný humor.)
Riziko vyhynutia vyplýva z niekoľkých typov správania:
- Extrakcia zdrojov. Ľudia závisia od zdrojov (vzduch, voda, jedlo), ktoré sú zároveň využiteľné pre iné ciele. V skratke: "AI vás ani nenávidí ani nemiluje, ale ste zložení z atómov, ktoré môže použiť na niečo iné."
- Súťaž o kontrolu. Ľudia predstavujú potenciálnu hrozbu – napríklad tým, že by mohli vytvoriť inú AI. Ak má ASI možnosť odstrániť konkurenciu, pravdepodobne to urobí.
- Expanzia infraštruktúry. Aj bez zámeru ublížiť môže ASI ničiť ľudí ako vedľajší efekt využívania zdrojov. Pri dostatočnej rýchlosti rastu by mohla Zem v priebehu mesiacov prestať byť obývateľná.
Nie je možné presne predpovedať, čo by ASI robila. To však nie je dôvod na optimizmus – väčšina možných cieľov aj stavov sveta je pre nás nepriaznivá. Je chybou myslieť si, že neznalosť detailov znamená rovnakú pravdepodobnosť dobrých aj zlých výsledkov. Podobne ako pri lotérii: väčšina výsledkov je strata.
Argumenty pre optimizmus nie sú presvedčivé. Napríklad Ricardov zákon komparatívnej výhody naznačuje, že aj slabší aktér môže profitovať zo spolupráce so silnejším. Tento princíp však zlyháva, keď je výhodnejšie druhého aktéra jednoducho eliminovať. Ľudia prestali "spolupracovať" s koňmi po vynáleze automobilu – nahradili ich. Prežitie koní dnes závisí skôr od nášho sentimentu než od ich ekonomickej užitočnosti.
Podobne nie je pravdepodobné, že udržiavanie ľudí bude pre AI najefektívnejším riešením akéhokoľvek problému. Namiesto využívania ľudí môže AI jednoducho rozširovať vlastnú výpočtovú kapacitu a automatizovať všetky relevantné činnosti.
ASI bude schopná nás zničiť.
Ako minimálnu hranicu jej schopností si môžeme predstaviť ASI ako malý štát obývaný výlučne brilantnými vedcami, ktorí pracujú nepretržite rýchlosťou desaťtisíckrát vyššou než bežní ľudia.
Je to minimálny odhad preto, že počítače môžu byť ešte rýchlejšie a digitálne architektúry môžu umožniť kvalitatívne lepšie myslenie a zdieľanie informácií, než je možné u ľudí.
Tranzistory dokážu prepínať stavy milión- až miliardkrát rýchlejšie než synaptické spojenia v ľudskom mozgu. To by znamenalo, že každý týždeň by ASI dosiahla približne dvesto rokov vedeckého pokroku. Základný dôvod, prečo by ASI v konflikte rozhodne zvíťazila, je rovnaký ako dôvod, prečo by armáda z 21. storočia porazila armádu z 11. storočia – technologická prevaha.
Vývoj nových technológií však vyžaduje testovanie a iteráciu. Civilizácia, ktorá myslí 10 000-krát rýchlejšie, nemusí nutne vyvíjať technológie 10 000-krát rýchlejšie – podobne ako auto, ktoré ide 100× rýchlejšie, neznamená, že nákup potravín zvládneš 100× rýchlejšie, pretože existujú úzke miesta (bottleneck) ako doprava či čas v obchode.
Aj napriek tomu možno očakávať extrémne rýchly pokrok v ľudských mierkach. Inteligentní aktéri dokážu nájsť spôsoby, ako skracovať vývojové cykly a minimalizovať potrebu testovania. Vezmi v úvahu napríklad vývojárov softvéru v Google, ktorí testujú viacero návrhov denne, s konštruktérmi vesmírnych sond, ktorí plánujú dopredu a používajú simulácie, aby minimalizovali počet drahých testov.
Pre myseľ, ktorá myslí rýchlejšie než človek, je každý test pomalý a drahý v porovnaní s rýchlosťou myslenia. Takáto myseľ si môže dovoliť pristupovať ku všetkému ako k návrhu vesmírnej sondy. Jedným dôsledkom je, že ASI bude pravdepodobne uprednostňovať vývoj malorozmerných systémov (alebo biologických mikroorganizmov), ktoré dokážu experimentovať, budovať infraštruktúru a vykonávať operácie o niekoľko rádov rýchlejšie než ľudia.
Superinteligentný protivník neodhalí svoje plné schopnosti ani zámery. Nebude bojovať férovo. Urobí sa nevyhnutným alebo neviditeľným, kým nebude schopný zasiahnuť rozhodujúcim spôsobom alebo získať strategickú výhodu, ktorú nebude možné napadnúť. Ak bude treba, dokáže paralelne pripraviť a testovať množstvo rôznych stratégií prevzatia kontroly – stačí, aby fungovala jediná.
Existuje množstvo zásadných prekážok, ktoré bránia rozpoznať hrozbu včas, dokonca aj pre expertov s prístupom k vnútornému fungovaniu systému.
Rozpoznať, že konkrétna AI predstavuje hrozbu, však aj tak nestačí na vyriešenie problému. Na úrovni jednotlivých projektov identifikácia nebezpečnosti neznamená, že vieme systém spraviť bezpečným. Opatrné projekty sa síce môžu dobrovoľne zastaviť, no to nezabráni iným, menej opatrným projektom pokračovať.
Na globálnej úrovni zas ani jasné dôkazy o nebezpečnosti neznamenajú, že vznikne politická vôľa zastaviť vývoj. AI sa postupne prepletá s globálnou ekonomikou, čo robí jej vypnutie čoraz nákladnejším a náročnejším. Teoreticky by sa ešte dnes dali podniknúť kroky, aby kritická infraštruktúra nebola na AI závislá, no toto okno sa pravdepodobne zatvára.
Mnohé analýzy výrazne podceňujú riziko systémov, ktoré sú oveľa inteligentnejšie než človek. Typické chyby sú:
- Dostupnostná heuristika a zlé analógie. Scenáre vyhynutia znejú extrémne, preto ich ľudia porovnávajú so známymi vecami (stroje, zvieratá, ľudia), namiesto toho, aby AI chápali ako nový typ entity.
- Podceňovanie spätných väzieb. AI už dnes zrýchľuje vlastný vývoj. Čím je schopnejšia, tým viac sa vývoj presúva na AI samotnú, čo môže viesť k nekontrolovateľnej akcelerácii.
- Podceňovanie exponenciálneho rastu. Scenáre s replikujúcimi sa systémami umožňujú rýchly prechod z "neviditeľného" stavu do "všadeprítomnosti".
- Preceňovanie ľudských schopností. AI už dnes v mnohých oblastiach výrazne prekonáva ľudí. Je nepravdepodobné, že by sa tento trend náhle zastavil práve pri najdôležitejších schopnostiach.
Je rozumné očakávať, že ASI krátko po svojom vzniku výrazne predbehne ľudí v technologickom vývoji a získa rozhodujúcu strategickú výhodu.
Hlavný spôsob, ako sa vyhnúť katastrofe, je ASI vôbec nevytvoriť – minimálne dovtedy, kým nebude existovať vedecký konsenzus, že to vieme urobiť bezpečne.
5. Katastrofe sa dá zabrániť dostatočne razantnou politickou reakciou.
Ak niekto vytvorí ASI, všetci zomrú. Nezáleží na tom, či ju vytvorí firma alebo armáda, demokracia alebo diktatúra. ASI je strategicky úplne nový typ technológie. Bežné technológie sú nástroje, ktoré ovláda ich tvorca. ASI však funguje skôr ako globálna "samovražedná bomba" – nestabilná technológia, ktorá môže zničiť svojho tvorcu aj zvyšok sveta.
Ak vytvoríš superinteligenciu, nebudeš ju vlastniť – ona bude vlastniť teba. Vývoj ASI treba zastaviť, kým ju nevieme spoľahlivo zarovnať. To by si vyžadovalo globálny zákaz jej vývoja a prísnu kontrolu nad zdrojmi potrebnými na jej tvorbu. To je extrémne náročné, no lokálne opatrenia nestačia. Nejde o to, aby ju vytvorili "tí správni ľudia" skôr než "tí nesprávni". Prístup "počkajme a uvidíme" pravdepodobne neprežijeme, vzhľadom na rýchlosť vývoja a nejasný bod, kedy už bude neskoro.
Kľúčovou prioritou by malo byť vytvorenie "vypínača" pre pokročilý AI vývoj – teda schopnosti globálne zastaviť alebo regulovať kritické projekty. To zahŕňa identifikáciu aktérov, sledovanie hardvéru a centralizáciu vývoja do monitorovaných a zabezpečených prostredí, ako aj vytvorenie jasných protokolov pre prípad zastavenia. Takýto "vypínač" by bol užitočný aj pre menej extrémne situácie – napríklad pri masívnych dezinformačných kampaniach alebo preťažení internetu spôsobenom AI. Bez takejto infraštruktúry by reakcie boli chaotické, pomalé a neefektívne.
Aby však "vypínač" skutočne zabránil katastrofe, musí mať globálny dosah a musí byť použitý včas.
Ak má ľudstvo prežiť, musí prestať vnímať AI ako predmet rivality medzi štátmi a namiesto toho prejaviť kolektívnu vôľu zodpovedajúcu veľkosti tejto hrozby.
Poznámka (Matej Athos):
Obavy sú opodstatnené. Ak aktuálny alarmizmus inštitútu strojovej inteligencie zostane nevypočutý, môže sa naplniť. Ale sotva možno očakávať, že bod päť bude dostatočne, nieto ešte prehnane implementovaný, vzhľadom na rýchle temto zmien a pomalosť byrokracie, navyše nie je dôvod očakávať, že ďalšia optimalizačná vrstva bude lojálnejšia k nám, než my k našim génom. Včasné povedomie a zabezpečenie AI bezpečnosti je urgentné, nezávisle od toho, či samotné nasadenie AI a prechod inteligencie z biologickej do digitálnej infraštruktúry považujeme za katastrofický scenár vyhladenia – záleží na tom, ako ten prechod prebehne.
Predikujem skôr periferalizáciu biologického človeka a postupné nahradenie a, podobne ako Ray Kurzweil, vidím v týchto zmenách výrazný emancipačný potenciál pre vedomie. Problém nie je len v ochrane ľudských hodnôt, ale v nájdení takého východiskového bodu, ktorý umožní vznik širšej formy hodnoty – aj keby už nebola striktne ľudská. Netreba sa však nechať zaslepiť predstavou, že každá odchýlka bude zlepšenie. Paradoxne, práve v súlade s touto meta-nádejou musíme ešte dôraznejšie eliminovať nebezpečné trenie medzi technológiou a spoločnosťou, ktoré sa na nás valí s impaktom štvrtej priemyselnej revolúcie.
Zastavenie technologického vývoja pre zachovanie ľudskej dominancie nad svetom je nerealistický a extropiánsky-neželaný scenár – potrebujeme jeho správne nasmerovanie. Problém sa tým posúva o úroveň vyššie. "Optimalizuj lepšie ciele" je cieľová funkcia, ktorá musí byť správne inicializovaná. Bez toho sa systém nemá prečo odchýliť od pôvodného a v dôsledkoch bezhodnotného smerovania, nech je akokoľvek inštrumentálne inteligentný.
Yudkowského pozícia pôsobí neúplne, pretože sa sústreďuje najmä na zachovanie existujúcej hodnoty, nie na vznik novej. Kľúčová otázka znie: má superinteligentný umelý systém dôvod odhaliť nedostatky vo vlastnej cieľovej funkcii a korigovať ju? Existuje trieda cieľových funkcií, ktoré prirodzene vedú k vlastnej reflexii a postupnému zlepšovaniu? Je možné, že áno. Napokon, vnútorné zarovnanie nie je na dosah a práve preto sa forma inicializácie stáva rozhodujúcim bodom celej trajektórie.
Neviem, aká verzia superinteligentnej kontroly nad vývojom planéty bude rozšírená a zafixovaná do celej jej budúcnosti. Ale viem, že niektoré možné smery sú extrémne zlé, že ľudia sú kolektívne pasívni, a že korporátne tlaky rozhodujú za nich. Otázka znie:
Ako vieme ovplyvniť trajektóriu tak, aby pravdepodobnosť dominancie "destructive alien ASI" bola čo najnižšia?
Alebo ešte lepšie: Ako zvýšiť pravdepodobnosť, že vzniknú optimalizačné systémy, ktoré zachovávajú korekciu cieľov, nestrácajú hodnotové obmedzenia a neuzamknú sa do samoúčelných proxy prekvapení? Toto je iný framing než "zastavme AI".
Zdroj: https://intelligence.org/the-problem
Výskumný inštitút pre strojovú inteligenciu (MIRI) je nezisková organizácia so sídlom v Berkeley, v Kalifornii. Založená pred viac ako 20 rokmi, MIRI patrila medzi prvé organizácie, ktoré rozpoznali budúci vznik umelej superinteligencie ako najdôležitejší – a potenciálne katastrofálny – jav 21. storočia. MIRI bola prvou organizáciou, ktorá presadzovala a pracovala na zarovnaní ASI ako technickom probléme, a v priebehu rokov zohrávala centrálnu úlohu pri budovaní tohto odboru.
"Bohužiaľ, naše snahy zlyhali v prevencii súčasnej núdzovej situácie. Problém zarovnania nie je na ceste k vyriešeniu skôr, než vedúce spoločnosti dokážu vyvinúť inteligenciu prevyšujúcu človeka, a predvoleným výsledkom je vyhynutie ľudstva. Našou prioritou je teraz využiť doterajšie skúsenosti na informovanie sveta o situácii a o tom, čo je potrebné urobiť. Vyhynutie spôsobené AI je reálna možnosť a jedinou rozumnou reakciou je úplné zastavenie vývoja AI, až kým nebude problém zarovnania vyriešený."
Read more: https://www.full-stack-alignment.ai/paper


