Archive.org – naše digitalno pamćenje je ugroženo

· 07:50 · admin · 4 pregleda · 0 komentara
6 min citanja

Milijarde veb-sajtova mogle bi da budu izgubljene ako „Wayback Machine“ više ne bude postojala

Internet portal archive.org već 30 godina arhivira digitalne sadržaje. Wayback Machine obuhvata više od trilion pohranjenih veb-stranica i smatra se nezamenljivim alatom za novinare, istraživače, istoričare i pravnike, koji žele pristup izbrisanim ili izmenjenim sadržajima u njihovom izvornom obliku. Ali taj jedinstveni projekat neprofitne organizacije sa sedištem u San Francisku suočava se s egzistencijalnom krizom – a najnovija pretnja dolazi upravo od onih kojima je ta arhiva najhitnije potrebna: samih medija.

Sve veći broj velikih medijskih kuća tom internet arhivu uskraćuje pristup svojim sadržajima. Prema istraživanju Niman fondacije za novinarstvo sa Univerziteta Harvard, najmanje 241 novinski portal iz devet zemalja blokira veb-pretraživače arhive, uključujući Gardijan, Njujork tajms, Le Mond i najveći novinski koncern u SAD – Ju-Es-Ej Tudej Kompani.

Sami sebi uskraćuju pristup važnom alatu

Ju-Es-Ej Tudej je tako nedavno objavio senzacionalistički izveštaj o tome kako je američka Služba za imigraciju i carine (ICE) sistematski uskraćivala informacije o svojoj zatvorskoj politici. Osnova istraživanja bili su podaci Wayback Machine na archive.org. Ista medijska kuća koja je tu priču uspela da napiše samo zahvaljujući tom arhivu, sada blokira pristup svojim sadržajima.

Ali, zbog čega medijske kuće sebi uskraćuju jedan od alata? Odgovor je jednostavan: strah od veštačke inteligencije (VI). Izdavači se boje da će kompanije koje se bave veštačkom inteligencijom, poput OpenAI ili Google, koristiti arhivu za masovni pristup njihovim novinarskim sadržajima, kako bi obučavale svoje jezičke modele – bez dozvole i bez nadoknade. Portparol Njujork tajmsa, Grejam Džejms, o toj temi se javno oglasio: „Problem je u tome što kompanije koje se bave veštačkom inteligencijom koriste naše sadržaje u internet arhivi kako bi nam direktno konkurisale – kršeći pritom autorska prava.“

Deset hiljada botova u sekundi

Podaci pokazuju da je ogroman broj botova bio usmeren na veb-stranicu archive.org, tragajući za medijskim sadržajima za obuku VI-modela – čime su dobili pristup upravo onim podacima koji su im uskraćeni. Mark Grejem, direktor Wayback Machine, potvrdio je u razgovoru za magazin Wired da su pojedine kompanije povremeno pristupale arhivi sa desetinama hiljada zahteva u sekundi – do te mere da su privremeno preopteretile servere.

Archive.org nije bio pripremljen za takvu situaciju, jer ta neprofitna organizacija podleže pravilima otvorenog interneta. Njen moto je: „Baš kao i tradicionalna biblioteka, nudimo besplatan pristup istraživačima, istoričarima, naučnicima, osobama s teškoćama u čitanju i široj javnosti. Naš cilj je da obezbedimo univerzalni pristup svim znanjima.“ To se takođe odnosi i na zabranu isključivanja botova i automatskih pretraživača (crawlera) – što je sada dovelo do sankcija koje su uvele velike izdavačke i medijske kuće.

Biblioteke arhiviraju vekovno znanje – ali digitalnom sadržaju preti nestanak posle samo nekoliko decenija

Fondacija Electronic Frontier (EFF), organizacija za ljudska prava specijalizovana za digitalna pitanja, upoređuje postupke izdavača s tim da „izdavač novina najavljuje da bibliotekama više neće biti dozvoljeno čuvanje primeraka njihovih izdanja“.

Istorija interneta mogla bi da bude izgubljena

U međuvremenu je više od 100 novinara potpisalo peticiju podrške internet arhivi. U njihovom otvorenom pismu se navodi: „U digitalnom medijskom pejzažu, gde članci nestaju zbog gubitka linkova, spajanja kompanija ili mera uštede troškova, novinari se često oslanjaju na arhivski Wayback Machine kako bi ponovo uspostavili stranice koje bi inače bile izgubljene. Bez tog kontinuiranog rada na očuvanju interneta, veliki delovi nedavne novinarske istorije već bi bili izgubljeni.“

Mark Grejem je za magazin Wired pojasnio da je u pregovorima s medijskim kompanijama kako bi ponovo uspostavio pristup njihovim sadržajima. Još nije izvesno kako će se ti pregovori završiti. No, njegov zaključak zvuči kao upozorenje: „Bez sumnje da sve veće blokiranje velikih delova javnog veba narušava sposobnost društva da razume ono što se događa u našem svetu.“

„Veb-arhiviranje je deo javne infrastrukture“

Novinar i osnivač socialmedia watchblog.de, Martin Ferenzen, vidi archive.org kao jedini funkcionalni lanac dokaza za otvoreni veb. Ako on više ne može da izvršava svoje zadatke, to će imati značajne posledice, rekao je on za DW: „Milioni citata koji su izvori Vikipedije izgubiće svoje uporište, odgovornost za istraživanje platforme – odnosno koji će se opšti uslovi i pravila kada primenjivati, koja su pravila moderiranja preformulisana i kako – postaće mnogo teža, a pravno valjani digitalni dokazi će nestati.“ Blokiranje arhiva je, kako ističe, potpuno apsurdno, posebno za medijske kuće.

Da bi se rešio ovaj sukob, pojašnjava on, postoje dva načina: „Potreban nam je dijalog s izdavačima s jasnim tehničkim razdvajanjem arhiviranja i treninga za veštačku inteligenciju – jer je to u suštini dovelo do konflikta, a ne arhiva.“ U srednjoročnom periodu, Fehrenzen smatra da se za veb-arhive mora stvoriti poseban pravni status. A dugoročno gledano, „veb arhiviranje treba tretirati kao javnu infrastrukturu, a ne kao samostalni projekat nevladine organizacije u San Francisku. Činjenica da ona 2026. godine još uvek zavisi od jedne organizacije predstavlja pravi strukturni neuspeh.“

Samo jedan od mnogih konflikata – ali najdramatičniji

Ovo nije prvi put da se internet-arhiva bori za svoj opstanak. U septembru 2024, tokom hakerskog napada, ukradeni su podaci sa 31 miliona korisničkih računa – težak udarac od koga se organizacija mukotrpno oporavila. Iste godine, arhiv je pred Američkim žalbenim sudom izgubio i spor oko autorskih prava *Hačet protiv internet arhive*: Izdavači Hačet, Pingvin Rendom haus, Harper Kolins i Vajli uspešno su okončali tužbu protiv programa besplatnog pozajmljivanja elektronskih knjiga koji je arhiv pokrenuo tokom pandemije korone. Više od 500.000 knjiga moralo je biti uklonjeno iz servisa pozajmljivanja. Ipak, archive.org i dalje se suočava s milionima dolara odštetnih zahteva.

U poređenju s tim porazima, trenutna pretnja koju predstavljaju medijske blokade je strukturno ozbiljnija – jer se ne može rešiti sudskom presudom ili ažuriranjem. To je rezultat brojnih korporativnih odluka koje, zajedno, potkopavaju osnovnu delatnost Wayback Machine: sveobuhvatnu dokumentaciju javnog veba.

Ostavite komentar

Vasa email adresa nece biti objavljena. Obavezna polja su oznacena *