Internetul conține sute de miliarde de pagini web indexate. Majoritatea oamenilor îl folosesc și se bazează pe el pentru a accesa cărți, imagini, articole de știri și alte resurse. Acest conținut dispare însă. Ce soluții există?
O analiză publicată în 2024 de Pew Research Center din San Francisco arată cât de efemer este de fapt conținutul online. Un sfert din toate paginile web care au existat la un moment dat între 2013 și 2023 nu mai sunt accesibile. În majoritatea cazurilor, acest lucru se întâmplă deoarece o pagină individuală a fost ștearsă sau eliminată de pe un site care, în rest, funcționează.
Pentru conținutul mai vechi, această tendință este și mai accentuată. Aproximativ 38% din paginile web care existau în 2013 nu mai sunt disponibile astăzi. Pew Research Center a examinat linkurile care apar pe site-urile guvernamentale și de știri, precum și cele din secțiunea „Referințe” de pe paginile Wikipedia.
Analiza a constatat că 23% dintre paginile web de știri conțin cel puțin un link inactiv, la fel ca și 21% dintre paginile web ale site-urilor guvernamentale. Site-urile de știri, indiferent de nivelul de trafic, sunt la fel de susceptibile să conțină linkuri inactive. 54% dintre paginile Wikipedia conțin cel puțin un link în secțiunea „Referințe” care indică o pagină care nu mai există.
În ceea ce privește rețelele sociale, a fost colectat și un eșantion în timp real de tweet-uri în de pe platforma X (fostă Twitter). Aproape unul din cinci tweet-uri nu mai este vizibil public pe site la doar câteva luni după ce a fost postat. În 60% din aceste cazuri, contul care a postat inițial tweet-ul a fost făcut privat, suspendat sau șters complet. În celelalte 40%, utilizatorul a șters tweet-ul individual, dar contul încă exista.
►►► Escrocherie nouă pe WhatsApp. Datele bancare vă sunt furate când apăsați acest buton
Anumite tipuri de tweet-uri dispar mai frecvent decât altele. Peste 40% dintre tweet-urile scrise în turcă sau arabă nu mai sunt vizibile pe platformă la trei luni după ce au fost postate. De asemenea, tweet-urile de la conturile cu setări de profil implicite au o probabilitate mai mare să dispară din vizualizarea publică.
De multe ori, un utilizator care dorește să acceseze ceva pe internet vede următorul mesaj: „404 Not Found”. Aceasta înseamnă că pagina nu mai există pe serverul gazdă sau serverul gazdă în sine nu mai există.
Sunt zeci de coduri de stare care indică o problemă pe care un utilizator ar putea să o întâmpine atunci când încearcă să acceseze o pagină. Nu toate indică definitiv dacă pagina este definitiv nefuncțională sau doar temporar indisponibilă. Apoi, din motive de securitate, multe site-uri încearcă activ să prevină colectarea automată de date.
Pew Research Center a analizat și 500.000 de pagini de pe 2.063 de site-uri clasificate drept „Știri/Informații”. Pe aceste site-uri de știri erau mai mult de 14 milioane de linkuri care duceau către site-uri externe. 5% dintre toate linkurile de pe paginile site-urilor de știri nu mai sunt accesibile. În plus, 23% din toate paginile eșantionate conțineau cel puțin un link nefuncțional.
În ceea ce privește linkurile de referință pe Wikipedia, analiza arată că 11% nu mai sunt accesibile, iar 53% din pagini conțineau cel puțin un link nefuncțional.
În aceste condiții, poate Wayback Machine al Internet Archive să salveze lumea digitală? Internet Archive a fost fondată în 1996 de Brewster Kahl și este o organizație non-profit cu sediul în San Francisco și arhivează pagini web, cărți, filme și multe altele. Este unul dintre puținele grupuri care lucrează pentru a preveni „uitarea digitală”.
Potrivit BBC, Internet Archive a început poate cel mai ambițios proiect de arhivare digitală din toate timpurile, adunând 866 miliarde de pagini web, 44 milioane de cărți, 10,6 milioane de videoclipuri de filme și programe de televiziune și multe altele.
►►► Schimbări majore pentru TOȚI utilizatorii de smartphone-uri
Wayback Machine este un instrument care colectează și stochează instantanee ale site-urilor web pentru posteritate. Dar, Internet Archive se confruntă cu amenințări financiare, provocări tehnice, atacuri cibernetice și litigii din partea firmelor care nu sunt de acord cu ideea de copii gratuite ale proprietății lor intelectuale.
Wayback Machine scanează internetul și descarcă copii funcționale ale site-urilor web pe măsură ce acestea se schimbă în timp și le fac disponibile publicului în mod gratuit.
Proiectul de salvare a internetului ar putea fi la fel de efemer ca și conținutul pe care încearcă să-l protejeze, mai ales că Internet Archive a început să piardă procese în instanță.
Un profesor de la Universitatea din Virginia, istoric al tehnologiei, a subliniat importanța finanțării și sprijinirii acestor eforturi de arhivare: „Dacă nu plătim acești oameni și nu ne asigurăm că aceste arhive sunt finanțate, ele nu vor exista în viitor, și întregul scop al colectării lor va dispărea”.
Dacă activitatea Internet Archive s-ar opri și vidul nu ar fi umplut imediat, mare parte din ceea ce este disponibil acum pe web-ul public ar fi în pericol. Nu există o implicare instituțională de a păstra internetul, astfel că arhivarea acestuia este lăsată în seama voluntarilor și a câtorva grupuri de organizații care funcționează independent.
Unii oameni de știință susțin că trebuie să existe un fel de prioritate în ceea ce se salvează din urmele digitale ale generației noastre. „Dacă trebuie să păstrezi totul, devine foarte scump. Adesea, conținutul mai vechi sau mai puțin captivant este pierdut pe drum”, a explicat un cercetător de la Digital Preservation Coalition.
Cert este că dacă aceste arhive digitale nu vor fi finanțate, ele nu vor mai exista, astfel că scopul colectării și păstrării istoriei digitale va fi fost în zadar. Scopul unei arhive este să fie păstrată pe termen nelimitat.