Don't Miss
美互聯網檔案館數據破100PB
By 信報財經新聞 on October 7, 2022
原文刊於信報財經新聞「StartupBeat創科鬥室」
美國非牟利組織Internet Archive(互聯網檔案館),自1996年5月起搜羅網上文化遺產,走過四分一世紀後面臨新挑戰。其創辦人Brewster Kahle接受英國《金融時報》訪問指出,1997年收集的數據達2TB,一枚售價50美元的USB記憶棒,足以把全部內容收納其中。時至今日,項目規模將超過100PB(PetaByte),包含逾7410億個網頁,容量為1997年的5萬倍。
Internet Archive以一座前教堂建築為基地,總部位於加州三藩市列治文區,主打網站時光機(Wayback Machine)服務,以網絡機械人抓取數據,例如錄音、影片、電子遊戲、書籍、雜誌及軟件等。
Kahle坦言檔案館的任務跟傳統圖書館沒分別。不過,當人類正探索元宇宙時,該館工作變得複雜,如今的網站是高度動態的,以社交媒體、新聞機構為例,每次更新都會發生變化。他補充,如果出版商倒閉,一本書不會從書架消失,數碼內容卻脆弱得多。
自設伺服器 每年開支近2億
報道提到,檔案館自行架設網絡伺服器,拒絕依賴第三方託管平台,例如亞馬遜、谷歌等,代價是每年營運開支達2500萬美元(約1.95億港元)。為降低數據丟失風險,該館在加州三地設立數據中心,更在埃及、荷蘭複製館藏副本。該館現時正建立一個業餘無線電廣播庫(DLARC),尋找可數碼化的印刷材料,以及早期的互聯網通訊。