為我們自己和子孫後代保存網頁

互联网页面经常会消失、移动或更改内容。如何以所需 卡巴斯基端点安全云 的形式保存它们或轻松找到存档副本?

人们普遍认为互联网上的任何内容都无法删除,但与此相反,互联网并不能记住所有内容。在本系列的上一篇文章中,我们研究了多达九种您可能无法访问在线存储的数据的情况,并提供了有关您必须(最好是快速)从在线服务备份到计算机的详细说明,以及怎么做呢。今天我们将讨论将网页保存到本地计算机、组织这些档案的最便捷方法,以及如果您最喜欢的网站被遗忘了该怎么办。

假设您想要保存一篇带有食谱的文章,为您的科学工作创建文章的书目列表,甚至记录互联网上的特定出版物以供法庭使用。以上所有内容均以网页形式发布,这些页面并不可靠。想记住 2005 年的音乐新闻吗?这并不容易——MTV  現金應用程式資料庫。检查维基百科文章中的源链接?尽管他们在撰写维基百科文章时正在工作,但其中 11% 已经毫无进展。一般来说,“链接腐烂”(在线内容的逐渐删除或重新定位)的发生率很高。十年前存在的38% 的页面如今已无法访问。因此,如果您认为某个网页及其内容很重要,那么创建它的备份副本是有意义的。

如何將網頁儲存到電腦上

由於網頁由數十或數百個文件組成,因此保存它需要一些努力。做到這一點的主要方法是:

僅儲存HTML檔案中的文字。點擊瀏覽器中的“儲存網頁”,然後選擇“僅 HTML”選項。只會保存網頁的文字,沒有任何圖形或美感。

儲存文字和圖像。相鄰選項「保存整個網頁」(網頁、完整)除了 HTML 檔案之外,還將建立一個同名的資料夾,並在其中保存頁面中的所有圖形元素、樣式和腳本。此選項很不方便,因為輔助頁面檔案會在磁碟上產生大量垃圾。更方便的選項是「另存為一個文件」(網頁、單一文件),它將把網頁及其所有資源收集到一個副檔名. .html。它可以在 Chrome 和 Edge 中自由打開,但在其他瀏覽器中可能難以使用。此選項並非在所有瀏覽器中都可用,但如果您安裝SingleFile擴充功能(適用於大多數瀏覽器),您可以將整個網頁及其媒體內容儲存到單一HTML 檔案中,該檔案可以在所有現代瀏覽器中完美打開。

列印為PDF 。要儲存頁面的主要內容,但去掉選單和橫幅,使用「另存為PDF 」選項作為「印表機」來列印會更方便。產生的文件可以在任何電腦上開啟。

在所有這些選項中,您需要確保從磁碟開啟文件時儲存頁面的主要文字仍然可讀。

儲存網頁的更簡單方法

上述所有步驟都有點耗時,並且會在您的電腦磁碟上造成混亂。特殊服務提供最大程度的節省便利,例如Pocket(以前的 Read It Later)、wallabag、。它們很相似 – 您發送一個指向該服務的鏈接,該服務會從該鏈接中提取包含所有插圖的文檔,清除頁面上所有不必要的內容並將其保存在您的個人在線存儲中。即使原始頁面被刪除或更改,所需的版本也會保存在您的個人檔案中。服務允許您對連結進行分組和排序、搜尋內部文本,當然還可以在任何裝置上查看已儲存的頁面。為此,電腦上所有主流瀏覽器中都安裝了插件,手機上安裝了行動應用程式。

在所有列出的服務中,「永久」檔案只有透過高級訂閱才能獲得,這意味著您必須為便利付費。確實,wallabag 是一個開源開發項目 – 您可以將其安裝在您自己的伺服器上,無需支付第三方服務費用,也不用擔心它們有一天會關閉和斷開連接。

保存完整網頁的功能也存在於筆記應用程式中,例如在那裡它被稱為 Web Clipper。

如何為他人儲存網頁

如果您不僅需要為自己建立頁面的副本,還需要與其他人分享其記錄的狀態,那麼您將需要公共歸檔服務。

最著名的是互聯網檔案館及其 Wayback Machine 服務。然而(又。他們的工作原理類似——手動請求互聯網用戶或自動訪問網頁並在伺服器上存儲副本。

若要要求儲存網頁,請造訪立即儲存 頁面 」方塊中輸入頁面的完整位址。按一下「儲存」按鈕後,螢幕上將出現一個窗口,說明網頁的所有已載入元件,然後是指向所需網站的儲存狀態的永久鏈接,如下所示。

上註冊,那麼透過您的個人帳戶,您可以維護類似連結的集合,截取已儲存網站的螢幕截圖,並以特殊格式下載它們的副本以用於存檔網站。

在上,您既可以查看以前保存的網站版本,也可以獨立保存任何網站的當前狀態,例如我們的博客

透過開啟「已存檔」鏈接,您將看到已儲存的頁面,其中顯示了確切的時間,如下所示。此功能對於監控並向其他人展示網站上的資料如何變化非常有用:價格動態和產品描述、媒體新聞的編輯版本、刪除的資訊。後者尤其重要 – 因此,可以根據不再存在的站點的資訊進行歷史和文化研究。在我們的插圖中,您可以看到 GeoCities 網站的第一個版本,它允許您建立「主頁」、表達自己並找到具有相似興趣的朋友,這早在社交網路出現之前就已存在。如果沒有 Wayback Machine,就很難看到它——它已於 2016 年關閉。

如何找到已刪除的網路內容或網站的舊版本

現金應用程式資料庫

要查看任何網站的舊版本:

打開
在標誌旁的欄位中輸入網站或特定頁面的完整位址,然後按 Enter 鍵。除了確切的 URL 之外,您還可以輸入網站名稱或對其進行良好描述的字詞;
從清單中選擇所需的站點。請注意,輸出立即顯示存檔中儲存了多少副本以及儲存時間;
使用日曆選擇您要查看的已儲存網站副本。已保存副本的日期被圈出 – 圓圈越大,當天製作的副本就越多;
點擊所需的日期並瀏覽已儲存的網站。請注意,從存檔下載副本可能需要幾分鐘;

如果沒有幫助

營運的基金會有時會遵循版權所有者和其他授權方的要求,將某些網站排除在 Wayback Machine 中的儲存之外。此外,該服務的目標從來都不是拯救整個互聯網,因此所需的頁面從未被索引。那麼在類似的服務中尋找它就有意義了。

不會自動儲存頁面 – 僅根據使用者請求。這消除了存檔需要遵循的情況,例如搜尋機器人的說明  並且它包含 Wayback Machine 中不可用的文件。

另一個重要的網路歸檔專案是 使用參數作為主要方法的主要缺點是您所,它是由全球主要圖書館組成的社區創建的。確實,它僅對參與圖書館交換的組織免費,「街頭」用戶可以訂閱付費關稅,其費用取決於存檔連結的數量。

專門檔案的一個強大替代方案是搜尋引擎快取。搜尋引擎仍然會抓取每個網頁的文字來對其進行索引,因此幾乎每個頁面都可以在那裡找到醜陋但可讀的版本。長期以來,谷歌的快取是最容易訪問的,但在 2024 年初,這家搜尋巨頭從搜尋結果中 消費者數據

因此,最好使用瀏覽器擴展,以便更輕鬆地處理 Internet 檔案。例如,如果您點擊連結並最終到達已刪除的頁面或完全損壞的網站,則Web Archives擴充功能允許您立即轉、perma 上該頁面的存檔副本。 cc,或查看 Google、Bing 和 Yandex 中頁面的快取版本。

如何保存其他線上服務的數據

除了網頁之外,還有許多其他線上服務——從相簿和筆記到社交網路——對您來說重要的數據。當然,對於不同類型的數據和特定服務,建議會有所不同,但為了您的方便,我們將所有此類說明與標籤結合。

返回頂端