Wget ganzes verzeichnis downloaden

Hier ist der komplette wget-Befehl, der für mich funktionierte, um Dateien aus dem Verzeichnis eines Servers herunterzuladen (ignorieren robots.txt): Wget ist die Abkürzung für World Wide Web get und wird in der Befehlszeile verwendet, um eine Datei von einer Website oder einem Webserver herunterzuladen. Ein weiterer kritischer Kommentar ist, die Bandbreite zu begrenzen, die Sie im Download verwenden werden: Der einfachste Paket-Manager, den Sie installieren können, ist Homebrew. Gehen Sie zu brew.sh und überprüfen Sie die Anweisungen. Es gibt viele wichtige Befehle, wie wget, die standardmäßig nicht in OS X enthalten sind. Dieses Programm erleichtert das Herunterladen und Installieren aller erforderlichen Dateien. Die ausgefüllte .txt-Datei sollte insgesamt 15 URLs haben. Bevor Sie weitergehen, speichern Sie die Datei als `Jefferson.txt` in dem Verzeichnis, in dem Sie Ihre heruntergeladenen Dateien speichern möchten. Archiv-Websites bieten Historikern eine Fülle von Ressourcen, aber eine verbesserte Zugänglichkeit führt nicht immer zu einem erhöhten Nutzen. Mit anderen Worten, während Online-Sammlungen Historikern oft den Zugriff auf bisher nicht verfügbare oder kostenunerschwingliche Materialien ermöglichen, können sie auch durch die Art und Weise, wie Inhalte präsentiert und organisiert werden, eingeschränkt werden. Nehmen wir zum Beispiel die Indian Affairs Annual Reports Datenbank, die auf der Website Library and Archives Canada [LAC] gehostet wird. Angenommen, Sie wollten einen ganzen Bericht oder Berichte für mehrere Jahrzehnte herunterladen. Das aktuelle System ermöglicht es dem Benutzer, eine Klartextversion jeder Seite zu lesen oder auf den Link “Eine gescannte Seite des ursprünglichen Berichts anzeigen” zu klicken, der den Benutzer zu einer Seite mit dem eingebetteten Bildbetrachter von LAC führt.

Dies ermöglicht es Ihnen, das Originaldokument zu sehen, aber es ist auch umständlich, weil es erfordert, dass Sie durch jede einzelne Seite scrollen. Wenn Sie das Dokument für die Offlineanzeige verwenden möchten, besteht die einzige Option darin, mit der rechten Maustaste auf –> als jedes Bild in einem Verzeichnis auf Ihrem Computer zu speichern. Wenn Sie mehr Jahrzehnte an Jahresberichten wollen, können Sie die Grenzen der aktuellen Präsentationsmittel ziemlich leicht erkennen. Diese Lektion wird es Ihnen ermöglichen, ein solches Hindernis zu überwinden. Vielleicht haben Sie eine .wgetrc, die sie stört? Die Library of Congress organisiert, wie viele Online-Repositorys, ihre Sammlungen mithilfe eines Nummerierungssystems, das führende Nullen in jeder URL enthält. Wenn das Verzeichnis geöffnet ist, ist Wgetes –A-Funktion eine großartige Möglichkeit, dies zu umgehen, ohne codierung zu müssen. Aber was ist, wenn das Verzeichnis geschlossen ist und Sie jeweils nur auf ein Bild zugreifen können? In diesem letzten Beispiel wird veranschaulicht, wie sie mithilfe eines Python-Skripts führen, das in eine Liste von URLs integriert wird. Für dieses Beispiel verwenden wir die Historical Medical Poster Collection, erhältlich bei der Harvey Cushing/Jack Hay Whitney Medical Library (Yale University).

An diesem Punkt sollten sich die Nutzer aller drei Plattformen auf derselben Seite befinden. Wir verwenden wget durch die Befehlszeilenschnittstelle unseres Betriebssystems (früher als Terminal für Mac- und Linux-Benutzer eingeführt, wo Sie mit einigen Python-Befehlen herumgespielt haben). Sie müssen Ihre Befehlszeile anstelle des Komodo Edit-Clients verwenden, den Sie möglicherweise in anderen Lektionen verwendet haben. Es wird langsamer als zuvor sein, aber Ihr Terminal wird mit dem Herunterladen aller ActiveHistory.ca Papiere beginnen. Wenn dies geschehen ist, sollten Sie ein Verzeichnis mit der Bezeichnung ActiveHistory.ca haben, das das Unterverzeichnis /papers/ enthält – perfekt auf Ihrem System gespiegelt. Dieses Verzeichnis wird an dem Speicherort angezeigt, von dem aus Sie den Befehl in der Befehlszeile ausgeführt haben, sodass sie sich wahrscheinlich in Ihrem USER-Verzeichnis befindet. Links werden durch interne Links zu den anderen Seiten ersetzt, die Sie heruntergeladen haben, sodass Sie tatsächlich eine voll funktionsfähige ActiveHistory.ca-Website auf Ihrem Computer haben können. Dies können Sie beginnen, mit ihm zu spielen, ohne sich Umsiebchen über Ihre Internet-Geschwindigkeit.

Comments are closed.