Inhaltsverzeichnis zum downloaden

junio 22, 2020 Agustin

Beim rekursiven Abrufen möchte man keine unmengen über unnötige Daten abrufen. Meistens denken die Benutzer genau daran, was sie herunterladen möchten, und wollen, dass Wget nur bestimmten Links folgt. Wenn der temporäre Name ohne Argumente aufgerufen wird, ist er ein absoluter Pfad zu einem temporären Namen im temporären Systemverzeichnis, wie von tempdir(angegeben). Wenn ein übergeordnetes Verzeichnisargument angegeben wird, befindet sich der temporäre Pfad stattdessen in diesem Verzeichnis. Da die Optionen nach den Argumenten angegeben werden können, können Sie sie mit `–` beenden. Also wird das Folgende versuchen, URL `-x` herunterzuladen, und meldet fehlerbehaftete Protokollerstellung: Obwohl ich wahrscheinlich daran interessiert sein werde, den Inhalt Ihrer .wgetrc-Datei zu kennen, ist es wahrscheinlich eine schlechte Idee, sie einfach in die Debug-Nachricht zu werfen. Stattdessen sollten Sie zuerst versuchen, zu sehen, ob sich der Fehler mit .wgetrc aus dem Weg verschoben hat. Nur wenn sich herausstellt, dass .wgetrc-Einstellungen den Fehler beeinflussen, mailen Sie mir die relevanten Teile der Datei. Der beliebteste Mechanismus und der De-facto-Standard, der von allen großen Robotern unterstützt wird, ist der «Robots Exclusion Standard» (RES), der 1994 von Martijn Koster et al. geschrieben wurde.

Es gibt das Format einer Textdatei an, die Direktiven enthält, die die Roboter anweisen, welche URL-Pfade zu vermeiden sind. Um von den Robotern gefunden zu werden, müssen die Spezifikationen in /robots.txt im Serverstamm platziert werden, den die Roboter herunterladen und analysieren sollen. Es muss festgelegt werden, wenn zusätzliche Daten zusammen mit der mit `–method` angegebenen Methode an den Server gesendet werden müssen. `–body-data` sendet Zeichenfolge als Daten, während `–body-file` den Inhalt der Datei sendet. Ansonsten funktionieren sie genau so. Wenn Sie Wget ohne `-N`, `-nc`, `-r` oder `-p` ausführen, führt das Herunterladen derselben Datei im selben Verzeichnis dazu, dass die Originalkopie der Datei erhalten bleibt und die zweite Kopie den Namen `file.1` trägt. Wenn diese Datei erneut heruntergeladen wird, wird die dritte Kopie den Namen «file.2» und so weiter. (Dies ist auch das Verhalten mit `-nd`, auch wenn `-r` oder `-p` in Kraft sind.) Wenn `-nc` angegeben wird, wird dieses Verhalten unterdrückt, und Wget weigert sich, neuere Kopien von `Datei` herunterzuladen. Daher ist «no-clobber» in diesem Modus eigentlich eine Fehlbezeichnung – es ist nicht das Klobbering, das verhindert wird (da die numerischen Suffixe bereits das Clobbering verhinderten), sondern vielmehr die mehrfache Speichern von Versionen, die verhindert wird.

Nachdem Sie das Symbol drücken, um das Download-Fenster zu öffnen, müssen Sie nur die Filterfelder für die Dateierweiterung aktivieren, einen benutzerdefinierten Filter bereitstellen oder Dateien manuell hinzufügen. Drücken Sie dann Download. Da sich alle Auswahlfilter im selben Fenster befinden, ist Download Master etwas schneller, um mehrere Dateien oder alle Dateien gleichzeitig auszuwählen. Beachten Sie, dass die Zeitstempelerstellung nur für Dateien funktioniert, für die der Server einen Zeitstempel angibt. Für HTTP hängt dies davon ab, ob ein Last-Modified-Header abgesendet wird. Für FTP hängt dies davon ab, ob sie eine Verzeichnisliste mit Datumsangaben in einem Format erhalten, das Wget analysieren kann (siehe FTP Time-Stamping Internals). Das Abrufen außerhalb der Verzeichnishierarchie ist nicht zulässig, z. B. `–no-parent` (siehe Directory-Based Limits). Bestimmen Sie, ob ein Pfad auf ein Verzeichnis verweist (z. B. endet er mit einem Pfadtrennzeichen).

Deaktivieren Sie FTP-Globbing. Globbing bezieht sich auf die Verwendung von shellähnlichen Sonderzeichen (Wildcards), wie `*`, `?`, `[` und `]`, um mehr als eine Datei gleichzeitig aus demselben Verzeichnis abzurufen, wie: Die Regeln für FTP sind etwas spezifisch, wie es für sie notwendig ist. FTP-Links in HTML-Dokumenten werden häufig zu Referenzzwecken eingeschlossen, und es ist oft unbequem, sie standardmäßig herunterzuladen. Wenn die lokale Datei nicht vorhanden ist oder die Größe der Dateien nicht übereinstimmt, lädt Wget die Remotedatei herunter, unabhängig davon, was die Zeitstempel sagen. Das wars. Es wird in den folgenden lokalen Baum heruntergeladen: ./example.com/configs/.vim . Wenn Sie jedoch nicht die ersten beiden Verzeichnisse wünschen, verwenden Sie das zusätzliche Flag –cut-dirs=2, wie in früheren Antworten vorgeschlagen: Beachten Sie, dass, obwohl Wget in einen bekannten Dateinamen für diese Datei schreibt, dies keine Sicherheitslücke im Szenario ist, dass ein Benutzer einen symbolischen Link zu /etc/passwd oder etwas auflistet und root bittet, Wget in seinem Verzeichnis auszuführen.