|
#1
|
|||
|
|||
archive.org -> youtube.com offline
archive.org spielt im Browser ein Video ab, das auf youtube.com nicht mehr verfügbar ist:
**External links are only visible to Support Staff****External links are only visible to Support Staff** Der Downloadversuch mit JD2 schlägt fehl (Content offline!Error - qaU........ Video unavailable). Vermutlich wird versucht, die Youtube-Version herunterzuladen. Das Problem tritt sowohl beim Hinzufügen des Links in den Linksammler aus der Zwischenablage mit "+", als auch mit einem crawljob im folderwatch-Verzeichnis auf. |
#2
|
||||
|
||||
JDownloader unterstüzt diese Art von Links nicht und findet daher den eigentlichen Youtube Link in der URL, welcher zum besagtem offline Video führt.
Mittels dieser Methode, siehe https://support.jdownloader.org/de/k...aming-websites, könnte es jedoch gelingen.
__________________
JD-Dev & Server-Admin |
#3
|
|||
|
|||
VDH sieht leider gar kein Video während es im Browser wiedergegeben wird.
yt-dlp hat den Download auf Anhieb geschafft. |
#4
|
||||
|
||||
Quote:
Welchen Browser und welches Betriebssystem verwendest du? Wichtig: Der von Vdh gefundene Direktlink lässt sich derzeit nur in JDownloader einfügen, indem man "direct h ttp://" (ohne Leerzeichen!) davor schreibt, bevor man diesen in JD einfügt. yt-dlp hat ein extra Plugin für web.archive.org wohingegen wir bisher nur eines für ganz bestimmte web.archive.org Links haben. Ich werde unser web.archive.org Plugin etwas aufbohren.
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download |
#5
|
|||
|
|||
Das hat mir keine Ruhe gelassen. Ich habe alle Erweiterungen bis auf VDH deaktiviert -> keine Änderung. Ich habe VDH deinstalliert und neu installiert -> Jetzt funktioniert es.
Quote:
|
#6
|
||||
|
||||
@-5-: ich schau mal wie kompliziert der Sonderfall ist, denn macht hier ja evtl durchaus Sinn dafür Support zu haben
__________________
JD-Dev & Server-Admin |
#7
|
||||
|
||||
Ich hab jetzt mal Erkennung für diese Direktlinks eingebaut*, sodass man die ohne den "directhttp" Präfix hinzufügen kann [Update steht noch aus).
* damit meine ich die Links, von denen ich in Post #5 gesprochen habe. Links wie den mit dem YT Link aus deinem ersten Post gehen noch nicht, da der pre-parser hier aus einem Link zwei macht (den archive Link ohne YT und den YT Link). Da muss Jiaz nochmal drüberschauen, ob es möglich ist, diesen Link so ins web.archive.org Plugin zu schicken. Ich melde mich nochmal, sobald das Update released wurde.
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download |
#8
|
||||
|
||||
Ist als Feature im Crawler nun drin, bedarf aber weiteres Testing @ pspzockerscene
__________________
JD-Dev & Server-Admin |
#9
|
||||
|
||||
@-5-
Die Änderungen für die Erkennung der Direktlinks ohne "directhttp" sind live - der Rest dauert noch.
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download |
#10
|
|||
|
|||
Mit "directhttp" kommt im Hinzufügendialog genau dieser Link an, und im Linksammler endet eine mp4-Datei.
Ohne "directhttp" kommen im Hinzufügendialog drei Links an: Der lange, der Anfang bis vor dem "**External links are only visible to Support Staff** inmitten des Links und das Ende ab dem "**External links are only visible to Support Staff** inmitten des Links, und im Linksammler enden vier Einträge:
Da noch daran gearbeitet wird, wird das wohl auch noch gefixt werden. |
#11
|
||||
|
||||
@-5-: Die nötige Änderung am Crawler sind noch nicht live. Ohne directhttp durchwandert der Link den Crawler, aber es kommen nur der halbe archive und der youtube link an, nicht die kombination, damit das archive Plugin weitermachen kann.
__________________
JD-Dev & Server-Admin |
#12
|
||||
|
||||
@-5-
Du hast mich eventuell falsch verstanden. Ich formuliere meinen letzten Post nochmal: Die Direktlinks, zu dem Video, die du z.B. per Vdh kopieren kannst werden nun von JD ohne "directhttp" verarbeitet. Andere Links, über die wir in diesem Thread gesprochen haben, vor allem der aus deinem ersten Post werden noch nicht automatisch verarbeitet, siehe Jiaz' letzter Post. Ich habe zudem noch einen Bug im Plugin gefunden und soeben fixed. Dass es mehrere Ergebnisse und auch offline-Ergebnisse gibt, ist normal.
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download |
#13
|
|||
|
|||
Das hatte ich schon richtig verstanden und deshalb auch nur mit einem Direktlink getestet.
Der Direktlink mit "directhttp" ergibt im Hinzufügendialog einen Link und im Linksammler endet eine mp4-Datei. Das ist beim Direktlink ohne "directhttp" nicht so. Da kommen wie schon vor den ganzen Fixes drei Links im Hinzufügendialog an. Da hatte ich einfach an der Stelle schon eine Änderung erwartet. Was jetzt funktioniert: Danach erscheinen im Linksammler nicht nur Offlineeinträge. Der Direktlink mit "directhttp" wurde eigentlich schon optimal verarbeitet: Eine Zeile im Hinzufügendialog, ein Eintrag im Linksammler. Es fehlte "nur" die Extraktion des Direktlinks aus der Website. Der Direktlink ohne "directhttp" wird z. Zt. weniger gut verarbeitet: Drei Zeilen im Hinzufügendialog, vier Einträge im Linksammler. Diese "Verschlechterung" hatte mich zu Post #10 veranlasst. Mir ist aber auch klar, dass ein Direktlink in JD2 funktionieren soll, ohne dass man "directhttp" voranstellen muss. Unter diesem Aspekt ist es eine Verbesserung. |
#14
|
||||
|
||||
Quote:
Was ansonsten hilfreich ist, führt hier also zu einigen "Müll Ergebnissen". Sobald der Link aus deinem ersten Post korrekt verarbeitet wird, wirst du dafür nur noch den offline YT Link erhalten und den funktionierenden Direktlink. In diesem Post geht es aber weiterhin nur um den Direktlink, den du von Vdh bekommst. Quote:
Ich empfehle, einfach die Linkgrabber-Ansicht "Offline" zu nutzen (Häckchen raus) dann werden alle offline Einträge ausgeblendet. Falls es interessiert, hier die Erklärung, warum dies passiert ansonsten scrolle einfach runter dort zeige ich dir noch, wie du alle schlechten Ergebnisse in dieser Konstellation ohne die "offline Ansicht" gezielt herausfiltern kannst. Alles was hinzugefügt wird, wird als Text behandelt. Aus diesem Text wird versucht, bestmöglichst alle Links zu extrahieren. Der "einzelne lange Link" kann also zu mehreren werden, die jeweils separat von den entsprechenden Plugins verarbeitet werden. Dieser Fall ist nur so kompliziert, da alle drei möglichen Links auch von Plugins verarbeitet werden. Im Falle des langen Links führt dies zu folgenden Ergebnissen: 1. Der lange Link als ganzes Dieser Link wird korrekt als ladbare Datei erkannt. 2. Dieser hier: web.archive.org/web/2023...oe_ Dieser Link landet im web.archive.org Crawler, der aber nichts findet. 3. Dieser hier: http...rr4---sn-a5msenle.googlevideo.com/videoplayback... Dieser Link landet im dedizierten "googlevideo.com" Plugin, was auch nichts findet, da die Datei nicht mehr online ist. Warum das derzeitige Handling sinnvoll ist: Der "lange Link" könnte auch aus drei separaten Links bestehen, die so erkannt werden würden (z.B. Links zu drei Dateien auf drei verschiedenen Filehostern, die ohne Zeilemumbruch hinzugefügt wurden). Dies kann der Parser nicht vorher wissen. Was du tun kannst, um beim Einfügen des Direktlinks (ohne "directhttp") alle Müll Ergebnisse zu filtern: 1. Ungültige web.archive.org Links per Filterregel filtern: Einstellungen -> Linkfilter -> Folgende Regel erstellen: Screenshot: 2. Alle googlevideo.com Links ignorieren. Einstellungen -> Profieinstellungen -> GeneralSettings.crawlerhostpluginblacklist Hier folgendes einfügen: Code:
["video.google.com"] Dafür hätte man auch eine zweite Linkgrabber Filter-Regel erstellen können, aber über die Blacklist finde ich es eleganter.
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download |
#15
|
|||
|
|||
Danke für die Erklärungen.
Quote:
Es könnte vielleicht auch den Fall geben, dass eine archivierte Seite einen online YT Link enthält. Dann wäre es besser, diesen Link ohne "directhttp" auch zu erhalten. |
#16
|
||||
|
||||
Quote:
Das was ich in meinem Post unter "Im Falle des langen Links führt dies zu folgenden Ergebnissen" beschreibe passiert alles noch bevor die Links von einzelnen Plugins verarbeitet werden. An der Stelle an der das passiert wird der hinzugefügte Text nach Links analysiert und diese Links werden dann anhand gewisser regulären Ausdrücke - nennen wir sie "Filter", von den entsprechenden Plugins verarbeitet. In diesem Kontext ist die Information "hey das ist ein langer Link, der nur vom web.archive.org Crawler verarbeitet werden sollte" nicht klar. Es könnte ja ebenso sein, dass der youtube Link in dem web.archive.org Link noch gültig ist, aber der web.archive.org Link aus irgendwelchen Gründen nicht gecrawlt werden kann daher ergibt es durchaus Sinn, alle Links bzw. alle Kombinationen derer separat zu verarbeiten. Da du nicht auf meinen Tipp, offline Links einfach auszublenden eingegangen bist: Was spricht für dich dagegen, offline Einträge einfach mit der "offline Ansicht" also mit besagter Checkbox im Linkgrabber auszublenden? Im Falle des "kurzen Links" aus deinem ersten Post würde also folgendes passieren [sobald die besagten Änderungen online sind]: Der Parser sieht drei Links: 1. Den web.archive.org Link mit dem YT Link als einen. Der wird vom web.archive.org Crawler verarbeitet und endet in _einem_ .mp4 Direktlink zu dem Video. 2. Diesen hier: http...web.archive.org/web/202...53/ Dieser Link landet auch im web.archive.org Crawler, der aber nichts findet. 3. Der youtube Link. Dieser wird separat vom YT Plugin verarbeitet, was nur sieht "Video existiert nicht mehr". Ergebnis: 2 offline Links und 1 online Link Ich schaue mal, dass ich das Pattern also die Info "welche Links soll das web.archive.org Plugin verarbeiten" überarbeite. Im allerbesten Fall kann ich dadurch noch den einen web.archive.org offline Eintrag eliminieren, denn wenn sich kein Plugin findet, was den Link (hier erwähnt in "2.") behandeln kann, landet der auch nicht als offline-Ergebnis im Linkgrabber.
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download |
#17
|
||||
|
||||
@-5-: Ich versuch mal eben *kurz* zu erklären.
JDownloader versucht aus deinem Input (hier ein Link welcher zwei http...beinhaltet) zu verarbeiten. Also wird zunächst der http1http2 Gefunden, dann kommt der Parser und findet also nochmals einzeln den http1 und http2, weil ja auch einfach ein NewLine/Leerzeichen gefehlt haben könnte Also 3 Links. Der Lange http1http2 wird verarbeitet und hier wird nur ein Teil des Links verarbeitet, der komplette Link nicht. Mit der, noch nicht veröffentlichten, Optimierung/Korrektur wird dann auch der lange Link verarbeitet und das Plugin kann somit den funktionierenden Stream finden. Anschließend werden die einzelnen http1 und http2 Links verarbeitet und hier wird dann der Offline YT Link gefunden und ein Fehler seitens dem Archive Plugin, weil der unvollständige Link ja nicht gültig ist. Hier kommt noch eine weitere Optimierung (noch nicht fertig), sodass nach http1http2 Archive , nicht nochmals http1 Archive verarbeitet werden soll.
__________________
JD-Dev & Server-Admin |
#18
|
||||
|
||||
Das Update mit dem neuen Pattern des web.archive.org Crawler ist nun raus.
In jedem der beiden Fälle, die ich in meinen letzten beiden Posts erklärt habe, gibt es jetzt also einen web.archive.org offline-Link weniger. Die in Post #11 angekündigte Änderung ist noch nicht live.
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download |
#19
|
||||
|
||||
Die Änderungen sind live.
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download |
Thread Tools | |
Display Modes | |
|
|