#1
|
||||
|
||||
Frage zum LinkGrabber-Filter
Nach langer Zeit wieder mal eine Frage zum LinkGrabber-Filter
Bei Galerien sieht die URL wie folgt aus:
Früher funktionierte es sinngemäß so: Code:
sourceurl(s) contains: ...websiteXY.com/gallery_* Häkchen für RegEx nicht gesetzt package name <jd:source:1> Danke im Voraus! |
#2
|
||||
|
||||
@StefanM:
sourceURL - contains - *websiteXY.com/gallery_* then set package name - <jd:source:2> Und bitte daran denken das die Regeln von oben nach unten abgearbeitet werden. Wenn also eine Regel unter dieser Regel was am Paketnamen verändert, dann ist die vorherige Änderung überschrieben. Ansonsten bitte echte BeispielLinks, dann können wir bei der Regel genauer/besser helfen.
__________________
JD-Dev & Server-Admin Last edited by Jiaz; 12.09.2022 at 15:58. |
#3
|
||||
|
||||
Quote:
Quote:
Funktioniert leider nicht so, wie du es beschrieben hast, weder mit noch ohne den Doppelpunkt. Es wird nach wie vor alles in <jd:simpledate:yyyy-MM-dd> gespeichert, obwohl diese Regel erst an Platz 3 steht. Meine Regel für die obigen Gallerien steht auf Platz 0, also an oberster Position. Interessenhalber gefragt: Inwieweit hat "Inforamtion overwrites packagizer rules" im "Analyze and Add Links"-Fenster hier Einfluss? Früher hat das, was ich als Beispiel schrieb, funkioniert. Nun hast du ja - auf meine Anregung hin - das Handling von Wildcards geändert/korrigiert. Hier zwei existierende Besipiel-Links:
Als Ordnername soll jeweils der String nach dem letzen / verwendet werden. |
#4
|
||||
|
||||
Ja, weil ich ja 2 Platzhalter Wildcards genutzt habe.
Update: Sorry, jetzt hab ich den Typo gesehen, natürlich mit : , also Quote:
Quote:
__________________
JD-Dev & Server-Admin Last edited by Jiaz; 12.09.2022 at 15:58. |
#5
|
||||
|
||||
Die Regeln werden von oben nach unten abgearbeitet Es werden ALLE Regeln durchlaufen und entsprechend und entsprechend ist das die Ursache. Du musst diese Regel an Ende der Regeln setzen, damit diese zuletzt verarbeitet wird und andere Regeln das Ergebnis/die Veränderung nicht überschreiben
__________________
JD-Dev & Server-Admin |
#6
|
||||
|
||||
Quote:
darf also kein Paketname angegeben sein, sofern du möchtest das deine Regeln hier greifen
__________________
JD-Dev & Server-Admin |
#7
|
||||
|
||||
Quote:
Quote:
Hast du eine LinkCrawler Regel für die Webseite? da ohne Cookie ja zunächst der *bla bla Content Warnung* Banner kommt. Wenn du bzgl einer LinkCrawler Regel Fragen hast oder Hilfe brauchst, geb Bescheid
__________________
JD-Dev & Server-Admin Last edited by Jiaz; 12.09.2022 at 16:15. |
#8
|
||||
|
||||
Quote:
Ich bin jetzt sehr überrascht! Wenn ich die Regel ans Ende setze, funktioniert es. Aber als es früher funktioniert hat - und da bin ich mir zu 99,9 % sicher - hat diese Regel an erster Stelle und die <jd:simpledate:yyyy-MM-dd>-Regel darunter gestanden. Wurde da evtl. beim JD etwas verändert? Oder erinnere ich mich falsch? Will das nicht zu 100 sondern nur zu 99,9 % ausschließen. Ergänzende Frage (bevor ich alles mit Trial and Error herausfinden muss) Wie muss ich andere Regeln in der Reihenfolge platzieren? z.B. eine Regel, mit der ich definiere, dass - wenn die URL bestimmte Strings enthält - Dateien mit 'Thumbnail' im Namen nicht geladen werden sollen. |
#9
|
||||
|
||||
Es gab hier keinerlei Änderungen und die Regeln wurden schon immer (seit dem es den Packagizer gibt) von oben nach unten abgearbeitet.
__________________
JD-Dev & Server-Admin |
#10
|
||||
|
||||
Das geht mit dem Packagizer gar nicht. Hier bedarf es den Linkgrabber Filtern und diese werden ebenfalls von oben nach unten verarbeitet, aber im Gegensatz zum Packagizer, wird bei der erstem positiven(Regel matched) Regel gestoppt.
__________________
JD-Dev & Server-Admin |
#11
|
||||
|
||||
Also was damit geht, ist Download 'disable'.
Das benutze ich auch schon seit längerem. Last edited by StefanM; 12.09.2022 at 17:38. |
#12
|
||||
|
||||
ja, so ist das mit dem Gedächtnis, wenn man älter wird :-(
|
#13
|
||||
|
||||
Okay, ja. Das geht natürlich auch Oder bewusst in ein *DO NOT DOWNLOAD- TRASH* Paket deaktiviert verschieben und dann von Hand aufräumen/löschen. Über Linkgrabber Filter kann man halt den Link komplett blockieren.
__________________
JD-Dev & Server-Admin |
#14
|
||||
|
||||
Quote:
Ich benutze dort bisher nur die 'Custom Views'. Dort kann ich natürlich ein Filter definieren, das Bild-Dateien mit 'thumb' im Namen ausblendet, aber natürlich genausowenig blockiert, wie die 'Package-Lösung'. Könntest du mir bitte eine Filterkonfiguration senden, bei der der Download von Bild-Dateien mit 'thumb' als Namensbestandteil komplett blockiert wird? Als Beispiel würde mir ein Filter für jp*g, bmp, png, gif reichen. Besten Dank! Last edited by StefanM; 14.09.2022 at 17:36. |
#15
|
||||
|
||||
Quote:
In der URL kann direkt geprüft werden. Der Name kann jedoch auch evtl erst durch die eigentliche Prüfung bekannt sein. Du meinst aber wahrscheinlich thumb in der URL, also zum Beispiel "*thumb*(jp*g|bmp|png|gif)" (PseudoCode) ? Aber zusätzlich musst du auch deinen View-Filter entsprechend konfigurieren. Denn sobald ein View-Filter greift, dann wird dieser Link NICHT blockiert, auch bei passendem Filter, da durch den View-Filter ja explizit gewünscht wird diese Links per View An/Auszuschalten. Also du wünscht eine Filter Regel welche für thumbs und Bild Extension in der URL blockiert? richtig? Entsprechend musst du dann zusätzlich noch den View Filter umkonfigurieren/abschalten/entfernen.
__________________
JD-Dev & Server-Admin |
#16
|
||||
|
||||
Quote:
Zur obigen Frage: Nein! Einfache Antwort: Es geht um Begriff 'thumb' im Bild-Dateinamen Detaillierte Antwort: Wie bei den Galerien, die ich als Beispiele genannt hatte, enthält die URL, die normalerweise im 'Deep Link Analyze Mode' gecrawlt werden müssen, diese Infos nicht, weil dies nur die URL zur Galerie-Seite ist (TGP). Erst beim Crawlen werden die URLs der Bild-Dateien gefunden:
Oft sind Teile von URL2, URL3,... kryptisch und bei jedem Bild verschieden, um zu verhindern, dass man einfach durch Hochzählen die übrigen Bilder finden kann. Oder kann JD in diesen typischen TGPs die Speicherung von Dateien mit bestimmten Namensbestandteilen in die LinkGrabber-Liste gar nicht verhindern? (Außer mit Hoster-spezifischen PlugIns) |
#17
|
||||
|
||||
@StefanM: Nein nein, meine Annahme mit thumb in der URL sind schon korrekt weil
Quote:
Aber es könnte auch eine URLX/download.zip sein welche dann aber Thumb.jpg als Dateinamen beim Download hat. Das ist eben jener Unterschied den ich meine. Das obere kann direkt auf der URL geprüft werden, während es für zweiteres eben eine Prüfung benötigt um den *finalen* Dateinamen zu erhalten. Kurz: Du möchtest alle URLs blockieren wo Thumb (+BildExtension) vorhanden ist?
__________________
JD-Dev & Server-Admin |
#18
|
||||
|
||||
Quote:
**External links are only visible to Support Staff****External links are only visible to Support Staff** hier erhalte ich im Deep Scan sowohl die Fullsize-Bilder als auch tn_00.jpg, tn_01.jpg ... in der LinkGrabber-Liste. Diverse Galerien dieser Art findet man hier: **External links are only visible to Support Staff****External links are only visible to Support Staff** Und richtig, ich möchte - in diesem Test-Fall - Dateien mit tn_*.jpg blockieren. Sollte aber eine Lösung sein, in der ich sehe, wie ich auch andere Extensions (z.B. png) blockieren, damit ich nicht für jede Extension ein neues Filter benötige. |
#19
|
||||
|
||||
@Stefan: und die Info "Thumbnail" steckt hier in der URL via tn_ und nicht im Dateinamen, welcher anders sein kann, wenn zb der Server hier für tn_01.jpg zb Bild.jpg zurückgibt Daher hier die Unterscheidung auf URL und Dateiname. Für diese Seite zb eine LinkFilter Regel mit
Code:
sourceURL/QuellURL - contains/enthält - .*DOMAINNAME\.org/.*/tn_[^/]+\.(jpe?g|png|gif|webm|bmp) (und die Regex-Checkbox aktivieren)
__________________
JD-Dev & Server-Admin |
#20
|
||||
|
||||
Quote:
Ich will eigentlich einfach nur verhindern, dass eine Datei mit einem bestimmten String im Dateinamen (z.B. thumb) gar nicht erst in die LinkGrabber-Liste kommt - so wie du es ganz zu Anfang gesagt hattest. Das soll nicht zwingend Seiten- oder Hoster-spezifisch sein. Ideal wäre natürlich ein Filter definieren zu können, in dem man Strings aus den zu crawlenden URLs eingeben kann. Beispiel: Für alle URLs, die den String blogspot beeinhalten. Das geht ja alles im Packagizer, nur eben, dass ich die Dateien irgendwo hinschieben muss und "nur" den Download disablen kann. |
#21
|
||||
|
||||
@StefanM: Natürlich geht das, warum auch nicht? Mein Beispiel war halt aben auf tn_ gemünzt, weil in deinem Beispiel eben nicht "thumb" vorkommt sondern "tn_". Du kannst natürlich einfach *blind* alles blockieren was irgendwie "thumb" in der URL hat, was aber eben auch zu False-Positives führen kann.
Quote:
Ich verstehe gerade nicht wo genau das Problem ist? Habe doch ein funktionierendes Beispiel für deine Website gegeben und ebenfalls den Grund gegen ein großflächiges Blockierung von "thumb" in der URL, aber das heisst nicht das es nicht geht!?
__________________
JD-Dev & Server-Admin Last edited by Jiaz; 14.09.2022 at 19:39. |
#22
|
||||
|
||||
Quote:
Quote:
1. Wie ist den das angehängte Beispiel-Filter zu verstehen? Als UND-Bedingung? Heißt: Nur wenn beide Bedinungen erfüllt sind, d.h. wenn der Dateiname thumb enthält UND die zugehörige Source-URL blogspot enthält, dann werden Dateien mit thumb im Dateinamen nicht in die LinkGrabber-Liste eingetragen. Korrekt? 2. Kann ich mehrere URLs in ein Filter schreiben? Wenn ja: Wie? blogspot|TGP mit RegEx aktiviert? 3. Dasselbe für Dateinamen: thumb|tn__ 4. Wie werden mehrere Filter behandelt? Die Reihenfolge kann man ja nicht ändern. Also werden alle aktiven Filter - unabhängig von der Reihenfolge - berücksichtigt? Sorry wenn ich nerve... |
#23
|
||||||
|
||||||
Quote:
Quote:
Quote:
Dann kannst du unten deinen Test/Text einfügen und rechts wird dir angezeigt ob/was das Pattern matched und auch detaillierte Erklärtung des Pattern selbst. Analog zum Beispiel drüber Quote:
Quote:
Aber der erste Filter der *matched/übereinstimmt* stoppt den Vorgang und somit gilt der Link als gefiltert. ABER nur wenn es keinen passenden View-Filter gibt. Zunächst wird geschaut ob es einen passenden View-Filter gibt, wenn ja, dann werden keine weiteren Filter geprüft und der Link wird entsprechend verarbeitet sodass dann im Linkgrabber der View-Filter verfügbar ist. Kein View-Filter, dann werden die (Blockier) Filter geprüft. Quote:
In deinem Beispiel/Screenshot muss die URL blogspot enthalten und der Dateiname thumb. ABER: Wenn du auf Dateiname prüfst, dann kann das dazu führen, das der Link länger/tiefer verarbeitet wird als nötig, da zb der Dateiname erst beim eigentlichen Download vorhanden/bekannt ist. Sofern du dich auf die URL beschränkst, dann können Links bereits sehr frühzeitig gefiltert werden ohne das dafür überhaupt ein Request nötig sein muss.
__________________
JD-Dev & Server-Admin Last edited by Jiaz; 16.09.2022 at 13:15. |
#24
|
||||
|
||||
__________________
JD-Dev & Server-Admin |
#25
|
||||
|
||||
Quote:
Nur weil ein Link z.B. mit "irgendwas.jpg" endet heißt das nicht, dass das auch der "richtige" Dateiname ist, den die Datei beim Download erhält. Wenn du den Link öffnest, kann im Response-Header ein Dateiname enthalten sein, der anders ist als der, der im Link steht. Mehr Infos dazu: developer.mozilla.org/en-US/docs/Web/HTTP/Headers/Content-Disposition Sofern möglich, würde ich das was im Link steht zum Filtern verwenden, um eben diese http Anfrage zu vermeiden und den Filterprozess somit schneller zu gestalten. Beispiel anhand einer selbst hochgeladenen Datei: Folgender Link sieht so aus als würde er zu einer Datei "dasIstNichtDerRichtigeDateiname.jpg" führen, aber das stimmt nicht. Der echte Dateiname ist "10MB.rar": Code:
ddownload.com/j71q99uuapc2/dasIstNichtDerRichtigeDateiname.jpg Code:
ddownload.com/j71q99uuapc2
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download |
#26
|
||||
|
||||
Quote:
Muss ich alles in Ruhe versuchen zu verstehen. |
#27
|
||||
|
||||
@StefanM: Wenn du hierzu noch weitere Fragen hast, nur her damit
__________________
JD-Dev & Server-Admin |
#28
|
||||
|
||||
Quote:
??? Aber da mache ich wohl wieder was falsch, nehme ich an? |
#29
|
||||
|
||||
@StefanM: dein Pattern definiert
Quote:
versuch es mit Code:
..../.*/?(thumb...
__________________
JD-Dev & Server-Admin |
#30
|
||||
|
||||
Quote:
Aber auch mit der vorgeschlagenen Änderung zeigt mit RegEx101 kein Match. |
#31
|
||||
|
||||
Ja Dein/Mein...das Pattern hab ich definiert um auf dein Beispiel zu matchen
__________________
JD-Dev & Server-Admin |
#32
|
||||
|
||||
Geht hier wunderbar, gerade getestet. Zeig mal bitte dein Pattern. Nur damit es keine Verwirrung gibt, ich habe lediglich den Teil des Pattern gezeigt der geändert werden muss, nicht das komplette Pattern
__________________
JD-Dev & Server-Admin |
#33
|
||||
|
||||
Ich nehmen auch an, dass ICH den Fehler mache. Aber ich brauche Hilfe, den Fehler zu finden.
|
#34
|
||||
|
||||
@StefanM: Ist da ein Leerzeichen hinter dem Pattern (der Punkt)? also hinter "bmp)" ? Der muss natürlich weg
__________________
JD-Dev & Server-Admin |
#35
|
||||
|
||||
Quote:
Hab ja gesagt, dass ICH den Fehler gemacht habe. Copy and Paste und dabei gab es dann wohl ein Blank am Ende :-) RegEx Patterns lesen ist mithilfe von RegEx101 nicht ganz so schwer für mich, so dass ich dann kleinere Modifikationen selbst machen kann. Aber mehr in der Regel nicht. |
#36
|
||||
|
||||
Aber evtl. kannst dir mal meine Frage zum Packagizer ansehen, bitte?
|
#37
|
||||
|
||||
Schon getan
__________________
JD-Dev & Server-Admin |
#38
|
||||
|
||||
Du kannst gerne jederzeit bei Fragen/Unklarheiten oder Problemen fragen
__________________
JD-Dev & Server-Admin |
#39
|
||||
|
||||
@pspzockerscene
Danke auch für deinen Input! |
Thread Tools | |
Display Modes | |
|
|