JDownloader Community - Appwork GmbH
 

Reply
 
Thread Tools Display Modes
  #1  
Old 12.09.2022, 13:14
StefanM's Avatar
StefanM StefanM is offline
JD VIP
 
Join Date: Oct 2020
Posts: 440
Default Frage zum LinkGrabber-Filter

Nach langer Zeit wieder mal eine Frage zum LinkGrabber-Filter

Bei Galerien sieht die URL wie folgt aus:
  • ...websiteXY.com/gallery_Irgendwas1
  • ...websiteXY.com/gallery_Irgendwas2
Wie muss ich das Filter konfigurieren, damit mir die Bilder aus den einzelnen Galerien in Ordner mit den Namen
  • d:\JD\Irgendwas1
  • d:\JD\Irgendwas2
sortiert werden?

Früher funktionierte es sinngemäß so:

Code:
sourceurl(s)   contains:   ...websiteXY.com/gallery_*    Häkchen für RegEx nicht gesetzt

package name   <jd:source:1>


Danke im Voraus!
Reply With Quote
  #2  
Old 12.09.2022, 13:58
Jiaz's Avatar
Jiaz Jiaz is offline
JD Manager
 
Join Date: Mar 2009
Location: Germany
Posts: 79,044
Default

@StefanM:
sourceURL - contains - *websiteXY.com/gallery_*
then set
package name - <jd:source:2>

Und bitte daran denken das die Regeln von oben nach unten abgearbeitet werden. Wenn also eine Regel unter dieser Regel was am Paketnamen verändert, dann ist die vorherige Änderung überschrieben.

Ansonsten bitte echte BeispielLinks, dann können wir bei der Regel genauer/besser helfen.
__________________
JD-Dev & Server-Admin

Last edited by Jiaz; 12.09.2022 at 15:58.
Reply With Quote
  #3  
Old 12.09.2022, 15:50
StefanM's Avatar
StefanM StefanM is offline
JD VIP
 
Join Date: Oct 2020
Posts: 440
Default

Quote:
Originally Posted by Jiaz View Post
@StefanM:
sourceURL - contains - *websiteXY.com/gallery_*
then set
package name - <jd:source2>
Hast du hier bewusst source2 statt source:2 geschrieben?

Quote:
Originally Posted by Jiaz View Post
@StefanM:
Und bitte daran denken das die Regeln von oben nach unten abgearbeitet werden. Wenn also eine Regel unter dieser Regel was am Paketnamen verändert, dann ist die vorherige Änderung überschrieben.
Das weiß ich :-)

Funktioniert leider nicht so, wie du es beschrieben hast, weder mit noch ohne den Doppelpunkt.

Es wird nach wie vor alles in <jd:simpledate:yyyy-MM-dd> gespeichert, obwohl diese Regel erst an Platz 3 steht. Meine Regel für die obigen Gallerien steht auf Platz 0, also an oberster Position.

Interessenhalber gefragt:
Inwieweit hat "Inforamtion overwrites packagizer rules" im "Analyze and Add Links"-Fenster hier Einfluss?

Früher hat das, was ich als Beispiel schrieb, funkioniert.
Nun hast du ja - auf meine Anregung hin - das Handling von Wildcards geändert/korrigiert.

Hier zwei existierende Besipiel-Links:
  1. **External links are only visible to Support Staff****External links are only visible to Support Staff**
  2. **External links are only visible to Support Staff****External links are only visible to Support Staff**

Als Ordnername soll jeweils der String nach dem letzen / verwendet werden.
Reply With Quote
  #4  
Old 12.09.2022, 15:53
Jiaz's Avatar
Jiaz Jiaz is offline
JD Manager
 
Join Date: Mar 2009
Location: Germany
Posts: 79,044
Default

Quote:
Originally Posted by StefanM View Post
Hast du hier bewusst source2 statt source:2 geschrieben?
Ja, weil ich ja 2 Platzhalter Wildcards genutzt habe.
Update: Sorry, jetzt hab ich den Typo gesehen, natürlich mit : , also
Quote:
<jd:source:2>
Quote:
sourceURL - contains - *websiteXY.com/gallery_*
und der zweite gewünscht ist
__________________
JD-Dev & Server-Admin

Last edited by Jiaz; 12.09.2022 at 15:58.
Reply With Quote
  #5  
Old 12.09.2022, 15:55
Jiaz's Avatar
Jiaz Jiaz is offline
JD Manager
 
Join Date: Mar 2009
Location: Germany
Posts: 79,044
Default

Quote:
Originally Posted by StefanM View Post
Es wird nach wie vor alles in <jd:simpledate:yyyy-MM-dd> gespeichert, obwohl diese Regel erst an Platz 3 steht. Meine Regel für die obigen Gallerien steht auf Platz 0, also an oberster Position.
Die Regeln werden von oben nach unten abgearbeitet Es werden ALLE Regeln durchlaufen und entsprechend und entsprechend ist das die Ursache. Du musst diese Regel an Ende der Regeln setzen, damit diese zuletzt verarbeitet wird und andere Regeln das Ergebnis/die Veränderung nicht überschreiben
__________________
JD-Dev & Server-Admin
Reply With Quote
  #6  
Old 12.09.2022, 15:56
Jiaz's Avatar
Jiaz Jiaz is offline
JD Manager
 
Join Date: Mar 2009
Location: Germany
Posts: 79,044
Default

Quote:
Originally Posted by StefanM View Post
Interessenhalber gefragt:
Inwieweit hat "Inforamtion overwrites packagizer rules" im "Analyze and Add Links"-Fenster hier Einfluss?
Diese Checkbox besagt das im AddLinks Dialog gesetzte Infos jene von Regeln gesetzte Infos überschreiben. Es
darf also kein Paketname angegeben sein, sofern du möchtest das deine Regeln hier greifen
__________________
JD-Dev & Server-Admin
Reply With Quote
  #7  
Old 12.09.2022, 16:00
Jiaz's Avatar
Jiaz Jiaz is offline
JD Manager
 
Join Date: Mar 2009
Location: Germany
Posts: 79,044
Default

Quote:
Originally Posted by StefanM View Post
Hier zwei existierende Besipiel-Links:
  1. **External links are only visible to Support Staff****External links are only visible to Support Staff**
  2. **External links are only visible to Support Staff****External links are only visible to Support Staff**
Als Ordnername soll jeweils der String nach dem letzen / verwendet werden.
Aber deine Beispiele stimmen ja nicht mit deinem Pattern von hier, https://board.jdownloader.org/showpo...93&postcount=1
Quote:
..websiteXY.com/gallery_Irgendwas1
überein und entsprechend brauchst du hier eine andere Regel.
Hast du eine LinkCrawler Regel für die Webseite? da ohne Cookie ja zunächst der *bla bla Content Warnung* Banner kommt.
Wenn du bzgl einer LinkCrawler Regel Fragen hast oder Hilfe brauchst, geb Bescheid
__________________
JD-Dev & Server-Admin

Last edited by Jiaz; 12.09.2022 at 16:15.
Reply With Quote
  #8  
Old 12.09.2022, 16:44
StefanM's Avatar
StefanM StefanM is offline
JD VIP
 
Join Date: Oct 2020
Posts: 440
Default

Quote:
Originally Posted by Jiaz View Post
Die Regeln werden von oben nach unten abgearbeitet Es werden ALLE Regeln durchlaufen und entsprechend und entsprechend ist das die Ursache. Du musst diese Regel an Ende der Regeln setzen, damit diese zuletzt verarbeitet wird und andere Regeln das Ergebnis/die Veränderung nicht überschreiben
Erstmal danke für diesen detailliert erklärten Hinweis. Hatte es bisher anders verstanden...

Ich bin jetzt sehr überrascht!
Wenn ich die Regel ans Ende setze, funktioniert es. Aber als es früher funktioniert hat - und da bin ich mir zu 99,9 % sicher - hat diese Regel an erster Stelle und die <jd:simpledate:yyyy-MM-dd>-Regel darunter gestanden.

Wurde da evtl. beim JD etwas verändert?
Oder erinnere ich mich falsch? Will das nicht zu 100 sondern nur zu 99,9 % ausschließen.

Ergänzende Frage (bevor ich alles mit Trial and Error herausfinden muss)
Wie muss ich andere Regeln in der Reihenfolge platzieren?
z.B. eine Regel, mit der ich definiere, dass - wenn die URL bestimmte Strings enthält - Dateien mit 'Thumbnail' im Namen nicht geladen werden sollen.
Reply With Quote
  #9  
Old 12.09.2022, 16:47
Jiaz's Avatar
Jiaz Jiaz is offline
JD Manager
 
Join Date: Mar 2009
Location: Germany
Posts: 79,044
Default

Quote:
Originally Posted by StefanM View Post
Ich bin jetzt sehr überrascht!
Wurde da evtl. beim JD etwas verändert?
Es gab hier keinerlei Änderungen und die Regeln wurden schon immer (seit dem es den Packagizer gibt) von oben nach unten abgearbeitet.
__________________
JD-Dev & Server-Admin
Reply With Quote
  #10  
Old 12.09.2022, 16:50
Jiaz's Avatar
Jiaz Jiaz is offline
JD Manager
 
Join Date: Mar 2009
Location: Germany
Posts: 79,044
Default

Quote:
Originally Posted by StefanM View Post
wenn die URL bestimmte Strings enthält - Dateien mit 'Thumbnail' im Namen nicht geladen werden sollen.
Das geht mit dem Packagizer gar nicht. Hier bedarf es den Linkgrabber Filtern und diese werden ebenfalls von oben nach unten verarbeitet, aber im Gegensatz zum Packagizer, wird bei der erstem positiven(Regel matched) Regel gestoppt.
__________________
JD-Dev & Server-Admin
Reply With Quote
  #11  
Old 12.09.2022, 17:36
StefanM's Avatar
StefanM StefanM is offline
JD VIP
 
Join Date: Oct 2020
Posts: 440
Default

Also was damit geht, ist Download 'disable'.
Das benutze ich auch schon seit längerem.

Last edited by StefanM; 12.09.2022 at 17:38.
Reply With Quote
  #12  
Old 12.09.2022, 17:39
StefanM's Avatar
StefanM StefanM is offline
JD VIP
 
Join Date: Oct 2020
Posts: 440
Default

Quote:
Originally Posted by Jiaz View Post
Es gab hier keinerlei Änderungen und die Regeln wurden schon immer (seit dem es den Packagizer gibt) von oben nach unten abgearbeitet.
ja, so ist das mit dem Gedächtnis, wenn man älter wird :-(
Reply With Quote
  #13  
Old 12.09.2022, 17:48
Jiaz's Avatar
Jiaz Jiaz is offline
JD Manager
 
Join Date: Mar 2009
Location: Germany
Posts: 79,044
Default

Quote:
Originally Posted by StefanM View Post
Also was damit geht, ist Download 'disable'.
Das benutze ich auch schon seit längerem.
Okay, ja. Das geht natürlich auch Oder bewusst in ein *DO NOT DOWNLOAD- TRASH* Paket deaktiviert verschieben und dann von Hand aufräumen/löschen. Über Linkgrabber Filter kann man halt den Link komplett blockieren.
__________________
JD-Dev & Server-Admin
Reply With Quote
  #14  
Old 14.09.2022, 16:52
StefanM's Avatar
StefanM StefanM is offline
JD VIP
 
Join Date: Oct 2020
Posts: 440
Default

Quote:
Originally Posted by Jiaz View Post
Über Linkgrabber Filter kann man halt den Link komplett blockieren.
Dann möchte ich doch noch mal nachfragen:
Ich benutze dort bisher nur die 'Custom Views'. Dort kann ich natürlich ein Filter definieren, das Bild-Dateien mit 'thumb' im Namen ausblendet, aber natürlich genausowenig blockiert, wie die 'Package-Lösung'.

Könntest du mir bitte eine Filterkonfiguration senden, bei der der Download von Bild-Dateien mit 'thumb' als Namensbestandteil komplett blockiert wird?

Als Beispiel würde mir ein Filter für jp*g, bmp, png, gif reichen.

Besten Dank!

Last edited by StefanM; 14.09.2022 at 17:36.
Reply With Quote
  #15  
Old 14.09.2022, 17:28
Jiaz's Avatar
Jiaz Jiaz is offline
JD Manager
 
Join Date: Mar 2009
Location: Germany
Posts: 79,044
Default

Quote:
Originally Posted by StefanM View Post
Dann möchte ich doch noch mal nachfragen:
Ich benutze dort bisher nur die 'Custom Views'. Dort kann ich natürlich ein Filter definieren, dass Bild-Dateien mit 'thumb' im Namen ausblendet, aber natürlich genausowenig blockiert, wie die 'Package-Lösung'.
Könntest du mir bitte eine Filterkonfiguration senden, bei der der Download von Bild-Dateien mit 'thumb' als Namensbestandteil komplett blockiert wird?
Als Beispiel würde mir ein Filter für jp*g, bmp, png, gif reichen.
Hier ist zunächst zu unterscheiden zwischen thumb im Namen oder thumb in der URL.
In der URL kann direkt geprüft werden. Der Name kann jedoch auch evtl erst durch die eigentliche Prüfung bekannt sein. Du meinst aber wahrscheinlich thumb in der URL, also zum Beispiel "*thumb*(jp*g|bmp|png|gif)" (PseudoCode) ?
Aber zusätzlich musst du auch deinen View-Filter entsprechend konfigurieren. Denn sobald ein View-Filter greift, dann wird dieser Link NICHT blockiert, auch bei passendem Filter,
da durch den View-Filter ja explizit gewünscht wird diese Links per View An/Auszuschalten.

Also du wünscht eine Filter Regel welche für thumbs und Bild Extension in der URL blockiert? richtig?
Entsprechend musst du dann zusätzlich noch den View Filter umkonfigurieren/abschalten/entfernen.
__________________
JD-Dev & Server-Admin
Reply With Quote
  #16  
Old 14.09.2022, 17:54
StefanM's Avatar
StefanM StefanM is offline
JD VIP
 
Join Date: Oct 2020
Posts: 440
Default

Quote:
Originally Posted by Jiaz View Post
Also du wünscht eine Filter Regel welche für thumbs und Bild Extension in der URL blockiert? richtig?
Erstmal danke für die zusätzlichen Erklärungen.
Zur obigen Frage: Nein!

Einfache Antwort:
Es geht um Begriff 'thumb' im Bild-Dateinamen

Detaillierte Antwort:
Wie bei den Galerien, die ich als Beispiele genannt hatte, enthält die URL, die normalerweise im 'Deep Link Analyze Mode' gecrawlt werden müssen, diese Infos nicht, weil dies nur die URL zur Galerie-Seite ist (TGP).

Erst beim Crawlen werden die URLs der Bild-Dateien gefunden:
  • URL1/BildAThumb.jpg
  • URL2/BildA.jpg
  • URL1/BildBThumb.jpg
  • URL3/BildB.jpg
  • ...
URL1 und URL2 bzw. URL3 können identisch sein, müssen aber nicht.
Oft sind Teile von URL2, URL3,... kryptisch und bei jedem Bild verschieden, um zu verhindern, dass man einfach durch Hochzählen die übrigen Bilder finden kann.

Oder kann JD in diesen typischen TGPs die Speicherung von Dateien mit bestimmten Namensbestandteilen in die LinkGrabber-Liste gar nicht verhindern? (Außer mit Hoster-spezifischen PlugIns)
Reply With Quote
  #17  
Old 14.09.2022, 17:59
Jiaz's Avatar
Jiaz Jiaz is offline
JD Manager
 
Join Date: Mar 2009
Location: Germany
Posts: 79,044
Default

@StefanM: Nein nein, meine Annahme mit thumb in der URL sind schon korrekt weil
Quote:
URL1/BildAThumb.jpg
Hier ist Thumb in der URL

Aber es könnte auch eine URLX/download.zip sein welche dann aber Thumb.jpg als Dateinamen beim Download hat. Das ist
eben jener Unterschied den ich meine. Das obere kann direkt auf der URL geprüft werden, während es für zweiteres eben eine Prüfung benötigt um den *finalen* Dateinamen zu erhalten.

Kurz: Du möchtest alle URLs blockieren wo Thumb (+BildExtension) vorhanden ist?
__________________
JD-Dev & Server-Admin
Reply With Quote
  #18  
Old 14.09.2022, 18:16
StefanM's Avatar
StefanM StefanM is offline
JD VIP
 
Join Date: Oct 2020
Posts: 440
Default

Quote:
Originally Posted by Jiaz View Post
@StefanM: Nein nein, meine Annahme mit thumb in der URL sind schon korrekt weil

Hier ist Thumb in der URL

Aber es könnte auch eine URLX/download.zip sein welche dann aber Thumb.jpg als Dateinamen beim Download hat. Das ist
eben jener Unterschied den ich meine. Das obere kann direkt auf der URL geprüft werden, während es für zweiteres eben eine Prüfung benötigt um den *finalen* Dateinamen zu erhalten.

Kurz: Du möchtest alle URLs blockieren wo Thumb (+BildExtension) vorhanden ist?
Nimm enfach mal dieses Beispiel:
**External links are only visible to Support Staff****External links are only visible to Support Staff**
hier erhalte ich im Deep Scan sowohl die Fullsize-Bilder als auch tn_00.jpg, tn_01.jpg ... in der LinkGrabber-Liste.
Diverse Galerien dieser Art findet man hier:
**External links are only visible to Support Staff****External links are only visible to Support Staff**

Und richtig, ich möchte - in diesem Test-Fall - Dateien mit tn_*.jpg blockieren. Sollte aber eine Lösung sein, in der ich sehe, wie ich auch andere Extensions (z.B. png) blockieren, damit ich nicht für jede Extension ein neues Filter benötige.
Reply With Quote
  #19  
Old 14.09.2022, 18:24
Jiaz's Avatar
Jiaz Jiaz is offline
JD Manager
 
Join Date: Mar 2009
Location: Germany
Posts: 79,044
Default

@Stefan: und die Info "Thumbnail" steckt hier in der URL via tn_ und nicht im Dateinamen, welcher anders sein kann, wenn zb der Server hier für tn_01.jpg zb Bild.jpg zurückgibt Daher hier die Unterscheidung auf URL und Dateiname. Für diese Seite zb eine LinkFilter Regel mit
Code:
sourceURL/QuellURL - contains/enthält - .*DOMAINNAME\.org/.*/tn_[^/]+\.(jpe?g|png|gif|webm|bmp)
(und die Regex-Checkbox aktivieren)
__________________
JD-Dev & Server-Admin
Reply With Quote
  #20  
Old 14.09.2022, 19:34
StefanM's Avatar
StefanM StefanM is offline
JD VIP
 
Join Date: Oct 2020
Posts: 440
Default

Quote:
Originally Posted by Jiaz View Post
@Stefan: und die Info "Thumbnail" steckt hier in der URL via tn_ und nicht im Dateinamen, welcher anders sein kann, wenn zb der Server hier für tn_01.jpg zb Bild.jpg zurückgibt Daher hier die Unterscheidung auf URL und Dateiname. Für diese Seite zb eine LinkFilter Regel mit
Code:
sourceURL/QuellURL - contains/enthält - .*DOMAINNAME\.org/.*/tn_[^/]+\.(jpe?g|png|gif|webm|bmp)
(und die Regex-Checkbox aktivieren)
Vielleicht geht das, was ich suche, gar nicht.
Ich will eigentlich einfach nur verhindern, dass eine Datei mit einem bestimmten String im Dateinamen (z.B. thumb) gar nicht erst in die LinkGrabber-Liste kommt - so wie du es ganz zu Anfang gesagt hattest.

Das soll nicht zwingend Seiten- oder Hoster-spezifisch sein.

Ideal wäre natürlich ein Filter definieren zu können, in dem man Strings aus den zu crawlenden URLs eingeben kann.

Beispiel:
Für alle URLs, die den String blogspot beeinhalten.
Das geht ja alles im Packagizer, nur eben, dass ich die Dateien irgendwo hinschieben muss und "nur" den Download disablen kann.
Reply With Quote
Reply

Thread Tools
Display Modes

Posting Rules
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is On
Smilies are On
[IMG] code is On
HTML code is Off

Forum Jump

All times are GMT +2. The time now is 03:11.
Provided By AppWork GmbH | Privacy | Imprint
Parts of the Design are used from Kirsch designed by Andrew & Austin
Powered by vBulletin® Version 3.8.10 Beta 1
Copyright ©2000 - 2023, Jelsoft Enterprises Ltd.