#1
|
||||
|
||||
![]()
Nach langer Zeit wieder mal eine Frage zum LinkGrabber-Filter
Bei Galerien sieht die URL wie folgt aus:
Früher funktionierte es sinngemäß so: Code:
sourceurl(s) contains: ...websiteXY.com/gallery_* Häkchen für RegEx nicht gesetzt package name <jd:source:1> ![]() Danke im Voraus! |
#2
|
||||
|
||||
![]()
@StefanM:
sourceURL - contains - *websiteXY.com/gallery_* then set package name - <jd:source:2> Und bitte daran denken das die Regeln von oben nach unten abgearbeitet werden. Wenn also eine Regel unter dieser Regel was am Paketnamen verändert, dann ist die vorherige Änderung überschrieben. Ansonsten bitte echte BeispielLinks, dann können wir bei der Regel genauer/besser helfen.
__________________
JD-Dev & Server-Admin Last edited by Jiaz; 12.09.2022 at 15:58. |
#3
|
||||
|
||||
![]() Quote:
Quote:
Funktioniert leider nicht so, wie du es beschrieben hast, weder mit noch ohne den Doppelpunkt. Es wird nach wie vor alles in <jd:simpledate:yyyy-MM-dd> gespeichert, obwohl diese Regel erst an Platz 3 steht. Meine Regel für die obigen Gallerien steht auf Platz 0, also an oberster Position. Interessenhalber gefragt: Inwieweit hat "Inforamtion overwrites packagizer rules" im "Analyze and Add Links"-Fenster hier Einfluss? Früher hat das, was ich als Beispiel schrieb, funkioniert. Nun hast du ja - auf meine Anregung hin - das Handling von Wildcards geändert/korrigiert. Hier zwei existierende Besipiel-Links:
Als Ordnername soll jeweils der String nach dem letzen / verwendet werden. |
#4
|
||||
|
||||
![]()
Ja, weil ich ja 2 Platzhalter Wildcards genutzt habe.
Update: Sorry, jetzt hab ich den Typo gesehen, natürlich mit : , also Quote:
Quote:
__________________
JD-Dev & Server-Admin Last edited by Jiaz; 12.09.2022 at 15:58. |
#5
|
||||
|
||||
![]() Quote:
![]()
__________________
JD-Dev & Server-Admin |
#6
|
||||
|
||||
![]() Quote:
darf also kein Paketname angegeben sein, sofern du möchtest das deine Regeln hier greifen
__________________
JD-Dev & Server-Admin |
#7
|
||||
|
||||
![]() Quote:
Quote:
Hast du eine LinkCrawler Regel für die Webseite? da ohne Cookie ja zunächst der *bla bla Content Warnung* Banner kommt. Wenn du bzgl einer LinkCrawler Regel Fragen hast oder Hilfe brauchst, geb Bescheid
__________________
JD-Dev & Server-Admin Last edited by Jiaz; 12.09.2022 at 16:15. |
#8
|
||||
|
||||
![]() Quote:
Ich bin jetzt sehr überrascht! Wenn ich die Regel ans Ende setze, funktioniert es. Aber als es früher funktioniert hat - und da bin ich mir zu 99,9 % sicher - hat diese Regel an erster Stelle und die <jd:simpledate:yyyy-MM-dd>-Regel darunter gestanden. Wurde da evtl. beim JD etwas verändert? Oder erinnere ich mich falsch? Will das nicht zu 100 sondern nur zu 99,9 % ausschließen. Ergänzende Frage (bevor ich alles mit Trial and Error herausfinden muss) Wie muss ich andere Regeln in der Reihenfolge platzieren? z.B. eine Regel, mit der ich definiere, dass - wenn die URL bestimmte Strings enthält - Dateien mit 'Thumbnail' im Namen nicht geladen werden sollen. |
#9
|
||||
|
||||
![]()
Es gab hier keinerlei Änderungen und die Regeln wurden schon immer (seit dem es den Packagizer gibt) von oben nach unten abgearbeitet.
__________________
JD-Dev & Server-Admin |
#10
|
||||
|
||||
![]()
Das geht mit dem Packagizer gar nicht. Hier bedarf es den Linkgrabber Filtern und diese werden ebenfalls von oben nach unten verarbeitet, aber im Gegensatz zum Packagizer, wird bei der erstem positiven(Regel matched) Regel gestoppt.
__________________
JD-Dev & Server-Admin |
#11
|
||||
|
||||
![]()
Also was damit geht, ist Download 'disable'.
Das benutze ich auch schon seit längerem. Last edited by StefanM; 12.09.2022 at 17:38. |
#12
|
||||
|
||||
![]()
ja, so ist das mit dem Gedächtnis, wenn man älter wird :-(
|
#13
|
||||
|
||||
![]() Quote:
![]()
__________________
JD-Dev & Server-Admin |
#14
|
||||
|
||||
![]() Quote:
Ich benutze dort bisher nur die 'Custom Views'. Dort kann ich natürlich ein Filter definieren, das Bild-Dateien mit 'thumb' im Namen ausblendet, aber natürlich genausowenig blockiert, wie die 'Package-Lösung'. Könntest du mir bitte eine Filterkonfiguration senden, bei der der Download von Bild-Dateien mit 'thumb' als Namensbestandteil komplett blockiert wird? Als Beispiel würde mir ein Filter für jp*g, bmp, png, gif reichen. Besten Dank! Last edited by StefanM; 14.09.2022 at 17:36. |
#15
|
||||
|
||||
![]() Quote:
In der URL kann direkt geprüft werden. Der Name kann jedoch auch evtl erst durch die eigentliche Prüfung bekannt sein. Du meinst aber wahrscheinlich thumb in der URL, also zum Beispiel "*thumb*(jp*g|bmp|png|gif)" (PseudoCode) ? Aber zusätzlich musst du auch deinen View-Filter entsprechend konfigurieren. Denn sobald ein View-Filter greift, dann wird dieser Link NICHT blockiert, auch bei passendem Filter, da durch den View-Filter ja explizit gewünscht wird diese Links per View An/Auszuschalten. Also du wünscht eine Filter Regel welche für thumbs und Bild Extension in der URL blockiert? richtig? Entsprechend musst du dann zusätzlich noch den View Filter umkonfigurieren/abschalten/entfernen.
__________________
JD-Dev & Server-Admin |
#16
|
||||
|
||||
![]() Quote:
Zur obigen Frage: Nein! Einfache Antwort: Es geht um Begriff 'thumb' im Bild-Dateinamen Detaillierte Antwort: Wie bei den Galerien, die ich als Beispiele genannt hatte, enthält die URL, die normalerweise im 'Deep Link Analyze Mode' gecrawlt werden müssen, diese Infos nicht, weil dies nur die URL zur Galerie-Seite ist (TGP). Erst beim Crawlen werden die URLs der Bild-Dateien gefunden:
Oft sind Teile von URL2, URL3,... kryptisch und bei jedem Bild verschieden, um zu verhindern, dass man einfach durch Hochzählen die übrigen Bilder finden kann. Oder kann JD in diesen typischen TGPs die Speicherung von Dateien mit bestimmten Namensbestandteilen in die LinkGrabber-Liste gar nicht verhindern? (Außer mit Hoster-spezifischen PlugIns) |
#17
|
||||
|
||||
![]()
@StefanM: Nein nein, meine Annahme mit thumb in der URL sind schon korrekt weil
Quote:
Aber es könnte auch eine URLX/download.zip sein welche dann aber Thumb.jpg als Dateinamen beim Download hat. Das ist eben jener Unterschied den ich meine. Das obere kann direkt auf der URL geprüft werden, während es für zweiteres eben eine Prüfung benötigt um den *finalen* Dateinamen zu erhalten. Kurz: Du möchtest alle URLs blockieren wo Thumb (+BildExtension) vorhanden ist?
__________________
JD-Dev & Server-Admin |
#18
|
||||
|
||||
![]() Quote:
**External links are only visible to Support Staff****External links are only visible to Support Staff** hier erhalte ich im Deep Scan sowohl die Fullsize-Bilder als auch tn_00.jpg, tn_01.jpg ... in der LinkGrabber-Liste. Diverse Galerien dieser Art findet man hier: **External links are only visible to Support Staff****External links are only visible to Support Staff** Und richtig, ich möchte - in diesem Test-Fall - Dateien mit tn_*.jpg blockieren. Sollte aber eine Lösung sein, in der ich sehe, wie ich auch andere Extensions (z.B. png) blockieren, damit ich nicht für jede Extension ein neues Filter benötige. |
#19
|
||||
|
||||
![]()
@Stefan: und die Info "Thumbnail" steckt hier in der URL via tn_ und nicht im Dateinamen, welcher anders sein kann, wenn zb der Server hier für tn_01.jpg zb Bild.jpg zurückgibt
![]() Code:
sourceURL/QuellURL - contains/enthält - .*DOMAINNAME\.org/.*/tn_[^/]+\.(jpe?g|png|gif|webm|bmp) (und die Regex-Checkbox aktivieren)
__________________
JD-Dev & Server-Admin |
#20
|
||||
|
||||
![]() Quote:
Ich will eigentlich einfach nur verhindern, dass eine Datei mit einem bestimmten String im Dateinamen (z.B. thumb) gar nicht erst in die LinkGrabber-Liste kommt - so wie du es ganz zu Anfang gesagt hattest. Das soll nicht zwingend Seiten- oder Hoster-spezifisch sein. Ideal wäre natürlich ein Filter definieren zu können, in dem man Strings aus den zu crawlenden URLs eingeben kann. Beispiel: Für alle URLs, die den String blogspot beeinhalten. Das geht ja alles im Packagizer, nur eben, dass ich die Dateien irgendwo hinschieben muss und "nur" den Download disablen kann. |
![]() |
Thread Tools | |
Display Modes | |
|
|