[Solved] Probleme mit bestimmten Bildern von GoogleBooks - JDownloader Community

StefanM · #1 21.10.2022, 10:36

Ein Plugin scheint nicht mehr zu existieren. Daher habe ich die Links zu den Images (Seiten) eines Books selbst ermittelt (Beispiel: Links und Book siehe Anlage).

Wenn ich die Links mit DeepScan scanne, wird zu jedem Link auch ein Bild gefunden und kann heruntergeladen werden. Jedoch wird bei allen in der Anlage markierten Links mit 8,89 kB Größe nur ein Image mit dem Text "image not available" gefunden und heruntergeladen.

Es fällt auf, dass all diese "not available"-Links den String pg=PA….. enthalten, während die korrekt heruntergeladenen Links den String pg=PR….. enthalten.

Kopiere ich die Links in Firefox, wird jedes Image (jede Seite des Buchs, PR und PA) korrekt angezeigt.

Verwende ich das Firefox AddOn DownThemAll wird ebenfalls jedes Image korrekt heruntergeladen.

Frage 1: Hat JD hier ein Problem? Muss ich eine bestimmte Einstellung vornehmen?

Frage 2: Wie kann ich die Namen für die heruntergeladenen Dateien als PAxx bzw. PRxx aus den Links erzeugen?

Für eine Lösung wäre ich dankbar!

Jiaz · #2 21.10.2022, 13:44

Quote:

Originally Posted by StefanM

Kopiere ich die Links in Firefox, wird jedes Image (jede Seite des Buchs, PR und PA) korrekt angezeigt.

Ja und Nein.
PA:
Sofern keine Google Cookies vorhanden sind /zb Incognito Tab in Firefox und Chrome, dann kommt ein "Image not available" auch im Browser.
PR:
Gehen unabhängig von Google Cookies im normalen Tab, wie auch im Incognito Tab im Firefox und Chrome

Sobald man einen PA Link aufgerufen hatte, funktionieren weitere und danach ebenfalls der gleiche PA Links.

Ein Umschreiben der Links von PA zur PR funktioniert nicht, es bleibt weiterhin ein "Image not available". Es liegt einzig am nötigen Cookie für PA Links.

Ich empfehle dir hier eine Linkcrawler DIRECTHTTP Regel für diese Links und entsprechend schon die nötigen Cookies gesetzt sind, siehe
https://support.jdownloader.org/Know...ple-directhttp

Jiaz · #3 21.10.2022, 13:45

Quote:

Originally Posted by StefanM

Frage 2: Wie kann ich die Namen für die heruntergeladenen Dateien als PAxx bzw. PRxx aus den Links erzeugen?

Mittels Paketverwalter Regel kannst du aus der sourceURL die PAxx und PRxx herausholen und dann den Dateinamen zusammenbauen/setzen lassen.

pspzockerscene · #4 21.10.2022, 14:06

Verschoben ins Unterforum "Allgemeine Diskussion".

Ergänzend zu Jiaz' Antworten:

Quote:

Originally Posted by StefanM

Ein Plugin scheint nicht mehr zu existieren.

Korrekt das schon lange kaputte Plugin wurde mangels Zeit und Nachfrage am 10.05.2021 entfernt.
Letzte Anfrage eines Users 2021:
https://board.jdownloader.org/showthread.php?t=66032
Davor 2017:
https://board.jdownloader.org/showthread.php?t=75276

Quote:

Originally Posted by StefanM

Wenn ich die Links mit DeepScan scanne, wird zu jedem Link auch ein Bild gefunden und kann heruntergeladen werden.

Korrekt, denn zum einen enthalten die Links keine bekannten Dateierweiterungen und zum anderen stehen sie gar nicht in dem HTML Code, den JDownloader bekommt, wenn Links im Format "google.de/books/edition/..." aufgerufen werden.
Soll heißen dass hier nichts gefunden wird, ist kein Bug.

Wenn du möchtest, dass diese Direktlinks auch ohne Deepscan z.B. beim Kopieren erkannt werden, musst du wie von Jiaz beschrieben eine entsprechende LinkCrawler Regel erstellen.

In diesem Fall kann es sich lohnen, andere Tools zu verwenden, die genau dafür gemacht sind, von Google Books herunterzuladen.
Eine kurze Websuche nach github google books downloader zeigt, dass es da einige open source Projekte zu geben scheint

StefanM · #5 21.10.2022, 17:55

Quote:

Originally Posted by pspzockerscene

Verschoben ins Unterforum "Allgemeine Diskussion".

...
In diesem Fall kann es sich lohnen, andere Tools zu verwenden, die genau dafür gemacht sind, von Google Books herunterzuladen.
Eine kurze Websuche nach github google books downloader zeigt, dass es da einige open source Projekte zu geben scheint

Hatte vorher zwei solcher Tools getestet:
Luden beide nicht alle Seiten herunter und beide - warum auch immer - reduzierten auch die Image-Auflösung/Qualität

Jiaz · #6 21.10.2022, 18:02

@StefanM: Mittels einer LinkCrawler Regel klappt es dann auch mit dem JDownloader. Versuch dich bitte zunächst selbst daran aber bei Fragen/Problemen/Verzweiflung helfen wir natürlich

StefanM · #7 21.10.2022, 18:30

Quote:

Originally Posted by Jiaz

Ja und Nein.
Ich empfehle dir hier eine Linkcrawler DIRECTHTTP Regel für diese Links und entsprechend schon die nötigen Cookies gesetzt sind, siehe
**External links are only visible to Support Staff**...

Hmm, dort heißt es:

JD will not pickup this URL - it will only find the image behind it if you add it via "Add Links" dialog and let JD deep-scan.

Aber genau das mache ich ja, ich füge die Links via "Add Links"-Dialog hinzu und lasse JD einen Deep-Scan durchführen.

Aber auch dann findet JD die Bilder nicht.

Aber wie setze ich mit der Rule die notwendigen Cookies?

StefanM · #8 21.10.2022, 21:18

Quote:

Originally Posted by Jiaz

@StefanM: Mittels einer LinkCrawler Regel klappt es dann auch mit dem JDownloader. Versuch dich bitte zunächst selbst daran aber bei Fragen/Problemen/Verzweiflung helfen wir natürlich

Aus den Anleitungen kann ich leider nicht erkennem, wie ich das Problem lösen kann.

Wenn ich es richtig verstehe, fehlt im JD der notwendige Cookie.

Wenn ich es richtig verstehe, ersetzt die Rule - zumindest in dem Beispiel unter dem Link, den du mir gesendet hast - nur die Notwendigkeit, einen Deep-Scan durchzuführen (damit auch so z.B. Bilder gefunden werden).

Nur,...
... Bilder werden ja gefunden im Deep-Scan. Nur leider bzgl. der pg=PA-"Gruppe" eben nur das Bild "image not available".

Und, dass ich mich bzgl. der URL mit RegEx sehr schwer tue, weißt du ja.

Mit anderen Worten:
Ich brauche bitte Hilfe. So eine Rule habe ich noch nie erstellt. Und das angegebene Beispiel verstehe ich so, dass es nur die Notwendigkeit, einen Deep-Scan durchzuführen überflüssig macht, aber keine Cookies setzt, oder???

pspzockerscene · #9 24.10.2022, 17:31

Quote:

Originally Posted by StefanM

Hatte vorher zwei solcher Tools getestet:

Welche Tools hast du ausprobiert?

Quote:

Originally Posted by StefanM

Luden beide nicht alle Seiten herunter und beide - warum auch immer - reduzierten auch die Image-Auflösung/Qualität

Welche Auflösung(en) wurde(n) heruntergeladen und welche hast du erwartet?

Quote:

Originally Posted by StefanM

Aber wie setze ich mit der Rule die notwendigen Cookies?

??
Das erste Beispiel in unserem Übersichtsartikel enthält doch bereits testweise cookies.
Anhand des Beispiels und der Tabelle unten siehst du, dass das Feld "cookies" für Cookie-Wertepaare ist und, wie man diese setzt...
https://support.jdownloader.org/Know...kcrawler-rules

Quote:

Originally Posted by StefanM

Aus den Anleitungen kann ich leider nicht erkennem, wie ich das Problem lösen kann.

Die Anleitung ist eine generische Anleitung zum Erstellen von LinkCrawler Regeln.
Wir haben ddir gesagt, dass im Browser beim ersten Aufruf eines solchen Bildes bestimmte Cookies gesetzt werden, die du JD jedoch händisch mitteilen musst.
Also wie wohl als nächstes vorgehen?
1. Irgendeinen Bilder-Direktlink im Browser öffnen und die Cookies herausholen z.B. mit addons wie "EditThisCookie" oder "FlagCookies".
Es geht auch komplett ohne Addon, ist jedoch mühseliger.

2. Regel für besagte Direktlinks erstellen.

3. Regel ohne Cookies testen -> Also schauen, ob JD die Links nun auch über die Zwischenablagenüberwachung erkennt.

4. Cookies in die Regel einfügen und so lange probieren bis du weißt, welche Cookies wirklich benötigt werden.
Dabei hoffen, dass sich die Cookies nicht ständig ändern.

Quote:

Originally Posted by StefanM

Und, dass ich mich bzgl. der URL mit RegEx sehr schwer tue, weißt du ja.

Das spielt keine Rolle du kannst noch immer reguläre Ausdrücke erlernen.
Youtube Videos + Webtool regex101.com ...

Quote:

Originally Posted by StefanM

dass es nur die Notwendigkeit, einen Deep-Scan durchzuführen überflüssig macht, aber keine Cookies setzt, oder???

Wenn du der Regel Cookies mitgibst, verwendet JD diese auch ansonsten stimmt die Aussage.

Ich sehe hier noch immer sehr wenig Bereitschaft von dir, dich ernsthaft mit dem Thema zu befassen (vor allem RegEx).
Auch glaube ich nicht, dass besagte andere Tools es dir nicht erlauben, die Bilder in der höchsten verfügbaren Auflösung herunterzuladen.
Für den Fall, dass das dennoch stimmt:
Hast du auf Github entsprechende Tickets ("Issues") erstellt und um Hilfe gebeten bzlg. die Entwickler auf die möglichen Bugs hingewiesen?

StefanM · #10 24.10.2022, 21:22

Quote:

Originally Posted by pspzockerscene

Welche Tools hast du ausprobiert?

**External links are only visible to Support Staff****External links are only visible to Support Staff**
**External links are only visible to Support Staff****External links are only visible to Support Staff**
**External links are only visible to Support Staff****External links are only visible to Support Staff**
**External links are only visible to Support Staff****External links are only visible to Support Staff**

Obige GitHub-Projekte habe ich getestet.

Sie funktionierten gar nicht (mehr) bzw. fehlerbehaftet.

Das letzte "Projekt" funktioniert am besten (Kopieren des Java-Scripts in die Google Chrome-Developer-Console), "verpasst" aber einige Seiten.

Darüber hinaus habe ich getestet:
**External links are only visible to Support Staff****External links are only visible to Support Staff**
(Schafft gerade mal 2 Seiten)

**External links are only visible to Support Staff****External links are only visible to Support Staff**
(reduziert die Qualität extrem bereits als Image und erst recht im pdf

Quote:

Originally Posted by pspzockerscene

Welche Auflösung(en) wurde(n) heruntergeladen und welche hast du erwartet?

Natürlich erwarte ich das Original-Image, wie ich es z.B. über die Links aus den Browser-Developertools öffnen und auch über den Browser abspeichern kann.

Ich habe die heuntergeladenen Seiten nicht weiter geprüft. Aber die Schrift war schon stark verpixelt gegenüber dem Original.

Die weitere Antworten schreibe ich morgen.

Noch ein wichtiger Hinweis:

Ich kopiere den englischen Originaltext hier ein, den ich meinem Freund Maksym gesendet hatte:

1. When I use the new Google Books design, I find these URLs for PA7: (image not available)

Start URL:
https://www.google.de/books/edition/...AAAQBAJ?gbpv=1

File address:
**External links are only visible to Support Staff****External links are only visible to Support Staff**
Parent page address:
**External links are only visible to Support Staff****External links are only visible to Support Staff**

2. When I use the old Google Books design, these URLs are found for PA7: (image correctly downloaded)

Start URL:
**External links are only visible to Support Staff****External links are only visible to Support Staff**

File address:
**External links are only visible to Support Staff****External links are only visible to Support Staff**
Parent page address:
**External links are only visible to Support Staff****External links are only visible to Support Staff**

pspzockerscene · #11 25.10.2022, 14:19

Quote:

Originally Posted by StefanM

Obige GitHub-Projekte habe ich getestet.

Diese werde ich mir ebenfalls anschauen.

Quote:

Originally Posted by StefanM

Darüber hinaus habe ich getestet:
... .exe

Diese closed source Projekte werde ich mir nicht anschauen.

Quote:

Originally Posted by StefanM

Natürlich erwarte ich das Original-Image, wie ich es z.B. über die Links aus den Browser-Developertools öffnen und auch über den Browser abspeichern kann.

Ich habe lediglich gefragt, da die Direktlinks in deiner Textdatei zu sehr kleinen Bildern mit einer Auflösung von z.B. 575x816 führen.
Die Seiten sind so zwar lesbarer, aber weit entfernt von einer "guten Qualität" wenn du mich fragst.
Ich ging davon aus, dass du eine höhere Qualitätsstufe erwartet hattest.
Ich gehe nun davon aus, dass Google keine bessere Qualität zur Verfügung stellt.

Auf den Rest gehe ich später ein.

pspzockerscene · #12 25.10.2022, 14:41

Zu deinen ausprobierten Github Projekten:
Ich probiere zunächst die Projekte aus, die in letzter Zeit noch geändert wurden.
Etwas was schon über 10 Jahre alt ist o.ä., überspringe ich direkt.

github.com/vaibhavk97/GoBooDo
Funktioniert nicht.
Fehler "Received invalid response".
Kann man sich aber auch schon anhand der vielen Issues denken:
github.com/vaibhavk97/GoBooDo/issues
-> Der Sourcecode dieses Projektes lässt vermuten, dass das benötigte Cookie das "NID" Cookie ist.

github.com/aprikyan/google-books-downloader
Dieses Projekt verwendet Chromedriver und liefert noch dazu eine veraltete Version davon mit daher habe ich es erst gar nicht versucht.
Dies lässt außerdem vermuten, dass es stark an die Webseitenstruktur von Google Books gebunden ist, die sich seit ~2020 bestimmt schonmal geändert hat.

github.com/mcdxn/google-books-preview-pages-downloader
Egal ob dieses Projekt funktioniert oder nicht: Es scheint lediglich die Links zu den Bildern zu extrahieren und sie nicht automatisch herunterzuladen.
Das können wir auch händisch und damit lohnt es sich nicht, dieses auszuprobieren.

github.com/YurieCo/Google-Books-Downloader-1
Letzte Aktivität: 2012
Webseiten ändern sich regelmäßig. Es ist extrem unwahrscheinlich, dass 10 Jahre alte Web-Crawler noch funktionieren

Damit komme ich zumselben Ergebnis wie du und erspare anderen Usern mit diesem Post ggf. etwas Zeit.

pspzockerscene · #13 25.10.2022, 14:50

Quote:

Originally Posted by Jiaz

@StefanM: Mittels einer LinkCrawler Regel klappt es dann auch mit dem JDownloader. Versuch dich bitte zunächst selbst daran aber bei Fragen/Problemen/Verzweiflung helfen wir natürlich

Zurück dazu:
Hier ist eine LinkCrawler Regel, die bei mir funktionierte:

Code:

[
  {
    "enabled": true,
    "cookies": [
      [
        "NID",
        "ZENSIERT"
      ]
    ],
    "updateCookies": true,
    "logging": false,
    "name": "Beispielregel fuer Google Books Direktlinks mit Cookie",
    "pattern": "**External links are only visible to Support Staff**,
    "rule": "DIRECTHTTP"
  }
]

Bevor du diese Regel in deinen JDownloader einfügst, musst du ZENSIERT noch durch den Wert deines Google "NID" Cookies ersetzen.

Ich konnte mithilfe dieser Regel alle 49 deiner Direktlinks herunterladen.
Zwei der Links führten nur zu ca 8KiB großen dummy Bildern mit dem Inhalt "Image not available".
Ob das per Browser auch so ist, müsste man gegenprüfen.

Edit by Jiaz: Hier die vollständige Regel als Pastebin, pastebin.com/p7ixh7sS

StefanM · #14 25.10.2022, 16:27

vorab:

Quote:

Originally Posted by pspzockerscene

github.com/mcdxn/google-books-preview-pages-downloader
Egal ob dieses Projekt funktioniert oder nicht: Es scheint lediglich die Links zu den Bildern zu extrahieren und sie nicht automatisch herunterzuladen.
Das können wir auch händisch und damit lohnt es sich nicht, dieses auszuprobieren.

Nein, es lädt die Seiten (zumindest im Google Chrome) auch herunter. Es verwendet dazu die Downloadfunktion von Google Chrome). Du musst nur die Anleitung genau befolgen.:)

Quote:

Originally Posted by pspzockerscene

Zurück dazu:
Hier ist eine LinkCrawler Regel, die bei mir funktionierte:
...

Besten Dank dafür. Werde es wohl erst morgen testen können und werde dann berichten (sofern es mir gelingt, diesen "NID"-Cookie ausfindig zu machen).

Habe hier:
policies.google.com/technologies/cookies?hl=de
dazu u.a. gefunden:

"Das „NID“-Cookie wird verwendet, um in Google-Diensten Google-Werbung für abgemeldete Nutzer einzublenden." ..."Das „NID“-Cookie läuft 6 Monate nach der letzten Nutzung durch den Nutzer ab."

Und wie schon gesagt, das Verhalten ist unterschiedlich, ob ich die alte oder neue Google Books-Weboberfläche benutze.

Interessant ist auch, dass in anderen Ländern - z.B. in der Ukraine - andere Seiten als z.B. hier in Deutschland beim selben Buch angeboten werden.

Das würde dann bei Verwendung verschiedener Proxies dazu führen, dass man am Ende mehr Seiten herunterladen kann.;)

pspzockerscene · #15 25.10.2022, 17:05

Quote:

Originally Posted by StefanM

Nein, es lädt die Seiten (zumindest im Google Chrome) auch herunter. Es verwendet dazu die Downloadfunktion von Google Chrome). Du musst nur die Anleitung genau befolgen.:)

Das wird in den im Projekt verlinkten Videos anders dargelegt:
youtu.be/cCFtlXJPoJ0
youtu.be/LsbGFLBiPWQ
EDIT Ich sehe gerade, dass im Projekt steht, die Bilder würden danach automatisch heruntergeladen werden. Dieserr Schritt wurde in den Videos scheinbar ausgelassen. Im Code ist das ebenfalls in der "gbppd.js" zu sehen.

Wie auch immer ich hatte u.a. weitere Gründe, warum ich es nicht als sinnvoll erachtet habe, mich weiter mit diesem Projekt zu befassen

Falls es dir etwas bringt, kannst du die Nutzung dieses Projekts und JD nach belieben kombinieren.
Ich kann mir trotzdem nicht vorstellen, dass die hier gecrawlten Bilder Direktlinksc zu niedrigeren Auflösungen führen als deine, aber ich werde es nicht testen dazu ist mir meine Zeit dann doch zu wertvoll.

Quote:

Originally Posted by StefanM

Besten Dank dafür. Werde es wohl erst morgen testen können und werde dann berichten (sofern es mir gelingt, diesen "NID"-Cookie ausfindig zu machen).

Eigentlich kommt man direkt über den Browser (ich spreche hier nur über Chrome) einfach ran, aber das scheint sich ggf. geändert zu haben zumindest war es mir nicht möglich, das "NID" Cookie in meinem Chrome mit drei Klicks einfach zu finden.
Ich hab's über das Addon "EditThisCookie" gemacht.
Es sollte mit beiden open source Browser Addons funktionieren, die wir in folgendem Artikel verlinken:
https://support.jdownloader.org/Know...n-instructions

Quote:

Originally Posted by StefanM

Das würde dann bei Verwendung verschiedener Proxies dazu führen, dass man am Ende mehr Seiten herunterladen kann.;)

Das ist gut möglich da kannst du dich dann nach belieben verausgaben.

StefanM · #16 25.10.2022, 19:54

Quote:

Originally Posted by pspzockerscene

Das wird in den im Projekt verlinkten Videos anders dargelegt: ...

Aber es läuft...
Es kommt eine Abfrage, ob ich Chrome erlaube, alles herunterzuladen. Und dann lädt er alle Dateien aus der Link-Liste herunter. 5 gleichzeitig (ich glaube es waren 5 oder evtl. auch 6...)

Wie trage ich den Cookie ein?

NID=511=W1nBAWjHLq...

Alles, oder erst ab dem ersten oder zweiten "="

Danke nochmal für die Hilfe!

Jiaz · #17 26.10.2022, 11:11

Quote:

Originally Posted by StefanM

Wie trage ich den Cookie ein?

NID=511=W1nBAWjHLq...

Das ist ein Array von Key/Value Paaren

Code:

 "cookies": [
      [
        "Key1",
        "Value1"
      ],
      [
        "Key2",
        "Value2"
      ]
    ]

also zum Beispiel

Code:

 "cookies": [
      [
        "NID",
        "W1nBAWjH...."
      ]
    ]

Jiaz · #18 26.10.2022, 11:16

Quote:

Originally Posted by StefanM

warum auch immer - reduzierten auch die Image-Auflösung/Qualität

Quote:

Originally Posted by pspzockerscene

Ich kann mir trotzdem nicht vorstellen, dass die hier gecrawlten Bilder Direktlinksc zu niedrigeren Auflösungen führen als deine, aber ich werde es nicht testen dazu ist mir meine Zeit dann doch zu wertvoll.

In den BeispielLinks aus dem ersten Post fehlen an den BilderLinks noch der wichtige Parameter

Quote:

&w=1280

Der Parameter/Weite kann geändert werden.

Jiaz · #19 26.10.2022, 11:20

Quote:

Originally Posted by StefanM

Nur,...
... Bilder werden ja gefunden im Deep-Scan. Nur leider bzgl. der pg=PA-"Gruppe" eben nur das Bild "image not available".

Den Sachverhalt habe ich hier erklärt, siehe https://board.jdownloader.org/showpo...24&postcount=2

pspzockerscene · #20 26.10.2022, 13:46

Quote:

Originally Posted by Jiaz

Das ist ein Array von Key/Value Paaren

...
Ich glaube so hat er das nicht gemeint. Ich glaube die Syntax hat er verstanden.
Seine Frage ist eigentlich "Soll ich den ganzen Wert des Cookies einfügen oder nur einen Teil?".

Quote:

Originally Posted by StefanM

Alles, oder erst ab dem ersten oder zweiten "="

Der komplette Wert des Cookies.
Mein NID Cookie-Wert entspricht etwa folgendem Muster:
511=[A-Za-z0-9-]+

Quote:

Originally Posted by Jiaz

In den BeispielLinks aus dem ersten Post fehlen an den BilderLinks noch der wichtige Parameter
Der Parameter/Weite kann geändert werden.

Falls dem so ist, hat Stefan diese jedoch selbst abgeändert, denn wenn ich die aus dem Browser nehme werden andere Standardparameter verwendet.
Ich ging davon aus, dass Stefan die Links nicht verändert hat.

StefanM · #21 27.10.2022, 15:42

Quote:

Originally Posted by Jiaz

In den BeispielLinks aus dem ersten Post fehlen an den BilderLinks noch der wichtige Parameter
Der Parameter/Weite kann geändert werden.

Leider kann ich wegen der URL-Zensur hier auch die von mir selbst geposteten Image-Links nicht mehr sehen.

Wenn ich im Browser über die developer-tools die Links "extrahiere", dann erhalte ich so etwas:

**External links are only visible to Support Staff****External links are only visible to Support Staff**
**External links are only visible to Support Staff****External links are only visible to Support Staff**
**External links are only visible to Support Staff****External links are only visible to Support Staff**

Dazu habe ich dann auch gleich zwei Fragen:

Frage 1: Wodurch wird denn die Auflösung w=1280 bestimmt? Bzw. kann ich das beeinflussen?

Frage 2: Kann ich bei irgendeinem Browser von Hand auf einmal mehrere Links dieser Art kopieren? Filtern nach '&pg=' ist ja kein Problem. Aber auch längeres(!) Googlen hat mir nicht geholfen herauszufinden, wie ich mehrere Links auf einmal kopiere.

Sollte ich Links ohne die Auflösung hier eingestellt haben, so stammen diese übrigens aus dem "JD-Konkurrenten" EPF meines langjährigen guten Freundes Maksym aus der Ukraine (**External links are only visible to Support Staff****External links are only visible to Support Staff**). EPF kann diese Links automatisiert extrahieren und auch herunterladen.

Laden, aber eben auch nur die Links mit pg=PR, nicht aber die mit pg=PA. Das geht auch dort nur über Umwege.

Seltsamerweise gibt es kein Problem mit dem Download dieser Images, wenn man mit einer Ukrainischen IP-Adresse arbeitet. Und dann werden auch ganz andere Seiten aus demselben Buch angeboten...

EPF hat übrigens ein sehr interessantes Feature, was m.E. auch für JD interessant wäre:
Er hat einen built-in Google Chrome Browser, den ich bei Bedarf zu Beginn eines Download-Projekts automatisch starten lassen kann. Dieser ermöglicht dann z.B. auch das einfache automatisierte Crawlen nach den Image-Links hier.

Und der User hat auch die Möglichkeit, Projektdateien (das Äquivalent zu JD's PlugIns) selbst zu erstellen. Für komplexere "PlugIns" muss man allerdings u.a. auch RegEx gut beherrschen...

StefanM · #22 27.10.2022, 15:48

Quote:

Originally Posted by pspzockerscene

...
Der komplette Wert des Cookies.
Mein NID Cookie-Wert entspricht etwa folgendem Muster:
511=[A-Za-z0-9-]+

Jetzt habe ich zwei verschiedene Antworten

Jiaz schreibt sinngemäß "Nach dem zweiten =", also ohne die 511

Du schreibst inkl. 511=

Werde dann mal beides testen und auch versuchen die RegEx anzupassen, die ich nur für .de bekommen habe. Ich brauche natürlich international...

Quote:

Originally Posted by pspzockerscene

...
Falls dem so ist, hat Stefan diese jedoch selbst abgeändert, denn wenn ich die aus dem Browser nehme werden andere Standardparameter verwendet.
Ich ging davon aus, dass Stefan die Links nicht verändert hat.

Wie im vorangegangen Reply geschrieben: Das war aus einem EPF-Log ...
Hatte ich nicht drauf geachtet, dass die width dort fehlt.

pspzockerscene · #23 27.10.2022, 16:03

Quote:

Originally Posted by StefanM

Leider kann ich wegen der URL-Zensur hier auch die von mir selbst geposteten Image-Links nicht mehr sehen.

Da du das vorher wusstest, hättest du natürlich entsprechende Backups anlegen können.
Deine selbst geposteten Links kann ich dir natürlich auch wahlweise erneut per PN schicken, falls dich das weiterbringt.

Quote:

Originally Posted by StefanM

Wenn ich im Browser über die developer-tools die Links "extrahiere", dann erhalte ich so etwas:
...&w=1280

Joa scheinbar kann man mit diesem Parameter die Auflösung anpassen.
Deine initialen Beispiellinks enthielten gar keinen "w" Parameter was scheinbar dazu führt, dass eine kleinere Auflösung verwendet wird (in meinen tests 575x816).

Quote:

Originally Posted by StefanM

Wodurch wird denn die Auflösung w=1280 bestimmt? Bzw. kann ich das beeinflussen?

Keine Ahnung dazu müsstest du die Google Books Webseite weiter analysieren oder im Netz recherchieren.
Diese Frage hat absolut nichts mit dem JD Projekt zu tun.
Es kann auch sein, dass dir nur Google Mitarbeiter diese Frage beantworten können, da nur diese wissen können, welche URL Parameter überhaupt angenommen werden und wie diese funktionieren.
Typischerweise würde man die Auflösung z.B. vom verwendeten User-Agent o.ä. abhängig machen.

Quote:

Originally Posted by StefanM

Kann ich bei irgendeinem Browser von Hand auf einmal mehrere Links dieser Art kopieren? Filtern nach '&pg=' ist ja kein Problem. Aber auch längeres(!) Googlen hat mir nicht geholfen herauszufinden, wie ich mehrere Links auf einmal kopiere.

Wieder nicht JD-relevant. Trotzdem:
Ich verstehe die Frage nicht.
Meinst du, mehrere Links mehrerer Tabs gleichzeitig kopieren?
Bitte um genauere Fragestellung.

Quote:

Originally Posted by StefanM

EPF hat übrigens ein sehr interessantes Feature, was m.E. auch für JD interessant wäre:
Er hat einen built-in Google Chrome Browser, den ich bei Bedarf zu Beginn eines Download-Projekts automatisch starten lassen kann. Dieser ermöglicht dann z.B. auch das einfache automatisierte Crawlen nach den Image-Links hier.

Viele Projekte verwenden sowas.
Wir planen derzeit nicht, sowas mitzuliefern.
Warum. kannst du u.A. in den Tiefen des englischen Cloudflare Threads nachlesen:
https://board.jdownloader.org/showthread.php?t=83712

Quote:

Originally Posted by StefanM

Jetzt habe ich zwei verschiedene Antworten

Nein hast du nicht.
Ich habe bereits in meinem letzten Post #20 dargelegt, dass Jiaz dich teilweise falsch verstanden hat und seine Antwort #19 somit teilweise falsch ist.
Cookies sind Wertepaare sprich "key": "Wert".
Egal wie das Cookie heißt und egal was der Wert ist, du musst immer alles nehmen was im jeweiligen Feld steht.
In diesem Fall heißt das Cookie "NID" (key = NID) und du möchtest den kompletten Wert haben also JA, auch die Zahl, die am Anfang steht, das Gleichheitszeichen usw.

Zum Veranschaulichen kannst du dir z.B. mal das open source Browser Addon "EditThisCookie" nehmen, deine Cookies einer beliebigen Webseite exportieren und z.B. mit dem Webtool jsoneditoronline.org begutachten.

Quote:

Originally Posted by StefanM

Wie im vorangegangen Reply geschrieben: Das war aus einem EPF-Log ...

Ok das scheine ich überlesen zu haben.

StefanM · #24 27.10.2022, 16:29

Quote:

Originally Posted by pspzockerscene

Wieder nicht JD-relevant. Trotzdem:
Ich verstehe die Frage nicht.
Meinst du, mehrere Links mehrerer Tabs gleichzeitig kopieren?
Bitte um genauere Fragestellung.

Habe mal einen Screenshot angehängt:
Ich möchte mehrere Links auf einmal aus den Developer-Tools kopieren und fragte, ob du weißt, ob und wie das möglich ist (bei irgendeinem Browser).

Und richtig: Auch ich erhalte die niedrige Auflösung, wenn w=... fehlt. Gerade erst bemerkt. Bei diesem Beispielbuch fällt es nicht gleich auf.

Was ich als niedrige Auflösung/verpixelt zu Anfang geschrieben hatte, bezog sich auf Google Books Downloader Tools, die die Images offensichtlich vor dem Speichern komprimiert/skaliert haben - evtl. auch als Vorbereitung für die Konvertierung in ein pdf.

pspzockerscene · #25 27.10.2022, 16:40

Quote:

Originally Posted by StefanM

Ich möchte mehrere Links auf einmal aus den Developer-Tools kopieren

Die Info, dass es um die Developer-Tools geht fehlte mir.
Auch diese Frage hat nichts mit dem JDownloader Projekt zu tun.

Ich kenne keine Möglichkeit, aber ich würde es wie folgt machen:
1. Traffic aufzeichnen.
2. Aufgezeichneten Traffic als .HAR Datei exportieren. EDIT: .HAR Dateien enthalten auch nur json, sind also theoretisch gut weiterverarbeitbar.
3. Die Links mittels RegEx oder einem Script aus der .HAR Datei exportieren.
Hier eine beispielhafte englische Anleitung mit Screenshots die erklärt, wie man den Mitschnitt als .HAR Datei exportieren kann:
support.zendesk.com/hc/en-us/articles/4408828867098-Generating-a-HAR-file-for-troubleshooting

StefanM · #26 27.10.2022, 16:50

Quote:

Originally Posted by pspzockerscene

Die Info, dass es um die Developer-Tools geht fehlte mir.

Das hatte ich explizit erwähnt

Ich schreibe zu viel, so dass nicht immer alles gelesen wird...

Quote:

Originally Posted by pspzockerscene

Auch diese Frage hat nichts mit dem JDownloader Projekt zu tun.

Ich kenne keine Möglichkeit, aber ich würde es wie folgt machen:
1. Traffic aufzeichnen.
2. Aufgezeichneten Traffic als .HAR Datei exportieren. EDIT: .HAR Dateien enthalten auch nur json, sind also theoretisch gut weiterverarbeitbar.
3. Die Links mittels RegEx oder einem Script aus der .HAR Datei exportieren.
Hier eine beispielhafte englische Anleitung mit Screenshots die erklärt, wie man den Mitschnitt als .HAR Datei exportieren kann:
support.zendesk.com/hc/en-us/articles/4408828867098-Generating-a-HAR-file-for-troubleshooting

Ja, .HAR hatte ich schon mal probiert gleich zu Anfang. Ist eine sehr große Datei, aus der ich aber natürlich alle Links mit "&pg=" herausziehen kann. Das wäre dann wohl der einzige Weg, bzw. alternativ das Java Script aus GitHub, was ich schon erwähnte.

pspzockerscene · #27 27.10.2022, 17:03

Quote:

Originally Posted by StefanM

Das hatte ich explizit erwähnt

Ich habe das nicht überlesen, aber das hier:

Quote:

Originally Posted by StefanM

Wenn ich im Browser über die developer-tools die Links "extrahiere", dann erhalte ich so etwas:
...

...
konnte ich nicht mit deinen Fragen in Zusammenhang bringen.

Quote:

Originally Posted by StefanM

Ist eine sehr große Datei, aus der ich aber natürlich alle Links mit "&pg=" herausziehen kann.

Dann hast du ja bereits eine Lösung gefunden.

Quote:

Originally Posted by StefanM

Das wäre dann wohl der einzige Weg

Naja weitere mögliche Wege wären:
- Eigenes Browser Addon schreiben
- Eigenes Greasemonkey Script schreiben oder schauen, ob es für Google Books eines gibt
- Schauen, ob es Addons ähnlich VideoDownloadHelper gibt, die alle geladenen Bilder-URLs erfassen

Quote:

Originally Posted by StefanM

bzw. alternativ das Java Script aus GitHub, was ich schon erwähnte.

Jo oder das.

StefanM · #28 27.10.2022, 17:43

@pspzockerscene

Nur als (vielleicht brauchbare) Info:

Wenn ich ans Ende eines Links eine extrem hohe width anhänge - z.B. &w=100000 ...
**External links are only visible to Support Staff****External links are only visible to Support Staff**

... dann erhalte ich automatisch die höchstmögliche (verfügbare) Auflösung.

Hier wären das z.B. 1762x2500

Ansonsten erhalte ich exakt die, die ich angebe. Hänge ich z.B. &w=1761 an, dann erhalte ich 1761x2499

pspzockerscene · #29 28.10.2022, 14:51

Gut zu wissen.
Wundert mich ehrlichgesagt noch immer sehr, dass es keine brauchbaren Tools für den Download von Google Books gibt.
Ich kann mir das nur so erklären, dass Google Books nicht mehr so beliebt ist wie vor ein paar Jahren und/oder weil man die Inhalte auch auf anderen Plattformen findet.
Archive.org zum Beispiel stellt auch viele ebooks zur Verfügung:
archive.org/details/texts

Grüße, psp

StefanM · #30 28.10.2022, 15:52

Nachfolgend einfach nochmal ein paar weitere Ergebnisse zu meinen Tests mit Google Books, richtiger: Google Books Preview.

Quote:

Originally Posted by pspzockerscene

...
Wundert mich ehrlichgesagt noch immer sehr, dass es keine brauchbaren Tools für den Download von Google Books gibt.
...

Wenn dir irgendetwas Brauchbares über den Weg läuft, wäre ich für den Link dazu sehr dankbar.

Ich habe ohne Übertreibung mind. 2 Stunden lang gesucht. Man findet am häufigsten dieses freie Tool:
**External links are only visible to Support Staff****External links are only visible to Support Staff**
mit den genannten Problemen:

Die heruntergeladenen Images werden offensichtlich neu codiert, wobei auch die beste Auflösung, die man einstellen kann, deutlich schlechter als das Original-Image ist.
In meinen Tests liegt die Anzahl der gefundenen Seiten deutlich unter der Zahl der verfügbaren Seiten.

Die Methode .har-Export hat auch ihre Grenzen. Zumindest im Firefox sind nach einem Scan (Scrollen) über mehr als 50 Seiten nicht mehr alle Seiten in der .har-Datei. Ich muss daher in kleineren "Häppchen" .har-Exporte erstellen.

Und es hat sich bestätigt, dass ich - abhängig vom "Standort/Land" der IP-Adresse - unterschiedlich Ergebnisse, d.h. unterschiedliche Seiten erhalte.

Aber von einer beliebigen IP-Adresse desselben Landes, erhalte ich auch an verschiedenen Tagen immer dieselbe Seitenauswahl.

Weitere Erkenntnis bzw. Schlussfolgerung zum Format:
Die Textsuche in Google Books Preview findet auch Seiten, die nicht zum Preview zur Verfügung stehen. Ich vermute daher, dass auch bei Preview-Books das gesamte Buch als pdf(?) zur Verfügung steht - zumindest so, dass darin nach Text gesucht werden kann.
Erst bei der Ausgabe scheinen die freigegebenen Seiten in ein Image (jpg, png, ...) konvertiert zu werden, zumal die Auflösung bis zu einem max. Wert auf ein Pixel genau durch &w=WIDTH vom User bestimmt werden kann.

Quote:

Originally Posted by pspzockerscene

...
Archive.org zum Beispiel stellt auch viele ebooks zur Verfügung:
archive.org/details/texts
...

Danke für den Tipp, war mit der Textsuche aber leider noch nicht erfolgreich. D.h. ich finde dort nicht das, was ich suche.

Bisher finde ich die besten Treffer, wenn ich nach einer möglichst unikaten Textpassage aus einem Buch in Google suche. (Dazu muss ich natürlich bereits einen Auszug aus dem gesuchten Buch haben...)

Den User Agent des Browsers auf Google Bot einzustellen hat aber leider keine Verbesserung gebracht.

pspzockerscene · #31 28.10.2022, 15:57

Quote:

Originally Posted by StefanM

In meinen Tests liegt die Anzahl der gefundenen Seiten deutlich unter der Zahl der verfügbaren Seiten.

Ich dachte oft wären nicht alle Seiten verfügbar?
Oder kannst du im Browser dank deines VPN alle sehen?

Quote:

Originally Posted by StefanM

Die Methode .har-Export hat auch ihre Grenzen. Zumindest im Firefox sind nach einem Scan (Scrollen) über mehr als 50 Seiten nicht mehr alle Seiten in der .har-Datei. Ich muss daher in kleineren "Häppchen" .har-Exporte erstellen.

Mal mit einem portablen Chrome probiert und/oder geschaut, ob es Einstellungsmöglichkeiten zur max .HAR Größe gibt?

Quote:

Originally Posted by StefanM

Den User Agent des Browsers auf Google Bot einzustellen hat aber leider keine Verbesserung gebracht.

Vorteile durch Manipulation des User-Agents werden immer seltener, da man diesen so einfach verändern kann.

StefanM · #32 28.10.2022, 16:23

Quote:

Originally Posted by pspzockerscene

Ich dachte oft wären nicht alle Seiten verfügbar?
Oder kannst du im Browser dank deines VPN alle sehen?

Beispiel:
Ein Buch hat 300 Seiten. Im Browser sind davon 100 Seiten als Preview sichtbar. Das genannte Tool lädt aber nur 68 Seiten herunter.
Das meinte ich damit.

Quote:

Originally Posted by pspzockerscene

Mal mit einem portablen Chrome probiert und/oder geschaut, ob es Einstellungsmöglichkeiten zur max .HAR Größe gibt?

Sollte ich mal einen Vergleich machen. Und ja, bei mir ist alles, was geht, portable, auch mein Chrome Browser.

Aber es hat wohl nichts mit der Dateigrößenbeschränkung zu tun. Die URLs sind einfach nicht mehr im entsprechenden Fenster enthalten und können damit auch nicht mehr exportiert werden. Aber das könnte bei unterschiedlichen Browsern natürlich unterschiedlich sein.

Warum erwähnst du explizit "portable"?

Quote:

Originally Posted by pspzockerscene

Vorteile durch Manipulation des User-Agents werden immer seltener, da man diesen so einfach verändern kann.

Ja, gibt bei uns noch eine Zeitung, bei der der "Trick" noch funktioniert...

pspzockerscene · #33 28.10.2022, 16:38

Quote:

Originally Posted by StefanM

Das meinte ich damit.

Das habe ich auch so verstanden.

Quote:

Originally Posted by StefanM

Warum erwähnst du explizit "portable"?

Weil ich gelesen habe, dass du Firefox nutzt und User oft gerne bei ihrem Browser bleiben möchten.
Meine Erfahrung hat gezeigt:
Der Hinweis auf Portable bringt User dazu, solche Experimente eher durchzuführen, da sie kein neues Programm/Browser installieren müssen.

Jiaz · #34 28.10.2022, 18:14

@StefanM: Es gibt zb HTTP-TRACKER Extension , dort werden alle Requests gelistet und du kannst Filter/usw und dann via Selektion alle URLs selektieren und in die Zwischenablage Kopieren.
Ich bin mir sicher das es diesbezüglich viele Extensions gibt welche die Requests überwachen und dann nach Filter/Kriterien auflisten für weitere Verarbeitung. Diese Extension war die erste, welche ich probiert habe, und ich habe keine Minute dafür gebraucht.

Thread Tools
Show Printable Version Email this Page
Display Modes
Linear Mode Switch to Hybrid Mode Switch to Threaded Mode

	JDownloader Community Board - Archive - Top
Provided By AppWork GmbH \| Privacy \| Imprint