#1
|
||||
|
||||
Probleme mit bestimmten Bildern von GoogleBooks
Ein Plugin scheint nicht mehr zu existieren. Daher habe ich die Links zu den Images (Seiten) eines Books selbst ermittelt (Beispiel: Links und Book siehe Anlage).
Wenn ich die Links mit DeepScan scanne, wird zu jedem Link auch ein Bild gefunden und kann heruntergeladen werden. Jedoch wird bei allen in der Anlage markierten Links mit 8,89 kB Größe nur ein Image mit dem Text "image not available" gefunden und heruntergeladen. Es fällt auf, dass all diese "not available"-Links den String pg=PA….. enthalten, während die korrekt heruntergeladenen Links den String pg=PR….. enthalten. Kopiere ich die Links in Firefox, wird jedes Image (jede Seite des Buchs, PR und PA) korrekt angezeigt. Verwende ich das Firefox AddOn DownThemAll wird ebenfalls jedes Image korrekt heruntergeladen. Frage 1: Hat JD hier ein Problem? Muss ich eine bestimmte Einstellung vornehmen? Frage 2: Wie kann ich die Namen für die heruntergeladenen Dateien als PAxx bzw. PRxx aus den Links erzeugen? Für eine Lösung wäre ich dankbar! |
#2
|
||||
|
||||
Quote:
PA: Sofern keine Google Cookies vorhanden sind /zb Incognito Tab in Firefox und Chrome, dann kommt ein "Image not available" auch im Browser. PR: Gehen unabhängig von Google Cookies im normalen Tab, wie auch im Incognito Tab im Firefox und Chrome Sobald man einen PA Link aufgerufen hatte, funktionieren weitere und danach ebenfalls der gleiche PA Links. Ein Umschreiben der Links von PA zur PR funktioniert nicht, es bleibt weiterhin ein "Image not available". Es liegt einzig am nötigen Cookie für PA Links. Ich empfehle dir hier eine Linkcrawler DIRECTHTTP Regel für diese Links und entsprechend schon die nötigen Cookies gesetzt sind, siehe https://support.jdownloader.org/Know...ple-directhttp
__________________
JD-Dev & Server-Admin Last edited by Jiaz; 21.10.2022 at 13:47. |
#3
|
||||
|
||||
Mittels Paketverwalter Regel kannst du aus der sourceURL die PAxx und PRxx herausholen und dann den Dateinamen zusammenbauen/setzen lassen.
__________________
JD-Dev & Server-Admin |
#4
|
||||
|
||||
Verschoben ins Unterforum "Allgemeine Diskussion".
Ergänzend zu Jiaz' Antworten: Korrekt das schon lange kaputte Plugin wurde mangels Zeit und Nachfrage am 10.05.2021 entfernt. Letzte Anfrage eines Users 2021: https://board.jdownloader.org/showthread.php?t=66032 Davor 2017: https://board.jdownloader.org/showthread.php?t=75276 Quote:
Soll heißen dass hier nichts gefunden wird, ist kein Bug. Wenn du möchtest, dass diese Direktlinks auch ohne Deepscan z.B. beim Kopieren erkannt werden, musst du wie von Jiaz beschrieben eine entsprechende LinkCrawler Regel erstellen. In diesem Fall kann es sich lohnen, andere Tools zu verwenden, die genau dafür gemacht sind, von Google Books herunterzuladen. Eine kurze Websuche nach github google books downloader zeigt, dass es da einige open source Projekte zu geben scheint
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download |
#5
|
||||
|
||||
Quote:
Luden beide nicht alle Seiten herunter und beide - warum auch immer - reduzierten auch die Image-Auflösung/Qualität |
#6
|
||||
|
||||
@StefanM: Mittels einer LinkCrawler Regel klappt es dann auch mit dem JDownloader. Versuch dich bitte zunächst selbst daran aber bei Fragen/Problemen/Verzweiflung helfen wir natürlich
__________________
JD-Dev & Server-Admin |
#7
|
||||
|
||||
Quote:
JD will not pickup this URL - it will only find the image behind it if you add it via "Add Links" dialog and let JD deep-scan. Aber genau das mache ich ja, ich füge die Links via "Add Links"-Dialog hinzu und lasse JD einen Deep-Scan durchführen. Aber auch dann findet JD die Bilder nicht. Aber wie setze ich mit der Rule die notwendigen Cookies? |
#8
|
||||
|
||||
Quote:
Wenn ich es richtig verstehe, fehlt im JD der notwendige Cookie. Wenn ich es richtig verstehe, ersetzt die Rule - zumindest in dem Beispiel unter dem Link, den du mir gesendet hast - nur die Notwendigkeit, einen Deep-Scan durchzuführen (damit auch so z.B. Bilder gefunden werden). Nur,... ... Bilder werden ja gefunden im Deep-Scan. Nur leider bzgl. der pg=PA-"Gruppe" eben nur das Bild "image not available". Und, dass ich mich bzgl. der URL mit RegEx sehr schwer tue, weißt du ja. Mit anderen Worten: Ich brauche bitte Hilfe. So eine Rule habe ich noch nie erstellt. Und das angegebene Beispiel verstehe ich so, dass es nur die Notwendigkeit, einen Deep-Scan durchzuführen überflüssig macht, aber keine Cookies setzt, oder??? |
#9
|
||||
|
||||
Welche Tools hast du ausprobiert?
Quote:
?? Das erste Beispiel in unserem Übersichtsartikel enthält doch bereits testweise cookies. Anhand des Beispiels und der Tabelle unten siehst du, dass das Feld "cookies" für Cookie-Wertepaare ist und, wie man diese setzt... https://support.jdownloader.org/Know...kcrawler-rules Quote:
Wir haben ddir gesagt, dass im Browser beim ersten Aufruf eines solchen Bildes bestimmte Cookies gesetzt werden, die du JD jedoch händisch mitteilen musst. Also wie wohl als nächstes vorgehen? 1. Irgendeinen Bilder-Direktlink im Browser öffnen und die Cookies herausholen z.B. mit addons wie "EditThisCookie" oder "FlagCookies". Es geht auch komplett ohne Addon, ist jedoch mühseliger. 2. Regel für besagte Direktlinks erstellen. 3. Regel ohne Cookies testen -> Also schauen, ob JD die Links nun auch über die Zwischenablagenüberwachung erkennt. 4. Cookies in die Regel einfügen und so lange probieren bis du weißt, welche Cookies wirklich benötigt werden. Dabei hoffen, dass sich die Cookies nicht ständig ändern. Quote:
Youtube Videos + Webtool regex101.com ... Quote:
Ich sehe hier noch immer sehr wenig Bereitschaft von dir, dich ernsthaft mit dem Thema zu befassen (vor allem RegEx). Auch glaube ich nicht, dass besagte andere Tools es dir nicht erlauben, die Bilder in der höchsten verfügbaren Auflösung herunterzuladen. Für den Fall, dass das dennoch stimmt: Hast du auf Github entsprechende Tickets ("Issues") erstellt und um Hilfe gebeten bzlg. die Entwickler auf die möglichen Bugs hingewiesen?
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download |
#10
|
||||
|
||||
**External links are only visible to Support Staff****External links are only visible to Support Staff**
**External links are only visible to Support Staff****External links are only visible to Support Staff** **External links are only visible to Support Staff****External links are only visible to Support Staff** **External links are only visible to Support Staff****External links are only visible to Support Staff** Obige GitHub-Projekte habe ich getestet. Sie funktionierten gar nicht (mehr) bzw. fehlerbehaftet. Das letzte "Projekt" funktioniert am besten (Kopieren des Java-Scripts in die Google Chrome-Developer-Console), "verpasst" aber einige Seiten. Darüber hinaus habe ich getestet: **External links are only visible to Support Staff****External links are only visible to Support Staff** (Schafft gerade mal 2 Seiten) **External links are only visible to Support Staff****External links are only visible to Support Staff** (reduziert die Qualität extrem bereits als Image und erst recht im pdf Quote:
Ich habe die heuntergeladenen Seiten nicht weiter geprüft. Aber die Schrift war schon stark verpixelt gegenüber dem Original. Die weitere Antworten schreibe ich morgen. Noch ein wichtiger Hinweis: Ich kopiere den englischen Originaltext hier ein, den ich meinem Freund Maksym gesendet hatte: 1. When I use the new Google Books design, I find these URLs for PA7: (image not available) Start URL: https://www.google.de/books/edition/...AAAQBAJ?gbpv=1 File address: **External links are only visible to Support Staff****External links are only visible to Support Staff** Parent page address: **External links are only visible to Support Staff****External links are only visible to Support Staff** 2. When I use the old Google Books design, these URLs are found for PA7: (image correctly downloaded) Start URL: **External links are only visible to Support Staff****External links are only visible to Support Staff** File address: **External links are only visible to Support Staff****External links are only visible to Support Staff** Parent page address: **External links are only visible to Support Staff****External links are only visible to Support Staff** |
#11
|
||||
|
||||
Diese werde ich mir ebenfalls anschauen.
Diese closed source Projekte werde ich mir nicht anschauen. Quote:
Die Seiten sind so zwar lesbarer, aber weit entfernt von einer "guten Qualität" wenn du mich fragst. Ich ging davon aus, dass du eine höhere Qualitätsstufe erwartet hattest. Ich gehe nun davon aus, dass Google keine bessere Qualität zur Verfügung stellt. Auf den Rest gehe ich später ein.
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download Last edited by pspzockerscene; 25.10.2022 at 14:56. |
#12
|
||||
|
||||
Zu deinen ausprobierten Github Projekten:
Ich probiere zunächst die Projekte aus, die in letzter Zeit noch geändert wurden. Etwas was schon über 10 Jahre alt ist o.ä., überspringe ich direkt. github.com/vaibhavk97/GoBooDo Funktioniert nicht. Fehler "Received invalid response". Kann man sich aber auch schon anhand der vielen Issues denken: github.com/vaibhavk97/GoBooDo/issues -> Der Sourcecode dieses Projektes lässt vermuten, dass das benötigte Cookie das "NID" Cookie ist. github.com/aprikyan/google-books-downloader Dieses Projekt verwendet Chromedriver und liefert noch dazu eine veraltete Version davon mit daher habe ich es erst gar nicht versucht. Dies lässt außerdem vermuten, dass es stark an die Webseitenstruktur von Google Books gebunden ist, die sich seit ~2020 bestimmt schonmal geändert hat. github.com/mcdxn/google-books-preview-pages-downloader Egal ob dieses Projekt funktioniert oder nicht: Es scheint lediglich die Links zu den Bildern zu extrahieren und sie nicht automatisch herunterzuladen. Das können wir auch händisch und damit lohnt es sich nicht, dieses auszuprobieren. github.com/YurieCo/Google-Books-Downloader-1 Letzte Aktivität: 2012 Webseiten ändern sich regelmäßig. Es ist extrem unwahrscheinlich, dass 10 Jahre alte Web-Crawler noch funktionieren Damit komme ich zumselben Ergebnis wie du und erspare anderen Usern mit diesem Post ggf. etwas Zeit.
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download Last edited by pspzockerscene; 25.10.2022 at 14:57. Reason: Overhead entfernt |
#13
|
||||
|
||||
Quote:
Hier ist eine LinkCrawler Regel, die bei mir funktionierte: Code:
[ { "enabled": true, "cookies": [ [ "NID", "ZENSIERT" ] ], "updateCookies": true, "logging": false, "name": "Beispielregel fuer Google Books Direktlinks mit Cookie", "pattern": "**External links are only visible to Support Staff**, "rule": "DIRECTHTTP" } ] Ich konnte mithilfe dieser Regel alle 49 deiner Direktlinks herunterladen. Zwei der Links führten nur zu ca 8KiB großen dummy Bildern mit dem Inhalt "Image not available". Ob das per Browser auch so ist, müsste man gegenprüfen. Edit by Jiaz: Hier die vollständige Regel als Pastebin, pastebin.com/p7ixh7sS
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download Last edited by Jiaz; 26.10.2022 at 11:08. |
#14
|
||||
|
||||
vorab:
Quote:
Quote:
Habe hier: policies.google.com/technologies/cookies?hl=de dazu u.a. gefunden: "Das „NID“-Cookie wird verwendet, um in Google-Diensten Google-Werbung für abgemeldete Nutzer einzublenden." ..."Das „NID“-Cookie läuft 6 Monate nach der letzten Nutzung durch den Nutzer ab." Und wie schon gesagt, das Verhalten ist unterschiedlich, ob ich die alte oder neue Google Books-Weboberfläche benutze. Interessant ist auch, dass in anderen Ländern - z.B. in der Ukraine - andere Seiten als z.B. hier in Deutschland beim selben Buch angeboten werden. Das würde dann bei Verwendung verschiedener Proxies dazu führen, dass man am Ende mehr Seiten herunterladen kann.;) |
#15
|
||||
|
||||
Quote:
youtu.be/cCFtlXJPoJ0 youtu.be/LsbGFLBiPWQ EDIT Ich sehe gerade, dass im Projekt steht, die Bilder würden danach automatisch heruntergeladen werden. Dieserr Schritt wurde in den Videos scheinbar ausgelassen. Im Code ist das ebenfalls in der "gbppd.js" zu sehen. Wie auch immer ich hatte u.a. weitere Gründe, warum ich es nicht als sinnvoll erachtet habe, mich weiter mit diesem Projekt zu befassen Falls es dir etwas bringt, kannst du die Nutzung dieses Projekts und JD nach belieben kombinieren. Ich kann mir trotzdem nicht vorstellen, dass die hier gecrawlten Bilder Direktlinksc zu niedrigeren Auflösungen führen als deine, aber ich werde es nicht testen dazu ist mir meine Zeit dann doch zu wertvoll. Quote:
Ich hab's über das Addon "EditThisCookie" gemacht. Es sollte mit beiden open source Browser Addons funktionieren, die wir in folgendem Artikel verlinken: https://support.jdownloader.org/Know...n-instructions Das ist gut möglich da kannst du dich dann nach belieben verausgaben.
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download Last edited by pspzockerscene; 25.10.2022 at 17:12. |
#16
|
||||
|
||||
Quote:
Es kommt eine Abfrage, ob ich Chrome erlaube, alles herunterzuladen. Und dann lädt er alle Dateien aus der Link-Liste herunter. 5 gleichzeitig (ich glaube es waren 5 oder evtl. auch 6...) Wie trage ich den Cookie ein? NID=511=W1nBAWjHLq... Alles, oder erst ab dem ersten oder zweiten "=" Danke nochmal für die Hilfe! |
#17
|
||||
|
||||
Das ist ein Array von Key/Value Paaren
Code:
"cookies": [ [ "Key1", "Value1" ], [ "Key2", "Value2" ] ] Code:
"cookies": [ [ "NID", "W1nBAWjH...." ] ]
__________________
JD-Dev & Server-Admin |
#18
|
||||
|
||||
Quote:
Quote:
Quote:
__________________
JD-Dev & Server-Admin Last edited by Jiaz; 26.10.2022 at 11:18. |
#19
|
||||
|
||||
Quote:
__________________
JD-Dev & Server-Admin |
#20
|
||||
|
||||
...
Ich glaube so hat er das nicht gemeint. Ich glaube die Syntax hat er verstanden. Seine Frage ist eigentlich "Soll ich den ganzen Wert des Cookies einfügen oder nur einen Teil?". Der komplette Wert des Cookies. Mein NID Cookie-Wert entspricht etwa folgendem Muster: 511=[A-Za-z0-9-]+ Quote:
Ich ging davon aus, dass Stefan die Links nicht verändert hat.
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download |
#21
|
||||
|
||||
Quote:
Wenn ich im Browser über die developer-tools die Links "extrahiere", dann erhalte ich so etwas: **External links are only visible to Support Staff****External links are only visible to Support Staff** **External links are only visible to Support Staff****External links are only visible to Support Staff** **External links are only visible to Support Staff****External links are only visible to Support Staff** Dazu habe ich dann auch gleich zwei Fragen: Frage 1: Wodurch wird denn die Auflösung w=1280 bestimmt? Bzw. kann ich das beeinflussen? Frage 2: Kann ich bei irgendeinem Browser von Hand auf einmal mehrere Links dieser Art kopieren? Filtern nach '&pg=' ist ja kein Problem. Aber auch längeres(!) Googlen hat mir nicht geholfen herauszufinden, wie ich mehrere Links auf einmal kopiere. Sollte ich Links ohne die Auflösung hier eingestellt haben, so stammen diese übrigens aus dem "JD-Konkurrenten" EPF meines langjährigen guten Freundes Maksym aus der Ukraine (**External links are only visible to Support Staff****External links are only visible to Support Staff**). EPF kann diese Links automatisiert extrahieren und auch herunterladen. Laden, aber eben auch nur die Links mit pg=PR, nicht aber die mit pg=PA. Das geht auch dort nur über Umwege. Seltsamerweise gibt es kein Problem mit dem Download dieser Images, wenn man mit einer Ukrainischen IP-Adresse arbeitet. Und dann werden auch ganz andere Seiten aus demselben Buch angeboten... EPF hat übrigens ein sehr interessantes Feature, was m.E. auch für JD interessant wäre: Er hat einen built-in Google Chrome Browser, den ich bei Bedarf zu Beginn eines Download-Projekts automatisch starten lassen kann. Dieser ermöglicht dann z.B. auch das einfache automatisierte Crawlen nach den Image-Links hier. Und der User hat auch die Möglichkeit, Projektdateien (das Äquivalent zu JD's PlugIns) selbst zu erstellen. Für komplexere "PlugIns" muss man allerdings u.a. auch RegEx gut beherrschen... |
#22
|
||||
|
||||
Quote:
Jiaz schreibt sinngemäß "Nach dem zweiten =", also ohne die 511 Du schreibst inkl. 511= Werde dann mal beides testen und auch versuchen die RegEx anzupassen, die ich nur für .de bekommen habe. Ich brauche natürlich international... Quote:
Hatte ich nicht drauf geachtet, dass die width dort fehlt. |
#23
|
|||||
|
|||||
Quote:
Deine selbst geposteten Links kann ich dir natürlich auch wahlweise erneut per PN schicken, falls dich das weiterbringt. Quote:
Deine initialen Beispiellinks enthielten gar keinen "w" Parameter was scheinbar dazu führt, dass eine kleinere Auflösung verwendet wird (in meinen tests 575x816). Quote:
Diese Frage hat absolut nichts mit dem JD Projekt zu tun. Es kann auch sein, dass dir nur Google Mitarbeiter diese Frage beantworten können, da nur diese wissen können, welche URL Parameter überhaupt angenommen werden und wie diese funktionieren. Typischerweise würde man die Auflösung z.B. vom verwendeten User-Agent o.ä. abhängig machen. Quote:
Ich verstehe die Frage nicht. Meinst du, mehrere Links mehrerer Tabs gleichzeitig kopieren? Bitte um genauere Fragestellung. Quote:
Wir planen derzeit nicht, sowas mitzuliefern. Warum. kannst du u.A. in den Tiefen des englischen Cloudflare Threads nachlesen: https://board.jdownloader.org/showthread.php?t=83712 Nein hast du nicht. Ich habe bereits in meinem letzten Post #20 dargelegt, dass Jiaz dich teilweise falsch verstanden hat und seine Antwort #19 somit teilweise falsch ist. Cookies sind Wertepaare sprich "key": "Wert". Egal wie das Cookie heißt und egal was der Wert ist, du musst immer alles nehmen was im jeweiligen Feld steht. In diesem Fall heißt das Cookie "NID" (key = NID) und du möchtest den kompletten Wert haben also JA, auch die Zahl, die am Anfang steht, das Gleichheitszeichen usw. Zum Veranschaulichen kannst du dir z.B. mal das open source Browser Addon "EditThisCookie" nehmen, deine Cookies einer beliebigen Webseite exportieren und z.B. mit dem Webtool jsoneditoronline.org begutachten. Ok das scheine ich überlesen zu haben.
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download |
#24
|
||||
|
||||
Quote:
Ich möchte mehrere Links auf einmal aus den Developer-Tools kopieren und fragte, ob du weißt, ob und wie das möglich ist (bei irgendeinem Browser). Und richtig: Auch ich erhalte die niedrige Auflösung, wenn w=... fehlt. Gerade erst bemerkt. Bei diesem Beispielbuch fällt es nicht gleich auf. Was ich als niedrige Auflösung/verpixelt zu Anfang geschrieben hatte, bezog sich auf Google Books Downloader Tools, die die Images offensichtlich vor dem Speichern komprimiert/skaliert haben - evtl. auch als Vorbereitung für die Konvertierung in ein pdf. |
#25
|
||||
|
||||
Quote:
Auch diese Frage hat nichts mit dem JDownloader Projekt zu tun. Ich kenne keine Möglichkeit, aber ich würde es wie folgt machen: 1. Traffic aufzeichnen. 2. Aufgezeichneten Traffic als .HAR Datei exportieren. EDIT: .HAR Dateien enthalten auch nur json, sind also theoretisch gut weiterverarbeitbar. 3. Die Links mittels RegEx oder einem Script aus der .HAR Datei exportieren. Hier eine beispielhafte englische Anleitung mit Screenshots die erklärt, wie man den Mitschnitt als .HAR Datei exportieren kann: support.zendesk.com/hc/en-us/articles/4408828867098-Generating-a-HAR-file-for-troubleshooting
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download Last edited by pspzockerscene; 27.10.2022 at 16:40. Reason: Json Syntax Info ergänzt |
#26
|
||||
|
||||
Quote:
Quote:
|
#27
|
||||
|
||||
Ich habe das nicht überlesen, aber das hier:
Quote:
konnte ich nicht mit deinen Fragen in Zusammenhang bringen. Quote:
Naja weitere mögliche Wege wären: - Eigenes Browser Addon schreiben - Eigenes Greasemonkey Script schreiben oder schauen, ob es für Google Books eines gibt - Schauen, ob es Addons ähnlich VideoDownloadHelper gibt, die alle geladenen Bilder-URLs erfassen Jo oder das.
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download |
#28
|
||||
|
||||
@pspzockerscene
Nur als (vielleicht brauchbare) Info: Wenn ich ans Ende eines Links eine extrem hohe width anhänge - z.B. &w=100000 ... **External links are only visible to Support Staff****External links are only visible to Support Staff** ... dann erhalte ich automatisch die höchstmögliche (verfügbare) Auflösung. Hier wären das z.B. 1762x2500 Ansonsten erhalte ich exakt die, die ich angebe. Hänge ich z.B. &w=1761 an, dann erhalte ich 1761x2499 |
#29
|
||||
|
||||
Gut zu wissen.
Wundert mich ehrlichgesagt noch immer sehr, dass es keine brauchbaren Tools für den Download von Google Books gibt. Ich kann mir das nur so erklären, dass Google Books nicht mehr so beliebt ist wie vor ein paar Jahren und/oder weil man die Inhalte auch auf anderen Plattformen findet. Archive.org zum Beispiel stellt auch viele ebooks zur Verfügung: archive.org/details/texts Grüße, psp
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download |
#30
|
||||
|
||||
Nachfolgend einfach nochmal ein paar weitere Ergebnisse zu meinen Tests mit Google Books, richtiger: Google Books Preview.
Quote:
Ich habe ohne Übertreibung mind. 2 Stunden lang gesucht. Man findet am häufigsten dieses freie Tool: **External links are only visible to Support Staff****External links are only visible to Support Staff** mit den genannten Problemen:
Die Methode .har-Export hat auch ihre Grenzen. Zumindest im Firefox sind nach einem Scan (Scrollen) über mehr als 50 Seiten nicht mehr alle Seiten in der .har-Datei. Ich muss daher in kleineren "Häppchen" .har-Exporte erstellen. Und es hat sich bestätigt, dass ich - abhängig vom "Standort/Land" der IP-Adresse - unterschiedlich Ergebnisse, d.h. unterschiedliche Seiten erhalte. Aber von einer beliebigen IP-Adresse desselben Landes, erhalte ich auch an verschiedenen Tagen immer dieselbe Seitenauswahl. Weitere Erkenntnis bzw. Schlussfolgerung zum Format: Die Textsuche in Google Books Preview findet auch Seiten, die nicht zum Preview zur Verfügung stehen. Ich vermute daher, dass auch bei Preview-Books das gesamte Buch als pdf(?) zur Verfügung steht - zumindest so, dass darin nach Text gesucht werden kann. Erst bei der Ausgabe scheinen die freigegebenen Seiten in ein Image (jpg, png, ...) konvertiert zu werden, zumal die Auflösung bis zu einem max. Wert auf ein Pixel genau durch &w=WIDTH vom User bestimmt werden kann. Quote:
Bisher finde ich die besten Treffer, wenn ich nach einer möglichst unikaten Textpassage aus einem Buch in Google suche. (Dazu muss ich natürlich bereits einen Auszug aus dem gesuchten Buch haben...) Den User Agent des Browsers auf Google Bot einzustellen hat aber leider keine Verbesserung gebracht. |
#31
|
||||
|
||||
Quote:
Oder kannst du im Browser dank deines VPN alle sehen? Quote:
Vorteile durch Manipulation des User-Agents werden immer seltener, da man diesen so einfach verändern kann.
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download |
#32
|
||||
|
||||
Quote:
Ein Buch hat 300 Seiten. Im Browser sind davon 100 Seiten als Preview sichtbar. Das genannte Tool lädt aber nur 68 Seiten herunter. Das meinte ich damit. Quote:
Aber es hat wohl nichts mit der Dateigrößenbeschränkung zu tun. Die URLs sind einfach nicht mehr im entsprechenden Fenster enthalten und können damit auch nicht mehr exportiert werden. Aber das könnte bei unterschiedlichen Browsern natürlich unterschiedlich sein. Warum erwähnst du explizit "portable"? Ja, gibt bei uns noch eine Zeitung, bei der der "Trick" noch funktioniert... |
#33
|
||||
|
||||
Das habe ich auch so verstanden.
Weil ich gelesen habe, dass du Firefox nutzt und User oft gerne bei ihrem Browser bleiben möchten. Meine Erfahrung hat gezeigt: Der Hinweis auf Portable bringt User dazu, solche Experimente eher durchzuführen, da sie kein neues Programm/Browser installieren müssen.
__________________
JD Supporter, Plugin Dev. & Community Manager
Erste Schritte & Tutorials || JDownloader 2 Setup Download |
#34
|
||||
|
||||
@StefanM: Es gibt zb HTTP-TRACKER Extension , dort werden alle Requests gelistet und du kannst Filter/usw und dann via Selektion alle URLs selektieren und in die Zwischenablage Kopieren.
Ich bin mir sicher das es diesbezüglich viele Extensions gibt welche die Requests überwachen und dann nach Filter/Kriterien auflisten für weitere Verarbeitung. Diese Extension war die erste, welche ich probiert habe, und ich habe keine Minute dafür gebraucht.
__________________
JD-Dev & Server-Admin |
Thread Tools | |
Display Modes | |
|
|