Erstmal vielen Dank für deine ausführlichen Beschreibungen.
Das Beispiel mit der Nasa war noch ein recht einfaches da hier alle Links offen auf der Seite stehen.
Interessanter wird es ja bei Seiten auf denen die Quellen in Javascripts verschachtelt werden.
Die kann ich zwar über die Browser Konsole oder Firebug und dgl. raus finden aber das ist dann
doch schon recht nervig.
Wirklich cool wäre es einfach wenn ich JD in einen Modus schalten könnte in
dem er jeden Pfad auf der Seite (also auch alle Javascripte) konsequent zum Ende verfolgt.
Meinetwegen mit einstellbarer Rekursionstiefe. Dass das je nachdem wie tief man gräbt sehr Lange dauern kann ist klar.
Da man hier nicht wie bei Ozeanen, Schaden anrichten kann, fände ich die Möglichkeit zunächst alles per Schleppnetz abzufischen, anschließen den Fang sortiert aufs Deck zu legen um dann auszusortieren echt hervorragend.
"Link Gopher" hab ich schon unlängst in Arbeit und hat mir hin und wieder auch schon helfen können, erkennt aber meist nur einfache Website-Strukturen.
In die Linkcrawler-Regeln werde ich mich aber trotzdem noch einmal einlesen ich befürchte nur dass
mein Ansatz damit nicht realisierbar ist. Diese haben wohl mehr die Aufgabe zu nur bestimmte Pfade entsprechend der Regel zu verfolgen.
Ich hatte mal unter Linux ein Java-Tool dass hat wirklich nahezu alles gefunden - ich weiß nur nicht mehr wie es hieß

.... "XKeyscore" vielleicht