Nun, ich gebs ja zu, oft bin ich ja als Grundlagenforscher unterwegs. Diesmal geht es darum, Dateien möglichst so zu beschreiben, so daß beim Einlesen bestimmte Zeilen besonders schnell wiedergefunden werden können.
Na gut, ein Beispiel Ich habe 1000 fortlaufende Rechnungsnummern, dazu jeweils 1000 Brief-Texte, die ich in einer Datei speichern will. Später will ich möglichst effektiv auf jeweils beliebige Rechnungsnummern plus Brief-Texte zugreifen. Weiterlesen...
Nachdem in diesem Jahr wieder so viel schönes (und auch unschönes) passiert ist und das das Jahr 2007 unweigerlich zu Ende geht, wünsche ich allen Lesern meines Blogs ein frohes und gesundes Jahr 2008.
Ich würde mich freuen, wenn auch im neuen Jahr wieder so viele Besucher durch ihre Anregungen und Kommentare an meinem Blog teilnehmen!
Also, wieder einmal etwas aus (meiner) Praxis: Nachdem ich mich ja immer noch mit dem Verarbeiten von Webseiten beschäftigte, tauchte das Problem auf, daß ich Dateiendungen in <img...> oder <link...>-Tags herausfinden wollte.
Die einzelne Extraktion hab ich ja schon hier beschrieben, also wie man zum Beispiel an den Dateiname kommt. Weiterlesen...
Ich bin gerade die Tage über eine kleine, nette RegEx gestolpert, die zwar nichts weltbewegendes ist, die ich aber trotzdem erwähnenswert finde. Und zwar ging es wieder mal darum, aus einer Website einen Link zu extrahieren.
Die folgende kleine Regex holt dann zum Beispiel den href-Teil aus dem <a...>-Tag:
my $link=qq~<a href="test.htm" target="_blank">Ein Link</a>~; if ($link=~ / href\=([\"\']*)(.*?)\1[\s\/>]/is) { $ergebnis =$2; } else { $ergebnis='Kein Link da'; } print $ergebnis;
Also bei index haben wir ja schon gesehen, daß Zeichenketten vom Anfang an (von links) durchsucht werden, und falls vorhanden, die Position zurückgegeben wird.
rindex macht dies nun von der anderen Seite her, nämlich von hinten bzw. von rechts.
my $name='Ich bin Perl'; my $res=rindex($name,"bin"); print $res;
Also ich habe mich ja schon öfters über das Testen von Links auf Webseiten ausgelassen. Da ich anscheinend einen Server habe, der weder das Modul Scraper noch WWW::Mechanize bereithält, bleibt mir eben nichts anderes übrig, als selbst mal wieder in die Tasten zu greifen und mir ein Modul zu schreiben, das Webseiten bzw. in Dateien gespeicherte Webseiten nach Links abgrast und mit alle Parameter der Links bereitstellt.
Herausgekommen ist das Modul, das hier heruntergeladen werden kann. Falls man es benutzen möchte, einfach in das cgi-bin-Verzeichnis kopieren und die Rechte auf 0755 setzen. Und was kann das Modul? Also: Weiterlesen...
Googles Sitemaps sollen helfen, daß einzelne Webseiten von Google auch dann gefunden werden, wenn sie nirgends verlinkt sind. Dies ist dann wichtig, wenn man häufig wechselnden Content hat und ältere Beiträge nicht verloren gehen sollen. Zudem verspricht Google, daß die Indizierung dann schneller erfolgt. Was liegt also näher, als sich ein kleines Perl-Script zu schreiben, das eine solche Sitemap erzeugt, und zwar direkt auf dem Server?
Also machte ich mich mal ran an das Problem, und zwar mit folgenden Vorgaben: - Leicht zu konfigurieren Weiterlesen...