Prüfen, ob ein bestimmter Wert in einem Array vorhanden ist
Also, ich hab ja hier das Beispiel gebracht, wie man von einem Array die einzigartigen Elemente herausfinden kann.
Im Zusammenhang dazu fiel mir dann noch eine Kleinigkeit ein, nämlich, wie man feststellt, ob ein Array einen bestimmten Wert enthält.
Die Methode, die einem normalerweise zuerst einfallen würde, ist diese (oder so ähnlich)
return 1 if (exists $tmp{$gesuchterwert});
return 0;
}
So, alles schön dachte ich, das muß doch schneller sein.
Ich hab das dann durch den Benchmark gejagt, und siehe da: Die vermeintlich schnellere Methode ist langsamer!
Ich hab dann noch ein bißchen herumprobiert und bin zum Schluß gekommen, daß das my %tmp; das Ganze extrem ausbremst.
Hier mal die Werte (bei 1 Mio. zufälligen Einträgen):
1. Variante: 40x pro Sekunde
2. Variante: 8x pro Sekunde
3. Variante: ohne my %tmp: 39 x pro Sekunde
Also egal was kommt, schon mal abgesehen davon, daß die ganze Geschichte ohne das my %tmp; einiges an Durcheinander verursachen kann, ist die Variante mit foreach immer die Schnellste.
Hätt' ich so nicht gedacht...
Kommentare zum Beitrag "Prüfen, ob ein bestimmter Wert in einem Array vorhanden ist"
Kommentar von Renée Bäcker
Der Zeitunterschied wird immer größer je größer das Array ist. Der Vorteil der foreach-Version ist, dass die Schleife abgebrochen wird, sobald eine Übereinstimmung gefunden wird. Bei der Version mit dem Hash passiert das nicht. Es wird immer das *ganze* Array verwendet!
Bei der Hash-Version dürfte (ohne dass ich es getestet hätte) auch ein Problem in der ständigen Vergrößerung des Hashes liegen. Hier ist wesentlich mehr Aufwand notwendig, als einfach durch ein Array zu "laufen".
Du kannst ja mal mit Profiling- bzw. Trace-Modulen versuchen rauszufinden was genau das Ganze ausbremst.
Kommentar von Admin
Tja, das mit dem Abbrechen bei gefunden in der foreach-Variante ist schon wichtig, wobei ich dann auch nochmal die Zeit ohne einen direkten abbruch gemessen habe, also zwangsweise alle Elemente durchlaufen habe. Selbst das ist noch schneller...
Natürlich wird das Ganze wahrscheinlich umso effizienter, je mehr Einträge durchlaufen werden müssen, das denke ich auch.
Allerdings komm ich immer noch icht drauf, warum das beisiel hier langsamer ist, obwohl es bei den "doppelten Einträgen" so viel schneller ist... aber ich glaub, so genau will ich es auch gar nicht wissen, zu viel Grundlagenforschung verbrät zu viel Zeit...
Kommentar von Thomas Ha
Danke für den schönen Blog, er dient mir öfters mal als Nachschlagewerk!
Was mir bei diesem Vergleich fehlt ist die grep-Funktion. Wie schaut denn der Vergleich hier aus?