SQL-Optimizer V7R1 und kein Ende [Archiv] - Seite 2

View Full Version : SQL-Optimizer V7R1 und kein Ende

Seiten : 1 [2] 3

B.Hauser

08-02-14, 10:47

Im alten System/Release war vielleicht noch die CQE (Classic Query Engine) beteiligt, die anders arbeitet als die SQE (SQL Query Engine).
Die CQE ermittelt die Indices basierend auf Schätzwerten, d.h. bei einer Auswahl in den Where-Bestimmungen mit = wird von 10% der Daten ausgegangen, bei <= von 33% der Daten etc. das ganze wird zusammengemischt und ausgerechnet etc.
Die SQE arbeitet mit Statistiken, d.h. also der echten Datenzusammensetzung und bewerte die Zugriffswege auf dieser Basis.
Ein Index-Access wird nur ausgeführt, wenn weniger als 15 max. 20% der Daten einer Tabelle/Datei ausgewählt werden.
Damit können beide Query-Engines zu unterschiedlichen Ergebnissen kommen, d.h. Zugriffswege, die die CQE aufgrund der Schätzwerte ermittelt hatte, konnten bei der SQE basierend auf den Echt-Daten nicht mehr verwendet werden.

Fuerchau

08-02-14, 12:31

Warum ist ein Index mit max. 20% der daten ungünstig?
Das ist doch glatt ein Designfehler.
Selbst wenn ich 100% der Daten benötige, könnte SQL sich ja zumindest den Sort sparen, was bei ein paar Mio Sätzen durchaus performance bringt.
Auch wenn ich 30% von z.B. 100 Mio Sätzen benötige wäre eine Indexverwendung jedenfalls die bessere Alternative.
Da sollte IBM mal nachbessern und die Prozente ignorieren.
Wenn ein Index passt, ins besonders ein Compound-Index (mehrere Felder) sollte dieser auch verwendet werden.

andreaspr@aon.at

10-02-14, 07:56

Ich glaub die IBM wird sich diese Werte nicht aus den Fingern herbeigezogen haben ;)
Bei einem Sort wird natürlich, wenn vorhanden, ein Index benützt!

Der Performance-Nachteil (außer bei einem Index-Only-Access) ist, dass bei einem Index für die Werte der Spalte der Baum von Oben bis Unten durchgegangen werden muss. Und wenn die DB dann den entsprechenden Wert am Ende des Baumes hat muss sowieso nochmal zusätzlich auf die entsprechende Stelle in der Tabelle zugegriffen werden um sich den ganzen Satz zu holen.
Wenn also sowieso ein sehr großer Teil der Daten benötigt wird, kann die DB gleich die eigentliche Tabelle lesen gehen und braucht nicht ständig hin und her springen.

Wenn man sich diesen Prozess auf Blockebene ansieht und sieht wann, was, wie, wohin gelesen werden muss ist es einfacher.
Nebenbei: bei Oracle ist es nicht anders.

lg Andreas

Fuerchau

10-02-14, 08:22

Wenn ich mir so die Zugriffsverfahren ansehe und die Ergebnisse betrachte, so kann ich die 20%-Regel nicht nachvollziehen.
Mache ich einen Select, der mir aus 10Mio Sätzen ca. 1/3 der daten liefert, und ein passender Index vorhanden ist, so weist der Optimizer diesen zumindest aus.
Das Ergebnis kommt auch schneller als bei einem Select, der einen Tablescan durchführt.

Bei Oracle kann ich das z.T. nachvollziehen. Beim Laden von Daten aus einer Oracle-DB, die Daten werden per View bereitgestellt, dauert es mitunter doch sehr lange bis der 1. Satz geliefert wird obwohl (angeblich) Indizes vorhanden sind.

Ich habe aber auch festgestellt, dass ins besonders beim Group by der zwangsweise Verzicht auf die Verwendung eines Index, wenn eine Where-Bedingung mit passendem Index vorhanden ist, schneller zum gewünschten Ergebnis führt.
Dazu behelfe ich mir mit folgendem SQL:

select coalesec(key1, key1) key1, coalesec(key2, key2) key2, sum(feld)
from mytable
where "Irgendeine Bedingung"
group by coalesec(key1, key1), coalesec(key2, key2)

Durch das coalsece wird die Verwendung eines Index für Group By verhindert, da dies ja ein "berechnetes" Ergebnis darstellt.
Allerdings wird für das Where der korrekte Index verwendet.
Lass ich den coalesce weg, wird der Index der Key-Felder verwendet, wobei diese ja durch die Where-Klausel noch eingeschränkt werden müssen.

Klar, jede DB implementiert anders um schnell zum Ergebnis zu kommen, manchmal halt nicht so schnell.

BenderD

10-02-14, 08:28

... wie sich Klein Fritzchen/Erna die Berechnung eines Zugriffsplans so vorstellt...
Im richtigen Leben werden immer Blöcke in den Hauptspeicher geladen und das ist das, was wirklich Zeit verbraucht. Alles, was dann Speicher resident passiert, wird vernachlässigt, da dies um Größenordnungen schneller ist, als Ein/Auslagerung von Platte. Von Zeit zu Zeit ändert sich dieses zeitliche Verhältnis, durch anders balancierte Hardware (seit RISC hat die AS/400 wesentlich mehr CPU Power, in letzter Zeit sind die Hauptspeichergrößen stark gestiegen) und dann passen sich die Optimierungs Algorithmen daran an.
Bei allen Optimierungsvorgängen sind Schätzungen über die Größe und Verteilung von Ergebnismengen (können auch Zwischenresultate sein) im Spiel, da helfen auch run Statistiken nur sehr begrenzt. Ändert sich bei neuen Releases was zum Negativen sind das mit höchster Wahrscheinlichkeit Bugs, wohl dem der Database Monitor Daten zum Vergleich hat, der findet hier schnell Work arounds. Für alle Daumenregeln, wie die genannten gibt es reichlich Ausnahme Konstellationen. Sind die Zugriffsprobleme kritisch, weil z.B. ein Programm nicht mehr in der benötigten Zeit fertig wird, hilft nur eine saubere Analyse (Database Monitor) alle Schnellschuß Empfehlungen sind Klugschwätzerei und/oder Scharlatanerie. Letzteres gilt nicht nur für DB2/400, sondern für alle Datenbanken.

D*B

B.Hauser

10-02-14, 08:35

Eins kannst Du glauben, die Schätzwerte beruhen auf Erfahrungswerten.

Begingt durch die Baum-Struktur sind Zugriffe mit (Binary Radix Tree) Indices bei größerem Datenvolumen zu langsam.
Der Optimizer kann jedoch für eine einzige Abfrage mehrere Indices gleichzeitig und auch sub-optimale Indices verwenden und die Ergebnisse in Bitmaps zwischenspeichern und die Bitmaps angschließend auswerten.

Eine Sortierung ist keine Voraussetzung für die Verwendung eines Idices. Die Sortierung ist das letzte Kriterium, das bei der Optimierung herangezogen wird. Das Hauptziel ist es so schnell wie möglich an die Daten zu kommen. Da ist es manchmal geschickter Informationen in temporären Objekten zwischen zu speichern und erst am Schlusse das Zwischen-Ergebnis zu sortieren.

IBM hat allerdings nachgearbeitet, indem sie EVIs (Encoded Vector Indicses) zur Verfügung gestellt hat, die jedoch entweder ignoriert oder als Lachnummer abgetan werden.
Sofern die passenden EVIs vorhanden sind, können diese verwendet werden sofern zw. ca. 20 und 80% der Daten ausgewählt werden.

... ansonsten ist die Optimierung halt doch noch ein bisschen komplexer.

@Baldur: Wenn der Index passt, warum nimmt Du dann nicht native I/O, der verwendet die angegebene logische Datei oder SQL Index ohne Wenn-und-Aber.

Birgitta

Fuerchau

10-02-14, 08:51

Weil ich keine Lust habe mir beim Native-IO auch noch Group-By's selber zu programmieren:).
Außerdem enthebt mich SQL sämtlicher Levelcheck-Probleme!
Zusätzlich ist der Index ja nur die halbe Wahrheit.
Subselect's, CTE, Joins verschiedener Ausprägungen sind nun mal nicht mehr selber in einer vorgegebenen Zeit zu programmieren.
Es reicht mir, mit meinen Methoden SQL's so zu optimieren, dass der Optimzer zufrieden ist, die Daten vor allem schnell genug kommen und (meistens) der korrekte Index verwendet wird.
Da ich nicht mit "updatable Selects" arbeite ist es mir häufig lieber, SQL kopiert die benötigten Daten in Zwischentabellen, was man ja nicht beeinflussen kann.
Bei BI habe ich festgestellt, dass es um Faktoren schneller ist, Teilergebnisse selber in temporäre Ergebnistabellen zu packen als alles in einem gigantischen SQL zu verpacken.
So habe ich schon Abfragezeiten von zig Minuten auf wenige Sekunden reduziert.
SQL kann eben nicht alles ersetzen, es hilft es schon mal, auch hier "schrittweise" zu denken.

Fuerchau

29-04-14, 11:13

Nun muss ich diesen Beitrag noch mal aufwärmen.
Ein Kunde ist nun von V5R4 nach V7R1 umgezogen. Von der Anwendung her war das auch problemlos.
Allerdings weigert sich die Maschine einen speziellen SQL, der mit V5R4 performant war, nun ebenso performant abzuarbeiten.
Wie gesagt, es dreht sich nur um SQL per ODBC und kann auch nicht mit ILERPG abgelöst werden:).

Der SQL ist schon sehr komplex, mit 2 CTE's mit "Group By" und 4 derived Tables.
Sämtliche Indexanalysen wurden durchgeführt, ALLE vorgeschlagenen Indizes wurden angelegt.
Zur Ausführungszeit wird aber keiner dieser Indizes (mit Aussage 5) verwendet.

Täglich werden damit ca. 350.000 Sätze abgeholt, was auf der alten Maschine (V5R4) mit ca. 320 Sätzen /Sekunde was also ca. 20 Minuten dauerte.
Nun wird das Abholen mit ca. 12 Sätzen/Sekunde durchgeführt (manchmal auch weniger), was ca. 8 Stunden oder mehr dauert. Damit kann die Aktualität der Daten nun nicht mehr gewährleistet werden.
Wer wartet schon 8 Stunden auf aktuelle Daten, die morgens um 08:00 Uhr zur Verfügung stehen sollen und bei einem 24/7-Betrieb noch bis 07:00 Uhr verändert werden können.

Leider zeigt der Kunde da nicht das geringste Verständnis für die Aufwände, um diesen SQL zu überarbeiten, damit er für V7R1 passt.

Ach ja, es muss noch gesagt werden, dass die Abfrage ausschließlich auf DDS-Tabellen geht, die NICHT in SQL-Tables umgewandelt werden können. Auch sonstige Modifikationen an den Tabellen (Trigger o.ä.) sind nicht erlaubt, da es ja die aktuelle Anwendung auf der AS/400 betrifft und außerdem das Unternehmen des amerikanischen SOX-Audit's unterliegt.

TARASIK

29-04-14, 11:59

Hallo Baldur,
ich würde einmal nach diesen Ptfs schauen:

MF58235, MF58352, MF58026,SI52257

andreaspr@aon.at

29-04-14, 12:33

Ob diverse Indice (EVI, Binary) oder sonstige Einstellungen daran schuld würde man ja am besten bei einem Vergleich der alten und neuen Zugriffspläne sehen ... das wird - so schätze ich - jetzt nicht mehr möglich sein.

Die Indexvorschläge sollten auch nur als solches wahrgenommen werden ... einen Vorschlag.
Ob und welche Indice schlussendlich angelegt werden sollte man, basierend auf einer näheren Analyse, lieber selbst entscheiden.

Es gibt sehr viele Faktoren die sich auf die Performance auswirken können ... aber das weist du sicher selbst auch.
Stimmen die Einstellungen (Caching, QAQQINI), sind die "RICHTIGEN" Indice angelegt, usw. usw.

lg Andreas