4.1.2 Matrix-Vektor Operationen (BLAS2)

Next: 4.1.2.1 Parallelrechner mit verteiltem Up: 4.1 Die BLAS-Bibliotheken Previous: 4.1.1.2 Berechnung des Skalarproduktes

4.1.2 Matrix-Vektor Operationen (BLAS2)

In diesem Abschnitt werden nur vollbesetzte Matrizen, bzw. Matrizen mit Bandstruktur betrachtet.

Arten der Matrixspeicherung bei vollbesetzter Matrix

1.: zeilenweise (row storage) [C,Pascal]
2.: spaltenweise (column storage) [F77]
3.: $A \,=\, A^T$ : zeilenweise oberes Dreieck
4.: $A \,=\, A^T$ : spaltenweise unteres Dreieck

Aufgabe :

Stellen Sie die Operation $\underline{{\ensuremath{\color{green} {\sf v}} }} \,=\, A_{n\times n} \underline{{\ensuremath{\color{green} {\sf x}} }}$ mittels BLAS-Routinen ( DDOT, DAXPY) für die Speicherformen i)-iii) dar.
$\ast$ Fall ii) ohne BLAS aber mit loop unrolling (Stride 2).

Für die tridiagonale Matrix $\begin{displaymath} A \,=\, \begin{pmatrix}b_1 & c_1 \\ a_1 & b_2 & c_2 \\ ... ... \\ & & & & c_{n-1} \\ & & & a_{n-1}& b_n \end{pmatrix} \end{displaymath}$
betrachten wir 2 Varianten der Matrix-Vektor Multiplikation $\underline{{\ensuremath{\color{green} {\sf v}} }} \,=\, A_{n\times n} \underline{{\ensuremath{\color{green} {\sf x}} }}$ auf dem Vektorrechner.

Variante a) Die Matrix wird in den Vektoren

gespeichert.


    

    


DO 

		    


END DO

Variante b) Gegenüber Variante a) werden die Vektoren

verlängert :


    

    


DO 

		     


END DO

In Variante a) müssen die ersten beiden Zeilen seriell abgearbeitet werden, was bei Vektorrechnern eine Geschwindigkeitseinbuße um das 5- 15-fache bedeutet. Daher ist Variante b) auf dem Vektorrechner schneller, obwohl mehr arithmetische Operationen ausgeführt werden müssen.

4.1.2.1 Parallelrechner mit verteiltem Speicher

Next: 4.1.2.1 Parallelrechner mit verteiltem Up: 4.1 Die BLAS-Bibliotheken Previous: 4.1.1.2 Berechnung des Skalarproduktes

Gundolf Haase
1998-12-22