MIC first step

MIC: OpenMP 4.5 - Start

Shared memory programming on Intel Xeon Phi, best practice.

Quick reference (Fortran), home page, tutorial.
Specific for MIC (Programming Environment,)
Specific for KNL (Tutorial)

Tools

Intel compilers: list, non-commercial, useful options and pragmas,SIMD,
ICC_OFFLOAD_

Guided parallelization and vectorization
> icpc -c -openmp -guide -parallel *.cpp 2> gap.txt
gives hints per source line.
Also via make gap_par_report .
do not assume data dependencies in vectorization/parallelization:

pragma directive: #pragma ivdep

Offload report: > export OFFLOAD_REPORT=3

Change number of CPU threads to 4: > export OMP_NUM_THREADS=4
Change number of MIC threads to 60: > export MIC_ENV_PREFIX=MIC; export MIC_OMP_NUM_THREADS=60
MIC affinity: > export MIC_KMP_AFFINITY=balanced
Preprocessor symbol: __MIC__

How to OpenMP-parallelize the inner product:

Original code for inner product:

double scalar(const int N, const double x[], const double y[])
{
 double sum = 0.0;
 for (int i=0; i<N; ++i)
 {
    sum += x[i]*y[i];
 }
 return sum;
}

int main()
{
  ...
  double s = scalar(n,a,b);
  ... 
}

OpenMP 4.0 code for inner product:

double scalar(const unsigned int N, const double x[], const double y[])
{
    double sum = 0.0;
    unsigned int i;
    #pragma omp parallel for private(i) shared(x,y) schedule(static) reduction(+:sum)
    for (i = 0; i < N; ++i) {
        sum += x[i] * y[i];
    }
    return sum;
}


int main(int argc, char **argv)
{
  ...
#pragma omp target map(to:y[0:N],x[0:N])
  {
   double s = scalar(N, x, y);
  }
  ...
}

and compile the code with one of the available compilers

(g++ -fopenmp-fopenmp-simd skalar.cpp)
icpc -openmp -offload-attribute-target=mic skalar.cpp

Hint: Phi Programming for CUDA developers,