Welcome to Scribd!

Performance Experiments With Matrix Multiplication A Trivial Problem?

Uploaded by

0% found this document useful (0 votes)

5 views1 page

This document discusses the performance of matrix multiplication on a 2.66GHz Intel Core 2 Duo processor. While the basic algorithm for matrix multiplication involves just three nested loops, achieving high performance requires optimizing for memory efficiency and cache usage, as cache misses can significantly reduce performance compared to theoretical peak flop rates. Even for a simple problem like matrix multiplication, low-level implementation details like cache behavior are crucial to understand performance.

Original Description:

cuda

Original Title

Matmuls Handout

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Attribution Non-Commercial (BY-NC)

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

5 views1 page

Performance Experiments With Matrix Multiplication A Trivial Problem?

Uploaded by

proxymo1

Copyright:

Attribution Non-Commercial (BY-NC)

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 1

Search inside document

18.

335 Fall 2008

Performance Experiments with Matrix Multiplication

Steven G. Johnson
Hardware: 2.66GHz Intel Core 2 Duo 64-bit mode, double precision, gcc 4.1.2 optimized BLAS dgemm: ATLAS 3.6.0
http://math-atlas.sourceforge.net/

A trivial problem? C=A B m!p m!n n!p

the obvious C code:
/* C = A B, where A is m x n, B is n x p, and C is m x p, in row-major order */ void matmul(const double *A, const double *B, double *C, int m, int n, int p) { int i, j, k; for (i = 0; i < m; ++i) for (j = 0; j < p; ++j) { double sum = 0; for (k = 0; k < n; ++k) sum += A[i*n + k] * B[k*p + j]; C[i*p + j] = sum; } }

for i = 1 to m for j = 1 to p
n

Cij = " Aik Bkj

k =1

2mnp flops
(adds+mults)

just three loops, how complicated can it get?

flops/time is not constant!

(square matrices, m=n=p)

Not all noise is random

L1 cache exceeded?

(2.66GHz processor? why < 1 gigaflops?)

L2 cache exceeded?

L1 cache exceeded for single row?

All flops are not created equal

nearly peak theoretical flop rate
(2 flops/cycle via SSE2 instructions)

Things to remember
We cannot understand performance without !!!!!!understanding memory efficiency (caches).
~10 times more important than arithmetic count

same #operations same abstract algorithm factor of 10 in speed

Computers are more complicated than you think. Even a trivial algorithm is nontrivial to implement well.
matrix multiplication: 10 lines of code " 130,000+ (ATLAS)

MIT18 335JF10 Lec2a Hand
Document7 pages
MIT18 335JF10 Lec2a Hand
DevendraReddyPoreddy
No ratings yet
Exercise 1 (1pt) : Master M1 SMA Computer Programming Class 2012/13. Exam. 2 Hours, Open Book
Document11 pages
Exercise 1 (1pt) : Master M1 SMA Computer Programming Class 2012/13. Exam. 2 Hours, Open Book
pranay
No ratings yet
CS111 Exam
Document18 pages
CS111 Exam
Tetz
No ratings yet
Midterm 2015
Document4 pages
Midterm 2015
Serdar Bilge
No ratings yet
Instructions/Notes:: Int Int
Document2 pages
Instructions/Notes:: Int Int
Abdullah Arif
No ratings yet
Jacobians 3 Dimensiones
Document2 pages
Jacobians 3 Dimensiones
Andrés sanchez
No ratings yet
20 Quiz 14
Document12 pages
20 Quiz 14
demro channel
No ratings yet
Basic Computational Number Theory (Jacques Amsel)
Document8 pages
Basic Computational Number Theory (Jacques Amsel)
Gonzalo Rodriguez
No ratings yet
PIC 10A WK 2 Disc 2B Session 1 Problems
Document2 pages
PIC 10A WK 2 Disc 2B Session 1 Problems
Zack Hauser
No ratings yet
BCA I Year Digital Computer Oragnisation Practice Questions
Document6 pages
BCA I Year Digital Computer Oragnisation Practice Questions
archana naik
No ratings yet
Indian Flag #Include #Include #Include #Define Typedef Struct
Document6 pages
Indian Flag #Include #Include #Include #Define Typedef Struct
Chandana Shivappa
No ratings yet
Previous GATE Questions With Solutions On C Programming - CS/IT
Document43 pages
Previous GATE Questions With Solutions On C Programming - CS/IT
dsmari
No ratings yet
C++ Vita Soln
Document100 pages
C++ Vita Soln
rushikesh sapate
0% (1)
Ques 1 Write A Program To Find The Area of Square, Rectangle, Triangle and Circle
Document21 pages
Ques 1 Write A Program To Find The Area of Square, Rectangle, Triangle and Circle
Tanu chaudhary
No ratings yet
Or II Parcijala Ispisi1
Document15 pages
Or II Parcijala Ispisi1
Mario Subašić
No ratings yet
Cquiz Gate
Document13 pages
Cquiz Gate
Dhruvil Kotecha
No ratings yet
Binomial Coefficent
Document14 pages
Binomial Coefficent
Harsh Tibrewal
No ratings yet
Mini Project (Hard Copy)
Document24 pages
Mini Project (Hard Copy)
Rizwan Hassan
No ratings yet
Experiments With Cache-Oblivious Matrix Multiplication For 18.335 (Optimal) Cache-Oblivious Matrix Multiply
Document1 page
Experiments With Cache-Oblivious Matrix Multiplication For 18.335 (Optimal) Cache-Oblivious Matrix Multiply
proxymo1
No ratings yet
Sample MCQ 1
Document5 pages
Sample MCQ 1
Project Management
No ratings yet
Ibm Papers
Document26 pages
Ibm Papers
Manikant Singh
100% (1)
Deitel Ex2 Solved
Document11 pages
Deitel Ex2 Solved
Muhammad Waqas Anwar
0% (2)
Assignment 8
Document10 pages
Assignment 8
brahmesh_sm
No ratings yet
First Year Higher Secondary Model Examination - 2021
Document8 pages
First Year Higher Secondary Model Examination - 2021
Abhin C
No ratings yet
Comp Science FY 330
Document8 pages
Comp Science FY 330
Abhin C
No ratings yet
Indian Institute of Technology Roorkee MIN-103: Programming and Data Structures Tutorial 4
Document2 pages
Indian Institute of Technology Roorkee MIN-103: Programming and Data Structures Tutorial 4
Saksham Singhal
No ratings yet
AMCAT Automata Questions: Program To Check If Two Given Matrices Are Identical in C Language
Document36 pages
AMCAT Automata Questions: Program To Check If Two Given Matrices Are Identical in C Language
MAHESH V
No ratings yet
Sir Jamal's Assignment # 2:: Data Structure & Algorithm
Document10 pages
Sir Jamal's Assignment # 2:: Data Structure & Algorithm
Syed Jibran Ali Bukhari
No ratings yet
C Questions For Gate Aspirants
Document11 pages
C Questions For Gate Aspirants
adityajain104
No ratings yet
Assignment 2
Document10 pages
Assignment 2
Abdul Rehman
No ratings yet
Questions Endsem
Document8 pages
Questions Endsem
Ritik Chaturvedi
No ratings yet
CUDA
Document3 pages
CUDA
killua gojo
No ratings yet
Python Lab Record Download
Document29 pages
Python Lab Record Download
asmitsachan64
No ratings yet
Informatics Practces: Name-Himanshu Saini Class-Xii - H Roll No. 17
Document62 pages
Informatics Practces: Name-Himanshu Saini Class-Xii - H Roll No. 17
Himanshu Saini
No ratings yet
C Programming
Document9 pages
C Programming
Shohagh Shosagh
100% (2)
Plarisan Machine Problem 1
Document4 pages
Plarisan Machine Problem 1
Remalyn Rance
No ratings yet
Worksheet 1
Document1 page
Worksheet 1
anshi
No ratings yet
Class-X - Computer - Worksheet
Document3 pages
Class-X - Computer - Worksheet
Deepali Koirala
No ratings yet
ES-CS 401 - Quiz - CA2
Document4 pages
ES-CS 401 - Quiz - CA2
mrprofessor7362
No ratings yet
Test On Digital Design Using Verilog: Ans: Option C
Document5 pages
Test On Digital Design Using Verilog: Ans: Option C
Narendra Babu Gunnam
No ratings yet
Time: 3hours Maximum Marks: 70: Sample Paper - V Subject - Computer Science
Document5 pages
Time: 3hours Maximum Marks: 70: Sample Paper - V Subject - Computer Science
Divyank srivastava
No ratings yet
03 - Linear Models - Part A
Document48 pages
03 - Linear Models - Part A
Cristian Moreta
No ratings yet
(WWW - Entrance-Exam - Net) - TCS Placement Sample Paper 2
Document13 pages
(WWW - Entrance-Exam - Net) - TCS Placement Sample Paper 2
Lakshmi Pujari
No ratings yet
1 C++Answer
Document9 pages
1 C++Answer
Sukhpreet Singh
No ratings yet
Computer Skillsii (C++) : Al-Balqa Applied University Al-Huson University College Dept. of Information Technology
Document5 pages
Computer Skillsii (C++) : Al-Balqa Applied University Al-Huson University College Dept. of Information Technology
mustafa
No ratings yet
Cs Paper
Document37 pages
Cs Paper
Ashish Bokil
No ratings yet
Class Test Class 10 MM-50 SESSION-2021-22: Section-A (30 Marks)
Document15 pages
Class Test Class 10 MM-50 SESSION-2021-22: Section-A (30 Marks)
Lena Albert
No ratings yet
Chapter 02 - Answers
Document2 pages
Chapter 02 - Answers
Waleed Ahmad
No ratings yet
WIPRO - Coding - Anand
Document18 pages
WIPRO - Coding - Anand
uurchakleya
No ratings yet
Quiz 2
Document2 pages
Quiz 2
Ana Neacsu
No ratings yet
Test - 1: Subject: Problem Solving Using Computers (CSE 1051)
Document6 pages
Test - 1: Subject: Problem Solving Using Computers (CSE 1051)
Arpan Dasmal
No ratings yet
04 Soumava Dhabal B1
Document6 pages
04 Soumava Dhabal B1
05-CSEB2-3
No ratings yet
Fainl
Document9 pages
Fainl
Senior Gaming
No ratings yet
'Input The Number of Matrix A': Dimension Write Do Do Write Write Read Enddo Enddo
Document2 pages
'Input The Number of Matrix A': Dimension Write Do Do Write Write Read Enddo Enddo
Manggala Anindyaguna
No ratings yet
Cosc 112 Final MCQ
Document3 pages
Cosc 112 Final MCQ
Alex Uchenna
No ratings yet
Declare c1, c2, c3, c4 and c5 As Char. - Assign Them To M, E, 2, 4, 0 Respectively. - Display ME240 Using c1, c2, c3, c4 and c5
Document3 pages
Declare c1, c2, c3, c4 and c5 As Char. - Assign Them To M, E, 2, 4, 0 Respectively. - Display ME240 Using c1, c2, c3, c4 and c5
Ahmet Erkliğ
No ratings yet
C Faq3
Document83 pages
C Faq3
Shaaahid
No ratings yet
Javascript Assessment Test
From Everand
Javascript Assessment Test
Edward Yao
No ratings yet
Analytic Geometry: Graphic Solutions Using Matlab Language
From Everand
Analytic Geometry: Graphic Solutions Using Matlab Language
Ing. Mario Castillo
No ratings yet
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
Rating: 3 out of 5 stars
3/5 (1)
Android Debug Bridge - Android Developers
Document11 pages
Android Debug Bridge - Android Developers
proxymo1
No ratings yet
CUDA Compute Unified Device Architecture
Document26 pages
CUDA Compute Unified Device Architecture
proxymo1
No ratings yet
Extending OpenMP To Clusters
Document1 page
Extending OpenMP To Clusters
proxymo1
No ratings yet
Parallel Novikov Si 1-2-2013
Document14 pages
Parallel Novikov Si 1-2-2013
proxymo1
No ratings yet
Device Tree Migration
Document19 pages
Device Tree Migration
proxymo1
No ratings yet
Factor of Safety and Stress Analysis of Fuselage Bulkhead Using Composite
Document7 pages
Factor of Safety and Stress Analysis of Fuselage Bulkhead Using Composite
proxymo1
No ratings yet
Khem Raj Embedded Linux Conference 2014, San Jose, CA
Document29 pages
Khem Raj Embedded Linux Conference 2014, San Jose, CA
proxymo1
No ratings yet
OpenCL Jumpstart Guide
Document17 pages
OpenCL Jumpstart Guide
proxymo1
No ratings yet
Model 0710 & Experiment Overview
Document10 pages
Model 0710 & Experiment Overview
proxymo1
No ratings yet
Aircraft Structures II Lab
Document15 pages
Aircraft Structures II Lab
proxymo1
0% (1)
Network World Magazine Article 1328
Document4 pages
Network World Magazine Article 1328
proxymo1
No ratings yet
GBA Programming Manual v1.22
Document172 pages
GBA Programming Manual v1.22
proxymo1
No ratings yet