米国半導体工業会(SIA)のロードマップによれば、本研究のターゲットとする2004年の前年には、チップI/O数は3042、DRAMビット数1Gbit(product)、MPUトランジスタ数95.2M、電源電圧1.2-1.5V、クロック周波数2.49GHz、最大消費電力140Wとなる。CP-PACSで使われている技術に比べると、DRAMチップの記憶容量で16倍、プロセッサのトランジスタ数で約21倍、内部クロック周波数で17倍、I/Oバスクロック周波数で約12倍になる。
これは、数年前に予測されていたものに比較して、DRAMのトランジスタ数がやや少なくなり、プロセッサのトランジスタ数がやや多くなり、クロック周波数が大幅に増えたものになっている。
SIAによる半導体ロードマップ(1999)
Year |
1999 |
2002 |
2003 |
2005 |
2008 |
2011 |
rule (μm) |
0.18 |
0.13 |
0.13 |
0.10 |
0.07 |
0.05 |
配線レアー数 |
6-7 |
7-8 |
8 |
8-9 |
9 |
9-10 |
チップI/O数 |
2304 |
3042 |
3042 |
3042 |
3840 |
4224 |
DRAMビット数(sample) |
512M |
1G |
2G |
4G |
* |
32G |
DRAMビット数(product) |
256M |
512M |
1G |
2G |
* |
16G |
MPUトランジスタ数 |
23.8M |
* |
95.2M |
190M |
539M |
1.523B |
電源電圧(V) |
1.5-1.8 |
1.2-1.5 |
1.2-1.5 |
0.9-1.2 |
0.6-0.9 |
0.5-0.6 |
On-chip Clock Fq. (MHz) |
1250 |
2100 |
2490 |
3500 |
6000 |
10000 |
I/O Bus Clock Fq. (MHz) |
1200 |
1600 |
1724 |
2000 |
2500 |
3000 |
最大消費電力(W) |
90 |
130 |
140 |
160 |
170 |
174 |
次世代の計算科学向け計算機は、(1) ピークの演算速度、(2)演算装置へのデータ供給速度、の2点から最適化されたアーキテクチャをとる必要がある。このうち、演算速度の向上は、一般に(a)クロック速度の向上、(b)スーパスカラやVLIWによるプロセッサ内並列化、(c)高集積化によって要素プロセッサを多く実装することによる並列化、(d)投機的実行による並列化、などによって実現される。また、データ供給系の高速化は、メモリ階層のそれぞれにおけるバンド幅およびレインテンシの最適化によって実現される。具体的には、データサイズとデータアクセスパターンに応じて、メモリバスの拡大、メモリの多バンク化、多ポート化、CP-PACSで開発された疑似ベクタ処理機構の改良、キャッシュの最適化などを行う必要がある。
2004年に実現される高集積チップは、集積度が現在のそれと比較して21倍と大きいにもかかわらず、チップのI/O数はたかだか3.5倍しかないため、メモリをプロセッサチップ外部に置く従来のアーキテクチャでは、 バスネックになる可能性があり、データサイズの大きい科学計算では、特にその可能性が大きい。この問題を解決するため、プロセッサ・メモリ混載型LSIの開発が考えられる。このLSIにおいては、メモリバスはチップ内部に実装されるため、バンド幅が大きくレイテンシの小さなバスが実現可能である。
科学技術計算のデータサイズは、ほぼCPU能力に比例する。現在のCP-PACSのPUあたりメモリ量は256MB程度であり、2004年にクロックが17倍になると、約4.4GBが必要となる。STARC(http://www.starc.or.jp)は、2004年のプロセッサで混載可能なDRAMの大きさを1Gb程度と予測しており、CPUとDRAMを混載したLSIを作ると、メモリが大幅に不足する。従って、単純なプロセッサ・メモリ混載チップでは、メモリが大幅に不足するため、本研究の目的とする科学技術計算向けのプロセッサを作ることはできない。
我々は、この点から従来のプロセッサアーキテクチャを考え直し、大容量の主記憶を外付けDRAMで実現する一方、内部に中規模の容量のSRAMを持つ新たなプロセッサアーキテクチャを提案する。外付けDRAMはバンク分けして高スループットを実現し、LSIに内蔵されたSRAMは、(1)レーテンシ隠蔽、(2)中間結果の格納と高速読み出し、の2つの目的で使われる。
2004年の計算機は、CP-PACSと比較して、クロック周波数で17倍、チップ内並列性能で4倍となることが期待される。メモリバンド幅、キャッシュ速度、レジスタバスのバンド幅のそれぞれで、これに見合う速度のデータ供給を行なうことができれば、実装規模を約10倍と仮定した単純計算で、ピーク性能は360TFLOPS程度となる。