Γενικη συζητηση για επεξεργαστες

**konig** · 03-11-20, 09:29

δυστηχως ομως ξερουμε ηδη απο πρωτο χερι οτι δεν ειναι rdna 2 ειναι rdna 1 με rt function και ενα δικο τους direct storage system τα νουμερα τους ειναι εντελως αχρηστα

**~~uncharted~~** · 03-11-20, 16:44

Αρχικό μήνυμα από konig

δυστηχως ομως ξερουμε ηδη απο πρωτο χερι οτι δεν ειναι rdna 2 ειναι rdna 1 με rt function και ενα δικο τους direct storage system τα νουμερα τους ειναι εντελως αχρηστα

Nah, δεν μπορεί να γίνει integrate RT function τόσο εύκολα σε RDNA1. Ο Cerny είπε ότι το PS5 έχει features από RDNA3 (όπως το PS4 είχε 8 ACEs, δηλαδή feature της μεταγενέστερης GCN 1.1). Δες όλη την παρουσίαση.

Επίσης, αυτά που λέει η MS περί "full" RDNA2 δεν ισχύουν, αφού δεν υπάρχει Infinity Cache. Για το PS5 ίδωμεν, δεν υπάρχει chip diagram ακόμα. Πάντως insiders που πέσανε μέσα για την Infinity Cache (ούτε εγώ το πίστευα) λένε ότι θα έχει και το PS5, ίσως κομμένη.

Ποιά νούμερα είναι άχρηστα;

- - - Updated - - -

https://twitter.com/chiakokhua/statu...90890874449920

**MNP-10** · 04-11-20, 00:44

https://www.reddit.com/r/intel/comme...2020_is_edram/

Αρχικό μήνυμα από σχολιο στο reddit

Jesus, that puny 4c/8t broadwell CPU is matching or even beating a 10600K in gaming workloads while operating at 3.7ghz turbo which is much lower than the 10600K.

Ευλογη απορια του αρθρογραφου:

Fast forward to 2020, and we now have mature 14 nm and 7 nm processes, as well as a cavalcade of packaging and eDRAM opportunities. We might consider that adding 1-2 GiB of eDRAM to a package could be done with high bandwidth connectivity, using either Intel’s embedded multi-die technology or TSMC’s 3DFabric technology.

If we did that today, it could arguably be just as complex as what it was to add 128 MiB back in 2015. We now have extensive EDA and packaging tools to deal with chiplet designs and multi-die environments.

So consider, at a time where high performance consumer processors are in the realm of $300 up to $500-$800, would customers consider paying +$60 more for a modern high-end processor with 2 gigabytes of intermediate L4 cache? It would extend AMD’s idea of high-performance gaming cache well beyond the 32 MiB of Zen 3, or perhaps give Intel a different dynamic to its future processor portfolio.

As we move into more a chiplet enabled environment, some of those chiplets could be an extra cache layer.

Και μετα λενε οτι ο λογος που δεν βαρανε μεγαλα IPC upgrades και τους ξεφτιλιζουν τα ARM ειναι οτι εχουν ηδη κοψει τα ωριμα φρουτα. Σαβουρες πουλανε συνεχεια.

Χωρις αυξηση σε L1/L2 caches, (ιδιες ή μικροτερες L3 γιατι πιανουν παρα πολυ die space) και μεγαλες cache (ή μικρη ποσοτητα HBM2/3) off-die, η αποδοση θα υστερει και 25-35% σε σχεση με αυτο που θα μπορουσε να ειναι.

**~~uncharted~~** · 04-11-20, 00:55

Κάπου είχα διαβάσει ότι αν μια σύγχρονη CPU (π.χ. Zen 2) δεν είχε το bottleneck της DDR4, θα χτύπαγε 600+ fps στο GTAV (προφανώς μόνο με τεράστια ποσότητα SRAM).

Δυστυχώς το memory wall είναι υπαρκτό πρόβλημα.

Αν έδιναν επιλογή στο BIOS (CPU) ή στους drivers (GPU) να γίνουν disable οι caches (L1/2/3), ακόμα καλύτερα με granular controls (π.χ. 0/2/4/8/16/32MB για L3), θα βλέπαμε πόσο ακριβώς δίνει ή κόβει σε επιδόσεις.

**badweed** · 04-11-20, 01:28

Αρχικό μήνυμα από uncharted

Αν έδιναν επιλογή στο BIOS (CPU) ή στους drivers (GPU) να γίνουν disable οι caches (L1/2/3), ακόμα καλύτερα με granular controls (π.χ. 0/2/4/8/16/32MB για L3), θα βλέπαμε πόσο ακριβώς δίνει ή κόβει σε επιδόσεις.

χωρις να εχω κρατησει στοιχεια ή να εχω κανει προσεκτικη προσεγγιση λεπτομερειων ,ειχα περασει μια περιοδο δοκιμαζοντας επεξεργαστες με βαση την cache , και ειχε διαφορα απο το unplayable σε στρωτη ροη , με την παραπανω cache , ενω αν ανεβαζα το clock και 33% πανω ( σε εναν g3258 στα 4.2 gh z (1,5mb/core) ) δεν επιανε εναν e8400 (3mb/core)

με 2mb/core και πανω , γινεται δουλεια

(το λεω cache και οχι l2 και l1 και l3 γιατι εκει καπου με τα smartcache σταματησα να την ψαχνω ,αλλα και δεν εφτασα σε βαθος την παρατηρηση )

**~~uncharted~~** · 04-11-20, 02:08

Αρχικό μήνυμα από badweed

χωρις να εχω κρατησει στοιχεια ή να εχω κανει προσεκτικη προσεγγιση λεπτομερειων ,ειχα περασει μια περιοδο δοκιμαζοντας επεξεργαστες με βαση την cache , και ειχε διαφορα απο το unplayable σε στρωτη ροη , με την παραπανω cache , ενω αν ανεβαζα το clock και 33% πανω ( σε εναν g3258 στα 4.2 gh z (1,5mb/core) ) δεν επιανε εναν e8400 (3mb/core)

με 2mb/core και πανω , γινεται δουλεια

(το λεω cache και οχι l2 και l1 και l3 γιατι εκει καπου με τα smartcache σταματησα να την ψαχνω ,αλλα και δεν εφτασα σε βαθος την παρατηρηση )

Για να το πούμε με απλά λόγια: η cache (SRAM) είναι όπως το συρτάρι στο γραφείο και η DRAM όπως η βιβλιοθήκη (ο σκληρός δίσκος είναι η αποθήκη/πατάρι).

Πάντα το συρτάρι είναι πιο μικρό σε μέγεθος, αλλά πιο εύκολα προσβάσιμο. Φυσικά μπορείς να έχεις γραφείο χωρίς συρτάρι, αλλά μετά θα έχεις πήγαινε-έλα στην βιβλιοθήκη...

Το λέω απλοποιημένα, γιατί υπάρχουν πολλαπλά επίπεδα caches. Και φυσικά οι GPUs ακολουθούν με καθυστέρηση τις CPUs όσο πιο programmable/general-purpose γίνονται.

Την ίδια στρατηγική ακολουθεί και η Apple για να υπερκεράσει το memory wall (το οποίο είναι και πιο έντονο στις LPDDR):

https://www.anandtech.com/show/14892...d-max-review/3
https://www.macworld.com/article/357...al-engine.html

Με την διαφορά ότι αυτή η system level cache είναι πραγματικά unified για όλους τους processors (CPU, GPU κλπ.), κάτι που δεν έχει επιτευχθεί ακόμα στις AMD/x86 APUs, μάλλον λόγω BC περιορισμών.

Όπως τα βλέπω τα πράγματα, στο απώτερο μέλλον (2030+) τα PC θα είναι all-in-one σε ένα package (CPU + GPU + RAM). Hassle-free (α λα κονσόλα), αλλά με περιορισμένο ή καθόλου upgradeability.

Το ιστορικό trend τις τελευταίες δεκαετίες δείχνει όλο και περισσότερο integration (κάποτε ακόμα και ο IDE controller ή η RTC battery ήταν σε discrete ISA cards).

Ήθελε να το κάνει παλιά η Intel στις CPUs, αλλά έκανε πίσω: https://www.extremetech.com/computin...-upgradable-pc

Resistance is futile όμως. Θα υπάρξει DDR6; Μιλάμε για το τελευταίο παράλληλο interface, όταν όλα τα άλλα έχουν γίνει serial προ πολλού (PCI -> PCIe, LPT -> USB, PATA -> SATA κλπ.)

Έχουν πολλά προβλήματα με συγχρονισμό και timings τα παράλληλα interfaces για να κάνουν scale up (προβλήματα με θόρυβο στο σήμα), για αυτό και τα περισσότερα έχουν εγκαταλειφθεί.

Η DDR και τα παρακλάδια της (LPDDR, GDDR) έχουν μείνει ως απομεινάρι, μιας και η αντίστοιχη serial RAM (Rambus) ενώ έχει πολλά τεχνικά πλεονεκτήματα (low pin count -> χαμηλότερο κόστος/PCB routing, μικρότερος memory controller -> περισσότερος χώρος στο chip για άλλα πράγματα), έχει αποκτήσει την ρετσινιά του patent troll η Rambus. Κάποτε πήγαν να το εφαρμόσουν στους Pentium 4, αλλά ήταν ακριβές αρχικά (δεν υπήρχε οικονομία κλίμακας όπως στις SDRAM) και λόγω πατεντών το σταμάτησαν.

**konig** · 05-11-20, 22:45

Αρχικό μήνυμα από uncharted

Nah, δεν μπορεί να γίνει integrate RT function τόσο εύκολα σε RDNA1. Ο Cerny είπε ότι το PS5 έχει features από RDNA3 (όπως το PS4 είχε 8 ACEs, δηλαδή feature της μεταγενέστερης GCN 1.1). Δες όλη την παρουσίαση.

Επίσης, αυτά που λέει η MS περί "full" RDNA2 δεν ισχύουν, αφού δεν υπάρχει Infinity Cache. Για το PS5 ίδωμεν, δεν υπάρχει chip diagram ακόμα. Πάντως insiders που πέσανε μέσα για την Infinity Cache (ούτε εγώ το πίστευα) λένε ότι θα έχει και το PS5, ίσως κομμένη.

Ποιά νούμερα είναι άχρηστα;

- - - Updated - - -

https://twitter.com/chiakokhua/statu...90890874449920

μια χαρα μπορει δεν ειναι dedicated τα nws κανουν την δουλεια και εδω αλλωστε custom ειναι

η ms μια χαρα τα λεει γιατι δεν φοραει big navi και ειναι 100% σιγουρο πως τα mid range δεν θα εχουν τετοιου ειδους cache

**~~uncharted~~** · 05-11-20, 22:50

Αρχικό μήνυμα από konig

μια χαρα μπορει δεν ειναι dedicated τα nws κανουν την δουλεια και εδω αλλωστε custom ειναι

η ms μια χαρα τα λεει γιατι δεν φοραει big navi και ειναι 100% σιγουρο πως τα mid range δεν θα εχουν τετοιου ειδους cache

Τι είναι τα NWS;

Λέω ότι δεν μπαίνει έτσι απλά HW RT, μιας και παίζει βαθύτερο integration με τα TMUs. Δεν είναι απλά additional cores.

ΥΓ: Γενικά θα σου έλεγα να ψάχνεις καλύτερα τις πηγές σου, γιατί τα fake news πάνε σύννεφο. Από RDNA1 μέχρι κατά φαντασίαν υπερθέρμανση (με LM κιόλας).

**MNP-10** · 06-11-20, 03:52

Ο anand εχει ψιλοκαλο coverage για τους zen3.

Παρατηρω οτι

-Load/Store zen1/zen2/skylake ειχαν 2/1 (2 read / 1 write per cycle),
-το icelake πηγε σε 2/2 (ειχα γραψει εδω για το οτι ειναι θετικο για το ice: https://www.adslgr.com/forum/threads...50#post6613150),
-zen3 πηγε σε 3/2.

Εντωμεταξυ ο zen einai 6-wide (μεχρι 6 ins/cycle processed) που σημαινει οτι επωφελειται παρα πολυ γιατι ηταν ...bottlenecked στα loads/stores. Ουσιαστικα αρση του bottleneck εγινε.

Επισης αλλο bottleneck που ειχα γραψει παλαιοτερα με καποια instructions τα εχουν φτιαξει.

https://www.anandtech.com/show/16214...5700x-tested/6

DIVS απο 46 cycles στο zen2 επεσε στα 20 (το icelake ηταν στα 18 - οπότε εκλεισε πολυ η ψαλιδα). Επισης σε αρκετες SSE/AVX εντολες εχει διπλασιαστει το throughput, κανει execute διπλασιες εντολες στον ιδιο χρονο. Αυτο ειναι σαν να λεμε επιδοσεις avx512 με ...avx2.

Δλδ αμα βγαλεις, λεμε τωρα, 2 εντολες που επεξεργαζονται 2 vectors 256bit σε 1 μοναδα χρονου, ειναι σαν να το εχεις κανει με 1 εντολη που επεξεργαζεται 1 vector 512 bit σε 1 μοναδα χρονου. Αυτο περα απο τη μειωση του FMA απο 5 κυκλους σε 4 (και αλλη βελτιωση εκει). Το προβλημα ειναι οτι δε το κανει σε ολες τις εντολες αλλα σε καποιες. Αλλα αν το κανεις σωστα τοτε κοντραρεις στα ισια avx512 με ...avx2 που βγαζει παραπανω avx2 throughput per cycle.

Αλλα για να μη ξεχνιομαστε, και επειδη υπαρχει ακομα πολυ δρομος για βελτιωση, η κατασταση γενικοτερα ειναι αυτη:

Το zen3 γενικοτερα ΠΟΛΥ καλυτερο απ'τις zen2/skylake σαβουρες... ξεμπουκωσε καλα με την επιδιορθωση καποιων bottlenecks. Θα ξεμπουκωσει κιαλλο αμα του δωσουν IMC (πχ APU) και μεγαλυτερες L1 caches.

**Slammer** · 06-11-20, 09:55

Πάντως απ' ότι φαίνεται η βελτίωση από τη προηγούμενη γενιά είναι πολύ μεγάλη, πρωτοφανής για την τελευταία 10ετία.

**konig** · 06-11-20, 12:43

Αρχικό μήνυμα από uncharted

Τι είναι τα NWS;

Λέω ότι δεν μπαίνει έτσι απλά HW RT, μιας και παίζει βαθύτερο integration με τα TMUs. Δεν είναι απλά additional cores.

ΥΓ: Γενικά θα σου έλεγα να ψάχνεις καλύτερα τις πηγές σου, γιατί τα fake news πάνε σύννεφο. Από RDNA1 μέχρι κατά φαντασίαν υπερθέρμανση (με LM κιόλας).

δεν εχει τιποτα dedicated η rdna για να κανει rt ολη την δουλεια την κανουν τα ace οπως παλια απλα τωρα εχουν την cache

**~~uncharted~~** · 06-11-20, 19:47

Αρχικό μήνυμα από konig

δεν εχει τιποτα dedicated η rdna για να κανει rt ολη την δουλεια την κανουν τα ace οπως παλια απλα τωρα εχουν την cache

Εχμ, πάλι μπερδεύεις ανόμοια πράγματα. Όπως είπα, τα ray accelerators της RDNA2 είναι deeply integrated μέσα στα TMUs, δεν μπαίνουν εκ των υστέρων σε μια RDNA1/RX 5700 λες κι είναι τουβλάκια LEGO.

Καμία σχέση τα TMUs με ACEs (το PS4 με GCN 1.0 GPU δεν είχε 2 ACEs, αλλά 8 ACEs -> future GCN 1.1 feature). Αυτά είναι που δίνουν τον χαρακτηρισμό semi-custom design.

PS4 GPU: https://www.techpowerup.com/gpu-spec...-hd-7970m.c388

Εξού και γιατί μίλησαν για RDNA3 future proofness (ότι δηλαδή features του PS5 θα εμφανιστούν στην RDNA3 των PC αν κριθούν επιτυχημένα, όπως δηλαδή έγινε με τα 8 ACEs). Και η Polaris του PS4 Pro (RX 470-based) είχε Vega features (2xFP16/RPM), που δεν είχε η RX 470 των PC. Δεν είναι τόσο δύσκολο να δεις το pattern που περιγράφω, αρκεί να μελετήσεις προσεκτικά τι συμβαίνει σε βάθος πολλών ετών.

Επίσης, δεν είπαν (ακόμα) τίποτα για dedicated decompression ASIC στην RDNA2 των PC, οπότε θα υποθέσω ότι θα τρέχει στις shader ALUs (α λα Turing/Ampere). Αυτό με απλά λόγια σημαίνει ότι θα σου κόψει λίγο ή πολύ σε raster performance.

Ένα ASIC είναι dedicated στον ρόλο του (βλ. H.264/H.265/VP9/AV1) και δεν ρουφάει πόρους από τις ALUs για το decoding/encoding.

Επίσης έχει πολύ χαμηλό transistor count (το 10% συγκριτικά με έναν αντίστοιχο general purpose processor) και εξίσου χαμηλό TDP.

Εδώ τα εξηγεί μια χαρά: https://www.adslgr.com/forum/threads...=1#post6905347

Αρχικό μήνυμα από MNP-10

Το zen3 γενικοτερα ΠΟΛΥ καλυτερο απ'τις zen2/skylake σαβουρες... ξεμπουκωσε καλα με την επιδιορθωση καποιων bottlenecks. Θα ξεμπουκωσει κιαλλο αμα του δωσουν IMC (πχ APU) και μεγαλυτερες L1 caches.

Ο memory controller στις Intel CPUs έχει απευθείας σύνδεση με τα CPU cores, εξού και το χαμηλότερο latency.

Στις AMD CPUs όλο το memory traffic περνάει μέσα από το Infinity Fabric πρώτα, εξού και το αυξημένο latency (ακόμα και οι μονολιθικές Ryzen CPUs/APUs δεν πιάνουν νούμερα Intel).

Πάντα η Intel θα έχει αυτό το αβαντάζ, μέχρι να πάει κι αυτή σε ανάλογο mesh fabric για scalability (η κύρια αγορά είναι οι servers, μιας και οι x86 CPUs φτιάχνονται για εκεί πρωτίστως και μετά γίνονται trickle down προς desktop/laptop/home consoles).

Οι ARM από την άλλη φτιάχνονται από κάτω (mobile) προς τα πάνω (servers). Όπως και κάποιες GPUs (π.χ. Maxwell/tiled rasterizer).

**MNP-10** · 07-11-20, 14:59

Αρχικό μήνυμα από MNP-10

Αυτο που δε ξερουμε ειναι τι κανει ο zen3. Ο zen2 ηταν σχεδον στα 50-51εκ (για το chiplet) ενω τα GPU της AMD (δε ξερω για τη σειρα 6χχχ τι παιζει) ηταν γυρω στα 40-41εκ τρανζιστορ/mm2.

...Το μαθαμε και αυτο:

https://www.techarp.com/computer/amd-zen-3-tech-report/

AMD Zen 3 Transistor Count + Die Size

The new Zen 3 CCD has 4.15 billion transistors, with a die size of 80.7 mm². That’s up from the 3.8 billion transistors and a die size of 74 mm² for the Zen 2 CCD.
The Matisse-era IOD remains the same – 2.09 billion transistors, with a die size of 125 mm².They will both be manufactured using the same 7 nm TSMC process for CCD, and 12 nm Global Foundries process for IOD.

Core Die	Zen 3	Zen 2
Process	7 nm TSMC
Transistors	4.15 billion	3.8 billion
Die Size	80.7 mm²	74 mm²
I/O Die	Zen 3	Zen 2
Process	12 nm GoFlo
Transistors	2.09 billion
Die Size	125 mm²

...ιδιο density zen2 και zen3 chiplets στα 51εκ τρανζιστορ/mm2, το ιδιο I/O die και τα 2.

Μεσο density ενος 8 core zen3 συνυπολογιζοντας και το I/O, παει 6.24 δις τρανζιστορ απλωμενα σε ~205.7mm2, δλδ περι τα 30.3 εκ τρανζιστορς/mm2. To zen2 APU ειναι >60 για συγκριση (με το I/O και IMC ενσωματωμενα).

**Slammer** · 07-11-20, 15:07

Αρχικό μήνυμα από MNP-10

Μεσο density ενος 8 core zen3 συνυπολογιζοντας και το I/O, παει 6.24 δις τρανζιστορ απλωμενα σε ~205.7mm2, δλδ περι τα 30.3 εκ τρανζιστορς/mm2. To zen2 APU ειναι >60 για συγκριση (με το I/O και IMC ενσωματωμενα).

Χαλαρά το πάει η AMD.... 30.3mil/mm2, και για το CCD βγαίνει περίπου 50mil/mm2, πολύ πιο χαμηλά από τη τυπική πυκνότητα της TSMC, ισως έτσι βελτιώνει τα yields ακόμα περισσότερο.

**MNP-10** · 07-11-20, 15:13

Και για εναν ακομα λογο: Η AMD εχει συμβολαιογραφικη υποχρεωση να απορροφαει dies απ'τη glofo ενω οταν παει σε 3ο fab οπως η tsmc παλι πληρωνει την glofo σε φαση διαφυγοντα κερδη (κατοπιν συμφωνιας βεβαια)... οπότε χρησιμοποιει glofo οπου μπορει...

Θέμα: Γενικη συζητηση για επεξεργαστες

Tags για αυτό το Θέμα

Bookmarks

Bookmarks

Δικαιώματα - Επιλογές