DDR5 ECC в рабочих станциях

04.04.2023 | Станции

 

Два года назад Линус Торвальдс высказался о важности памяти ECC и «плохой политике» Intel, сделавшей память с кодом устранения ошибок менее распространенной. По его мнению, своей сегментацией рынка и игнорированием ECC Intel нанесла ущерб всей отрасли.

Что он имел в виду?

До недавнего времени Intel возводила условные барьеры между профессиональными и бытовыми пользователями настольных систем. Первым продавали процессоры с поддержкой ECC (как Xeon E или Xeon W). Вторым – процессоры той же архитектуры, на том же ядре, но с заблокированной поддержкой ECC (Core i5 / i7 / i9). Искусственное разведение по сегментам «чтобы избегать каннибализации рынков» (на самом деле, зарабатывать больше на серверных продуктах) ничего кроме раздражения не вызывало. Усилила негативное отношение к принудительному распределению на сорта потребителей лихорадка с поставкой компонентов. Заказчики месяцами ждали малотиражные серверные процессоры, тогда как с массовыми было все хорошо - благодаря именно массовости и широкому предложению.

Пришло время DDR5

Текущее поколение синхронной динамической оперативной памяти DDR5 радикально отличается от предшественника DDR4 новыми функциями для повышения производительности и более надежной целостности данных.

 

Источник

Серверный рынок только начал переход на DDR5, в то время как в настольных системах DDR5 уже давно не новость. Если при DDR4 в некоторых серверах можно было использовать либо регистровую, либо небуферизованную память, то сейчас пути RDIMM и UDIMM окончательно разошлись: RDIMM – в серверы, UDIMM – в рабочие станции.

RDIMM и UDIMM

Регистровый DIMM имеет регистр, размещенный на модуле перед микросхемами памяти. Это посредник между DRAM и контроллером памяти. Он буферизирует адреса, командные строки и тактирующие сигналы, в то время как данные попадают в DRAM непосредственно с контроллера. То, что сопровождающие инструкции поступают в регистр памяти, улучшает целостность сигнала и уменьшает электрическую нагрузку на контроллер памяти, позволяя системе стабильно поддерживать больше модулей. Модули RDIMM всегда поддерживают проверки и исправления ошибок ECC.

UDIMM не имеет встроенного буфера или регистра. Все инструкции от контроллера памяти поступают непосредственно в DRAM. При отсутствии буфера, адреса и управляющие сигналы добавляют электрическую нагрузку на контроллер памяти. Таким образом, системы с UDIMM могут обслуживать ограниченное количество модулей памяти. Распространенные в настольных системах модули UDIMM не имеют проверок четности (non-ECC). В профессиональных рабочих станциях используется память UDIMM ECC. Физически память ECC отличается от памяти non-ECC дополнительной микросхемой для обнаружения и исправления ошибок других микросхем, используемых под данные.

Почему серверы не поддерживают UDIMM ECC?

Процессоры AMD EPYC Genoa и Intel Xeon Sapphire Rapids поддерживают только RDIMM, не UDIMM. Основной причиной этого является то, что компоненты питания теперь находятся на модулях DIMM.

Чтобы справиться с более высокими тактовыми частотами, которых стремится достичь DDR5, произошло много изменений в подсистеме питания. На серверные модули подается 12 В, в клиентских системах 5 В. Это преобразуется в 1,1 В для DDR5 DIMM встроенной микросхемой управления питанием, или PMIC. Раньше этим занималась материнская плата, сейчас – дополнительные компоненты на модулях DIMM.

Физические ключи модулей RDIMM и UDIMM теперь различны, чтобы предотвратить вставку неправильных модулей в систему и выжигание памяти (и в свою очередь отличаются от расположения на модулях DDR4 - времен, когда UDIMM и RDIMM были совместимы по контактам).

Два канала в один DIMM

Еще одним важным изменением DDR5 является новая архитектура канала DIMM. Модули DDR4 имеют 72-разрядную шину около 64 битов данных и восемь битов ECC. С DDR5 каждый DIMM будет иметь два канала. Каждый из этих каналов будет иметь 40-битную ширину: 32 бита данных с восемью битами ECC. Хотя ширина данных одинакова (в общей сложности 64 бита), наличие двух меньших независимых каналов улучшает эффективность доступа к памяти. Выросла доля разрядов, отводимых под коррекцию ошибок: от 8 из 72 (11%) до 16 из 80 (20%). Это, безусловно, способствует достоверности данных в памяти серверов и профессиональных рабочих станций.

On-die ECC

У DDR5 появилась новая функция On-die ECC, разработанная для исправления битовых ошибок в микросхеме DRAM. С увеличением плотности чипов DRAM растет вероятность утечки данных. Встроенная ECC уменьшает этот риск, исправляя ошибки в микросхеме, повышая надежность и снижая количество дефектов. Эта технология не может исправлять ошибки за пределами чипа или возникающие на шине между модулем и контроллером памяти, расположенным в ЦП. То есть, On-die ECC дополняет, но не заменяет стандартную коррекцию ошибок памяти ECC, так называемый Side-band ECC.

Процессоры с поддержкой ECC для серверов и рабочих станций содержат код, который может исправлять одно- или многобитовые ошибки на лету. Для этого на модулях памяти ECC есть дополнительные микросхемы, на материнской плате разведены дополнительные дорожки к подсистеме памяти, а BIOS должен все это поддерживать. Коррекция ошибок ECC – дело трех: памяти, процессора, платы.

Все серверные процессоры и память RDIMM поддерживают ECC. Другое дело настольные системы с UDIMM. Тут требуется согласованное трио: память DDR5 UDIMM ECC, процессор с поддержкой ECC и соответствующая плата.

 

Источник

Память DDR5 UDIMM ECC

Впервые Intel решила не отключать поддержку ECC у потребительских моделей процессоров Intel Core 12-го поколения (Alder Lake). Продолжила в 13-м поколении (Raptor Lake). Однако для доступа к этой функции необходимо использовать материнскую плату с чипсетом Intel W680. Этот набор логики предназначен для рабочих станций из UDIMM ECC или non-ECC. На нем есть платы как под DDR4, так и DDR5 – на выбор пользователя.

В отличие от Intel, AMD никогда не блокировала ECC в своих процессорах Ryzen и Ryzen Threadripper (хотя и не афишировала это). Это расширяет пользовательскую свободу выбирать, что и как ему делать. Все модули ECC будут работать без ECC, если эта функциональность не поддерживается материнской платой и ЦП, однако вы не можете волшебным образом создать дополнительный чип четности для поддерживаемых плат и ЦП.

Процессоры AMD Ryzen 7000 поддерживают DDR5 UDIMM ECC. Среди материнских плат на сокете AM5, в основном под DDR5 UDIM non-ECC, есть и официально поддерживающие и ECC. Пользователь выбирает функциональное решение в соответствии со своими приложениями. Для снижения риска ошибок памяти и увеличения стабильности платформы берите с ECC.

Одним из недооцененных выгодоприобретателей ECC являются оверклокеры. Код исправления ошибок определяет, когда плохой разгон начинает срабатывать, корректируя опыты пользователя. Он увидит потолок возможностей модулей памяти до того, как начнутся синие экраны и аварии.

Контроль On-die ECC, появившийся в DDR5, в определенной степени способствует целостности данных, но ничего не делает для целостности данных при передаче. Поддержка ECC по всему тракту данных (дело трех) становится приоритетом в рабочих станциях.

Процессоры и платы с поддержкой ECC

Два кандидата в рабочие станции на DDR5 UDIMM ECC – это Intel Core 12th /13th Gen (Alder Lake/Raptor Lake) и AMD Ryzen 7000.

Необходимое условие поддержки ECC для плат на процессорах Intel – чипсет W680. Пример такой – ASUS Pro WS W680-ACE IPMI

 

 

О том, что плата предназначена под критические программы, свидетельствует, кроме поддержки DDR5 UDIMM ECC, комплектование картой IPMI для удаленного мониторинга рабочих параметров станции, со своим сетевым портом и видеовыходом.

Флагман плат ASUS под AMD Ryzen ROG CROSSHAIR X670E EXTREME выглядит не менее убедительно:

 

 

По заветам Линуса

Поддержка кода коррекции ошибок памяти со стороны процессора-платы-памяти не является принуждением пользователя. Тот может по-прежнему выбирать материнскую плату без поддержки ECC и ставить в нее обычную память. Но, как завещал великий Линус, аргументы против памяти с исправлением ошибок – «полный мусор», а экономия владельцами профессиональных рабочих станций на затратах выходит боком.