Ibm ошибка board

Автор
Сообщение

[ТС]

 Заголовок сообщения: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 14 окт 2020, 12:54 

Интересующийся
Интересующийся
Аватара пользователя


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Всем доброго времени!
Принёс шеф Сервер IBM System x3560 M4 (7915 K4G) ,мать P/N : 010173L00-000-G и на материнке чип BD82C602J SLJNG (правильней наверное чипсет))
с ошибкой «начинает запускаться и всё останавливается»
При включении начинает мигать огоньками и буквально секунду раскручиваются вентиляторы и останавливаются на панели оператора ошибка «BOARD»,монитор тёмный, на материнке светодиод «sys board error» горит оранжевым ,
в IMM даёт зайти и пишет там про ошибку с питанием. быстрый осмотр выдал короткое по 5 вольт питания юсб.
Попытался найти хоть немного инфы о материнке , серваке и потратил не один час в пустую… Только пара упоминаний про «стекляшки «на этих серваках.
Пара дней по 4 часа с мультом и ЛБП и нашёл таки , действительно WT262WF в коротком(находится аж около вентиляторов под маленькими радиаторами) , снял её (плата пип.. теплоёмкая)) короткое ушло .
Заказали , пока едет смотрю дальше : проверяя сопротивление по +5 питания юсб (ну и в том числе по моему питание видео и ещё несколько микросхем)
обнаружил что короткого нет а сопротивление всё равно занижено ( ~220 Ом ) Подал с ЛБП сначала 1вольт 2ампера = потребления нет, догнал так неспеша до 5 вольт и только около 4.7~5 вольт началось потребление порядка 0.01~0.02 ампера.. Померил на десятке наверное материнок десктоп. там около 1.5 кОм (ну плюс минус)
С серверными платами дела не имел . В доступе нет ни даташит на вольтеры ни схем серверов. максимум что нашёл кусок схему ноута вроде с вольтерами но другими .
В общем вопрос такой Нормально ли такое сопротивление по +5 вольт питания ? Потребления то нет ,Что это такое может быть?
И по сопротивлению питания чипа BD82C602J SLJNG на катушке около 20 Ом(после похожей вольтеры WT261WF) нормально ? Может кто сталкивался с подобными серверами ,чипами ?
Да про стекляшки : при запайке они нормально температуру держат ? кто нибудь паял наверное?

У вас нет доступа для просмотра вложений:
1. Пожалуйста авторизуйтесь или зарегистрируйтесь.
2. Вы должны иметь 15 (ПЯТНАДЦАТЬ) или более сообщений.
3. У нас можно купить доступ к файлам.

Не в сети

Профиль    

 

RsM

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 14 окт 2020, 22:07 


Зарегистрирован: 12 окт 2012, 21:53
Наличности на руках:
5,116.82

Сообщения: 8106
Откуда: Сыктывкар

Сопротивление хаба по какому напряжению измерено? Если 1,05В — то нормально. Перед посадкой вольтеры залудить свинцом м/с и плату.
У меня есть асус b75, там 25 Ом сопротивление по +5В — они 8шт по 200 Ом распаяли…. Вполне может быть нормальным сопротивлением.


_________________
-ремонт ноутбуков по снимку платы
-снятие паролей BIOSа на расстоянии
-приворот winDOвSa
-розыгрыш автоБАНа

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 15 окт 2020, 00:20 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Спасибо.
Сопротивление хаба мерил на керамике в его обвязке с обеих сторон платы. 20 ом самое меньшее, есть ещё рядом около 60 ом.
Посмотрел даташит ,там 1 вольт 1.8 и 3.3.
Думаю что да 20 ом по 1 вольт.(хотелось бы))
Ждём вольтеры.

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 22 окт 2020, 20:24 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Пришли сегодня вольтеры. Впаял. Прозвонил вокруг.
Всё норм. Нигде не коротит. Поставил один проц (первый),
Две планки оперативки. Запуск есть . Появилось изображение.
Сообщения про массив ,и т.д. вобщем стартанул.
Ну и хорошо думаю. Отключил, вставил второй проц,поставил оперативку. Пробую запускать и : вентиляторы крутанулись буквально секунды 3 и остановились.
На панели диагностики ошибка «temp»
В IMM пишет : an over-temperature condition has been detected on processor 2.
Эвент лог номер : 0х806f01070302ffff
В биосе тоже про процессор,фото прилагаю.
Естественно поменял процессор местами ,почистил контакты на оперативках,поменял местами и куллеры Результата нет. Сижу смотрю то что есть из информации.
Но там всё на «замените плату» заканчивается.
Подскажите это что-то с материнкой или какую-то мелочь упустил?

У вас нет доступа для просмотра вложений:
1. Пожалуйста авторизуйтесь или зарегистрируйтесь.
2. Вы должны иметь 15 (ПЯТНАДЦАТЬ) или более сообщений.
3. У нас можно купить доступ к файлам.

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 23 окт 2020, 19:42 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Продолжение истории с сервером:
Смотрел под лупой сокет ,погнутых ножек нет .
И проверил сопротивление керамических конденсаторов (тех что внутри сокета и с обратной стороны платы тоже)
Сравнивал показания между первым сокетом и вторым.
Обнаружил странность на определённых конденсаторах …
Там получается несколько групп конденсаторов .
Так вот на одной группе в первом сокете (рабочий) сопротивление 75 Ом ..А на 2 сокете (который не работает) на той же группе сопротивление прыгает и увеличивается 1.5 ком-3.3ком-5 ком. Как будто электролит мерил…(группы идентично выглядят по дорожкам).
Это какой-то обрыв или что это такое?
Пытался проследить где может быть обрыв и рабочее время кончились…
Или это по одной фазе питания с шимкой что-то не так?
Короткое проще найти))

Не в сети

Профиль    

 

RsM

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 24 окт 2020, 14:53 


Зарегистрирован: 12 окт 2012, 21:53
Наличности на руках:
5,116.82

Сообщения: 8106
Откуда: Сыктывкар

Есть pinout сокетов, можете в 2 счета отзвонить куда они стоят и понять — норма или нет.


_________________
-ремонт ноутбуков по снимку платы
-снятие паролей BIOSа на расстоянии
-приворот winDOвSa
-розыгрыш автоБАНа

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 25 окт 2020, 01:35 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Спасибо.
Сел курить инструкцию.
По результатам отпишусь.

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 26 окт 2020, 11:30 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Доброго времени.
Прозвонил сокет, по пинам получается Это сигнал VTTD. От конденсаторов прозваниваются в сокете все пины обозначенные VTTD. Перевожу инструкцию , пока безуспешно((
Настолько глубоко в сигналах не силён (( Вижу что как-то связан сигнал с thermtrip , но дальше ….
Подскажите куда он должен приходить ?
Нашёл вот это
VTTD lands must be supplied bu a fixed 1.05 v suply
но понять опыта не хватает(

Не в сети

Профиль    

 

46tolik

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 26 окт 2020, 17:54 


Зарегистрирован: 17 сен 2015, 17:35
Наличности на руках:
2.06

Сообщения: 27
Откуда: Ukraine

garsiasergei писал(а):

Нашёл вот это
VTTD lands must be supplied bu a fixed 1.05 v suply
но понять опыта не хватает(

CPU_VTT у вас просто нет. Ищите проблему в питальнике проца. Это самое первое питание на проце

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 29 окт 2020, 00:17 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Сервер пришлось отложить на время , на следующей неделе буду смотреть vtt_cpu ,там правда только VTTD и VTTA .
Но смысл понятен. Спасибо.
Да незнаю, может пригодится кому .
Даташит ( datasheet) VT261WF. Маузер прислал. :-):

https://yadi.sk/d/LwKf-EEUv2s8zQ

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 02 ноя 2020, 16:55 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Проверил напряжение на дросселе , оно есть но можно сказать его нет !
Слабые импульсы 0.3 вольта в максимуме … В сравнении с таким же дросселем на рабочем процессоре.там импульсы 4 вольта в максимуме .
Обвязка вся такая же как и на первом (рабочем ) Заказали VT266WF !
Ждём.
Спасибо участникам , по результату отпишусь.

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 17 ноя 2020, 19:48 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Всем доброго времени.
Пришли вольтеры.заменил .
Но сервер не запускается ((
В момент нажатия кнопки запуска так-же крутятся немного(несколько секунд ) вентиляторы и ошибка «temp»
На дроссель vttd приходят импульсы почти такие же как и на рабочем процессоре только как будто амплитуда больше и частота . Сделал несколько фото.до дроссель и после него.
Даташит на vt266wf запросил но это не скоро пришлют.
Завтра посмотрю может найду на какой пин power good выходит.

У вас нет доступа для просмотра вложений:
1. Пожалуйста авторизуйтесь или зарегистрируйтесь.
2. Вы должны иметь 15 (ПЯТНАДЦАТЬ) или более сообщений.
3. У нас можно купить доступ к файлам.

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 18 ноя 2020, 14:11 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Что-то я вчера не совсем корректно смотрел.
Сегодня проверил с утра ещё раз и показания одинаковые.
Фото прилагаю.
Осталось только одно отличие…
Сопротивление по этому питанию так и осталось нарастающим (как при измерении конденсатора электролитического.)
Не могу найти что именно на рабочем соккете даёт сопротивление 75 Ом.. Всё что нашёл в обвязке и вообще от этого дросселя идентично в обоих сокетах..
В поисках информации по этиому питанию (vttd)наткнулся на что-то похожее на перевод инструкции.

http://al-tm.ru/stati/stati-po-mat.-obe … yu/core-i7

Так вот в самом низу страницы есть примечание к таблицам с сигналами :
1. Если иначе не определено, сигналы имеют согласующее сопротивление(ODT) 50 Ω подключенное к VSS.
Я так понимаю что должен быть внешний резистор физически от дросселя на vss (землю)???

Там про i7 написано конечно но не имеет ли место быть такое и здесь??

У вас нет доступа для просмотра вложений:
1. Пожалуйста авторизуйтесь или зарегистрируйтесь.
2. Вы должны иметь 15 (ПЯТНАДЦАТЬ) или более сообщений.
3. У нас можно купить доступ к файлам.

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 25 ноя 2020, 17:52 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Эпилог :
Покурив инструкции и даташиты на сокет 2011 нашёл контакт в сокете снимающий сигнал THERMTRIP# и Долго И очень аккуратно вызванивал его на материнке.
И таки нашёл его ,приходит на мс GTL2107 . (У каждого проца своя GTL2107.) Дальше проще : сверяясь с первым (рабочим сокетом) вызвонил резистор (Тот самый 75 ОМ)
Он был отпаян одним контактом и немного смещён(возможно я когда радиаторы с заклёпок снимал повредил) .
Вообщем подпаял его и Вуаля : Сервер запустился на двух процессорах и загрузил систему!
Осталось только потестировать его , но чем и как не знаю !?
Что то вроде Аида64 не уверен что подойдёт? Она же его просто нагреет?!

Не в сети

Профиль    

 

RsM

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 25 ноя 2020, 18:38 


Зарегистрирован: 12 окт 2012, 21:53
Наличности на руках:
5,116.82

Сообщения: 8106
Откуда: Сыктывкар

garsiasergei писал(а):

Осталось только потестировать его , но чем и как не знаю !?
Что то вроде Аида64 не уверен что подойдёт? Она же его просто нагреет?!

Аида подойдет, как и OCCT/linpack/др.
А вы хотите чтобы его сложно нагрело? :-)


_________________
-ремонт ноутбуков по снимку платы
-снятие паролей BIOSа на расстоянии
-приворот winDOвSa
-розыгрыш автоБАНа

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 25 ноя 2020, 23:19 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Посоветуйте по времени…
20 минут в стресс-тесте аиды 64 нормально?
Спасибо.

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»  [РЕШЕНО]

СообщениеДобавлено: 26 ноя 2020, 13:06 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Запустил OCCT, по умолчанию 30 мин стояло.
Большой набор. Ядра на «авто»
Взревел как боинг 747 , температура в среднем 80°
Ошибок нет.
Думаю можно отдавать.
Всем спасибо .

Не в сети

Профиль    

 

Содержание

  1. Light path diagnostics LEDs
  2. Ошибки и проблемы серверов большой тройки: часть третья. IBM
  3. Оперативная память
  4. Накопители
  5. Обновление прошивок и ПО
  6. Другие проблемы
  7. Преимущества серверов IBM

Light path diagnostics LEDs

This section describes the LEDs on the light path diagnostics panel and suggested actions to correct the detected problems.

For additional information, see Server controls, LEDs, and power and System-board LEDs for the location of the system board LEDs.

Table 1. Light path diagnostics panel LEDs .

  • Follow the suggested actions in the order in which they are listed in the Action column until the problem is solved.
  • If an action step is preceded by «(trained technician only),» that step must be performed only by a trained technician.

LED Description Action Check log LED An error has occurred and cannot be isolated without performing certain procedures.

  1. Check the IMM2 system event log and the system-error log for information about the error.
  2. Save the log if necessary and clear the log afterwards.

System-error LED An error has occurred.

  1. Check the light path diagnostics LEDs and follow the instructions.
  2. Check the IMM2 system event log and the system-error log for information about the error.
  3. Save the log if necessary and clear the log afterwards.

PS When only the PS LED is lit, a power supply has failed. PS + CONFIGWhen both the PS and CONFIG LEDs are lit, the power supply configuration is invalid.

If the PS LED and the CONFIG LED are lit, the system issues an invalid power configuration error. Make sure that both power supplies installed in the server are of the same rating or wattage.

OVER SPEC The system consumption reaches the power supply over-current protection point or the power supplies are damaged.

  1. If the Pwr Rail (1, 2, 3, 4, 5, or 6) error was not detected, complete the following steps:
    1. Use the Power Configurator utility to determine current system power consumption. For more information and to download the utility, go to the IBM Power Configurator website.
    2. Replace the failed power supply.
  2. If the Pwr Rail (1, 2, 3, 4, 5, or 6) error was also detected, follow actions listed in Power problems and Solving power problems.

PCI An error has occurred on a PCI card, a PCI bus, or on the system board. An additional LED is lit next to a failing PCI slot.

  1. Check the riser-card LEDs, the ServeRAID error LED, and the dual-port network adapter error LED to identify the component that caused the error.
  2. Check the system-error log for information about the error.
  3. If you cannot isolate the failing component by using the LEDs and the information in the system-error log, remove one component at a time; and restart the server after each component is removed.
  4. Replace the following components, in the order shown, restarting the server each time:
    • PCI riser cards
    • ServeRAID adapter
    • Optional network adapter
    • (Trained technician only) System board
  5. If the failure remains, go to the «Before you call IBM Service» website.

NMI A nonmaskable interrupt has occurred, or the NMI button was pressed.

  1. Check the system-error log for information about the error.
  2. Restart the server.

CONFIG CONFIG + PS An invalid power configuration error has occurred.

If the CONFIG LED and the PS LED are lit, the system issues an invalid power configuration error. Make sure that both power supplies installed in the server are of the same rating or wattage.

CONFIG + CPU A hardware configuration error has occurred. CONFIG + MEM A hardware configuration error has occurred.

If the CONFIG LED and the MEM LED are lit, check the system-event log in the Setup utility or IMM2 error messages. Follow steps indicated in UEFI/POST diagnostic codes and Integrated management module II (IMM2) error messages.

LINK Reserved. CPU When only the CPU LED is lit, a microprocessor has failed. CPU + CONFIG When both the CPU LED and the CONFIG LED are lit, the microprocessor configuration is invalid. MEM When only the MEM LED is lit, a memory error has occurred. MEM + CONFIG When both the MEM and CONFIG LEDs are lit, the memory configuration is invalid.

If the MEM LED and the CONFIG LED are lit, check the system-event log in the Setup utility or IMM2 error messages. Follow steps indicated in UEFI/POST diagnostic codes and Integrated management module II (IMM2) error messages.

Источник

Привет, Хабр! В прошлых статьях мы касались ошибок и проблем с серверами Dell и HP, и наш рассказ об ошибках refurbished-серверов был бы неполон без упоминания продукции третьего вендора «большой тройки» — IBM. Хотя эта славная корпорация уже отошла от производства серверов, её продукция ещё активно используется. Поэтому спешим поделиться с вами накопленным опытом «укрощения» серверов IBM. Это не исчерпывающий список проблем, но всё же он может оказаться кому-то полезен.

Оперативная память

Серверы IBM чувствительны по отношению к конфигурации модулей памяти. Зачастую после самостоятельного апгрейда — добавления памяти или её замены — сервер не загружается, либо видит меньше памяти, чем установлено на самом деле. К счастью, в подобных ситуациях не приходится долго гадать о причинах сбоя: на диагностической панели (если таковая имеется) загораются два индикатора Config и Memory.

Поэтому, прежде чем апгрейдить память обязательно изучите спецификацию, память какого типа и объёма поддерживается вашим сервером. Также большое значение имеет количество процессоров в сервере — от этого зависит порядок размещения модулей в слотах. Это тоже необходимо уточнить в спецификации.

Вообще, с памятью ровно такая же ситуация, как описано в статье про HP, например. Вкратце:

  • Соблюдайте канальность памяти.
  • Ставьте ECC REG 1(2)Rx4 память в двухпроцессорные системы и UDIMM — в однопроцессорные.
  • Ставьте одинаковый объём памяти на каждый процессор.

А что делать, если вы вставили память в соответствии с инструкциями, а сервер всё равно не работает и предательски горит индикатор Memory? В этом случае придётся проверять разные варианты:

  • Этот тип памяти не поддерживается сервером. Внимательно сверьтесь со спецификациями.
  • Память оказалась «битой». Замените линейку на точно такую же и проверьте, заведётся ли сервер.
  • Засорился пылью слот на материнской плате. Это довольно популярная причина, если сервер трудится уже несколько лет, а тем более если вы его не первый владелец. Продуйте слоты сжатым воздухом.
  • Загнутый контакт в сокете. Такое бывает очень редко, но всё же бывает: память отказывается работать из-за загнутого контакта в сокете процессора. Если предыдущие варианты не помогли найти причину сбоя, снимите процессор и внимательно осмотрите сокет. Если вы оказались в числе немногочисленных «счастливчиков», то можете попробовать осторожно выпрямить погнутый контакт, но это исключительно на ваш страх и риск.

Многие сисадмины сталкиваются с тем, что при проверке оперативной памяти с помощью MemTest86 получают сообщения об ошибках даже в заведомо рабочих модулях, либо на одних и тех же дорожках. Особенно часто это встречается у серверов поколения M4. Это вовсе не вина машин или памяти: MemTest86 не рекомендуется использовать для проверки серверной памяти. Если же память начнёт сбоить, то сервер сообщит об этом через диагностическую панель. Проверять память на серверах IBM лучше стандартными средствами самодиагностики.

Накопители

Мы уже неоднократно упоминали о том, что совсем не обязательно устанавливать в серверах «родные» накопители. Ни IBM, ни другие вендоры их не производят, они лишь приобретают их у всем известных производителей, перепрошивают и клеят свои логотипы. Поэтому вы можете без труда сэкономить на апгрейде или восстановлении дисковых массивов, выбрав аналоги вместо «родных» накопителей. Двух-трёхкратная разница в цене это оправдывает, особенно если речь идёт о refurbished-серверах. В сети можно легко найти таблицы соответствия моделей, например:

Модель IBM Оригинал
IBM 49Y2003 Seagate ST9600204SS
IBM 90Y8872 Seagate ST9600205SS
IBM 90Y8908 Seagate ST9600105SS
IBM 81Y9650 Seagate ST900MM0006

Тем не менее, ещё возможны ситуации несовместимости «неродных» накопителей с сервером. В этом случае сервер не грузится штатно, либо не видит накопитель. Обычно это решается с помощью установки свежей прошивки RAID-контроллера. К слову, рекомендуется обновить прошивку и бэкплейна/экспандера, в этом вам поможет приложение IBM Bootable Media Creator (BoMC).

При включении сервера и прохождении POST-проверки возможно появление ошибки:

A discovery error has occurred, please powercycle the system and all the enclosures attached to this system.

Это сигнализирует о проблеме с одним из накопителей. Вычислить его просто: индикаторы на его салазках постоянно мигают, даже когда все остальные носители прошли проверку и перестали мигать.

С дисковой подсистемой бывают и более экзотические проблемы. Например, при использовании RAID-1 в фирменном приложении MegaRAID Storage Manager могут появиться ошибки вида:

ID = 63
SEQUENCE NUMBER = 48442
TIME = 24-01-2016 17:03:59
LOCALIZED MESSAGE = Controller ID: 0 Consistency Check found inconsistent parity on VD strip: ( VD = 0, strip = 637679)

Чаще всего это говорит не об умирании диска, а об ошибке контроля чётности — несовпадении данных на основном и вторичном дисках. Возможные причины:

  • Нередко такие ошибки появляются сразу после конфигурирования нового массива или после замены одного из дисков.
  • Во время сеанса диагностики поверхности блинов происходит инициализация диска и выполнение операций ввода/вывода. На RAID-1 это может привести к временному несоответствию томов, которое автоматически исправляется при следующей проверке на соответствие. Такое возникает не при любом сеансе диагностики, а когда сходятся звёзды:
    • o Используется RAID-контроллер без кэширования, либо активирован режим Write Through.
    • o Нехватка оперативной памяти, при которой с диска осуществляется активная подкачка страниц.
    • o Просто очень интенсивное использование дисков.

Для решения этой проблемы рекомендуется снизить активность подкачки с диска: используйте RAID-контроллер с кэшированием и увеличьте объём оперативной памяти.

Обновление прошивок и ПО

Любопытная проблема может подстерегать при установке с нуля Windows 2012 или Windows 2012 R2 — свежеустановленная операционка не видит ни одного накопителя. Причём такое бывает не только с серверами IBM. Дело в том, что все накопители в сервере подключены через RAID, а упомянутые версии ОС не имеют вшитых драйверов для работы с RAID. И поэтому они их просто игнорируют. Как быть? Самый надёжный способ: использовать утилиту IBM ServerGuide. При установке ОС она принудительно подсовывает все необходимые драйвера для данной модели и версии операционной системы. Обратите внимание, что образ ОС должен устанавливаться с диска, а не с флэшки: ServerGuide не будет работать с образом на том же USB-носителе, с которого запущен сам.

При покупке серверов бывают ситуации, когда нужно сначала обновить все прошивки, а потом уже накатывать систему. Сделать это можно с помощью вышеупомянутой IBM Bootable Media Creator:

  1. Загрузитесь с загрузочной флешки или диска.
  2. Запустите BoMC от имени Администратора.
  3. Выберите, что вы хотите сделать: обновить и/или провести диагностику.
  4. Программа спросит, где ей взять драйверы: скачать самой или вытащить из указанного вами архива.
  5. Выберите носитель для записи загрузочного образа: флэшку или диск. Запись может идти несколько часов, не волнуйтесь, программа не зависла.
  6. По окончании записи загрузитесь с этого носителя, и далее по инструкции.

Эта процедура помогает и в ряде проблемных ситуаций. Например, если вы не дождались завершения обновления Integrated Management Module и нажали кнопку «отмена», то при следующих загрузках сервер может не суметь загрузить IMM и использует настройки по умолчанию. Можно сначала попытаться восстановить с помощью джампера “UEFI & IMM recovery jumper” на материнской плате, благодаря которому загружается прошитый образ IMM.

Но если не поможет, то воспользуйтесь процедурой обновления через BoMC.

Бывают и более неприятные ситуации, когда по закону подлости в ходе установки более свежей версии BIOS’а происходит сбой питания.

После этого сервер уже не может загрузить основную прошивку, и использует резервную. Если штатная процедура восстановления BIOS’а не помогает, то сделайте… даунгрейд: установите более старую прошивку, чем та, что была до сбоя питания. Обычно это помогает. После этого уже можно попытаться снова поставить свежую версию BIOS’а. Как говорится, шаг назад — два вперёд.

Другие проблемы

Иногда при попытке удалённого управления сервером возникает ошибка “Login failed with an access denied error.”, причём в любых браузерах. Если перезагрузка сервера и клиента не помогает, то рекомендуется сбросить IMM до заводских настроек.

В статье про ошибки серверов HP мы упоминали о проблемах с системой охлаждения: сразу после запуска сервера вентиляторы выходили на высокие обороты и уже не снижали их. Случается такой недуг и в серверах IBM. Сервер воет, как реактивный лайнер на взлёте. Нам не удалось выяснить причину таких сбоев, но посоветовать можно следующее:

  1. Проверьте плотность подключения разъёмов питания.
  2. Отключите все вентиляторы и снимите корзину.
  3. Проверьте каждый вентилятор на других серверах.
  4. Соберите корзину снова, поменяв вентиляторы местами. Либо совсем их замените.

Встречался в нашей практике и такой интересный сбой: при загрузке сервера штатно инициализируется IMM, затем начинается инициализация UEFI, и… всё. Дальше сервер не грузится без объяснения причин. Не помогали никакие манипуляции: отключение от сети, полное обесточивание, отключение разных компонентов. Загрузка бэкапа UEFI с помощью джампера на материнской плате тоже не помогла. Опытным путём выяснилось, что если подождать около 20 минут, то всё же можно дождаться загрузки сервера. Так он и работает с тех пор — каждый раз грузится по 20 минут. Выяснить причину сбоя не удалось.

Преимущества серверов IBM

Серверы IBM заслуженно пользуются большой популярностью:

  • Это простые и очень надёжные машины.
  • Отличная расширяемость даже на начальных моделях и богатый комплект поставки.
  • Серверы IBM обычно дешевле конкурентов и не уступают в производительности. Например, поколения M3 и M4 дешевле, чем аналоги у HP (Gen7 и Gen8) и Dell (11G и 12G).
  • Самые недорогие расходники. Легко найти в России.
  • Удобная диагностическая панель на многих моделях.

Главное, в чём серверы IBM уступают конкурентам — у них очень долгий «холодный» старт.

Источник

The following table describes the error codes that the diagnostic programs might

generate and suggested actions to correct the detected problems.

If the diagnostic programs generate error codes that are not listed in the table,

make sure that the latest levels of BIOS, Remote Supervisor Adapter II SlimLine,

and ServeRAID code are installed.

In the error codes, x can be any numeral or letter. However, if the three-digit

number in the central position of the code is 000, 195, or 197, do not replace a

CRU or FRU. These numbers appearing in the central position of the code have the

following meanings:

000

195

197

v Follow the suggested actions in the order in which they are listed in the Action column until the problem

is solved.

v See Chapter 3, «Parts listing, Type 7978 and 1913 server,» on page 29 to determine which components are

customer replaceable units (CRU) and which components are field replaceable units (FRU).

v If an action step is preceded by «(Trained service technician only),» that step must be performed only by a

trained service technician.

Error code

Description

001-250-000

Failed microprocessor board ECC.

001-xxx-000

Failed core tests.

001-xxx-001

Failed core tests.

001-292-000

Failed microprocessor board ECC.

005-xxx-000

Failed video test.

011-xxx-000

Failed COM1 serial port test.

144

IBM System x3550 Type 7978 and 1913: Problem Determination and Service Guide

The server passed the test. Do not replace a CRU or FRU.

The Esc key was pressed to end the test. Do not replace a CRU or FRU.

This is a warning error, but it does not indicate a hardware failure; do not

replace a CRU or FRU. Take the action that is indicated in the Action

column but do not replace a CRU or a FRU. See the description of

Warning in «Diagnostic text messages» on page 143 for more information.

Action

1. Check the system-error log and the BMC log for

messages that indicate the cause of the error

(see «Error logs» on page 107).

2. From the diagnostic programs, run Quick Memory

Test All Banks (see «Running the diagnostic

programs» on page 142).

3. From the diagnostic programs, run the ECC test

again (see «Running the diagnostic programs» on

page 142).

4. (Trained service technician only) Replace the

system board.

(Trained service technician only) Replace the system

board.

(Trained service technician only) Replace the system

board.

Load BIOS code defaults and run the test again.

1. Reseat the optional video adapter, if one is

installed.

2. (Trained service technician only) Replace the

system board.

1. Check the loopback plug that is connected to the

serial port.

2. (Trained service technician only) Replace the

system board.

Автор
Сообщение

[ТС]

 Заголовок сообщения: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 14 окт 2020, 12:54 

Интересующийся
Интересующийся
Аватара пользователя


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Всем доброго времени!
Принёс шеф Сервер IBM System x3560 M4 (7915 K4G) ,мать P/N : 010173L00-000-G и на материнке чип BD82C602J SLJNG (правильней наверное чипсет))
с ошибкой «начинает запускаться и всё останавливается»
При включении начинает мигать огоньками и буквально секунду раскручиваются вентиляторы и останавливаются на панели оператора ошибка «BOARD»,монитор тёмный, на материнке светодиод «sys board error» горит оранжевым ,
в IMM даёт зайти и пишет там про ошибку с питанием. быстрый осмотр выдал короткое по 5 вольт питания юсб.
Попытался найти хоть немного инфы о материнке , серваке и потратил не один час в пустую… Только пара упоминаний про «стекляшки «на этих серваках.
Пара дней по 4 часа с мультом и ЛБП и нашёл таки , действительно WT262WF в коротком(находится аж около вентиляторов под маленькими радиаторами) , снял её (плата пип.. теплоёмкая)) короткое ушло .
Заказали , пока едет смотрю дальше : проверяя сопротивление по +5 питания юсб (ну и в том числе по моему питание видео и ещё несколько микросхем)
обнаружил что короткого нет а сопротивление всё равно занижено ( ~220 Ом ) Подал с ЛБП сначала 1вольт 2ампера = потребления нет, догнал так неспеша до 5 вольт и только около 4.7~5 вольт началось потребление порядка 0.01~0.02 ампера.. Померил на десятке наверное материнок десктоп. там около 1.5 кОм (ну плюс минус)
С серверными платами дела не имел . В доступе нет ни даташит на вольтеры ни схем серверов. максимум что нашёл кусок схему ноута вроде с вольтерами но другими .
В общем вопрос такой Нормально ли такое сопротивление по +5 вольт питания ? Потребления то нет ,Что это такое может быть?
И по сопротивлению питания чипа BD82C602J SLJNG на катушке около 20 Ом(после похожей вольтеры WT261WF) нормально ? Может кто сталкивался с подобными серверами ,чипами ?
Да про стекляшки : при запайке они нормально температуру держат ? кто нибудь паял наверное?

У вас нет доступа для просмотра вложений:
1. Пожалуйста авторизуйтесь или зарегистрируйтесь.
2. Вы должны иметь 15 (ПЯТНАДЦАТЬ) или более сообщений.
3. У нас можно купить доступ к файлам.

Не в сети

Профиль    

 

RsM

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 14 окт 2020, 22:07 


Зарегистрирован: 12 окт 2012, 21:53
Наличности на руках:
5,114.80

Сообщения: 7939
Откуда: Сыктывкар

Сопротивление хаба по какому напряжению измерено? Если 1,05В — то нормально. Перед посадкой вольтеры залудить свинцом м/с и плату.
У меня есть асус b75, там 25 Ом сопротивление по +5В — они 8шт по 200 Ом распаяли…. Вполне может быть нормальным сопротивлением.


_________________
-ремонт ноутбуков по снимку платы
-снятие паролей BIOSа на расстоянии
-приворот winDOвSa
-розыгрыш автоБАНа

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 15 окт 2020, 00:20 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Спасибо.
Сопротивление хаба мерил на керамике в его обвязке с обеих сторон платы. 20 ом самое меньшее, есть ещё рядом около 60 ом.
Посмотрел даташит ,там 1 вольт 1.8 и 3.3.
Думаю что да 20 ом по 1 вольт.(хотелось бы))
Ждём вольтеры.

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 22 окт 2020, 20:24 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Пришли сегодня вольтеры. Впаял. Прозвонил вокруг.
Всё норм. Нигде не коротит. Поставил один проц (первый),
Две планки оперативки. Запуск есть . Появилось изображение.
Сообщения про массив ,и т.д. вобщем стартанул.
Ну и хорошо думаю. Отключил, вставил второй проц,поставил оперативку. Пробую запускать и : вентиляторы крутанулись буквально секунды 3 и остановились.
На панели диагностики ошибка «temp»
В IMM пишет : an over-temperature condition has been detected on processor 2.
Эвент лог номер : 0х806f01070302ffff
В биосе тоже про процессор,фото прилагаю.
Естественно поменял процессор местами ,почистил контакты на оперативках,поменял местами и куллеры Результата нет. Сижу смотрю то что есть из информации.
Но там всё на «замените плату» заканчивается.
Подскажите это что-то с материнкой или какую-то мелочь упустил?

У вас нет доступа для просмотра вложений:
1. Пожалуйста авторизуйтесь или зарегистрируйтесь.
2. Вы должны иметь 15 (ПЯТНАДЦАТЬ) или более сообщений.
3. У нас можно купить доступ к файлам.

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 23 окт 2020, 19:42 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Продолжение истории с сервером:
Смотрел под лупой сокет ,погнутых ножек нет .
И проверил сопротивление керамических конденсаторов (тех что внутри сокета и с обратной стороны платы тоже)
Сравнивал показания между первым сокетом и вторым.
Обнаружил странность на определённых конденсаторах …
Там получается несколько групп конденсаторов .
Так вот на одной группе в первом сокете (рабочий) сопротивление 75 Ом ..А на 2 сокете (который не работает) на той же группе сопротивление прыгает и увеличивается 1.5 ком-3.3ком-5 ком. Как будто электролит мерил…(группы идентично выглядят по дорожкам).
Это какой-то обрыв или что это такое?
Пытался проследить где может быть обрыв и рабочее время кончились…
Или это по одной фазе питания с шимкой что-то не так?
Короткое проще найти))

Не в сети

Профиль    

 

RsM

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 24 окт 2020, 14:53 


Зарегистрирован: 12 окт 2012, 21:53
Наличности на руках:
5,114.80

Сообщения: 7939
Откуда: Сыктывкар

Есть pinout сокетов, можете в 2 счета отзвонить куда они стоят и понять — норма или нет.


_________________
-ремонт ноутбуков по снимку платы
-снятие паролей BIOSа на расстоянии
-приворот winDOвSa
-розыгрыш автоБАНа

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 25 окт 2020, 01:35 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Спасибо.
Сел курить инструкцию.
По результатам отпишусь.

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 26 окт 2020, 11:30 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Доброго времени.
Прозвонил сокет, по пинам получается Это сигнал VTTD. От конденсаторов прозваниваются в сокете все пины обозначенные VTTD. Перевожу инструкцию , пока безуспешно((
Настолько глубоко в сигналах не силён (( Вижу что как-то связан сигнал с thermtrip , но дальше ….
Подскажите куда он должен приходить ?
Нашёл вот это
VTTD lands must be supplied bu a fixed 1.05 v suply
но понять опыта не хватает(

Не в сети

Профиль    

 

46tolik

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 26 окт 2020, 17:54 


Зарегистрирован: 17 сен 2015, 17:35
Наличности на руках:
2.06

Сообщения: 27
Откуда: Ukraine

garsiasergei писал(а):

Нашёл вот это
VTTD lands must be supplied bu a fixed 1.05 v suply
но понять опыта не хватает(

CPU_VTT у вас просто нет. Ищите проблему в питальнике проца. Это самое первое питание на проце

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 29 окт 2020, 00:17 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Сервер пришлось отложить на время , на следующей неделе буду смотреть vtt_cpu ,там правда только VTTD и VTTA .
Но смысл понятен. Спасибо.
Да незнаю, может пригодится кому .
Даташит ( datasheet) VT261WF. Маузер прислал. :-):

https://yadi.sk/d/LwKf-EEUv2s8zQ

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 02 ноя 2020, 16:55 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Проверил напряжение на дросселе , оно есть но можно сказать его нет !
Слабые импульсы 0.3 вольта в максимуме … В сравнении с таким же дросселем на рабочем процессоре.там импульсы 4 вольта в максимуме .
Обвязка вся такая же как и на первом (рабочем ) Заказали VT266WF !
Ждём.
Спасибо участникам , по результату отпишусь.

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 17 ноя 2020, 19:48 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Всем доброго времени.
Пришли вольтеры.заменил .
Но сервер не запускается ((
В момент нажатия кнопки запуска так-же крутятся немного(несколько секунд ) вентиляторы и ошибка «temp»
На дроссель vttd приходят импульсы почти такие же как и на рабочем процессоре только как будто амплитуда больше и частота . Сделал несколько фото.до дроссель и после него.
Даташит на vt266wf запросил но это не скоро пришлют.
Завтра посмотрю может найду на какой пин power good выходит.

У вас нет доступа для просмотра вложений:
1. Пожалуйста авторизуйтесь или зарегистрируйтесь.
2. Вы должны иметь 15 (ПЯТНАДЦАТЬ) или более сообщений.
3. У нас можно купить доступ к файлам.

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 18 ноя 2020, 14:11 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Что-то я вчера не совсем корректно смотрел.
Сегодня проверил с утра ещё раз и показания одинаковые.
Фото прилагаю.
Осталось только одно отличие…
Сопротивление по этому питанию так и осталось нарастающим (как при измерении конденсатора электролитического.)
Не могу найти что именно на рабочем соккете даёт сопротивление 75 Ом.. Всё что нашёл в обвязке и вообще от этого дросселя идентично в обоих сокетах..
В поисках информации по этиому питанию (vttd)наткнулся на что-то похожее на перевод инструкции.

http://al-tm.ru/stati/stati-po-mat.-obe … yu/core-i7

Так вот в самом низу страницы есть примечание к таблицам с сигналами :
1. Если иначе не определено, сигналы имеют согласующее сопротивление(ODT) 50 Ω подключенное к VSS.
Я так понимаю что должен быть внешний резистор физически от дросселя на vss (землю)???

Там про i7 написано конечно но не имеет ли место быть такое и здесь??

У вас нет доступа для просмотра вложений:
1. Пожалуйста авторизуйтесь или зарегистрируйтесь.
2. Вы должны иметь 15 (ПЯТНАДЦАТЬ) или более сообщений.
3. У нас можно купить доступ к файлам.

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 25 ноя 2020, 17:52 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Эпилог :
Покурив инструкции и даташиты на сокет 2011 нашёл контакт в сокете снимающий сигнал THERMTRIP# и Долго И очень аккуратно вызванивал его на материнке.
И таки нашёл его ,приходит на мс GTL2107 . (У каждого проца своя GTL2107.) Дальше проще : сверяясь с первым (рабочим сокетом) вызвонил резистор (Тот самый 75 ОМ)
Он был отпаян одним контактом и немного смещён(возможно я когда радиаторы с заклёпок снимал повредил) .
Вообщем подпаял его и Вуаля : Сервер запустился на двух процессорах и загрузил систему!
Осталось только потестировать его , но чем и как не знаю !?
Что то вроде Аида64 не уверен что подойдёт? Она же его просто нагреет?!

Не в сети

Профиль    

 

RsM

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 25 ноя 2020, 18:38 


Зарегистрирован: 12 окт 2012, 21:53
Наличности на руках:
5,114.80

Сообщения: 7939
Откуда: Сыктывкар

garsiasergei писал(а):

Осталось только потестировать его , но чем и как не знаю !?
Что то вроде Аида64 не уверен что подойдёт? Она же его просто нагреет?!

Аида подойдет, как и OCCT/linpack/др.
А вы хотите чтобы его сложно нагрело? :-)


_________________
-ремонт ноутбуков по снимку платы
-снятие паролей BIOSа на расстоянии
-приворот winDOвSa
-розыгрыш автоБАНа

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»

СообщениеДобавлено: 25 ноя 2020, 23:19 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Посоветуйте по времени…
20 минут в стресс-тесте аиды 64 нормально?
Спасибо.

Не в сети

Профиль    

 

garsiasergei
[ТС]

 Заголовок сообщения: Re: Сервер IBM System x3560 M4 (7915 K4G) ошибка «BOARD»  [РЕШЕНО]

СообщениеДобавлено: 26 ноя 2020, 13:06 


Зарегистрирован: 27 апр 2018, 16:59
Наличности на руках:
9.16

Сообщения: 49
Откуда: Курск

Запустил OCCT, по умолчанию 30 мин стояло.
Большой набор. Ядра на «авто»
Взревел как боинг 747 , температура в среднем 80°
Ошибок нет.
Думаю можно отдавать.
Всем спасибо .

Не в сети

Профиль    

 

Время прочтения
6 мин

Просмотры 42K

Привет, Хабр! В прошлых статьях мы касались ошибок и проблем с серверами Dell и HP, и наш рассказ об ошибках refurbished-серверов был бы неполон без упоминания продукции третьего вендора «большой тройки» — IBM. Хотя эта славная корпорация уже отошла от производства серверов, её продукция ещё активно используется. Поэтому спешим поделиться с вами накопленным опытом «укрощения» серверов IBM. Это не исчерпывающий список проблем, но всё же он может оказаться кому-то полезен.

Оперативная память

Серверы IBM чувствительны по отношению к конфигурации модулей памяти. Зачастую после самостоятельного апгрейда — добавления памяти или её замены — сервер не загружается, либо видит меньше памяти, чем установлено на самом деле. К счастью, в подобных ситуациях не приходится долго гадать о причинах сбоя: на диагностической панели (если таковая имеется) загораются два индикатора Config и Memory.

Поэтому, прежде чем апгрейдить память обязательно изучите спецификацию, память какого типа и объёма поддерживается вашим сервером. Также большое значение имеет количество процессоров в сервере — от этого зависит порядок размещения модулей в слотах. Это тоже необходимо уточнить в спецификации.

Вообще, с памятью ровно такая же ситуация, как описано в статье про HP, например. Вкратце:

  • Соблюдайте канальность памяти.
  • Ставьте ECC REG 1(2)Rx4 память в двухпроцессорные системы и UDIMM — в однопроцессорные.
  • Ставьте одинаковый объём памяти на каждый процессор.

А что делать, если вы вставили память в соответствии с инструкциями, а сервер всё равно не работает и предательски горит индикатор Memory? В этом случае придётся проверять разные варианты:

  • Этот тип памяти не поддерживается сервером. Внимательно сверьтесь со спецификациями.
  • Память оказалась «битой». Замените линейку на точно такую же и проверьте, заведётся ли сервер.
  • Засорился пылью слот на материнской плате. Это довольно популярная причина, если сервер трудится уже несколько лет, а тем более если вы его не первый владелец. Продуйте слоты сжатым воздухом.
  • Загнутый контакт в сокете. Такое бывает очень редко, но всё же бывает: память отказывается работать из-за загнутого контакта в сокете процессора. Если предыдущие варианты не помогли найти причину сбоя, снимите процессор и внимательно осмотрите сокет. Если вы оказались в числе немногочисленных «счастливчиков», то можете попробовать осторожно выпрямить погнутый контакт, но это исключительно на ваш страх и риск.

Многие сисадмины сталкиваются с тем, что при проверке оперативной памяти с помощью MemTest86 получают сообщения об ошибках даже в заведомо рабочих модулях, либо на одних и тех же дорожках. Особенно часто это встречается у серверов поколения M4. Это вовсе не вина машин или памяти: MemTest86 не рекомендуется использовать для проверки серверной памяти. Если же память начнёт сбоить, то сервер сообщит об этом через диагностическую панель. Проверять память на серверах IBM лучше стандартными средствами самодиагностики.

Накопители

Мы уже неоднократно упоминали о том, что совсем не обязательно устанавливать в серверах «родные» накопители. Ни IBM, ни другие вендоры их не производят, они лишь приобретают их у всем известных производителей, перепрошивают и клеят свои логотипы. Поэтому вы можете без труда сэкономить на апгрейде или восстановлении дисковых массивов, выбрав аналоги вместо «родных» накопителей. Двух-трёхкратная разница в цене это оправдывает, особенно если речь идёт о refurbished-серверах. В сети можно легко найти таблицы соответствия моделей, например:

Модель IBM Оригинал
IBM 49Y2003 Seagate ST9600204SS
IBM 90Y8872 Seagate ST9600205SS
IBM 90Y8908 Seagate ST9600105SS
IBM 81Y9650 Seagate ST900MM0006

Тем не менее, ещё возможны ситуации несовместимости «неродных» накопителей с сервером. В этом случае сервер не грузится штатно, либо не видит накопитель. Обычно это решается с помощью установки свежей прошивки RAID-контроллера. К слову, рекомендуется обновить прошивку и бэкплейна/экспандера, в этом вам поможет приложение IBM Bootable Media Creator (BoMC).

При включении сервера и прохождении POST-проверки возможно появление ошибки:

A discovery error has occurred, please powercycle the system and all the enclosures attached to this system.

Это сигнализирует о проблеме с одним из накопителей. Вычислить его просто: индикаторы на его салазках постоянно мигают, даже когда все остальные носители прошли проверку и перестали мигать.

С дисковой подсистемой бывают и более экзотические проблемы. Например, при использовании RAID-1 в фирменном приложении MegaRAID Storage Manager могут появиться ошибки вида:

ID = 63
SEQUENCE NUMBER = 48442
TIME = 24-01-2016 17:03:59
LOCALIZED MESSAGE = Controller ID: 0 Consistency Check found inconsistent parity on VD strip: ( VD = 0, strip = 637679)

Чаще всего это говорит не об умирании диска, а об ошибке контроля чётности — несовпадении данных на основном и вторичном дисках. Возможные причины:

  • Нередко такие ошибки появляются сразу после конфигурирования нового массива или после замены одного из дисков.
  • Во время сеанса диагностики поверхности блинов происходит инициализация диска и выполнение операций ввода/вывода. На RAID-1 это может привести к временному несоответствию томов, которое автоматически исправляется при следующей проверке на соответствие. Такое возникает не при любом сеансе диагностики, а когда сходятся звёзды:
    • o Используется RAID-контроллер без кэширования, либо активирован режим Write Through.
    • o Нехватка оперативной памяти, при которой с диска осуществляется активная подкачка страниц.
    • o Просто очень интенсивное использование дисков.

Для решения этой проблемы рекомендуется снизить активность подкачки с диска: используйте RAID-контроллер с кэшированием и увеличьте объём оперативной памяти.

Обновление прошивок и ПО

Любопытная проблема может подстерегать при установке с нуля Windows 2012 или Windows 2012 R2 — свежеустановленная операционка не видит ни одного накопителя. Причём такое бывает не только с серверами IBM. Дело в том, что все накопители в сервере подключены через RAID, а упомянутые версии ОС не имеют вшитых драйверов для работы с RAID. И поэтому они их просто игнорируют. Как быть? Самый надёжный способ: использовать утилиту IBM ServerGuide. При установке ОС она принудительно подсовывает все необходимые драйвера для данной модели и версии операционной системы. Обратите внимание, что образ ОС должен устанавливаться с диска, а не с флэшки: ServerGuide не будет работать с образом на том же USB-носителе, с которого запущен сам.

При покупке серверов бывают ситуации, когда нужно сначала обновить все прошивки, а потом уже накатывать систему. Сделать это можно с помощью вышеупомянутой IBM Bootable Media Creator:

  1. Загрузитесь с загрузочной флешки или диска.
  2. Запустите BoMC от имени Администратора.
  3. Выберите, что вы хотите сделать: обновить и/или провести диагностику.
  4. Программа спросит, где ей взять драйверы: скачать самой или вытащить из указанного вами архива.
  5. Выберите носитель для записи загрузочного образа: флэшку или диск. Запись может идти несколько часов, не волнуйтесь, программа не зависла.
  6. По окончании записи загрузитесь с этого носителя, и далее по инструкции.

Эта процедура помогает и в ряде проблемных ситуаций. Например, если вы не дождались завершения обновления Integrated Management Module и нажали кнопку «отмена», то при следующих загрузках сервер может не суметь загрузить IMM и использует настройки по умолчанию. Можно сначала попытаться восстановить с помощью джампера “UEFI & IMM recovery jumper” на материнской плате, благодаря которому загружается прошитый образ IMM.

Но если не поможет, то воспользуйтесь процедурой обновления через BoMC.

Бывают и более неприятные ситуации, когда по закону подлости в ходе установки более свежей версии BIOS’а происходит сбой питания.

После этого сервер уже не может загрузить основную прошивку, и использует резервную. Если штатная процедура восстановления BIOS’а не помогает, то сделайте… даунгрейд: установите более старую прошивку, чем та, что была до сбоя питания. Обычно это помогает. После этого уже можно попытаться снова поставить свежую версию BIOS’а. Как говорится, шаг назад — два вперёд.

Другие проблемы

Иногда при попытке удалённого управления сервером возникает ошибка “Login failed with an access denied error.”, причём в любых браузерах. Если перезагрузка сервера и клиента не помогает, то рекомендуется сбросить IMM до заводских настроек.

В статье про ошибки серверов HP мы упоминали о проблемах с системой охлаждения: сразу после запуска сервера вентиляторы выходили на высокие обороты и уже не снижали их. Случается такой недуг и в серверах IBM. Сервер воет, как реактивный лайнер на взлёте. Нам не удалось выяснить причину таких сбоев, но посоветовать можно следующее:

  1. Проверьте плотность подключения разъёмов питания.
  2. Отключите все вентиляторы и снимите корзину.
  3. Проверьте каждый вентилятор на других серверах.
  4. Соберите корзину снова, поменяв вентиляторы местами. Либо совсем их замените.

Встречался в нашей практике и такой интересный сбой: при загрузке сервера штатно инициализируется IMM, затем начинается инициализация UEFI, и… всё. Дальше сервер не грузится без объяснения причин. Не помогали никакие манипуляции: отключение от сети, полное обесточивание, отключение разных компонентов. Загрузка бэкапа UEFI с помощью джампера на материнской плате тоже не помогла. Опытным путём выяснилось, что если подождать около 20 минут, то всё же можно дождаться загрузки сервера. Так он и работает с тех пор — каждый раз грузится по 20 минут. Выяснить причину сбоя не удалось.

Преимущества серверов IBM

Серверы IBM заслуженно пользуются большой популярностью:

  • Это простые и очень надёжные машины.
  • Отличная расширяемость даже на начальных моделях и богатый комплект поставки.
  • Серверы IBM обычно дешевле конкурентов и не уступают в производительности. Например, поколения M3 и M4 дешевле, чем аналоги у HP (Gen7 и Gen8) и Dell (11G и 12G).
  • Самые недорогие расходники. Легко найти в России.
  • Удобная диагностическая панель на многих моделях.

Главное, в чём серверы IBM уступают конкурентам — у них очень долгий «холодный» старт.

Troubleshooting

Problem

The system powers off immediately after it is powered on, or powers off during runtime.

The system subsequently may or may not power on after removing and connecting AC power.

The following conditions may be observed:

Lightpath display panel: BRD light may be illuminated.

Power supply Light Emitting Diode (LED): AC LED turns on; DC and error LEDs turn off

Integrated Management Module (IMM) event: Sensor system board fault has changed to critical from a less severe state
Dynamic System Analysis (DSA) log: 12V OC Fault

Resolving The Problem

Source

RETAIN tip: H207641

Symptom

The system powers off immediately after it is powered on, or
powers off during runtime.

The system subsequently may or may not power on after removing
and connecting AC power.

The following conditions may be observed:

  • Lightpath display panel:
    • BRD light may be illuminated.
  • Power supply Light Emitting Diode (LED):
    • AC LED turns on; DC and error LEDs turn off
  • Integrated Management Module (IMM) event:
    • Sensor system board fault has changed to critical from a less
      severe state
  • Dynamic System Analysis (DSA) log:
    • 12V OC Fault

Affected Configurations

The system may be any of the following IBM servers:

  • System x3300 M4, type 7382, any model
  • System x3500 M4, type 7383, any model
  • System x3550 M4, type 7914, any model
  • System x3650 M4, type 7915, any model

This tip is not software specific.

This tip is not option specific.

Solution

Update the IMM firmware per the following product list:

  • IBM System x3550 M4: Version 1.97 Build ID: 1AOO36R
  • IBM System x3650 M4: Version 1.97 Build ID: 1AOO36R
  • IBM System x3500 M4: Version 1.97 Build ID: 1AOO36R
  • IBM System x3300 M4: Version 2.00 Build ID: 1AOO40E

If the server will not power on, replace the system board and
update the IMM firmware to listed version or later.

The file is available by selecting the appropriate Product
Group, type of System, Product name, Product machine type, and
Operating system on IBM Support’s Fix Central web page, at the
following URL:

  • http://www.ibm.com/support/fixcentral/

Additional Information

Processor and memory Voltage Regulator Device (VRD) faults have
been observed when the processor is performing transitions between
C-state 0 (normal operating mode) and deep C-state modes.

Integrated Management Module II (IMM2) provides dual banks
(primary and backup) to improve system availability and to provide
system recovery function.

During normal operation, IMM2 always starts from the primary
bank. The backup IMM bank is not an exact copy of the primary bank
and should be used only for recovering the primary bank in the
event of a firmware failure.

It is recommended to update the IMM2 backup bank due to the
critical fix. The backup bank update can be performed by using
UpdateXpress System Pack Installer (UXSPI) and the web interface.
Users are allowed to select either bank of IMM2 to perform firmware
update.

Document Location

Worldwide

Operating System

System x:Operating system independent / None

System x Hardware Options:Operating system independent / None

[{«Type»:»HW»,»Business Unit»:{«code»:»BU016″,»label»:»Multiple Vendor Support»},»Product»:{«code»:»HW740″,»label»:»System x Hardware Options->Memory»},»Platform»:[{«code»:»PF025″,»label»:»Platform Independent»}],»Line of Business»:{«code»:»»,»label»:»»}},{«Type»:»HW»,»Business Unit»:{«code»:»BU016″,»label»:»Multiple Vendor Support»},»Product»:{«code»:»HWXG4″,»label»:»System x->System x3300 M4″},»Platform»:[{«code»:»PF025″,»label»:»Platform Independent»}],»Line of Business»:{«code»:»»,»label»:»»}},{«Type»:»HW»,»Business Unit»:{«code»:»BU016″,»label»:»Multiple Vendor Support»},»Product»:{«code»:»QU01DEW»,»label»:»System x->System x3500 M4->7383″},»Platform»:[{«code»:»PF025″,»label»:»Platform Independent»}],»Line of Business»:{«code»:»»,»label»:»»}},{«Type»:»HW»,»Business Unit»:{«code»:»BU016″,»label»:»Multiple Vendor Support»},»Product»:{«code»:»QU01DKP»,»label»:»System x->System x3650 M4->7915″},»Platform»:[{«code»:»PF025″,»label»:»Platform Independent»}],»Line of Business»:{«code»:»»,»label»:»»}},{«Type»:»HW»,»Business Unit»:{«code»:»BU016″,»label»:»Multiple Vendor Support»},»Product»:{«code»:»QU91IPI»,»label»:»System x->System x3550 M4->7914″},»Platform»:[{«code»:»PF025″,»label»:»Platform Independent»}],»Line of Business»:{«code»:»»,»label»:»»}}]

Problem

The server is unable to complete Power On Self Test (POST) and powers off with Light Path Diagnostics (LPD) BRD and FAN Light Emitting Diodes (LEDs) lit. Logged events from the Integrated Management Module (IMM) shows the following.

1. I — 12/22/2011:14:18:45 — «Host Power» has been turned off

2. E — 12/22/2011:14:18:45 — Non-redundant:Insufficient Resources for «Cooling Zone 3» has asserted

3. E — 12/22/2011:14:18:40 — Non-redundant:Insufficient Resources for «Cooling Zone 1» has asserted

4. E — 12/22/2011:14:14:7 — Redundancy Lost for «Cooling Zone 2» has asserted

5. E — 12/22/2011:14:14:1 — Redundancy Lost for «Cooling Zone 3» has asserted

6. E — 12/22/2011:14:14:0 — Redundancy Lost for «Cooling Zone 1» has asserted

Resolving The Problem

Source

RETAIN tip: H205178

Symptom

The server is unable to complete Power On Self Test (POST) and powers off with Light Path Diagnostics (LPD) BRD and FAN Light Emitting Diodes (LEDs) lit. Logged events from the Integrated Management Module (IMM) shows the following.

 
  1. I — 12/22/2011:14:18:45 — «Host Power» has been turned off

  2. E — 12/22/2011:14:18:45 — Non-redundant:Insufficient Resources for «Cooling Zone 3» has asserted

  3. E — 12/22/2011:14:18:40 — Non-redundant:Insufficient Resources for «Cooling Zone 1» has asserted

  4. E — 12/22/2011:14:14:7 — Redundancy Lost for «Cooling Zone 2» has asserted

  5. E — 12/22/2011:14:14:1 — Redundancy Lost for «Cooling Zone 3» has asserted

  6. E — 12/22/2011:14:14:0 — Redundancy Lost for «Cooling Zone 1» has asserted

Affected configurations

The system may be any of the following IBM servers:

  • System x3550 M3, type 7944, any model
  • System x3650 M3, type 7945, any model

This tip is not software specific.

This tip is not option specific.

Workaround

The fix for this issue is to check the number of PCI Riser card assemblies installed in the server and make sure there is a PCI Riser card installed in connector 2.

Additional information

The root cause for this issue is a PCI Riser card assembly must be installed in connector 2, even if you do not have an option adapter to install.

To identify this issue, when the BRD LED is lit and all cooling zones are asserted at the same time, remove the server cover and check if PCI Riser card 2 LED is on.

Document Location

Worldwide

Operating System

System x:Operating system independent / None

[{«Type»:»HW»,»Business Unit»:{«code»:»BU016″,»label»:»Multiple Vendor Support»},»Product»:{«code»:»QU04SLL»,»label»:»System x->System x3650 M3->7945″},»Platform»:[{«code»:»PF025″,»label»:»Platform Independent»}],»Line of Business»:{«code»:»»,»label»:»»}},{«Type»:»HW»,»Business Unit»:{«code»:»BU016″,»label»:»Multiple Vendor Support»},»Product»:{«code»:»QU04SMA»,»label»:»System x->System x3550 M3->7944″},»Platform»:[{«code»:»PF025″,»label»:»Platform Independent»}],»Line of Business»:{«code»:»»,»label»:»»}}]

О LENOVO

  • Наша компания

  • Новости

  • Контакт

  • Соответствие продукта

  • Работа в Lenovo

  • Общедоступное программное обеспечение Lenovo

КУПИТЬ

  • Где купить

  • Рекомендованные магазины

  • Стать партнером

Поддержка

  • Драйверы и Программное обеспечение

  • Инструкция

  • Инструкция

  • Поиск гарантии

  • Свяжитесь с нами

  • Поддержка хранилища

РЕСУРСЫ

  • Тренинги

  • Спецификации продуктов ((PSREF)

  • Доступность продукта

  • Информация об окружающей среде

©

Lenovo.

|
|
|
|

Lenovo x3650 M5無法開機—SYS BRD ERROR

  中午在幫公司一台x3650 M5安裝Windows Update並重開機後,就再也喚醒不能,一度懷疑是不是Updates的bug造成,畢竟近期Updates的問題出現的有點頻繁。把機殼打開後,除了一顆LED 163亮error外,看到SYS BRD ERROR這顆也亮了,很想直接宣判死刑,請DBA同仁趕緊進行後續補救措施,不過同事外出吃飯,加上這台是公司主要的DB Server,如果放棄這台,補救時間起碼要兩小時,且早上建的資料都要重來了,因此還是急切的尋找喚醒它的機會。

  上網搜尋關於SYS BRD ERROR的資訊,運氣很好的找到對岸一位高手,直接點出有可能是鋰電池造成,在沒有其他方法可試的情況下,只好孤注一擲。順帶一提,x3650的CR2032還真是不好拔,太用力又怕傷到主機板,後來同事總算試出方法,要先把CR2032斜扳成45度,才能抽出。隨手從一旁的PC拔一顆CR2032換上後,總算成功開機,真是謝天謝地。

  後續進IMM查看log,顯示的錯誤訊息是”Sensor SysBrd Vol Fault has transitioned to critical from a less severe state.”,看起來確實是鋰電池造成的,這次運氣蠻好的,因為同樣是SYS BRD ERROR,也有人遇到的是RAM跟主機板的問題,而這台RAM看起來只有一條,真是不幸中的大幸。

【連IMM的方式】

  1. BIOS設好IP,直接從指定IP以瀏覽器進入。
  2. 在Windows裡面啟用「IBM USB Remote NDIS Network Device」這張網卡,再以”169.254.95.118″進入。
  3. 筆電網路線直接接IMM孔,網段設成”192.168.70.0/24″,以”192.168.70.125″登入。

【參考資訊】

  • 【已解决】求专家 IBM x3650 M3 服务器BRD亮黄灯 – 服务器论坛 – 51CTO技术论坛_中国领先的IT技术社区
  • Integrated Management Module II (IMM2) 基本操作-联想知识库

One Response

Leave a Comment

IBM X3650 M5 SYS BRD ERR Yellow Light Maintenance

tags: notes

IBM X3650 M5 SYS BRD ERR Yellow Light Maintenance Masterboard

  • It is also more than the X3650 M4 and M5 servers in the Pearl River Delta region, and often receives customers’ repairs. I have written about M5 before, because after-sales maintenance quoted users sure to pain, so I will write M5, press the start button, not start, After waiting for a few seconds, the server exclamation is warned, the maintenance process: After the main board has a set voltage, the cause of the fault is a group for short circuit, directly change the power supply chip OK, «There is a communication of this fault together Weixin is CFX02100313.
  1. Insert a picture description here

  1. Open the cover, take off the CPU fan cover, you can see the wrong yellow light () BLGBLB array card) ![ 2. List item

  2. The demolition of the mother is relatively simple, no tool, unplug all connecting lines. There are two green buttons on the motherboard, and you can take it out.List item 2.

  3. List item

Side test edge and other customers come to take, ERP users are urgent ………

Intelligent Recommendation

How to set up an IBM x3650 m3 server array

Both IBM x3650m3 and m4 use LSI chips, and the setting methods are roughly the same. You can refer to the following setting methods: 1. Press Ctrl+H to enter the Web Bios setting interface when the se…

IBM x3650 of Windows Server 2008 R2 and Hyper-V

Gossip: Due to business needs, an IBM System x3650 (7979, manufactured in 2008, BIOS version V1.12) was upgraded to Windows Server 2008 R2. As a result, various problems appeared from the beginning of…

More Recommendation

Light yellow dress

The wrong place is assigned to int (a) at the starting value of m If 1000, 9568 is smaller than it Cannot update r later…

D-light yellow long skirt

Greedy question The meaning of the title is ai bi For example, a1 b1 a2 b2 The penalty time is ti-bi (ti is the sum of ai) We want to minimize the maximum penalty time Let’s continue with the example …

Hide Intellij Idea yellow light bulb

When editing with IDEA, a small yellow light bulb appears frequently at the beginning of the cursor line. Its effect is the same as the shortcut key Alt + Enter, because it will affect the mouse click…

Copyright  DMCA © 2018-2023 — All Rights Reserved — www.programmersought.com  User Notice

Top

← Вернуться в раздел «Общие вопросы»

http://publib.boulder.ibm.com/infocenter/systemx/documentation/index.jsp?topic=/com.ibm.sysx.7914.doc/r_light_path_diagnostics_table.html

Можно установить только три куллера.
А разъемов под куллеры 6 и 6 индикаторов на плате.
На плате горят три светодиода рядом с посадочным разъемом.
Все три куллера работают на мкс. оборотах как при включени после отсутствия элекричества.
При загрузке системы сервер отключается минуты через 2
Суппорт сможет помочь только в понедельник .

Автор: vitektm
Дата сообщения: 20.08.2014 00:46

в слоты памяти для цпу1 должны быть вставлены планки памяти. если память вставлена только в слоты для цпу2 то система грузится но появляются ошибки fan и brd. В мануале ibm не было такого варианта’ или он был очень хитро завуалирован.
Проблема решена. Память поставил согласно мануала’ правда в двухканальном режиме т.к лицензия стандарт и ограничение в 32 гб. Правда пришлось немного перебрать комбинации установки памяти. память была разного объема и вендоров.

Страницы: 1

Предыдущая тема: huawei e3276 M150-1 Код ошибки 10, порт не найден


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель — сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.


Go to techsupport


r/techsupport

Stumped on a Tech problem? Ask the tech support reddit, and try to help others with their problems as well.

Be sure to check out the Discord server, too!
https://rtech.support/discord




Members





Online



IBM X3850 X5 (7145) Server Giving a Board Error and Posting F:A and 6:7

My IBM X3850 X5 (7145) Server Giving a Board Error and Posting F:A and 6:7 on its light path panel (NO POST)

i recently applied a FPGA 5.01 update and i think that caused something to fail due to a power issue but how would i fix this? like do i need to replace the IO Assembly Board?

More posts you may like

Понравилась статья? Поделить с друзьями:
  • Ibm x3550 m3 коды ошибок
  • Ibm thinkpad 600 ошибка 192
  • Ibm system x3550 m3 ошибка dasd
  • Ibm mq ошибка 2030
  • Ibexpert gds32 dll ошибка