Время на прочтение
6 мин
Количество просмотров 42K
Привет, Хабр! В прошлых статьях мы касались ошибок и проблем с серверами Dell и HP, и наш рассказ об ошибках refurbished-серверов был бы неполон без упоминания продукции третьего вендора «большой тройки» — IBM. Хотя эта славная корпорация уже отошла от производства серверов, её продукция ещё активно используется. Поэтому спешим поделиться с вами накопленным опытом «укрощения» серверов IBM. Это не исчерпывающий список проблем, но всё же он может оказаться кому-то полезен.
Оперативная память
Серверы IBM чувствительны по отношению к конфигурации модулей памяти. Зачастую после самостоятельного апгрейда — добавления памяти или её замены — сервер не загружается, либо видит меньше памяти, чем установлено на самом деле. К счастью, в подобных ситуациях не приходится долго гадать о причинах сбоя: на диагностической панели (если таковая имеется) загораются два индикатора Config и Memory.
Поэтому, прежде чем апгрейдить память обязательно изучите спецификацию, память какого типа и объёма поддерживается вашим сервером. Также большое значение имеет количество процессоров в сервере — от этого зависит порядок размещения модулей в слотах. Это тоже необходимо уточнить в спецификации.
Вообще, с памятью ровно такая же ситуация, как описано в статье про HP, например. Вкратце:
- Соблюдайте канальность памяти.
- Ставьте ECC REG 1(2)Rx4 память в двухпроцессорные системы и UDIMM — в однопроцессорные.
- Ставьте одинаковый объём памяти на каждый процессор.
А что делать, если вы вставили память в соответствии с инструкциями, а сервер всё равно не работает и предательски горит индикатор Memory? В этом случае придётся проверять разные варианты:
- Этот тип памяти не поддерживается сервером. Внимательно сверьтесь со спецификациями.
- Память оказалась «битой». Замените линейку на точно такую же и проверьте, заведётся ли сервер.
- Засорился пылью слот на материнской плате. Это довольно популярная причина, если сервер трудится уже несколько лет, а тем более если вы его не первый владелец. Продуйте слоты сжатым воздухом.
- Загнутый контакт в сокете. Такое бывает очень редко, но всё же бывает: память отказывается работать из-за загнутого контакта в сокете процессора. Если предыдущие варианты не помогли найти причину сбоя, снимите процессор и внимательно осмотрите сокет. Если вы оказались в числе немногочисленных «счастливчиков», то можете попробовать осторожно выпрямить погнутый контакт, но это исключительно на ваш страх и риск.
Многие сисадмины сталкиваются с тем, что при проверке оперативной памяти с помощью MemTest86 получают сообщения об ошибках даже в заведомо рабочих модулях, либо на одних и тех же дорожках. Особенно часто это встречается у серверов поколения M4. Это вовсе не вина машин или памяти: MemTest86 не рекомендуется использовать для проверки серверной памяти. Если же память начнёт сбоить, то сервер сообщит об этом через диагностическую панель. Проверять память на серверах IBM лучше стандартными средствами самодиагностики.
Накопители
Мы уже неоднократно упоминали о том, что совсем не обязательно устанавливать в серверах «родные» накопители. Ни IBM, ни другие вендоры их не производят, они лишь приобретают их у всем известных производителей, перепрошивают и клеят свои логотипы. Поэтому вы можете без труда сэкономить на апгрейде или восстановлении дисковых массивов, выбрав аналоги вместо «родных» накопителей. Двух-трёхкратная разница в цене это оправдывает, особенно если речь идёт о refurbished-серверах. В сети можно легко найти таблицы соответствия моделей, например:
Модель IBM | Оригинал |
---|---|
IBM 49Y2003 | Seagate ST9600204SS |
IBM 90Y8872 | Seagate ST9600205SS |
IBM 90Y8908 | Seagate ST9600105SS |
IBM 81Y9650 | Seagate ST900MM0006 |
Тем не менее, ещё возможны ситуации несовместимости «неродных» накопителей с сервером. В этом случае сервер не грузится штатно, либо не видит накопитель. Обычно это решается с помощью установки свежей прошивки RAID-контроллера. К слову, рекомендуется обновить прошивку и бэкплейна/экспандера, в этом вам поможет приложение IBM Bootable Media Creator (BoMC).
При включении сервера и прохождении POST-проверки возможно появление ошибки:
A discovery error has occurred, please powercycle the system and all the enclosures attached to this system.
Это сигнализирует о проблеме с одним из накопителей. Вычислить его просто: индикаторы на его салазках постоянно мигают, даже когда все остальные носители прошли проверку и перестали мигать.
С дисковой подсистемой бывают и более экзотические проблемы. Например, при использовании RAID-1 в фирменном приложении MegaRAID Storage Manager могут появиться ошибки вида:
ID = 63
SEQUENCE NUMBER = 48442
TIME = 24-01-2016 17:03:59
LOCALIZED MESSAGE = Controller ID: 0 Consistency Check found inconsistent parity on VD strip: ( VD = 0, strip = 637679)
Чаще всего это говорит не об умирании диска, а об ошибке контроля чётности — несовпадении данных на основном и вторичном дисках. Возможные причины:
- Нередко такие ошибки появляются сразу после конфигурирования нового массива или после замены одного из дисков.
- Во время сеанса диагностики поверхности блинов происходит инициализация диска и выполнение операций ввода/вывода. На RAID-1 это может привести к временному несоответствию томов, которое автоматически исправляется при следующей проверке на соответствие. Такое возникает не при любом сеансе диагностики, а когда сходятся звёзды:
- o Используется RAID-контроллер без кэширования, либо активирован режим Write Through.
- o Нехватка оперативной памяти, при которой с диска осуществляется активная подкачка страниц.
- o Просто очень интенсивное использование дисков.
Для решения этой проблемы рекомендуется снизить активность подкачки с диска: используйте RAID-контроллер с кэшированием и увеличьте объём оперативной памяти.
Обновление прошивок и ПО
Любопытная проблема может подстерегать при установке с нуля Windows 2012 или Windows 2012 R2 — свежеустановленная операционка не видит ни одного накопителя. Причём такое бывает не только с серверами IBM. Дело в том, что все накопители в сервере подключены через RAID, а упомянутые версии ОС не имеют вшитых драйверов для работы с RAID. И поэтому они их просто игнорируют. Как быть? Самый надёжный способ: использовать утилиту IBM ServerGuide. При установке ОС она принудительно подсовывает все необходимые драйвера для данной модели и версии операционной системы. Обратите внимание, что образ ОС должен устанавливаться с диска, а не с флэшки: ServerGuide не будет работать с образом на том же USB-носителе, с которого запущен сам.
При покупке серверов бывают ситуации, когда нужно сначала обновить все прошивки, а потом уже накатывать систему. Сделать это можно с помощью вышеупомянутой IBM Bootable Media Creator:
- Загрузитесь с загрузочной флешки или диска.
- Запустите BoMC от имени Администратора.
- Выберите, что вы хотите сделать: обновить и/или провести диагностику.
- Программа спросит, где ей взять драйверы: скачать самой или вытащить из указанного вами архива.
- Выберите носитель для записи загрузочного образа: флэшку или диск. Запись может идти несколько часов, не волнуйтесь, программа не зависла.
- По окончании записи загрузитесь с этого носителя, и далее по инструкции.
Эта процедура помогает и в ряде проблемных ситуаций. Например, если вы не дождались завершения обновления Integrated Management Module и нажали кнопку «отмена», то при следующих загрузках сервер может не суметь загрузить IMM и использует настройки по умолчанию. Можно сначала попытаться восстановить с помощью джампера “UEFI & IMM recovery jumper” на материнской плате, благодаря которому загружается прошитый образ IMM.
Но если не поможет, то воспользуйтесь процедурой обновления через BoMC.
Бывают и более неприятные ситуации, когда по закону подлости в ходе установки более свежей версии BIOS’а происходит сбой питания.
После этого сервер уже не может загрузить основную прошивку, и использует резервную. Если штатная процедура восстановления BIOS’а не помогает, то сделайте… даунгрейд: установите более старую прошивку, чем та, что была до сбоя питания. Обычно это помогает. После этого уже можно попытаться снова поставить свежую версию BIOS’а. Как говорится, шаг назад — два вперёд.
Другие проблемы
Иногда при попытке удалённого управления сервером возникает ошибка “Login failed with an access denied error.”, причём в любых браузерах. Если перезагрузка сервера и клиента не помогает, то рекомендуется сбросить IMM до заводских настроек.
В статье про ошибки серверов HP мы упоминали о проблемах с системой охлаждения: сразу после запуска сервера вентиляторы выходили на высокие обороты и уже не снижали их. Случается такой недуг и в серверах IBM. Сервер воет, как реактивный лайнер на взлёте. Нам не удалось выяснить причину таких сбоев, но посоветовать можно следующее:
- Проверьте плотность подключения разъёмов питания.
- Отключите все вентиляторы и снимите корзину.
- Проверьте каждый вентилятор на других серверах.
- Соберите корзину снова, поменяв вентиляторы местами. Либо совсем их замените.
Встречался в нашей практике и такой интересный сбой: при загрузке сервера штатно инициализируется IMM, затем начинается инициализация UEFI, и… всё. Дальше сервер не грузится без объяснения причин. Не помогали никакие манипуляции: отключение от сети, полное обесточивание, отключение разных компонентов. Загрузка бэкапа UEFI с помощью джампера на материнской плате тоже не помогла. Опытным путём выяснилось, что если подождать около 20 минут, то всё же можно дождаться загрузки сервера. Так он и работает с тех пор — каждый раз грузится по 20 минут. Выяснить причину сбоя не удалось.
Преимущества серверов IBM
Серверы IBM заслуженно пользуются большой популярностью:
- Это простые и очень надёжные машины.
- Отличная расширяемость даже на начальных моделях и богатый комплект поставки.
- Серверы IBM обычно дешевле конкурентов и не уступают в производительности. Например, поколения M3 и M4 дешевле, чем аналоги у HP (Gen7 и Gen8) и Dell (11G и 12G).
- Самые недорогие расходники. Легко найти в России.
- Удобная диагностическая панель на многих моделях.
Главное, в чём серверы IBM уступают конкурентам — у них очень долгий «холодный» старт.
IBMОписание тревоги индикатора сервера
1. Панель диагностики светового тракта
Кнопка напоминания:Эта кнопка устанавливает индикатор системной ошибки на передней панели как режим напоминания. В режиме напоминания загорается индикатор системной ошибки.2 Мигает раз в секунду,Пока проблема не будет исправлена, система перезапустится или возникнет новая проблема. Установив индикатор системной ошибки в режим напоминания, вы можете подтвердить, что знаете о предыдущем сбое, но не принимаете немедленных мер для устранения проблемы. Функция напоминания контролируетсяIMM контроль.
NMI Кнопка:Нажмите эту кнопку, чтобы микропроцессор сгенерировал немаскируемое прерывание. Это позволяет сделать синий экран сервера и выполнить дамп памяти (только еслиIBM Эту кнопку можно использовать только по указанию обслуживающего персонала).
Экран кода контрольной точки:На этом экране отображается код контрольной точки, указывающий, что система остановится в этой точке во время блока загрузки и POST.
Код контрольной точки — это значение байта или слово, сгенерированное UEFI. На этом экране не отображаются коды ошибок или рекомендуемые компоненты для замены.
кнопка сброса:Нажмите эту кнопку, чтобы перезагрузить сервер и запустить самотестирование при включении (POST). Для нажатия кнопки может потребоваться кончик ручки или конец выпрямленной канцелярской скрепки. Кнопка сброса расположена в правом нижнем углу панели диагностики светового тракта.
over spec Индикатор:Когда этот световой индикатор горит, это означает, что потребность в мощности превышает указанный источник питания.
log Индикатор:Когда этот индикатор горит, это означает, что в журнале событий есть ошибка, и вам следует проверить журнал событий.
linkИндикатор: Когда этот индикатор горит, сетевая карта неисправна.
psИндикатор:Когда этот световой индикатор горит, это указывает на отказ источника питания.
pci Индикатор:Если этот индикатор горит, это означает, что на шине PCI возникла ошибка.
sp Индикатор:Когда этот индикатор горит, это указывает на то, что потоковый процессор обнаружил ошибку (роль sp заключается в обработке данных, переданных ЦП, и преобразовании их в цифровой сигнал, который может быть распознан дисплеем после обработки)
fan: Когда этот индикатор горит, это означает, что охлаждающий вентилятор или вентилятор блока питания вышел из строя или работает слишком медленно. Отказ вентилятора также может вызватьtemp Световой индикатор горит.
temp Индикатор: Когда этот индикатор горит, это означает, что температура системы слишком высока.
mem Индикатор: Когда этот индикатор горит, это означает, что произошла ошибка памяти.
nmi Индикатор:Когда этот индикатор горит, это означает, что произошло немаскируемое прерывание (nmi)。
cnfgИндикатор: Когда этот индикатор горит, это означаетBIOSОшибка конфигурации.
cpu Индикатор:Когда этот индикатор горит, это означает, что микропроцессор вышел из строя.
vrm Индикатор:Когда этот индикатор горит, это означает, чтоvrm произошла ошибка.
dasd Индикатор:Когда этот индикатор горит, это означает, что произошел сбой жесткого диска с возможностью горячей замены.
raid Индикатор:Когда этот индикатор горит, это означает, что карта массива неисправна.
brd Индикатор:Когда этот индикатор горит, это означает, что подключенныйi/o Блок расширения неисправен.
2. Информационная панель оператора
Крышка кнопки управления питанием:Сдвиньте крышку на кнопку управления питанием, чтобы предотвратить случайное выключение сервера.
Кнопка управления питанием:Нажмите эту кнопку, чтобы вручную включить и выключить сервер.
Источник питанияИндикатор:Если индикатор горит и не мигает, это означает, что сервер включен; если индикатор мигает, это означает, что сервер выключен и все еще подключен к источнику переменного тока; если индикатор не горит, это означает, что нет питания переменного тока или источника питания, или сам индикатор неисправен . Заметка:Если этот индикатор не горит, это не означает, что на сервере нет питания. Световой индикатор может перегореть. Чтобы полностью отключить питание сервера, необходимо вынуть шнур питания из розетки.
Индикатор значка Ethernet:Этот индикатор загорается значком Ethernet.
Индикатор активности Ethernet:Если эти индикаторы мигают, это означает, что между сервером и сетью существует активность на указанном ими порте.
Индикатор локатора:Используйте этот индикатор, чтобы найти целевой сервер среди множества серверов невооруженным глазом. можно использоватьIBM Director Световой индикатор можно включить дистанционно или вручную, нажав кнопку локатора. Этот индикатор также загорится при запуске. Если в многоузловой конфигурации этот индикатор мигает, это означает, что соответствующий ему сервер является главным узлом. Если индикатор продолжает гореть, это означает, что соответствующий ему сервер является вторичным узлом.
Кнопка локатора:Нажмите эту кнопку, чтобы вручную включить или выключить индикатор локатора. В многоузловой конфигурации нажмите эту кнопку, чтобы включить или выключить индикаторы локатора всех узлов в конфигурации.
Информационный индикатор:Если этот индикатор горит, это означает, что какой-то аспект сервера находится не в оптимальном состоянии, и при диагностике светового пути загорится еще один индикатор, помогающий определить проблему. Только после того, как проблема будет решена или будет нажата кнопка напоминания, световой индикатор и световой индикатор на диагностической панели светового тракта погаснут.
Индикатор системной ошибки:Если этот индикатор горит, это означает, что произошла системная ошибка. Индикатор на диагностической панели светового тракта также загорится, чтобы помочь найти эту ошибку.
Эта статья перенесена из блога easy80851CTO, исходная ссылка:http://blog.51cto.com/68240021/1970874Если вам нужно перепечатать, пожалуйста, свяжитесь с первоначальным автором
Содержание
- Ошибка dasd что значит
- Русские Блоги
- Описание аварийного сигнала светового индикатора сервера IBM
- Ошибки и проблемы серверов большой тройки: часть третья. IBM
- Оперативная память
- Накопители
- Обновление прошивок и ПО
- Другие проблемы
- Преимущества серверов IBM
Ошибка dasd что значит
Сообщения: 90
Благодарности: 0
Установлен IBM xSeries 346. Внутри — 3 диска по 70гиг (IBM 90P1309) и два по 140 (IBM 90P1310).
Насколько я вижу (т.к. досталось это хозяйство в наследство) 3 по 70 собраны в Raid 5, а два по 140 — в Raid 1.
Не так давно на одном из 70 начала гореть оранжевая лампочка, что по цветовой идентификации распознается как DASD (A hard disk drive rror has occured) с предложением исправить ошибку как «Check the LEDs on the hard disk drives and replace the indicated drive»
Сначала лампочка помигивала, а сейчас уже горит ровным цветом . Соответственно при перезагрузке компьютера я вижу две очень непряитные для меня строчки:
1. Logical drive is critical
2. Defunct drive
Сервер работает, что не может не радовать потому как это — главный домен-контроллер. Новые диски (а я заказал весь комплект: 3 по 70 и два по 140) в дороге. Но дорога длинная.
Утилита, идущая в комплекте, ServeRAID Manager, выдает такую картинку:
Собственно, проблемный диск как бы виден. При вызове контекстного меню на нем мне предлагается Rebuild. Теперь собственно вопросы.
1. Могу ли я провести этот «ребилдинг» в нормальном рабочем состоянии, т.е. из-под Windows, домен-контроллер работает,и в это самый момент я провожу операцию. Или же лучше приостановить работу?
2. Попадался на глаза пост, что во время проведения «ребилдинга» данные восстановились, но с откатом на две недели назад. Меня такой вариант не очень устраивает
3. Да и вообще — насколько опасна эта операция?
Источник
Русские Блоги
Описание аварийного сигнала светового индикатора сервера IBM
IBM Описание тревоги индикатора сервера
1. Панель диагностики светового тракта
Кнопка напоминания: Эта кнопка устанавливает индикатор системной ошибки на передней панели как режим напоминания. В режиме напоминания загорается индикатор системной ошибки. 2 Мигает раз в секунду, Пока проблема не будет исправлена, система перезапустится или возникнет новая проблема. Установив индикатор системной ошибки в режим напоминания, вы можете подтвердить, что знаете о предыдущем сбое, но не принимаете немедленных мер для устранения проблемы. Функция напоминания контролируется IMM контроль.
NMI Кнопка: Нажмите эту кнопку, чтобы микропроцессор сгенерировал немаскируемое прерывание. Это позволяет сделать синий экран сервера и выполнить дамп памяти (только если IBM Эту кнопку можно использовать только по указанию обслуживающего персонала).
Экран кода контрольной точки: На этом экране отображается код контрольной точки, указывающий, что система остановится в этой точке во время блока загрузки и POST.
Код контрольной точки — это значение байта или слово, сгенерированное UEFI. На этом экране не отображаются коды ошибок или рекомендуемые компоненты для замены.
кнопка сброса: Нажмите эту кнопку, чтобы перезагрузить сервер и запустить самотестирование при включении (POST). Для нажатия кнопки может потребоваться кончик ручки или конец выпрямленной канцелярской скрепки. Кнопка сброса расположена в правом нижнем углу панели диагностики светового тракта.
over spec Индикатор: Когда этот световой индикатор горит, это означает, что потребность в мощности превышает указанный источник питания.
log Индикатор: Когда этот индикатор горит, это означает, что в журнале событий есть ошибка, и вам следует проверить журнал событий.
link Индикатор : Когда этот индикатор горит, сетевая карта неисправна.
ps Индикатор:Когда этот световой индикатор горит, это указывает на отказ источника питания.
pci Индикатор:Если этот индикатор горит, это означает, что на шине PCI возникла ошибка.
sp Индикатор:Когда этот индикатор горит, это указывает на то, что потоковый процессор обнаружил ошибку (роль sp заключается в обработке данных, переданных ЦП, и преобразовании их в цифровой сигнал, который может быть распознан дисплеем после обработки)
fan : Когда этот индикатор горит, это означает, что охлаждающий вентилятор или вентилятор блока питания вышел из строя или работает слишком медленно. Отказ вентилятора также может вызвать temp Световой индикатор горит.
temp Индикатор : Когда этот индикатор горит, это означает, что температура системы слишком высока.
mem Индикатор : Когда этот индикатор горит, это означает, что произошла ошибка памяти.
nmi Индикатор:Когда этот индикатор горит, это означает, что произошло немаскируемое прерывание ( nmi )。
cnfg Индикатор: Когда этот индикатор горит, это означает BIOS Ошибка конфигурации.
cpu Индикатор:Когда этот индикатор горит, это означает, что микропроцессор вышел из строя.
vrm Индикатор:Когда этот индикатор горит, это означает, что vrm произошла ошибка.
dasd Индикатор:Когда этот индикатор горит, это означает, что произошел сбой жесткого диска с возможностью горячей замены.
raid Индикатор:Когда этот индикатор горит, это означает, что карта массива неисправна.
brd Индикатор:Когда этот индикатор горит, это означает, что подключенный i/o Блок расширения неисправен.
2. Информационная панель оператора
Крышка кнопки управления питанием: Сдвиньте крышку на кнопку управления питанием, чтобы предотвратить случайное выключение сервера.
Кнопка управления питанием: Нажмите эту кнопку, чтобы вручную включить и выключить сервер.
Источник питания Индикатор: Если индикатор горит и не мигает, это означает, что сервер включен; если индикатор мигает, это означает, что сервер выключен и все еще подключен к источнику переменного тока; если индикатор не горит, это означает, что нет питания переменного тока или источника питания, или сам индикатор неисправен . Заметка : Если этот индикатор не горит, это не означает, что на сервере нет питания. Световой индикатор может перегореть. Чтобы полностью отключить питание сервера, необходимо вынуть шнур питания из розетки.
Индикатор значка Ethernet: Этот индикатор загорается значком Ethernet.
Индикатор активности Ethernet: Если эти индикаторы мигают, это означает, что между сервером и сетью существует активность на указанном ими порте.
Индикатор локатора: Используйте этот индикатор, чтобы найти целевой сервер среди множества серверов невооруженным глазом. можно использовать IBM Director Световой индикатор можно включить дистанционно или вручную, нажав кнопку локатора. Этот индикатор также загорится при запуске. Если в многоузловой конфигурации этот индикатор мигает, это означает, что соответствующий ему сервер является главным узлом. Если индикатор продолжает гореть, это означает, что соответствующий ему сервер является вторичным узлом.
Кнопка локатора: Нажмите эту кнопку, чтобы вручную включить или выключить индикатор локатора. В многоузловой конфигурации нажмите эту кнопку, чтобы включить или выключить индикаторы локатора всех узлов в конфигурации.
Информационный индикатор: Если этот индикатор горит, это означает, что какой-то аспект сервера находится не в оптимальном состоянии, и при диагностике светового пути загорится еще один индикатор, помогающий определить проблему. Только после того, как проблема будет решена или будет нажата кнопка напоминания, световой индикатор и световой индикатор на диагностической панели светового тракта погаснут.
Индикатор системной ошибки: Если этот индикатор горит, это означает, что произошла системная ошибка. Индикатор на диагностической панели светового тракта также загорится, чтобы помочь найти эту ошибку.
Источник
Ошибки и проблемы серверов большой тройки: часть третья. IBM
Привет, Хабр! В прошлых статьях мы касались ошибок и проблем с серверами Dell и HP, и наш рассказ об ошибках refurbished-серверов был бы неполон без упоминания продукции третьего вендора «большой тройки» — IBM. Хотя эта славная корпорация уже отошла от производства серверов, её продукция ещё активно используется. Поэтому спешим поделиться с вами накопленным опытом «укрощения» серверов IBM. Это не исчерпывающий список проблем, но всё же он может оказаться кому-то полезен.
Оперативная память
Серверы IBM чувствительны по отношению к конфигурации модулей памяти. Зачастую после самостоятельного апгрейда — добавления памяти или её замены — сервер не загружается, либо видит меньше памяти, чем установлено на самом деле. К счастью, в подобных ситуациях не приходится долго гадать о причинах сбоя: на диагностической панели (если таковая имеется) загораются два индикатора Config и Memory.
Поэтому, прежде чем апгрейдить память обязательно изучите спецификацию, память какого типа и объёма поддерживается вашим сервером. Также большое значение имеет количество процессоров в сервере — от этого зависит порядок размещения модулей в слотах. Это тоже необходимо уточнить в спецификации.
Вообще, с памятью ровно такая же ситуация, как описано в статье про HP, например. Вкратце:
- Соблюдайте канальность памяти.
- Ставьте ECC REG 1(2)Rx4 память в двухпроцессорные системы и UDIMM — в однопроцессорные.
- Ставьте одинаковый объём памяти на каждый процессор.
А что делать, если вы вставили память в соответствии с инструкциями, а сервер всё равно не работает и предательски горит индикатор Memory? В этом случае придётся проверять разные варианты:
- Этот тип памяти не поддерживается сервером. Внимательно сверьтесь со спецификациями.
- Память оказалась «битой». Замените линейку на точно такую же и проверьте, заведётся ли сервер.
- Засорился пылью слот на материнской плате. Это довольно популярная причина, если сервер трудится уже несколько лет, а тем более если вы его не первый владелец. Продуйте слоты сжатым воздухом.
- Загнутый контакт в сокете. Такое бывает очень редко, но всё же бывает: память отказывается работать из-за загнутого контакта в сокете процессора. Если предыдущие варианты не помогли найти причину сбоя, снимите процессор и внимательно осмотрите сокет. Если вы оказались в числе немногочисленных «счастливчиков», то можете попробовать осторожно выпрямить погнутый контакт, но это исключительно на ваш страх и риск.
Многие сисадмины сталкиваются с тем, что при проверке оперативной памяти с помощью MemTest86 получают сообщения об ошибках даже в заведомо рабочих модулях, либо на одних и тех же дорожках. Особенно часто это встречается у серверов поколения M4. Это вовсе не вина машин или памяти: MemTest86 не рекомендуется использовать для проверки серверной памяти. Если же память начнёт сбоить, то сервер сообщит об этом через диагностическую панель. Проверять память на серверах IBM лучше стандартными средствами самодиагностики.
Накопители
Мы уже неоднократно упоминали о том, что совсем не обязательно устанавливать в серверах «родные» накопители. Ни IBM, ни другие вендоры их не производят, они лишь приобретают их у всем известных производителей, перепрошивают и клеят свои логотипы. Поэтому вы можете без труда сэкономить на апгрейде или восстановлении дисковых массивов, выбрав аналоги вместо «родных» накопителей. Двух-трёхкратная разница в цене это оправдывает, особенно если речь идёт о refurbished-серверах. В сети можно легко найти таблицы соответствия моделей, например:
Модель IBM | Оригинал |
---|---|
IBM 49Y2003 | Seagate ST9600204SS |
IBM 90Y8872 | Seagate ST9600205SS |
IBM 90Y8908 | Seagate ST9600105SS |
IBM 81Y9650 | Seagate ST900MM0006 |
Тем не менее, ещё возможны ситуации несовместимости «неродных» накопителей с сервером. В этом случае сервер не грузится штатно, либо не видит накопитель. Обычно это решается с помощью установки свежей прошивки RAID-контроллера. К слову, рекомендуется обновить прошивку и бэкплейна/экспандера, в этом вам поможет приложение IBM Bootable Media Creator (BoMC).
При включении сервера и прохождении POST-проверки возможно появление ошибки:
A discovery error has occurred, please powercycle the system and all the enclosures attached to this system.
Это сигнализирует о проблеме с одним из накопителей. Вычислить его просто: индикаторы на его салазках постоянно мигают, даже когда все остальные носители прошли проверку и перестали мигать.
С дисковой подсистемой бывают и более экзотические проблемы. Например, при использовании RAID-1 в фирменном приложении MegaRAID Storage Manager могут появиться ошибки вида:
ID = 63
SEQUENCE NUMBER = 48442
TIME = 24-01-2016 17:03:59
LOCALIZED MESSAGE = Controller ID: 0 Consistency Check found inconsistent parity on VD strip: ( VD = 0, strip = 637679)
Чаще всего это говорит не об умирании диска, а об ошибке контроля чётности — несовпадении данных на основном и вторичном дисках. Возможные причины:
- Нередко такие ошибки появляются сразу после конфигурирования нового массива или после замены одного из дисков.
- Во время сеанса диагностики поверхности блинов происходит инициализация диска и выполнение операций ввода/вывода. На RAID-1 это может привести к временному несоответствию томов, которое автоматически исправляется при следующей проверке на соответствие. Такое возникает не при любом сеансе диагностики, а когда сходятся звёзды:
- o Используется RAID-контроллер без кэширования, либо активирован режим Write Through.
- o Нехватка оперативной памяти, при которой с диска осуществляется активная подкачка страниц.
- o Просто очень интенсивное использование дисков.
Для решения этой проблемы рекомендуется снизить активность подкачки с диска: используйте RAID-контроллер с кэшированием и увеличьте объём оперативной памяти.
Обновление прошивок и ПО
Любопытная проблема может подстерегать при установке с нуля Windows 2012 или Windows 2012 R2 — свежеустановленная операционка не видит ни одного накопителя. Причём такое бывает не только с серверами IBM. Дело в том, что все накопители в сервере подключены через RAID, а упомянутые версии ОС не имеют вшитых драйверов для работы с RAID. И поэтому они их просто игнорируют. Как быть? Самый надёжный способ: использовать утилиту IBM ServerGuide. При установке ОС она принудительно подсовывает все необходимые драйвера для данной модели и версии операционной системы. Обратите внимание, что образ ОС должен устанавливаться с диска, а не с флэшки: ServerGuide не будет работать с образом на том же USB-носителе, с которого запущен сам.
При покупке серверов бывают ситуации, когда нужно сначала обновить все прошивки, а потом уже накатывать систему. Сделать это можно с помощью вышеупомянутой IBM Bootable Media Creator:
- Загрузитесь с загрузочной флешки или диска.
- Запустите BoMC от имени Администратора.
- Выберите, что вы хотите сделать: обновить и/или провести диагностику.
- Программа спросит, где ей взять драйверы: скачать самой или вытащить из указанного вами архива.
- Выберите носитель для записи загрузочного образа: флэшку или диск. Запись может идти несколько часов, не волнуйтесь, программа не зависла.
- По окончании записи загрузитесь с этого носителя, и далее по инструкции.
Эта процедура помогает и в ряде проблемных ситуаций. Например, если вы не дождались завершения обновления Integrated Management Module и нажали кнопку «отмена», то при следующих загрузках сервер может не суметь загрузить IMM и использует настройки по умолчанию. Можно сначала попытаться восстановить с помощью джампера “UEFI & IMM recovery jumper” на материнской плате, благодаря которому загружается прошитый образ IMM.
Но если не поможет, то воспользуйтесь процедурой обновления через BoMC.
Бывают и более неприятные ситуации, когда по закону подлости в ходе установки более свежей версии BIOS’а происходит сбой питания.
После этого сервер уже не может загрузить основную прошивку, и использует резервную. Если штатная процедура восстановления BIOS’а не помогает, то сделайте… даунгрейд: установите более старую прошивку, чем та, что была до сбоя питания. Обычно это помогает. После этого уже можно попытаться снова поставить свежую версию BIOS’а. Как говорится, шаг назад — два вперёд.
Другие проблемы
Иногда при попытке удалённого управления сервером возникает ошибка “Login failed with an access denied error.”, причём в любых браузерах. Если перезагрузка сервера и клиента не помогает, то рекомендуется сбросить IMM до заводских настроек.
В статье про ошибки серверов HP мы упоминали о проблемах с системой охлаждения: сразу после запуска сервера вентиляторы выходили на высокие обороты и уже не снижали их. Случается такой недуг и в серверах IBM. Сервер воет, как реактивный лайнер на взлёте. Нам не удалось выяснить причину таких сбоев, но посоветовать можно следующее:
- Проверьте плотность подключения разъёмов питания.
- Отключите все вентиляторы и снимите корзину.
- Проверьте каждый вентилятор на других серверах.
- Соберите корзину снова, поменяв вентиляторы местами. Либо совсем их замените.
Встречался в нашей практике и такой интересный сбой: при загрузке сервера штатно инициализируется IMM, затем начинается инициализация UEFI, и… всё. Дальше сервер не грузится без объяснения причин. Не помогали никакие манипуляции: отключение от сети, полное обесточивание, отключение разных компонентов. Загрузка бэкапа UEFI с помощью джампера на материнской плате тоже не помогла. Опытным путём выяснилось, что если подождать около 20 минут, то всё же можно дождаться загрузки сервера. Так он и работает с тех пор — каждый раз грузится по 20 минут. Выяснить причину сбоя не удалось.
Преимущества серверов IBM
Серверы IBM заслуженно пользуются большой популярностью:
- Это простые и очень надёжные машины.
- Отличная расширяемость даже на начальных моделях и богатый комплект поставки.
- Серверы IBM обычно дешевле конкурентов и не уступают в производительности. Например, поколения M3 и M4 дешевле, чем аналоги у HP (Gen7 и Gen8) и Dell (11G и 12G).
- Самые недорогие расходники. Легко найти в России.
- Удобная диагностическая панель на многих моделях.
Главное, в чём серверы IBM уступают конкурентам — у них очень долгий «холодный» старт.
Источник
To view the error logs, complete the following steps:
1. Turn on the server.
2. When the prompt Press F1 for Configuration/Setup appears, press F1. If you
3. Use one of the following procedures:
Viewing the BMC log from the diagnostic programs
The BMC log contains the same information whether it is viewed from the
Configuration/Setup Utility program or from the diagnostic programs.
Notes:
v Some of the error codes and messages in the BMC log are abbreviated.
v Viewing the BMC log through the web interface of the optional Remote
For information about using the diagnostic programs, see «Running the on-board
diagnostic programs» on page 111.
To view the BMC log, complete the following steps:
1. If the server is running, turn off the server and all attached devices.
2. Turn on all attached devices; then, turn on the server.
3. When the prompt F2 for Diagnostics appears, press F2. If you have set both a
4. From the top of the screen, select Hardware Info.
5. From the list, select BMC Log.
The following table describes the POST error codes and suggested actions to
correct the detected problems.
v Follow the suggested actions in the order in which they are listed in the Action column until the problem
is solved.
v See Chapter 3, «Parts listing, Type 8864,» on page 23 to determine which components are customer
replaceable units (CRU) and which components are field replaceable units (FRU).
v If an action step is preceded by «(Trained service technician only)», that step must be performed only by a
trained service technician.
Error code
Description
062
Three consecutive boot failures using the
default configuration.
72
IBM System x3850 Type 8864: Problem Determination and Service Guide
have set both a power-on password and an administrator password, you must
type the administrator password to view the error logs.
v To view the POST error log, select Error Logs, and then select POST Error
Log.
v To view the BMC log, select Advanced Settings, select Baseboard
Management Controller (BMC) settings, and then select BMC System
Event Log.
v To view the system-error log (available only if an optional Remote Supervisor
Adapter II SlimLine is installed), select Event/Error Logs, and then select
System Event/Error Log.
Supervisor Adapter II SlimLine allows all messages to be translated.
power-on password and an administrator password, you must type the
administrator password to run the diagnostic programs.
Action
1. Flash the system firmware to the latest level (see
«Updating the firmware» on page 13).
2. Reseat the I/O board.
3. Replace the I/O board.
О LENOVO
+
О LENOVO
-
Наша компания
-
Новости
-
Контакт
-
Соответствие продукта
-
Работа в Lenovo
-
Общедоступное программное обеспечение Lenovo
КУПИТЬ
+
КУПИТЬ
-
Где купить
-
Рекомендованные магазины
-
Стать партнером
Поддержка
+
Поддержка
-
Драйверы и Программное обеспечение
-
Инструкция
-
Инструкция
-
Поиск гарантии
-
Свяжитесь с нами
-
Поддержка хранилища
РЕСУРСЫ
+
РЕСУРСЫ
-
Тренинги
-
Спецификации продуктов ((PSREF)
-
Доступность продукта
-
Информация об окружающей среде
©
Lenovo.
|
|
|
|