Ошибка cuda при майнинге - Не ошибается лишь тот, кто ничего не делает!

Приветствую всех.
Народ подскажите пожалуйста уже всю голову сломал. Все фермы работают стабильно. На всех одинаковые карты 1080ti.
Но на одной ферме постоянно сыпятся ошибки. Эта ферма может проработать сутки а может час, потом перезагружается Майнер.
Характеристики фермы 6 карт 1080ti. 128 ssd, 4 гига оперативки.
Увеличил виртуальную память до 64гигов не помогло.
Куда дальше копать?

378B954F-2CF2-4A2C-B14B-FC2104DE4022.jpeg

85,1 КБ · Просмотры: 340
CF98FA79-4C07-4B20-A4D4-A4B77FF65E17.jpeg

82,7 КБ · Просмотры: 330

На фото видно что ошибки начинаются с 3 девайса и со второго, но по факту там ошибки по любой карте выскакивают

Приветствую всех.
Народ подскажите пожалуйста уже всю голову сломал. Все фермы работают стабильно. На всех одинаковые карты 1080ti.
Но на одной ферме постоянно сыпятся ошибки. Эта ферма может проработать сутки а может час, потом перезагружается Майнер.
Характеристики фермы 6 карт 1080ti. 128 ssd, 4 гига оперативки.
Увеличил виртуальную память до 64гигов не помогло.
Куда дальше копать?

Я бы увеличил подкачку до 80 на всякий, если на винде

Увеличил виртуальную память до 64гигов не помогло.

6 карт x 11Gb = 66Gb МИНИМУМ!

Попробуй сменить версию майнера

Попробуй сменить версию майнера

Сейчас увеличил до 74 гигов. Если проблема сохраниться попробую другую версию Майнера.

Ну и в любом случае проверить питание карт (разъемы). В моем случае карты вылетали или на перезагрузку выбивали. После смена всех разъемов (точнее БП для начала) — все нормализовалось. Это при нормальном драйвере и в целом стабильной системе — как написано выше.

«Illegal memory access» — скорее всего, переразгон :rolleyes:

А что,на 4 гигах оперативы еще заводятся риги,что-ли?4 гига-это ультра-мало на сегодняшний день.Майнер как бы намекает,что ему не хватает памяти,виртуалка это уже вторичная причина,когда оперативы не хватает.

Сейчас увеличил до 74 гигов. Если проблема сохраниться попробую другую версию Майнера.

Файл подкачки минимум 66 гига. Майнер обнови. Была такая беда.

Последнее редактирование: 10 Мар 2021

А что,на 4 гигах оперативы еще заводятся риги,что-ли?4 гига-это ультра-мало на сегодняшний день.Майнер как бы намекает,что ему не хватает памяти,виртуалка это уже вторичная причина,когда оперативы не хватает.

У меня работает. Win 10 — 7 карт

Файл подкачки минимум 54 гига. Майнер обнови. Была такая беда.

Этого мало! Файл подкачки-суммарный объем памяти всех видеокарт +10%.На 1080ти 11ГБ,дальше считай сам)

Этого мало! Файл подкачки-суммарный объем памяти всех видеокарт +10%.На 1080ти 11ГБ,дальше считай сам)

Ошибся простите. 1080 ti там на борту 11 гигов, а я по 8 посчитал.

cps

Гений мысли

Сейчас увеличил до 74 гигов. Если проблема сохраниться попробую другую версию Майнера.

Если не поможет, смотри на переразгон.

Несколько недель было такое,один в один,на всех фермах одинаковый конфиг,работали долго и без проблем,потом одна начала дурить,как у вас,снизил разгон по курве и памяти,пятый день полёт нормальный,можно отвозить на базу,я думаю, что памятть диградирует помаленьку,время берёт своё.

Несколько недель было такое,один в один,на всех фермах одинаковый конфиг,работали долго и без проблем,потом одна начала дурить,как у вас,снизил разгон по курве и памяти,пятый день полёт нормальный,можно отвозить на базу,я думаю, что памятть диградирует помаленьку,время берёт своё.

А я думаю, что даг растет, а память в порядке.

Несколько недель было такое,один в один,на всех фермах одинаковый конфиг,работали долго и без проблем,потом одна начала дурить,как у вас,снизил разгон по курве и памяти,пятый день полёт нормальный,можно отвозить на базу,я думаю, что памятть диградирует помаленьку,время берёт своё.

Так у меня ошибки вылетают не по конкретной карте а по разным все время

Так у меня ошибки вылетают не по конкретной карте а по разным все время

А я тебе ,что ответил,проблема один в один,как ты описал,вылеты по разным картам

А страпы какие нибудь применены?

А страпы какие нибудь применены?

нет, nbminer 36.1 и таблетка омой бог

Источник

Самое полное собрание ошибок в майнинге на Windows, HiveOS и RaveOS и их быстрых и спокойных решений

CAN’T FIND NONCE WITH DEVICE CUDA_ERROR_LAUNCH_FAILED

Ошибка майнера Can’t find nonce

Ошибка говорит о том, что майнер не может найти нонс и сразу же сам предлагает решение — уменьшить разгон. Особенно начинающие майнеры стараются выжать из видеокарты максимум — разгоняют слишком сильно по ядру или памяти. В таком разгоне видеокарта даже может запуститься, но потом выдавать ошибки как указано ниже. Помните, лучше — стабильная отправка шар на пул, чем гонка за цифрами в майнере.

Зарабатывай на чужих сделках на бирже BingX. Подробнее — тут.

PHOENIXMINER CONNECTION TO API SERVER FAILED — ЧТО ДЕЛАТЬ?

Ошибка Connection to API server failed

Такая ошибка встречается на PhoenixMiner на операционной систему HiveOS. Она говорит о том, что майнинг-ферма/риг не может подключиться к серверу статистики. Что делать для ее решения:

Введите команду net-test и запомните/запишите сервер с низким пингом. После чего смените его в веб интерфейсе Hive (на воркере) и перезагрузите ваш риг.
Если это не помогло, выполните команду dnscrypt -i && sreboot

PHOENIXMINER CUDA ERROR IN CUDAPROGRAM.CU:474 : THE LAUNCH TIMED OUT AND WAS TERMINATED (702)

Ошибка майнера Phoenixminer CUDA error in CudaProgram

Эта ошибка, как и в первом случае, говорит о переразгоне карты. Откатите видеокарту до заводских настроек и постепенно поднимайте разгон до тех пор, пока не будет ошибки.

UNABLE TO ENUM CUDA GPUS: INVALID DEVICE ORDINAL

Ошибка майнера Unable to enum CUDA GPUs: invalid device ordinal

Проверяем драйвера видеокарты и саму видеокарту на работоспособность (как она отмечена в диспетчере устройств, нет ли восклицательных знаков).
Если все ок, то проверяем райзера. Часто бывает, что именно райзер бывает причиной такой ошибки.

UNABLE TO ENUM CUDA GPUS: INSUFFICIENT CUDA DRIVER: 5000

Ошибка майнера Unable to enum CUDA GPUs: Insufficient CUDA driver: 5000

Аналогично предыдущей ошибке — проверяем драйвера видеокарты и саму видеокарту на работоспособность (как она отмечена в диспетчере устройств, нет ли восклицательных знаков).

NBMINER MINING PROGRAM UNEXPECTED EXIT.CODE: -1073740791, REASON: PROCESS CRASHED

Ошибка майнера NBMINER MINING PROGRAM UNEXPECTED EXIT.CODE: -1073740791, REASON: PROCESS CRASHED

Ошибка code 1073740791 nbminer возникает, если ваш риг/майнинг-ферма собраны из солянки Nvidia+AMD. В этом случае разделите майнинг на два .bat файла (или полетника, если вы на HiveOS). Один — с картами AMD, другой с картами Nvidia.

NBMINER CUDA ERROR: OUT OF MEMORY (ERR_NO=2) — как исправить?

Ошибка майнера NBMINER CUDA ERROR: OUT OF MEMORY (ERR_NO=2)

Одна из самых распространённых ошибок на Windows — нехватка памяти, в данном случае на майнере Nbminer, но встречается и в майнере Nicehash. Чтобы ее исправить — надо увеличить файл подкачки. Файл подкачки должен быть равен сумме гб всех видеокарт в риге плюс 10% запаса. Как увеличить файл подкачки — читаем тут.

GMINER ERROR ON GPU: OUT OF MEMORY STOPPED MINING ON GPU0

Ошибка майнера GMINER ERROR ON GPU: OUT OF MEMORY STOPPED MINING ON GPU0

В данном случае скорее всего виноват не файл подкачки, а переразгон по видеокарте, которая идет под номером 0. Сбавьте разгон и ошибка должна пропасть.

Socket error. the remote host closed the connection, в майнере Nbminer

Socket error. the remote host closed the connection

Также может быть описана как «ERROR — Failed to establish connection to mining pool: Socket operation timed out».
Сетевой конфликт — проверьте соединение рига с интернетом. Перегрузите роутер.
Также может быть, что провайдер закрывает соединение с пулом. Смените пул, попробуйте VPN или измените адреса DNS на внешнего провайдера, например cloudflare 1.1.1.1, 1.0.0.1

Server not responded on share, на майнере Gminer

Server not responded on share

Такая ошибка говорит о том, что у вас что-то с подключением к интернету, что критично для Gminer. Попробуйте сделать рестарт роутера и отключить watchdog на майнере.

DAG has been damaged check overclocking settings, в майнере Gminer

Также в этой ошибке может быть указано Device not responding, check overclocking settings.
Ошибка говорит о переразгоне, попробуйте сначала убавить его.
Если это не помогло, смените майнер — Gminer никогда не славился работой с видеокартами AMD. Мы рекомендуем поменять майнер на Teamredminer, а если вам критична поддержка майнером одновременно Nvidia и AMD видеокарт, то используйте Lolminer.
Если смена майнера не поможет, переставьте видеодрайвер.
Если и это не поможет, то нужно тестировать эту карту отдельно в слоте X16.

ERROR: Can’t start T-Rex, failed to initialize device map: can’t get busid, code -6

Ошибки настройки памяти с кодом -6 обычно указывают на проблему с драйвером.

Если у вас Windows, используйте программу DDU (DisplayDriverUninstaller), чтобы полностью удалить все драйверы Nvidia.
Перезагрузите систему.
Установите новый драйвер прямо с сайта Nvidia.
Перезагрузите систему снова.
Если у вас HiveOS/RaveOS — накатите чистый образ системы. Чтобы наверняка. 🙂

TREX: Can’t unlock GPU

Полный текст ошибки:
TREX: Can’t unlock GPU [ID=1, GPU #1], error code 15
WARN: Miner is going to shutdown…
WARN: NVML: can’t get fan speed for GPU #1, error code 15
WARN: NVML: can’t get power for GPU #1, error code 15
WARN: NVML: can’t get mem/core clock for GPU #1, error code 17

Решение:

Проверьте все кабельные соединения видеокарты и райзера, особенно кабеля питания.
Если с первый пунктом все ок, попробуйте поменять райзер на точно рабочий.
Если ошибка остается, вставьте видеокарту в разъем х16 напрямую в материнскую плату.

CAN’T START MINER, FAILED TO INITIALIZE DEVIS MAP, CAN’T GET BUSID, CODE -6

Ошибка майнера CAN’T START MINER, FAILED TO INITIALIZE DEVIS MAP, CAN’T GET BUSID, CODE -6

В конкретном случае была проблема в блоке питания, он не держал 3 видеокарты. После замены блока питания ошибка пропала.
Если вы уверены, что ваш мощности вашего блока питания достаточно, попробуйте сменить майнер.

Зарабатывай на чужих сделках на бирже BingX. Подробнее — тут.

ОШИБКА 511 ГРАДУСОВ НА ВИДЕОКАРТА

Ошибка 511 градусов видеокарта

Ошибка 511 говорит о неисправности райзера или питания карты. Проверьте все соединения. Для выявления неисправности рекомендуется запустить систему с одной картой. Протестировать, и затем добавлять по одной карте.

GPU driver error, no temps в HiveOS — что делать?

Вероятнее всего, вы получили эту ошибку, майнив на HiveOS. Причин ее появления может быть несколько — как софтовая, так и аппаратная (например райзер).
Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.

Если ошибка не уйдет — проверьте райзер.

GPU are lost, rebooting

Это не ошибка, а ее последствие. Что узнать какая ошибка приводит к перезагрузке карт, сделайте следующее:

Включите сохранение логов (по умолчанию они выключены) командой

logs-on

И перезагрузите риг.
После того как ошибка повторится можно будет скачать логи командами ниже.
Вы можете использовать следующую команду, чтобы загрузить логи майнера прямо с панели мониторинга;

message file «miner.log» -f=/var/log/miner/minername/minername.log

Итак, скажем, например, мне нужны логи TeamRedMiner
message file «teamredminer.log» -f=/var/log/miner/teamredminer/teamredminer.log

Отправленная командная строка будет выделена синим цветом. Загружаемый файл будет отображаться белым цветом. Нажав на него, вы сможете его скачать.
Эта команда позволит скачать лог системы

message file «syslog» -f=/var/log/syslog

exitcode=3 в HiveOS

Если ошибка не уйдет — проверьте райзер.

exitcode=1 в HiveOS

Данная ошибка возникает когда есть проблема с датой в биосе материнской платы (сбитое время) и (или) есть проблема с интернетом.
Если сбито время, то удаленно вы не сможете подключиться.
Тем не менее, обновление драйверов Nvidia должно пройти командой:

nvidia-driver-update —list

gpu fault detected 146

Скорее всего вы пытаетесь майнить с помощью Phoenix miner. Решения два:

Откатитесь на более старую версию, например на 5.4с
(Рекомендуемый вариант) Используйте Trex для видеокарт Nvidia и TeamRedMiner для AMD.

Waiting interface to come up — не работает VPN на HiveOS

Waiting interface to come up

Начните с логов, чтобы понять какая именно ошибка вызывает эту проблему.
Команды для получения логов:
systemctl status [email protected]
journalctl -u [email protected] -e —no-pager -n 100

Как узнать ip адрес воркера hive os

Самое простое — зайти в воркера и прокрутить страницу ниже видеокарт. Там будет указан Remote IP — это и есть внешний IP.
Альтернативный вариант — вы можете проверить ваш внешний айпи адрес hive через консоль Hive Shell:
Выполните одну из команд:
curl 2ip.ru
wget -qO- eth0.me
wget -qO- ipinfo.io/ip
wget -qO- ipecho.net/plain
wget -qO- icanhazip.com
wget -qO- ipecho.net
wget -qO- ident.me

Repository update failed в HiveOS

Repository update failed

Иногда встречается на HiveOS. Полный текст ошибки:

Some index files failed to download. They have been ignored, or old ones used instead.
Repository update failed
------------------------------------------------------
> Restarting autofan and watchdog
> Starting miners
Miner screen is already running
Run miner or screen -r to resume screen
Upgrade failed

Решение:

Выполнить команду apt update && selfupgrade -f
Если не сработала и она, то 99.9%, что разработчики HiveOS уже знают об этой проблеме и решают ее. Попробуйте выполнить обновление через некоторое время.

Rave os не запускается. Boot aborted Rave os

Boot aborted Rave os

Перепроверьте все настройки ПК и БИОСа материнской платы:
— Установите загрузочное устройство HDD/SSD/M2/USB в зависимости от носителя с ОС.
— Включите 4G decoding.
— Установите поддержку PCIe на Auto.
— Включите встроенную графику.
— Установите предпочтительный режим загрузки Legacy mode.
— Отключите виртуализацию.

Если после данных настроек не определяется часть карт, то выполните следующие настройки в BIOS (после каждого пункта требуется полная перезагрузка):

— Отключите 4G decoding
— Перезагрузка
— Отключите CSM
— Перезагрузка
— Включите 4G decoding, установите PCI-E Gen2/3, а при отсутствии Gen2/3, можно выбрать Gen1

Failed to allocate memory Raveos

Эта же ошибка может называться как:
failed to allocate initramfs memory bailing out, failed to load idlinux c.32
или
failed to allocate memory for kernel boot parameter block
или
failed to allocate initramfs memory raveos bailing

Но решение у нее одно — вы должны правильно настроить БИОС материнской платы.

gpu_driver_fault, GPU #0 fault в RaveOS

gpu_driver_fault, GPU #0 fault в RaveOS

В большинстве случаев эта проблема решается уменьшением разгона (особенно по памяти) на конкретной видеокарте (на скрине это карта номер 0).
Если уменьшение разгона не помогает, то попробуйте обновить драйвера.
Если обновление драйверов не привело к решению проблемы, то попробуйте поменять райзер на этой карте на точно работающий.
Если и это не помогает, перепроверьте все кабельные соединения и мощность блока питания, хватает ли его для вашей конфигурации.

Gpu driver fault. All tasks have been stopped. Worker will be rebooted after 5 minutes в RaveOS

Gpu driver fault. All tasks have been stopped. Worker will be rebooted after 5 minutes

Что приводит к появлению этой ошибки? Вероятно, вы переразогнали видеокарту (часто сильно гонят по памяти), сбавьте разгон. На скрине видно, что проблему дает именно GPU под номером 1 — начните с нее.
Вторая частая причина — нехватка питания БП на систему с видеокартами. Учтите, что сама система потребляет не менее 100 вт, каждый райзер еще закладывайте 50 вт. БП должно хватать с запасом в 20%.

Miner restarted after error RaveOS

Смотрите логи майнера, там будет указана конкретная ошибка, которая приводит к miner restarted. После этого найдите ее на этой странице и исправьте. Проблема уйдет. 🙂

Miner restart limit reached. Worker rebooting by flag auto в RaveOS

Аналогично предыдущему пункту — смотрите логи майнера, там будет указана конкретная ошибка, которая приводит к рестарту воркера. Пофиксите ту ошибку — уйдет и эта проблема.

Miner cannot be started, ОС RaveOS

Непосредственно перед этой ошибкой обычно пишется еще другая, которая и вызывает эту проблему. Но если ничего нет, то:

Поставьте майнер на паузу, перезагрузите риг и в консоли выполните команды clear-miners clear-logs и fix-fs. Запустите майнинг.
Если ошибка не ушла, перепишите образ RaveOS.

Overclock can’t be applied в RaveOS

Эта ошибка означает, что значения разгона между собой конфликтуют или выходят за пределы допустимых. Перепроверьте их. Скиньте разгон на стоковый и попробуйте еще раз.
В редких случаях причиной этой ошибки также становится райзер.

Error installing hive miners

Error installing hive miners

Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.

Если ошибка не уйдет — физически перезапишите образ. Если у вас флешка, то скорее всего она умерла. Купите SSD. 🙂

Warning: Nvidia settings applied with errors

Переразгон. Снизьте значения частот ядра и памяти. После этого перезагрузите риг.

Nvtool error или Danger: nvtool error

Скорее всего при установке драйвера появилась проблема с модулем nvtool
Попробуйте переустановить драйвер Nvidia командой через Hive shell:
nvidia-driver-update версия_драйвера —force
Или попробуйте обновить систему полностью командой из Hive shell:
hive-replace -y —stable

nvtool error

Перестал отображаться кулер видеокарты HiveOS

0% скорости вращения кулера.
Это может произойти по нескольким причинам:

кулер действительно не крутится
датчик оборотов отключен или сломан
видеокарта слишком агрессивно работает (высокий разгон)
неисправен райзер или одно из его частей

ERROR: parsing JSON failed

Необходимо выполнить на риге локально (с клавиатурой и монитором) следующую команду:
net-test

Данная команда покажет ваше текущее состояние подключения к разным зеркалам API серверов HiveOS.
Посмотрите, к какому API у вас наименьшая задержка (ping), и когда воркер снова появится в панели, измените стандартное зеркало на то, что ближе к вам.
После смены зеркала, в обязательном порядке перезагрузите ваш воркер.
Изменить сервер API вы можете командой nano /hive-config/rig.conf
После смены нажмите ctrl + o и ентер для того чтобы сохранить файл.
После этого выйдите в консоль командой ctrl + x, f10 и выполните команду hello

NVML: can’t get fan speed for GPU #5, error code 999 hive os

Проблема с скоростью кулеров на GPU 5
0% скорости вращения кулера / ошибки в целом
Это может произойти по нескольким причинам:
— кулер действительно не крутится
— датчик оборотов отключен или сломан
— видеокарта слишком агрессивно работает (высокий разгон)
Начните с визуальной проверки карты и ее кулера.

Can’t get power for GPU #2

Как правило эта ошибка встречается рядом вместе с другими:
Attribute ‘GPUGraphicsClockOffset’ was already set to 0
Attribute ‘GPUMemoryTransferRateOffset’ was already set to 2200
Attribute ‘GPUFanControlState’ (hive1660s_ETH:0[gpu:2]) assigned value
0.

20211029 12:40:50 WARN: NVML: can’t get fan speed for GPU #2, error code 999
20211029 12:40:50 WARN: NVML: can’t get power for GPU #2, error code 999
20211029 12:40:50 WARN: NVML: can’t get mem/core clock for GPU #2, error code 999

Решение:

Проверьте корректность установки драйвера на видеокарте.
Убедитесь что нет проблем с драйвером, если все в порядке, то попробуйте другой параметр разгона. Например уменьшить разгон по памяти.

GPU1 search error: unspecified launch failure

Уменьшите разгон и проверьте контакты райзера

Warning: Autofan: unable to set fan speed, rebooting

Найдите логи майнера, посмотрите какие ошибки майнер пишет в логах. Например:

kernel: [12112.410046][ T7358] NVRM: GPU at PCI:0000:0c:00: GPU-236e3bef-2e03-6cdb-0518-7ac01eb8736d
kernel: [12112.410049][ T7358] NVRM: Xid (PCI:0000:0c:00): 62, pid=7317, 0000(0000) 00000000 00000000
kernel: [12112.433831][ T7358] NVRM: Xid (PCI:0000:0c:00): 45, pid=7317, Ch 00000010
CRON[21094]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)

Исходя из логов, мы видим что есть проблема с видеокартой на слоте PCIE 0c:00 (под номером Gpu пишется номер PCIE слота) с ошибками 45 и 62
Коды ошибок (других, которые также могут быть там) и что с ними делать:

• 13, 43, 45: ошибки памяти, снизить MEM
• 8, 31, 32, 61, 62: снизить CORE, возможно и MEM
• 79: снизить CORE, проверить райзер

Ошибка Kernel-Power код 41

Проверьте все провода (от БП до карт, от БП до райзеров), возможно где-то идёт оплавление. Если визуальный осмотр показал, что все ок, то ошибка программная и вам нужно переустановить Windows.

Danger: hive-replace -y —stable (failed, exitcode=137)

Очень редкая ошибка, которая вылезла в момент удаленного обновления образа HiveOS. Она не встречается в тематических майнинг группах и сайтах. Не поверите что произошло.
На балконе, где стоял риг, поселилась семья голубей. Они засрали риг, в прямом смысле, из-за этого он постоянно уходил в оффлайн. После полной продувки материнской платы и видеокарт проблема решилась сама.

MALFUNCTION HIVEOS

Malfunction Hiveos

Malfunction — неисправность. Причин и решений может быть несколько:

Вам следует переустановить видео драйвер;
Если драйвер не помог, тогда отключайте все GPU и поочередно вставляйте по 1 шт, и смотрите вызовет ли какая-то видеокарта подобную ошибку или нет. Если да, то возможно это райзер.
Неисправен носитель, на который записана Hive OS, запишите образ еще раз.

Не нашли своей ошибки? Помогите сделать мир майнинга лучше. Отправьте ее по этой форме и мы обновим наш гайд в самое ближайшее время.

Источник

Ошибки Видеокарты При Майнинге

Самое полное собрание ошибок в майнинге на Windows, HiveOS и RaveOS и их быстрых и спокойных решений

Can’t find nonce with device CUDA_ERROR_LAUNCH_FAILED

Ошибка майнера Can’t find nonce

Зарабатывай на чужих сделках на бирже BingX. Подробнее — тут.

Phoenixminer Connection to API server failed — что делать?

Ошибка Connection to API server failed

Введите команду net-test и запомните/запишите сервер с низким пингом. После чего смените его в веб интерфейсе Hive (на воркере) и перезагрузите ваш риг.
Если это не помогло, выполните команду dnscrypt -i && sreboot

Phoenixminer CUDA error in CudaProgram.cu:474 : the launch timed out and was terminated (702)

Ошибка майнера Phoenixminer CUDA error in CudaProgram

UNABLE TO ENUM CUDA GPUS: INVALID DEVICE ORDINAL

Ошибка майнера Unable to enum CUDA GPUs: invalid device ordinal

UNABLE TO ENUM CUDA GPUS: INSUFFICIENT CUDA DRIVER: 5000

Ошибка майнера Unable to enum CUDA GPUs: Insufficient CUDA driver: 5000

NBMINER MINING PROGRAM UNEXPECTED EXIT.CODE: -1073740791, REASON: PROCESS CRASHED

Ошибка майнера NBMINER MINING PROGRAM UNEXPECTED EXIT.CODE: -1073740791, REASON: PROCESS CRASHED

NBMINER CUDA ERROR: OUT OF MEMORY (ERR_NO=2) — как исправить?

Ошибка майнера NBMINER CUDA ERROR: OUT OF MEMORY (ERR_NO=2)

GMINER ERROR ON GPU: OUT OF MEMORY STOPPED MINING ON GPU0

Ошибка майнера GMINER ERROR ON GPU: OUT OF MEMORY STOPPED MINING ON GPU0

Socket error. the remote host closed the connection, в майнере Nbminer

Socket error. the remote host closed the connection

Server not responded on share, на майнере Gminer

Server not responded on share

DAG has been damaged check overclocking settings, в майнере Gminer

ERROR: Can’t start T-Rex, failed to initialize device map: can’t get busid, code -6

Ошибки настройки памяти с кодом -6 обычно указывают на проблему с драйвером.

TREX: Can’t unlock GPU

Решение:

Проверьте все кабельные соединения видеокарты и райзера, особенно кабеля питания.
Если с первый пунктом все ок, попробуйте поменять райзер на точно рабочий.
Если ошибка остается, вставьте видеокарту в разъем х16 напрямую в материнскую плату.

CAN’T START MINER, FAILED TO INITIALIZE DEVIS MAP, CAN’T GET BUSID, CODE -6

Ошибка майнера CAN’T START MINER, FAILED TO INITIALIZE DEVIS MAP, CAN’T GET BUSID, CODE -6

Зарабатывай на чужих сделках на бирже BingX. Подробнее — тут.

ОШИБКА 511 ГРАДУСОВ НА ВИДЕОКАРТА

Ошибка 511 градусов видеокарта

GPU driver error, no temps в HiveOS — что делать?

Если ошибка не уйдет — проверьте райзер.

GPU are lost, rebooting

Это не ошибка, а ее последствие. Что узнать какая ошибка приводит к перезагрузке карт, сделайте следующее:

Включите сохранение логов (по умолчанию они выключены) командой

logs-on

message file «miner.log» -f=/var/log/miner/minername/minername.log

Итак, скажем, например, мне нужны логи TeamRedMiner
message file «teamredminer.log» -f=/var/log/miner/teamredminer/teamredminer.log

message file «syslog» -f=/var/log/syslog

exitcode=3 в HiveOS

Если ошибка не уйдет — проверьте райзер.

exitcode=1 в HiveOS

nvidia-driver-update —list

gpu fault detected 146

Скорее всего вы пытаетесь майнить с помощью Phoenix miner. Решения два:

Откатитесь на более старую версию, например на 5.4с
(Рекомендуемый вариант) Используйте Trex для видеокарт Nvidia и TeamRedMiner для AMD.

Waiting interface to come up — не работает VPN на HiveOS

Waiting interface to come up

Начните с логов, чтобы понять какая именно ошибка вызывает эту проблему.
Команды для получения логов:
systemctl status openvpn@client
journalctl -u openvpn@client -e —no-pager -n 100

Как узнать ip адрес воркера hive os

Repository update failed в HiveOS

Иногда встречается на HiveOS. Полный текст ошибки:

Some index files failed to download. They have been ignored, or old ones used instead.
Repository update failed
------------------------------------------------------
> Restarting autofan and watchdog
> Starting miners
Miner screen is already running
Run miner or screen -r to resume screen
Upgrade failed

Решение:

Выполнить команду apt update && selfupgrade -f
Если не сработала и она, то 99.9%, что разработчики HiveOS уже знают об этой проблеме и решают ее. Попробуйте выполнить обновление через некоторое время.

Rave os не запускается. Boot aborted Rave os

Failed to allocate memory Raveos

Но решение у нее одно — вы должны правильно настроить БИОС материнской платы.

gpu_driver_fault, GPU #0 fault в RaveOS

gpu_driver_fault, GPU #0 fault в RaveOS

Gpu driver fault. All tasks have been stopped. Worker will be rebooted after 5 minutes в RaveOS

Gpu driver fault. All tasks have been stopped. Worker will be rebooted after 5 minutes

Miner restarted after error RaveOS

Смотрите логи майнера, там будет указана конкретная ошибка, которая приводит к miner restarted. После этого найдите ее на этой странице и исправьте. Проблема уйдет.

Miner restart limit reached. Worker rebooting by flag auto в RaveOS

Miner cannot be started, ОС RaveOS

Поставьте майнер на паузу, перезагрузите риг и в консоли выполните команды clear-miners clear-logs и fix-fs. Запустите майнинг.
Если ошибка не ушла, перепишите образ RaveOS.

Overclock can’t be applied в RaveOS

Error installing hive miners

Если ошибка не уйдет — физически перезапишите образ. Если у вас флешка, то скорее всего она умерла. Купите SSD.

Warning: Nvidia settings applied with errors

Переразгон. Снизьте значения частот ядра и памяти. После этого перезагрузите риг.

Nvtool error или Danger: nvtool error

nvtool error

Перестал отображаться кулер видеокарты HiveOS

0% скорости вращения кулера.
Это может произойти по нескольким причинам:

кулер действительно не крутится
датчик оборотов отключен или сломан
видеокарта слишком агрессивно работает (высокий разгон)
неисправен райзер или одно из его частей

ERROR: parsing JSON failed

Необходимо выполнить на риге локально (с клавиатурой и монитором) следующую команду:
net-test

NVML: can’t get fan speed for GPU #5, error code 999 hive os

Can’t get power for GPU #2

Решение:

GPU1 search error: unspecified launch failure

Уменьшите разгон и проверьте контакты райзера

Warning: Autofan: unable to set fan speed, rebooting

Найдите логи майнера, посмотрите какие ошибки майнер пишет в логах. Например:

• 13, 43, 45: ошибки памяти, снизить MEM
• 8, 31, 32, 61, 62: снизить CORE, возможно и MEM
• 79: снизить CORE, проверить райзер

Ошибка Kernel-Power код 41

Danger: hive-replace -y —stable (failed, exitcode=137)

MALFUNCTION HIVEOS

Malfunction — неисправность. Причин и решений может быть несколько:

Вам следует переустановить видео драйвер;
Если драйвер не помог, тогда отключайте все GPU и поочередно вставляйте по 1 шт, и смотрите вызовет ли какая-то видеокарта подобную ошибку или нет. Если да, то возможно это райзер.
Неисправен носитель, на который записана Hive OS, запишите образ еще раз.

Исправляем ошибку при майнинге Ethereum на GeForce 1050

Все кто занимается добычей криптовалюты, рано или поздно сталкиваются с определенными проблемами в работе оборудования. Часто, решаются они быстро, а в большинстве случаев, вовсе проходят сами, после автоматического обновления ПО.

Сегодня же, поговорим о ошибке «CUDA error», а если быть точнее, то о том, как её победить. Я лично столкнулся с подобной проблемой, по-этому знаю о чем говорю. Не буду мучить вас предысториями о том, как у меня все начиналось и как я от этого страдал — это лишнее. Давайте сразу приступим к сути вопроса и его решению.

Если вы занимаетесь добычей Ethereum (эфириума), и у вас возникает такая ошибка (ниже выложу скрин), значит мой метод решения именно для вас:

Решение ошибки CUDA error

Шаг 1. На рабочем столе находим «Мой компьютер» нажимаем на него правой кнопкой, и выбираем последний пункт «Свойства»

Шаг 2. Идем по пути: «Дополнительные параметры системы» — «Дополнительно» — «Параметры» — опять «Дополнительно»

Шаг 3. Нажимаем кнопку «Изменить» возле надписи «Виртуальная память»

Шаг 4. Вводим нужную цифру (напомним, что она не должна быть ниже 16 000 Мб)

Собственно все. После таких манипуляций, мой риг сново ожил, а майнинг вернулся на прежний уровень дохода. Для тех кто не понял, что нужно делать, ниже оставлю видео, как это выглядит у меня, а там уже разберетесь. Собственно вот, как и обещал!

[creativ_media type=»youtube» url=»www.youtube.com/watch?v=Y-F-VcsUUpI»]

Не знаю, поможет ли вам этот способ, но мне помог. На самом деле, ошибки связанные с файлом подкачки, довольно таки частые, а данный метод поможет их решить. Всем хорошего майнинга и меньше ошибок при добыче крипты!

Источник

Пример решения 3

Часто драйвера версии 20.11.2 исправляют ошибку.

Протестирована работа на Windows 19.09. Версия 5.4c работает.

Бывает такая же проблема на RX580 8 ГБ (clSetKernelArg (-48)). Нужно так же переустановить программное обеспечение драйвера AMD (Adrenalin версии 20.8.1) с включенной функцией сброса до заводских настроек, и проблема исчезнет. Также нужно отключить автоматические обновления в настройках Adrenalin, так как он что-то обновляет автоматически. Поэтому, чтобы решить эту проблему, нужно переустановить драйверы на старую версию, которая, как вы знаете, раньше работала нормально.

Так же многим помогает добавление параметра -eres -1 или -eres 0 но ни в коем случае ни -eres 2.

Пример: PhoenixMiner.exe -pool eth-eu2.nanopool.org:9999 -wal 0xBB942274AB3C8285400519e7F0c343Fca2394908.my -gser 10 -rvram -1 -eres 0 pause

CUDA error — cannot allocate big buffer for DAG как исправить

Майнингом криптовалют не пытаются заниматься только самые ленивые. Результаты этой работы зависят от вычислительных мощностей компьютера, в частности видеокарты. Каждый день компьютер должен находить все новые данные в виде хэша. Но в некоторых случаях пользователи сталкиваются с ошибкой CUDA error – cannot allocate big buffer for DAG. Как её исправить, вы узнаете из этой статьи.

Для чего нужен файл DAG

DAG — это определенный блок данных, который используется при поиске элементов блокчейна в сети. Он построен на алгоритме Dagger Hashimoto. Добываемая валюта — Ethereum (Эфириум). Но есть и другие монеты в этом алгоритме. Например, Whale, Ubiq, Pegas, Dubaicoin, Musicoin, Soil и другие. Когда пользователь запускает сам майнер, DAG должен загрузиться в память. Более точный его размер — 1200 Мб. Со временем он способен увеличиваться в размере. Этот феномен называется смена эпох.

Каждой смене таких эпох соответствует свой размер файла. Количество занимаемой памяти DAG-файлом вы можете узнать по адресу: https://investoon.com/tools/dag_size. Здесь вы сможете узнать размер файла для всех монет на алгоритме Ethash. Смена каждой эпохи происходит примерно 1 раз в 10 дней.

Впервые проблемы с файлом DAG появились еще в 2016 году зимой. После смены нескольких десятков эпох, размер увеличился до 1.7 Гб. Использование данного алгоритма на видеокартах с 2 Гб видео памяти стало невозможным. Но в некоторых ситуациях проблему все же можно было решить.

Как исправить?

Вы должны указать в батнике команду -gser с нужным вам значеним. Примеры ниже.

Что делает команда -gser?

-gser отвечает за сериализацию создания DAG файла на нескольких графических процессорах.

Возможные значения этого параметра:

0 — без сериализации, все графические процессоры генерируют DAG одновременно, это значение по умолчанию и с ним у вас появляется эта ошибка;
1 — частичное перекрытие генерации DAG на каждом GPU;
2 — без перекрытия (каждый GPU ожидает, пока предыдущий не закончит генерировать DAG);
3-10 — задержка от 1 до 8 секунд после каждого создания GPU DAG перед следующим).

Следовательно, вам нужно подобрать оптимальное значение команды -gser для ваших видеокарт.

Способы устранения ошибки

Проблема встречается в Windows потому, что операционная система требует для резерва около 750 Мб видеопамяти. При обычных операциях в видео процессоре эта память не занимается. Но со временем роста размера файла DAG, возникает ошибка CUDA error – cannot allocate big buffer for DAG.

Данная ошибка появляется все чаще на устройствах с видеокартой, которая имеет встроенную видеопамять — 2Гб. Файл DAG, который упоминается в тексте ошибки, требует от системы сплошного буфера. Этот буфер должен иметь размер чуть более 1 Гб. И вроде бы должно хватить видеопамяти, но система упорно выдает ошибку. Некоторым пользователям удается исправить эту проблему в Windows при помощи ввода нескольких команд. Про

Примеры решения

Вот так должен выглядеть батник с командой -gser.

PhoenixMiner.exe -pool eth-eu2.nanopool.org:9999 -wal 0xBB942274AB3C8285400519e7F0c343Fca2394908.my -gser 2 pause

или

PhoenixMiner.exe -pool eth-eu2.nanopool.org:9999 -wal 0xBB942274AB3C8285400519e7F0c343Fca2394908.my -gser 10 pause

Так же не забудьте увеличить виртуальную память Windows (размер файла подкачки). Нужно минимум 32 ГБ для фермы из 6 видеокарт RX580.

Если не помогает, то добавьте параметр -rvram -1.

Пример:

PhoenixMiner.exe -pool eth-eu2.nanopool.org:9999 -wal 0xBB942274AB3C8285400519e7F0c343Fca2394908.my -gser 10 -rvram -1 pause

Всегда используйте последнюю версию программы, чтобы избежать ошибок в дальнейшем.

Другие способы устранить ошибку

Если предыдущими методами решить проблему с видеокартой не получилось, попробуем увеличить файл подкачки Windows. В некоторых случаях эта рекомендация должна её решить.

Закройте окна и попытайтесь запустить майнер. Если вы пытаетесь на одной видеокарте майнить разными программами, попробуйте оставить только одну. Также попробуйте более новую Claymore Dual Miner 11.6. В этой версии разработчики решили проблемы, связанные с видеопамятью и рядом версий устройств. Найти данное ПО можно на странице https://www.dualminer.ru/. Также предпочтительно использовать для него операционную систему Windows 7. В ней пользователи намного реже сталкиваются с подобными ошибками.

А если у вас есть опыт использования ОС Linux — это будет для вас лучшим вариантом. Она уже настроена и готова работать с Claymore Dual Miner. Но работа и установка на этой ОС отличается более сложным процессом. Для этих задач Linux имеет ряд преимуществ. Главное — до 20% экономии электроэнергии при майнинге. Для больших ферм это немаловажно. В Linux достаточно редко встречается ошибка CUDA error — cannot allocate big buffer for DAG.

Источник

Ошибки майнеров, связанные с установкой, конфигурацией видеокарт

При настройке и эксплуатации оборудования для майнинга часто возникают различные ошибки.
В данной статье рассматриваются характерные ошибки, возникающие при майнинге при неверной сборке майнинг ферм или в связи с программными ошибками.

Аппаратные ошибки, приводящие к неверной работе или отсутствии видеокарт в диспетчере задач

На аппаратном уровне к ошибкам в определении видеокарт или к постоянному их вылету при работе приводят некоторые часто встречающиеся проблемы. К ним относятся:

слабые блоки питания, которые не могут обеспечить достаточной мощности для видеокарт при майнинге. Нужно понимать, что различные блоки питания имеют граничные показатели эффективности и могут выдавать в круглосуточном режиме только ограниченную мощность. Для качественных БП это до 80% от их заявленной мощности, а для дешевых – от 50 до 70% от паспортных данных по линии 12 вольт;
некачественные райзера. При использовании райзеров с плохими контактами (как по линии питания, так и по линии данных), с конденсаторами малой емкости, некачественными кабелями USB, видеокарты могут не определяться совсем, либо определяться системой, но вылетать при работе майнера. Для устранения проблем, связанных с райзерами, нужно выбирать только качественные райзера, желательно с 6-пиновым разъемом питания (в крайнем случае Molex), использовать по возможности самые короткие, толстые, экранированные USB-кабеля данных;
иногда пользователи забывают подключить все разъемы питания к видеокарте и к райзеру. В этом случае видеокарта может и определяться, но будет отображаться в диспетчере устройств с ошибками;
при подключении нескольких блоков питания к майнинг ферме нужно стараться подключать и видеокарту и ее райзер к одному блоку питания. Ни в коем случае нельзя подключать к материнской плате питание от разных блоков питания. Это гарантированно приведет к появлению перетоков и выгоранию электронных элементов платы.

Во всех случаях, связанных с поиском неисправностей в работе электро и радиоаппаратуры и вычислительной техники нужно помнить, что:

ОСНОВНЫМИ ПРИЧИНАМИ НЕИСПРАВНОСТЕЙ В ЛЮБЫХ ЭЛЕКТРИЧЕСКИХ УСТРОЙСТВАХ ЯВЛЯЮТСЯ НАЛИЧИЕ ЛИШНИХ ИЛИ ОТСУТСТВИЕ НУЖНЫХ КОНТАКТОВ.

Программные ошибки, связанные с видеокартами, приводящие к сбоям майнеров

При неверной настройке операционной системы, сбое в установке драйверов, неправильной конфигурации майнеров, избыточном разгоне возникают ошибки, в результате которых происходит сбой при запуске программы-майнера.

Ошибки, вызванные неправильной установкой драйверов

Для правильной установки драйверов видеокарт АМД и Нвидиа рекомендуем почитать статью «Правильная установка драйверов GPU для майнинга», а также профильные форумы.

Как правило, в майнинг фермах с несколькими видеокартами возникают следующие ошибки, связанные с неправильной установкой драйверов:

Ошибка с кодом 43 (error 43) – при установке драйверов АМД на видеокарты с перепрошитым BIOS. Эта ошибка легко лечится с помощью патчера AMD/ATI Pixel Clock Patcher. В операционной системе Windows 7 при установке более четырех видеокарт такая ошибка может возникнуть и с непрошитыми картами. Для ее устранения нужно применять 6xGPU_mod, последнюю версию которого можно скачать на Bitcointalk.

Ошибка с кодом 43, как правило, возникает при установке новых драйверов в системе, что может сделать и сама система во время автоматической установки обновлений. Кроме того, драйвера могут слететь при сбоях в питании, появлении ошибок на носителе системы, воздействии вирусов и других проблемах.

После такого обновления может появиться ошибка 43, а также значительно упасть хешрейт видеокарт. Для видеокарт AMD после установки драйверов нужно применить AMD-Compute-Switcher, а для видеокарт Нвидиа включить P0 state согласно методике, описанной в статье «Оптимизация потребления видеокарт Nvidia при майнинге».

Если после применения патчера и мода (для Windows 7) и перезагрузки системы ошибка не исчезает, то возможно на видеокарте прошит неверный BIOS, произошел сбой при его записи, либо вышла из строя микросхема BIOS на видеокарте. Для устранения такой ошибки нужно:

прошить верный BIOS (вернуть заводской)$
повторить заново процесс прошивки и дождаться сообщения программы AtiFlash об успехе;
переключиться на резервный Bios (при наличии такового).

При невозможности восстановить рабочее состояние видеокарты прошивкой верного Биоса или переключением переключателя BIOS на резерв нужно менять чип BIOS в сервис-центре, либо искать другую причину неполадок.

Ошибка с кодом 12, которая обозначает нехватку ресурсов в системе. Для ее устранения нужно проверить настройки BIOS материнской платы, где нужно:

отключить все лишнее (например, serial и parallel port);
включить above 4g декодирование;
попробовать переключить систему в режим multi GPU;
включить/выключить внутреннюю видеокарту (на разных системах этот способ действует по разному);
установить режим работы PCI-E устройств в Gen 1 или 2;
попробовать обновить BIOS материнской платы на самый последний.

Ошибки в конфигурации майнера при указании видеокарт

Этот вид ошибок возникает в случае отсутствия или неправильного указания в пакетном файле для запуска майнинга видеокарт, которые должны осуществлять майнинг (как АМД, так и Nvidia).

Например, в программе claymore dual miner и других программах от этого программиста, иногда возникает ошибка NO AMD OPENCL found. Она появляется при запуске программы для майнинга и обозначает, что не найдено устройств, поддерживающих технологию OPENCL.

В разных программах она может иметь различное написание, но ее суть сводится к невозможности найти подходящее для майнинга устройство.

При отсутствии аппаратных ошибок и проблем, связанных с неверной установкой драйверов, неисправность нужно искать в конфигурации майнера.

Эта ошибка может возникать и в других программах, использующихся для майнинга. Например, в программе sgminer подобная ошибка называется clDevicesNum returned error, no GPUs usable. При запуске майнера появляется подобное сообщение:

[02:56:02] Started sgminer v0.1.1 [02:56:02] * using Jansson 2.11 [02:56:09] Specified platform that does not exist [02:56:09] clDevicesNum returned error, no GPUs usable [02:56:09] Command line options set a device that doesn’t exist

Еще раз повторимся, что если в диспетчере устройств нужные видеокарты отображены корректно и не имеют восклицательных знаков с кодами ошибки, то неправильно сконфигурирован BAT-файл.

Это случается в системах с различными типами карт, установленными в системе (например, интегрированная видеокарта плюс видеокарты AMD или одновременное использование GPU от AMD и Nvidia и все три типа устройств вместе).

Как правило, для устранения этой ошибки нужно либо правильно указать номера использующихся в майнере видеокарт, либо указать какую платформу (AMD или Nvidia) нужно использовать.

В Claymore-майнере это команда -platform с цифровым значением: 1 – использовать только видеокарты AMD, 2 — только NVIDIA, 3 – использовать и AMD и NVIDIA GPU (по умолчанию в майнере действует команда 3, согласно которой используются оба типа карт).

В Phoenix miner это команды -amd или –nvidia соответственно.

В sgminer (его различных версиях и подобных программах, например, cgminer) в смешанных системах может понадобиться указывать в командной строке параметр —gpu-platform 1 или 2.

Обычно, при отсутствии включенной внутренней видеокарты этот майнер работает без указания этого парметра, но в этом случае иногда может потребоваться использование команды —gpu-platform 0.

Другие ошибки, приводящие к сбоям в работе майнеров

Рассмотрим другие ошибки, которые иногда возникают при работе программ для майнинга:

ошибка OpenCL error -4 (0) — cannot create DAG on GPU – эта ошибка в Claymore майнере возникает при майнинге криптовалют на алгоритме Ethash (Ethereum, UBIQ, ETC, MOAC и другие). Для ее устранения нужно увеличить объем доступной виртуальной памяти в системе, а также использовать самые новые версии майнеров, способные работать с последними эпохами DAG;

ошибка WATCHDOG: GPU hangs in OpenCL call появляется при переразгоне видеокарт, некачественных райзерах, плохих (очень длинных) соединительных USB-кабелях. Не нужно выжимать из видеокарт все соки, увеличивая частоту памяти и видеоядра, так как простои, вызванные переразгоном, сведут на нет весь доход от такого майнинга. Понять то, где выставлены очень большие значения частоты поможет программа hwinfo, которая показывает ошибки по памяти для видеокарт AMD:

Как правило, при переразгоне по памяти вылетает одна из видеокарт, а при чрезмерном разгоне по ядру (или очень сильном даунвольтинге) компьютер полностью зависает;

майнер с GPU от AMD выключается с ошибкой о температуре карты в 511 градусов (на картах Nvidia появляется ошибка NVML: cannot get current temperature, error 15) – эта проблема возникает при плохом контакте видеокарты с райзером, при котором не проходит сигнал о температуре видеокарты либо есть проблемы по линии питания. Нужно поменять райзер и/или USB-кабель, почистить их контакты, а также контакты разъема видеокарты ваткой, смоченной в спирте. Можно попробовать поменять разъем PCI-E на материнке или вставить карту непосредственно в разъем материнской платы. Кроме того, видеокарта может выдавать такую ошибку при слишком большом разгоне/даунволтинге, а также плохом контакте (или слишком большой нагрузке на блок питания) по линии 12 вольт. В этом случае нужно проверить все разъемы питания, подходящие к карте на предмет наличия прогаров, особенно в случае применения различных переходников/разветвителей, а также снизить нагрузку на БП.

Заключение

Майнинг требует наличия определенных знаний, связанных с эксплуатацией вычислительной техники и сетей связи. Это необходимо, потому что знание основ функционирования радиоаппаратуры и каналов связи дает возможность самостоятельно разобраться в причинах появления неполадок и понять, как их можно устранить наиболее рациональным способом.

Знание основ электротехнических цепей поможет избежать ошибок, связанных с навешиванием чрезмерной нагрузки на одну линию (например, более одной видеокарты на линию Molex), что часто приводит к подгоранию контактов или выходу из строя райзеров и видеокарт.

Понимание закона Ома поможет избежать проблем, связанных с использованием переходников с разъема питания SATA на райзера, которое гарантированно приведет к прогоранию контактов и связанным с этим проблемам.

Чем больше человек знает, тем больше он понимает, что знает очень мало или не знает ничего… Процесс поиска истины благотворно воздействует на человеческую карму и дает жизненный опыт, для обретения которого, возможно, мы и живем…

Источник: https://www.cryptoprofi.info/?p=2237

How to avoid «CUDA out of memory» in PyTorch

I think it’s a pretty common message for PyTorch users with low GPU memory:

I want to research object detection algorithms for my coursework. And many deep learning architectures require a large capacity of GPU-memory, so my machine can’t train those models. I tried to process an image by loading each layer to GPU and then loading it back:

But it doesn’t seem to be very effective. I’m wondering is there any tips and tricks to train large deep learning models while using little GPU memory. Thanks in advance!

Edit: I’m a beginner in deep learning. Apologize if it’s a dummy question:)

Nvidia Geforce GTX1050Ti 4Gb — решаем проблему CUDA error 11 — cannot write buffer for DAG при майнинге Ethereum

Информация о материале: Опубликовано: 04.11.2019, 01:41

Владельцы видеокарт Nvidia Geforce GTX1050Ti c 4Gb видеопамяти начинают сталкиваться с проблемой нехватки этой самой памяти при создании DAG файлов в Windows 10. Причем сам DAG файл на начало ноября 2019 года имеет размер 3.3 Gb, что значительно меньше доступных 4Gb. Данная проблема известна давно и связана с Windows 10, которая утилизирует много видеопамяти. Решения этой проблемы так же хорошо известны еще со времен приближения DAG файла к размерам 2Gb и 3Gb. Далее рассмотрим все варианты, которые доступны, что бы продлить работу видеокарт с 4Gb GDDR памяти на майнинге криптовлюты Ethereum.

Самый эффективный и долгосрочный способ это перейти на Linux операционные системы, например, HiveOS, которые потребляют минимум видеопамяти. Такое кардинальное решение позволит владельца видеокарт с 4Gb памяти (GTX1050ti и RX480/RX580) оставаться в майнинге Ethereum до конца 2020 года.

Второй способ это установить Windows 7 или Windows 8, вместо десятки. Но этот переход выиграет Вам гораздо меньше времени и при этом Вы получите множество проблем с совместимостью и производительностью видеокарт в майнинге.

Третий вариант это остаться на Windows 10, но нужно выполнить несколько действий, которые увеличат время работы на эфире еще на 6-7 месяцев.

Установить драйвера Nvidia, которые меньше всего утилизируют видеопамяти: 388.13, 388.71, 419.35
Увеличить файл подкачки по формуле DAG*количество видеокарт+4Gb. Для четырех видеокарт GTX1050Ti уже сейчас нужно минимум 17Gb виртуальной памяти. Лучше сразу установить с запасом вперед на несколько месяцев в районе 25Gb.
Вместо майнера Claymore запускать Phoenix, т.к. ему требуется меньше видеопамяти для создания DAG файлов
В первый слот поставить видеокарту с 8Gb или 6Gb видеопамяти если есть. В Bat файл добавить команды — lidag 1 и — eres 0 (Claymore)
В Windows 10 отключить все украшательства рабочего стола по максимуму, сделать классическую стиль рабочего стола с одним цветом, удалить все файлы с рабочего стола.
В Bat файл добавить следующие строчки:

setx GPU_FORCE_64BIT_PTR 0
setx GPU_MAX_HEAP_SIZE 100
setx GPU_USE_SYNC_OBJECTS 1
setx GPU_MAX_ALLOC_PERCENT 100
setx GPU_SINGLE_ALLOC_PERCENT 100

Выполнив все эти рекомендации Вы продлите майнинг Ethereum с помощью видеокарт Geforce GTX1050Ti 4Gb на Windows 10 как минимум еще на пол года.

Take and my 5 cents. On GPU I start mining a week ago. For now i have 14 1070ti -+ OC, 2 farms and mining eth with auto restart ethminer if it stops on errors. This two scripts is not best solution, writen from scratch but works fine. Writed only for nvidia but i think it maybe rewriten for ati too ))
All this tested on Ubuntu 16.04

!!! nvidia coolbits must be enabled if you want OC settings to work. Mine is 13 tested on 381 and 387 drivers, emulated monitor for each card neded my nvidia-xconfig conf for 7 GPU, edid.bin find in google, i made mine from AOC 23 mon

nvidia-xconfig: X configuration file generated by nvidia-xconfig

nvidia-xconfig: version 387.34 (buildmeister@swio-display-x64-rhel04-15) Tue Nov 21 03:31:45 PST 2017

Section «ServerLayout»
Identifier «Layout0»
Screen 0 «Screen0»
Screen 1 «Screen1» RightOf «Screen0»
Screen 2 «Screen2» RightOf «Screen1»
Screen 3 «Screen3» RightOf «Screen2»
Screen 4 «Screen4» RightOf «Screen3»
Screen 5 «Screen5» RightOf «Screen4»
Screen 6 «Screen6» RightOf «Screen5»
InputDevice «Keyboard0» «CoreKeyboard»
InputDevice «Mouse0» «CorePointer»
EndSection

Section «Files»
EndSection

Section «InputDevice»
# generated from default
Identifier «Mouse0»
Driver «mouse»
Option «Protocol» «auto»
Option «Device» «/dev/psaux»
Option «Emulate3Buttons» «no»
Option «ZAxisMapping» «4 5»
EndSection

Section «InputDevice»
# generated from default
Identifier «Keyboard0»
Driver «kbd»
EndSection

Section «Monitor»
Identifier «Monitor0»
VendorName «Unknown»
ModelName «Unknown»
HorizSync 28.0 — 33.0
VertRefresh 43.0 — 72.0
Option «DPMS»
EndSection

Section «Monitor»
Identifier «Monitor1»
VendorName «Unknown»
ModelName «Unknown»
HorizSync 28.0 — 33.0
VertRefresh 43.0 — 72.0
Option «DPMS»
EndSection

Section «Monitor»
Identifier «Monitor2»
VendorName «Unknown»
ModelName «Unknown»
HorizSync 28.0 — 33.0
VertRefresh 43.0 — 72.0
Option «DPMS»
EndSection

Section «Monitor»
Identifier «Monitor3»
VendorName «Unknown»
ModelName «Unknown»
HorizSync 28.0 — 33.0
VertRefresh 43.0 — 72.0
Option «DPMS»
EndSection

Section «Monitor»
Identifier «Monitor4»
VendorName «Unknown»
ModelName «Unknown»
HorizSync 28.0 — 33.0
VertRefresh 43.0 — 72.0
Option «DPMS»
EndSection

Section «Monitor»
Identifier «Monitor5»
VendorName «Unknown»
ModelName «Unknown»
HorizSync 28.0 — 33.0
VertRefresh 43.0 — 72.0
Option «DPMS»
EndSection

Section «Monitor»
Identifier «Monitor6»
VendorName «Unknown»
ModelName «Unknown»
HorizSync 28.0 — 33.0
VertRefresh 43.0 — 72.0
Option «DPMS»
EndSection

Section «Device»
Identifier «Device0»
Driver «nvidia»
VendorName «NVIDIA Corporation»
BoardName «GeForce GTX 1070 Ti»
BusID «PCI:1:0:0»
EndSection

Section «Device»
Identifier «Device1»
Driver «nvidia»
VendorName «NVIDIA Corporation»
BoardName «GeForce GTX 1070»
BusID «PCI:2:0:0»
Option «ConnectedMonitor» «DFP-0»
Option «CustomEDID» «DFP-0:/etc/X11/edid.bin»
EndSection

Section «Device»
Identifier «Device2»
Driver «nvidia»
VendorName «NVIDIA Corporation»
BoardName «GeForce GTX 1070»
BusID «PCI:3:0:0»
Option «ConnectedMonitor» «DFP-0»
Option «CustomEDID» «DFP-0:/etc/X11/edid.bin»
EndSection

Section «Device»
Identifier «Device3»
Driver «nvidia»
VendorName «NVIDIA Corporation»
BoardName «GeForce GTX 1070 Ti»
BusID «PCI:5:0:0»
Option «ConnectedMonitor» «DFP-0»
Option «CustomEDID» «DFP-0:/etc/X11/edid.bin»
EndSection

Section «Device»
Identifier «Device4»
Driver «nvidia»
VendorName «NVIDIA Corporation»
BoardName «GeForce GTX 1070 Ti»
BusID «PCI:6:0:0»
Option «ConnectedMonitor» «DFP-0»
Option «CustomEDID» «DFP-0:/etc/X11/edid.bin»
EndSection

Section «Device»
Identifier «Device5»
Driver «nvidia»
VendorName «NVIDIA Corporation»
BoardName «GeForce GTX 1070 Ti»
BusID «PCI:7:0:0»
Option «ConnectedMonitor» «DFP-0»
Option «CustomEDID» «DFP-0:/etc/X11/edid.bin»
EndSection

Section «Device»
Identifier «Device6»
Driver «nvidia»
VendorName «NVIDIA Corporation»
BoardName «GeForce GTX 1070»
BusID «PCI:8:0:0»
Option «ConnectedMonitor» «DFP-0»
Option «CustomEDID» «DFP-0:/etc/X11/edid.bin»
EndSection

Section «Screen»
Identifier «Screen0»
Device «Device0»
Monitor «Monitor0»
DefaultDepth 24
Option «AllowEmptyInitialConfiguration» «True»
Option «Coolbits» «13»
SubSection «Display»
Depth 24
EndSubSection
EndSection

Section «Screen»
Identifier «Screen1»
Device «Device1»
Monitor «Monitor1»
DefaultDepth 24
Option «AllowEmptyInitialConfiguration» «True»
Option «Coolbits» «13»
SubSection «Display»
Depth 24
EndSubSection
EndSection

Section «Screen»
Identifier «Screen2»
Device «Device2»
Monitor «Monitor2»
DefaultDepth 24
Option «AllowEmptyInitialConfiguration» «True»
Option «Coolbits» «13»
SubSection «Display»
Depth 24
EndSubSection
EndSection

Section «Screen»
Identifier «Screen3»
Device «Device3»
Monitor «Monitor3»
DefaultDepth 24
Option «AllowEmptyInitialConfiguration» «True»
Option «Coolbits» «13»
SubSection «Display»
Depth 24
EndSubSection
EndSection

Section «Screen»
Identifier «Screen4»
Device «Device4»
Monitor «Monitor4»
DefaultDepth 24
Option «AllowEmptyInitialConfiguration» «True»
Option «Coolbits» «13»
SubSection «Display»
Depth 24
EndSubSection
EndSection

Section «Screen»
Identifier «Screen5»
Device «Device5»
Monitor «Monitor5»
DefaultDepth 24
Option «AllowEmptyInitialConfiguration» «True»
Option «Coolbits» «13»
SubSection «Display»
Depth 24
EndSubSection
EndSection

Section «Screen»
Identifier «Screen6»
Device «Device6»
Monitor «Monitor6»
DefaultDepth 24
Option «AllowEmptyInitialConfiguration» «True»
Option «Coolbits» «13»
SubSection «Display»
Depth 24
EndSubSection
EndSection

                     Script is for miner loop with OC settings for each GPU. 
                            Settings apply only ones at start if they enabled
                 Just edit it for your needs and run thats all, main part after it

#!/bin/sh

#nvidia-settings -a GPUFanControlState=0
#nvidia-settings -a GPUGraphicsClockOffset[3]=-100
#nvidia-settings -a GPUMemoryTransferRateOffset[3]=1200
#nvidia-smi -pm 1
#nvidia-smi -pl 155

#nvidia-settings -a [gpu:0]/GPUGraphicsClockOffset[3]=-150
#nvidia-settings -a [gpu:0]/GPUMemoryTransferRateOffset[3]=1200
#nvidia-settings -a [gpu:0]/GPUFanControlState=1
#nvidia-settings -a [fan:0]/GPUTargetFanSpeed=80

#nvidia-settings -a [gpu:1]/GPUGraphicsClockOffset[3]=-150
#nvidia-settings -a [gpu:1]/GPUMemoryTransferRateOffset[3]=1450
#nvidia-settings -a [gpu:1]/GPUFanControlState=1
#nvidia-settings -a [fan:1]/GPUTargetFanSpeed=80

#nvidia-settings -a [gpu:2]/GPUGraphicsClockOffset[3]=-150
#nvidia-settings -a [gpu:2]/GPUMemoryTransferRateOffset[3]=1150
#nvidia-settings -a [gpu:2]/GPUFanControlState=1
#nvidia-settings -a [fan:2]/GPUTargetFanSpeed=80

#nvidia-settings -a [gpu:3]/GPUGraphicsClockOffset[3]=-100
#nvidia-settings -a [gpu:3]/GPUMemoryTransferRateOffset[3]=1050
#nvidia-settings -a [gpu:3]/GPUFanControlState=1
#nvidia-settings -a [fan:3]/GPUTargetFanSpeed=80

#nvidia-settings -a [gpu:4]/GPUGraphicsClockOffset[3]=-150
#nvidia-settings -a [gpu:4]/GPUMemoryTransferRateOffset[3]=1050
#nvidia-settings -a [gpu:4]/GPUFanControlState=1
#nvidia-settings -a [fan:4]/GPUTargetFanSpeed=80

#nvidia-settings -a [gpu:5]/GPUGraphicsClockOffset[3]=-100
#nvidia-settings -a [gpu:5]/GPUMemoryTransferRateOffset[3]=800
#nvidia-settings -a [gpu:5]/GPUFanControlState=1
#nvidia-settings -a [fan:5]/GPUTargetFanSpeed=80

#nvidia-settings -a [gpu:6]/GPUGraphicsClockOffset[3]=-100
#nvidia-settings -a [gpu:6]/GPUMemoryTransferRateOffset[3]=900
#nvidia-settings -a [gpu:6]/GPUFanControlState=1
#nvidia-settings -a [fan:6]/GPUTargetFanSpeed=80

while true; # This will loop your miner even if you kill -9 ethminer it will start again after do
# To stop just CTRL+C or what ever you want =)
do
/home/m1/Miner/ethminer -U -S eth-eu2.nanopool.org:9999 -O 0xb4983146f0047d87c63b5fdb3ef9e2bee4557ea3.M1/vhosted@gmail.com
done

                       Thats was not so hard, the main deal is up to go !!! 
                      While our miner script is working  we will run another one 
                                             Script for monitoring

#!/bin/sh

-i 5 number GPU to monit

gpu=nvidia-smi -i 5 --query-gpu=utilization.gpu --format=csv,noheader,nounits

while true; #Loops :=))
do
while [ $gpu -gt 50 ]
do
gpu=nvidia-smi -i 5 --query-gpu=utilization.gpu --format=csv,noheader,nounits
echo «GPU load $gpu»
echo «All good $(date) GPU load $gpu No errors»
sleep 10
done
if [ $gpu -lt 40 ]
then
killall -9 ethminer
echo «Restart Miner GPU load $gpu $(date) error»
echo «Restart Miner $(date) error» >> /home/m1/Miner/ethminer.log
sleep 60
gpu=nvidia-smi -i 5 --query-gpu=utilization.gpu --format=csv,noheader,nounits
fi;
done

Thats it. Finished it esterday. I think it can be smaller. But nothing need to install, compile etc. All night i tested my GPUs with OC and power -+ very fast to test cloks and + tail -f /var/log/kern.log | grep nvrm to see what gpu couesd an error without long farm stop.
If it will help you. I like good coffe )) b4983146f0047d87c63b5fdb3ef9e2bee4557ea3
Hosted

Источник

При запуске майнера криптовалют пользователь может получить пространственное сообщение, в котором среди прочего указана ошибка «CUDA error 11 — cannot write buffer for DAG». Обычно это означает, что майнинговой системе не удаётся создать буфер оптимального размера для DAG-файла, который разросся настолько, что не помещается в выделенных ему границах памяти видеокарты. Ниже я разберу факторы данной ошибки, а также поясню, как её исправить на ваших ПК.

Содержание

Перевод и причины проблемы
Как исправить Cuda error 11 при майнинге
Заключение

Перевод и причины проблемы

В переводе текст сообщения звучит как «Ошибка CUDA 11 – не возможно записать буфер для DAG». Появление данного сообщения обычно обозначает ситуацию, при которой ОС Виндовс не может предоставить необходимый объём памяти видеокарты для какого-либо CUDA-приложения (в нашем случае это майнер криптовалют).

Такой объём памяти должен быть достаточно вместительным для того, чтобы в нём поместился упомянутый в тексте ошибки DAG-файл – блок данных размером более 1 Гб, задействованный для поиска решений блока в сети блокчейн с помощью алгоритма «Dagger Hashimoto». В процессе майнинга размер DAG-файла постоянно увеличивается, и со временем начинает превышать объёмы памяти стандартных видеокарт (2-3 гигабайта). При запуске майнинга, при попытке загрузить такой DAG-файл в видеопамять, система обнаруживает, что объём данного файла слишком велик, после чего пользователь получает ошибку CUDA error 11.

Данная проблема может возникнуть как при первом запуске майнера, так и уже после длительной его работы. Наблюдается она примерно с середины 2016 года, когда стандартного размера видеопамяти в 2 гигабайта стало не хватать для обслуживания DAG-файлов, а с апреля 2018 года перестанет хватать и 3 гигабайт.

Как исправить Cuda error 11 при майнинге

Чтобы избавиться от ошибки CUDA error 11 — cannot write buffer for DAG необходимо выполнить следующие действия:

Установите размер файла подкачки до 32 гигабайт и более. Нажмите Win+R, там введите sysdm.cpl и нажмите ввод. В открывшемся окне свойств системы перейдите на вкладку «Дополнительно», найдите там опцию «Быстродействие», и щёлкните на кнопке «Параметры» рядом с ней. Вновь перейдите на вкладку «Дополнительно», нажмите на кнопку «Изменить», здесь активируйте опцию «Указать размер», и установите размер файла подкачки в 32 гигабайт;
Откажитесь от системных визуальных эффектов, нагружающих видеокарту и замедляющих её быстродействие. Вновь перейдите по указанному чуть выше пути, в опции «Быстродействие» вновь нажмите на «Параметры», и здесь активируйте опцию «Обеспечить наилучшее быстродействие». Нажмите на «Ок» для сохранения произведённых вами изменений. Также рекомендуется закрыть все ненужные программы, включая и ваш браузер;
Впишите атрибут –eres 0 в ваш Claymore bat-файл. Это позволит системе создавать буфер DAG с меньшей интенсивностью, тем самым способствуя стабильности расчётов. Данный способ – один из самых действенных, позволяющий решить ошибку CUDA error 11 на вашем компьютере;
Установите свежие драйвера для вашей видеокарты с сайта её производителя (или используйте программы уровня «Драйвер Пак Солюшн» для полуавтоматического обновления драйверов). Для этого сначала рекомендуется удалить старые драйвера с помощью «DDU», перезагрузиться, и установить новые драйвера. Если установка свежих драйверов не помогла, попробуйте использовать драйвера более ранних версии, при которой ошибки CUDA error 11 не наблюдалось;
Добавьте следующие строчки в ваш Claymore bat-файл:

Убедитесь, что на вашем винчестере имеется достаточное количество свободного места. При необходимости, увеличьте его размеры;
Установите видеокарту с большим объёмом видеопамяти. Увеличение требование к аппаратной начинке систем для майнинга требует для сегодняшних систем размер памяти видеокарты 4 и более гигабайт.

Заключение

В большинстве случаев, наиболее эффективным решением ошибки «CUDA error 11 — cannot write buffer for DAG» становится задействование атрибута –eres 0 в запускаемом бат-файле. Если же вы выполнили все предложенные в статье советы, и этого оказалось недостаточно, тогда остаётся лишь посоветовать сменить видеокарту на аналог с большим объёмом памяти, что позволит эффективно решить ошибку CUDA error 11 на вашем ПК.

Опубликовано 02.04.2018 Обновлено 03.12.2020

Источник

Содержание

Подробнее об ошибке
Для чего нужен файл DAG
Способы устранения ошибки
Другие способы устранить ошибку

Подробнее об ошибке

Ошибка не обязательно происходит при майнинге. Пользователи могут столкнуться с ней и при работе с графикой. Особенно часто она встречается тем, кто работает с видео редакторами. Преимущественно появляется на ОС Windows 10. Рассмотрим их решения более подробно и определим несколько методов её устранения.

А вы знаете, как устранить: Something went wrong. Try restart Geforce Experience.

Для чего нужен файл DAG

Способы устранения ошибки

Откройте командную строку и введите команду, которую видите выше;
Если это не помогло, введите весь список команд, который видите на скриншоте;
Если используется Linux для майнинга, воспользуйтесь другим списком команд;
Если и это не помогло, необходимо добавить в строку майнера команду «-eres 0».

Другие способы устранить ошибку

Выберите «Пуск» внизу рабочего стола и нажмите пункт «Выполнить» или нажмите одновременно 2 клавиши — WIN+R;
Введите следующую команду «control system»;
В появившемся окне необходимо выбрать строку «Дополнительные параметры». Она находится слева вверху;
Откроется окошко, в котором выберите «Дополнительно» и нажать на кнопку «Параметры»;
На следующем шаге нажмите снова вкладку «Дополнительно» и нажмите на кнопку «Изменить»;
Уберите галочку с пункта «Выбирать автоматически», сфокусируйте выбора на системном диске в списке ниже, выберите «Указать размер» и напишите в первой строке (максимальный размер) 32 Мб, во второй (исходный размер) укажите 16 000 Мб. Чуть ниже этих пунктов нажмите кнопку «Задать» и выберите «Ок» внизу окна.
Увеличьте файл подкачки

Опубликовано 11 мая 2019 Обновлено 16 мая 2021

Источник