-
#1
Есть карта Inno3D GeForce RTX 2060 Twin X2 | N20602-06D6-1710VA15L, раз в 4-5 дней отваливается с ошибкой unspecified launch failure.
После перезагружается майнер — даг создаётся нормальный, карта копает, шары идут (до пула хешрейт доходит), но не работает управление частотами и не идёт статистика.
Пробовал:
— другие райзера
— разные майнеры (gminer, nbminer, t-rex)
— убавлял разгон
— подкидывал её на отдельный бп
Так то майнит и йух с ней, однако хочу разобраться с этой проблемой.
Код:
+---+-----+----+-----+-----------+----------+----+-----+-----+-------------+
| ID GPU Temp Fan Speed Shares Core Mem Power Efficiency |
+---+-----+----+-----+-----------+----------+----+-----+-----+-------------+
| 1 2060 56 30 % 29.95 MH/s 2468/0/0 1095 7660 84 W 356.57 KH/W |
| 2 1080 60 55 % 36.77 MH/s 2991/0/0 2088 5265 170 W 216.29 KH/W |
| 3 2060 46 30 % 32.99 MH/s 2738/0/4 1095 7880 77 W 428.44 KH/W |
| 4 2060 61 43 % 33.00 MH/s 2787/0/3 1095 7885 73 W 452.00 KH/W |
| 5 2060 60 30 % 29.79 MH/s 2466/0/0 1200 7626 96 W 310.27 KH/W |
| 162.49 MH/s 13450/0/7 500 W 324.99 KH/W |
+---+-----+----+-----+-----------+----------+----+-----+-----+-------------+
11:39:40 Pool: eu1.ethermine.org:4444 Shares/Minute: 2.24
11:39:40 Pool Hashrate: 159.67 MH/s Efficiency: 98.26 %
11:39:40 Uptime: 4d 04:05:05 Electricity: 49.799 kWh
11:39:41 New Job: 4a34f225 Epoch: #439 Block: #13177622 Diff: 4.295G
11:39:42 New Job: b15afa9f Epoch: #439 Block: #13177622 Diff: 4.295G
11:39:43 Error on GPU5: unspecified launch failure
11:39:43 Stopped Mining on GPU1
11:39:43 Stopped Mining on GPU2
11:39:43 Stopped Mining on GPU3
11:39:43 Stopped Mining on GPU4
11:39:43 Stopped Mining on GPU5
11:39:44 Miner terminated, watchdog will restart process after 10 seconds
+----------------------------------------------------------------+
| GMiner v2.65 |
+----------------------------------------------------------------+
Algorithm: Ethash
DevFee: 0.65 %
Stratum server #1:
host: eu1.ethermine.org:4444
user: 0x758c4007dd5ec749407f2e5345c562c622942999.rig1
password: x
Stratum server #2:
host: eu1.ethermine.org:14444
user: 0x758c4007dd5ec749407f2e5345c562c622942999.rig1
password: x
Stratum server #3:
host: asia1.ethermine.org:4444
user: 0x758c4007dd5ec749407f2e5345c562c622942999.rig1
password: x
Stratum server #4:
host: asia1.ethermine.org:14444
user: 0x758c4007dd5ec749407f2e5345c562c622942999.rig1
password: x
Power calculator: on
Color output: on
Watchdog: on
API: http://127.0.0.1:42010
Log to file: /var/log/miner/gminer/gminer.log
Selected devices: GPU1 GPU2 GPU3 GPU4 GPU5
Intensity: 100 100 100 100 100
Temperature limits: 90/120 90/120 90/120 90/120 90/120
------------------------------------------------------------------
11:39:54 Nvidia Driver: 460.67
11:39:55 Connected to eu1.ethermine.org:4444 [172.65.207.106]
11:39:55 Authorized on Stratum Server
11:39:55 New Job: da1de39b Epoch: #439 Block: #13177623 Diff: 4.295G
11:39:55 Started Mining on GPU1: MSI GeForce RTX 2060 6GB [0000:02:00.0]
11:39:55 Started Mining on GPU2: GIGABYTE GeForce GTX 1080 8GB [0000:03:00.0]
11:39:55 Started Mining on GPU3: MSI GeForce RTX 2060 6GB [0000:04:00.0]
11:39:55 Started Mining on GPU4: GIGABYTE GeForce RTX 2060 6GB [0000:05:00.0]
11:39:55 Started Mining on GPU5: NVIDIA GeForce RTX 2060 6GB [0000:06:00.0]
11:39:56 New Job: 0525b34a Epoch: #439 Block: #13177623 Diff: 4.295G
11:39:57 New Job: 1b797f8e Epoch: #439 Block: #13177623 Diff: 4.295G
11:39:59 New Job: c847af55 Epoch: #439 Block: #13177623 Diff: 4.295G
11:39:59 New Job: 1fbc295b Epoch: #439 Block: #13177623 Diff: 4.295G
11:40:00 GPU2: Generating DAG for epoch #439 [Single Buffer 4536 MB]
11:40:00 GPU5: Generating DAG for epoch #439 [Single Buffer 4536 MB]
11:40:00 GPU1: Generating DAG for epoch #439 [Single Buffer 4536 MB]
11:40:00 GPU3: Generating DAG for epoch #439 [Single Buffer 4536 MB]
11:40:00 GPU4: Generating DAG for epoch #439 [Single Buffer 4536 MB]
11:40:01 New Job: e8801bc9 Epoch: #439 Block: #13177623 Diff: 4.295G
11:40:02 New Job: 8907928b Epoch: #439 Block: #13177623 Diff: 4.295G
11:40:05 New Job: 21eb0553 Epoch: #439 Block: #13177623 Diff: 4.295G
11:40:07 New Job: 7d9923ed Epoch: #439 Block: #13177624 Diff: 4.295G
11:40:07 New Job: 359aa448 Epoch: #439 Block: #13177624 Diff: 4.295G
11:40:08 New Job: 26446a1f Epoch: #439 Block: #13177624 Diff: 4.295G
11:40:08 New Job: ecb79a11 Epoch: #439 Block: #13177624 Diff: 4.295G
11:40:09 New Job: 63a406f0 Epoch: #439 Block: #13177624 Diff: 4.295G
11:40:09 GPU2: DAG generated in 8.68s [523 MB/s]
11:40:09 GPU2: DAG verification passed
11:40:10 New Job: f4eaccdb Epoch: #439 Block: #13177624 Diff: 4.295G
11:40:10 New Job: 44d3a78b Epoch: #439 Block: #13177624 Diff: 4.295G
11:40:11 New Job: 37c7db19 Epoch: #439 Block: #13177624 Diff: 4.295G
11:40:11 New Job: 650a94eb Epoch: #439 Block: #13177624 Diff: 4.295G
11:40:11 New Job: 6dfcb618 Epoch: #439 Block: #13177624 Diff: 4.295G
11:40:12 New Job: 7a73003a Epoch: #439 Block: #13177624 Diff: 4.295G
11:40:12 GPU3: DAG generated in 12.21s [371 MB/s]
11:40:12 GPU3: DAG verification passed
11:40:12 GPU4: DAG generated in 12.21s [371 MB/s]
11:40:12 GPU4: DAG verification passed
11:40:12 GPU1: DAG generated in 12.38s [366 MB/s]
11:40:12 GPU1: DAG verification passed
11:40:14 New Job: f617d3f6 Epoch: #439 Block: #13177624 Diff: 4.295G
11:40:14 GPU5: DAG generated in 13.62s [333 MB/s]
11:40:14 GPU5: DAG verification passed
11:40:16 New Job: bcf1358b Epoch: #439 Block: #13177624 Diff: 4.295G
Скрины:
1) до ‘отвала’
2) спустя 4 дня
3) после перезагрузки майнера
4) шары идут
5) после отвала
-
#2
пропеллер на ней крутится вяло-вяло/на полную дурь/не крутится вовсе?
райзер говно!
-
#3
тоже имеется 2060 на Hynix. При частоте памяти 1800 отваливается с похожими симптомами. Отваливается скорость вентиляторов, но температура видна и шары в порядке. Замена райзера не помогла. Помогло небольшое снижение разгона.
-
#4
пропеллер на ней крутится вяло-вяло/на полную дурь/не крутится вовсе?
райзер говно!
я куев его не знает, какие частоты на линях для зеленых, у меня они на винде стоят. 2060 так же не имею) но 2060с свыше 7900 в абсолютной частоте у меня не работают, на микроне
исхожу из того, что параметры карты у чела выставлены верно.
-
#5
пропеллер на ней крутится вяло-вяло/на полную дурь/не крутится вовсе?
райзер говно!
кульки крутятся нормально и до и после ‘отвала’
тоже имеется 2060 на Hynix. При частоте памяти 1800 отваливается с похожими симптомами. Отваливается скорость вентиляторов, но температура видна и шары в порядке. Замена райзера не помогла. Помогло небольшое снижение разгона.
разгон снижал до 1200 — проблема не пропала
-
#7
вот, что дает нам православный поиск по форуму)
частоту-то ты через чур уж низкую ставишь, и еще занижаешь потом)
-
#8
вот, что дает нам православный поиск по форуму)
частоту-то ты через чур уж низкую ставишь, и еще занижаешь потом)
обрати внимание на скрин что ты скинул — там память самсунг, у моей же карты хьюникс
-
#9
обрати внимание на скрин что ты скинул — там память самсунг, у моей же карты хьюникс
я просто культурно посоветовал воспользоваться поиском)
там все есть, мне лень смотреть.
«все RTX2060 в майнинге» ветка называется.
-
#10
Прошей ей другой биос и будет 33.5 давать. Возможно, и отвалы пропадут.
-
#11
отвалы статы это проблема с питанием или перегрев карты. причем перегрев такого плана каторый не видно.. те по датчикам тепература будет ну как на фото выше.
вобьщем я тож воевал с этим. мне помогло выкрутить вентиляторы на 100% . по датчику температура упала до 35гр. отвалы пропали. буду вскрывать карты смотреть что внутри.
были исчо ребуты фермы произвольные, оказалось БП не тащит такую мощность. проверка проста. карты на настройки по умолчанию , поверлимит 100% и гоняеш сутки. если ферма продолжает ребутиться . режеш поверлимит до 75%, повторяеш тест сутки.
эмпирическим путем определил что БП тиащит стабильно гдето 1300ватт. если больше нагрузить, то начинаються несистематические перезагрузки фермы.
-
#12
У меня 2060 работают на ядре 1300,если меньше падает хеш и вылеты.
-
#13
Прошей ей другой биос и будет 33.5 давать. Возможно, и отвалы пропадут.
На сколько известно эта тема работает только на 1660с, да и окирпичить не охота пока на гарантии, понятно что есть программатор и наклейки с алика, но не думаю что ради циферок статы стоит лезть ‘работает — не трогай’
отвалы статы это проблема с питанием или перегрев карты. причем перегрев такого плана каторый не видно.. те по датчикам тепература будет ну как на фото выше.
вобьщем я тож воевал с этим. мне помогло выкрутить вентиляторы на 100% . по датчику температура упала до 35гр. отвалы пропали. буду вскрывать карты смотреть что внутри.
были исчо ребуты фермы произвольные, оказалось БП не тащит такую мощность. проверка проста. карты на настройки по умолчанию , поверлимит 100% и гоняеш сутки. если ферма продолжает ребутиться . режеш поверлимит до 75%, повторяеш тест сутки.
эмпирическим путем определил что БП тиащит стабильно гдето 1300ватт. если больше нагрузить, то начинаються несистематические перезагрузки фермы.
по бп исключена проблема, температуры промерял пирометром ничего критичного не обнаружил
-
#14
На сколько известно эта тема работает только на 1660с
причем здесь суперы? у 2060 свои биосы.
-
#15
Такое наблюдение, Asus 2060 Hynix, при памяти 2300 и выше, 31+ мх и появление unspecified launch failure и/или пропадает инфа о потреблении и температуре. При памяти 2200 раз в сутки перегруз майнера. При 2150 все работает без сбоев, даёт 30,9мх, ядро во всех случаях 1050. Т.е. я избавился от этой проблемы путём уменьшения разгона памяти.
-
#16
Такое наблюдение, Asus 2060 Hynix, при памяти 2300 и выше, 31+ мх и появление unspecified launch failure и/или пропадает инфа о потреблении и температуре. При памяти 2200 раз в сутки перегруз майнера. При 2150 все работает без сбоев, даёт 30,9мх, ядро во всех случаях 1050. Т.е. я избавился от этой проблемы путём уменьшения разгона памяти.
Хуникс. При памяти 1900 дает 33,5
-
#18
Есть карта Inno3D GeForce RTX 2060 Twin X2 | N20602-06D6-1710VA15L, раз в 4-5 дней отваливается с ошибкой unspecified launch failure.
После перезагружается майнер — даг создаётся нормальный, карта копает, шары идут (до пула хешрейт доходит), но не работает управление частотами и не идёт статистика.
![]()
Пробовал:
— другие райзера
— разные майнеры (gminer, nbminer, t-rex)
— убавлял разгон
— подкидывал её на отдельный бпТак то майнит и йух с ней, однако хочу разобраться с этой проблемой.
Код:
+---+-----+----+-----+-----------+----------+----+-----+-----+-------------+ | ID GPU Temp Fan Speed Shares Core Mem Power Efficiency | +---+-----+----+-----+-----------+----------+----+-----+-----+-------------+ | 1 2060 56 30 % 29.95 MH/s 2468/0/0 1095 7660 84 W 356.57 KH/W | | 2 1080 60 55 % 36.77 MH/s 2991/0/0 2088 5265 170 W 216.29 KH/W | | 3 2060 46 30 % 32.99 MH/s 2738/0/4 1095 7880 77 W 428.44 KH/W | | 4 2060 61 43 % 33.00 MH/s 2787/0/3 1095 7885 73 W 452.00 KH/W | | 5 2060 60 30 % 29.79 MH/s 2466/0/0 1200 7626 96 W 310.27 KH/W | | 162.49 MH/s 13450/0/7 500 W 324.99 KH/W | +---+-----+----+-----+-----------+----------+----+-----+-----+-------------+ 11:39:40 Pool: eu1.ethermine.org:4444 Shares/Minute: 2.24 11:39:40 Pool Hashrate: 159.67 MH/s Efficiency: 98.26 % 11:39:40 Uptime: 4d 04:05:05 Electricity: 49.799 kWh 11:39:41 New Job: 4a34f225 Epoch: #439 Block: #13177622 Diff: 4.295G 11:39:42 New Job: b15afa9f Epoch: #439 Block: #13177622 Diff: 4.295G 11:39:43 Error on GPU5: unspecified launch failure 11:39:43 Stopped Mining on GPU1 11:39:43 Stopped Mining on GPU2 11:39:43 Stopped Mining on GPU3 11:39:43 Stopped Mining on GPU4 11:39:43 Stopped Mining on GPU5 11:39:44 Miner terminated, watchdog will restart process after 10 seconds +----------------------------------------------------------------+ | GMiner v2.65 | +----------------------------------------------------------------+ Algorithm: Ethash DevFee: 0.65 % Stratum server #1: host: eu1.ethermine.org:4444 user: 0x758c4007dd5ec749407f2e5345c562c622942999.rig1 password: x Stratum server #2: host: eu1.ethermine.org:14444 user: 0x758c4007dd5ec749407f2e5345c562c622942999.rig1 password: x Stratum server #3: host: asia1.ethermine.org:4444 user: 0x758c4007dd5ec749407f2e5345c562c622942999.rig1 password: x Stratum server #4: host: asia1.ethermine.org:14444 user: 0x758c4007dd5ec749407f2e5345c562c622942999.rig1 password: x Power calculator: on Color output: on Watchdog: on API: http://127.0.0.1:42010 Log to file: /var/log/miner/gminer/gminer.log Selected devices: GPU1 GPU2 GPU3 GPU4 GPU5 Intensity: 100 100 100 100 100 Temperature limits: 90/120 90/120 90/120 90/120 90/120 ------------------------------------------------------------------ 11:39:54 Nvidia Driver: 460.67 11:39:55 Connected to eu1.ethermine.org:4444 [172.65.207.106] 11:39:55 Authorized on Stratum Server 11:39:55 New Job: da1de39b Epoch: #439 Block: #13177623 Diff: 4.295G 11:39:55 Started Mining on GPU1: MSI GeForce RTX 2060 6GB [0000:02:00.0] 11:39:55 Started Mining on GPU2: GIGABYTE GeForce GTX 1080 8GB [0000:03:00.0] 11:39:55 Started Mining on GPU3: MSI GeForce RTX 2060 6GB [0000:04:00.0] 11:39:55 Started Mining on GPU4: GIGABYTE GeForce RTX 2060 6GB [0000:05:00.0] 11:39:55 Started Mining on GPU5: NVIDIA GeForce RTX 2060 6GB [0000:06:00.0] 11:39:56 New Job: 0525b34a Epoch: #439 Block: #13177623 Diff: 4.295G 11:39:57 New Job: 1b797f8e Epoch: #439 Block: #13177623 Diff: 4.295G 11:39:59 New Job: c847af55 Epoch: #439 Block: #13177623 Diff: 4.295G 11:39:59 New Job: 1fbc295b Epoch: #439 Block: #13177623 Diff: 4.295G 11:40:00 GPU2: Generating DAG for epoch #439 [Single Buffer 4536 MB] 11:40:00 GPU5: Generating DAG for epoch #439 [Single Buffer 4536 MB] 11:40:00 GPU1: Generating DAG for epoch #439 [Single Buffer 4536 MB] 11:40:00 GPU3: Generating DAG for epoch #439 [Single Buffer 4536 MB] 11:40:00 GPU4: Generating DAG for epoch #439 [Single Buffer 4536 MB] 11:40:01 New Job: e8801bc9 Epoch: #439 Block: #13177623 Diff: 4.295G 11:40:02 New Job: 8907928b Epoch: #439 Block: #13177623 Diff: 4.295G 11:40:05 New Job: 21eb0553 Epoch: #439 Block: #13177623 Diff: 4.295G 11:40:07 New Job: 7d9923ed Epoch: #439 Block: #13177624 Diff: 4.295G 11:40:07 New Job: 359aa448 Epoch: #439 Block: #13177624 Diff: 4.295G 11:40:08 New Job: 26446a1f Epoch: #439 Block: #13177624 Diff: 4.295G 11:40:08 New Job: ecb79a11 Epoch: #439 Block: #13177624 Diff: 4.295G 11:40:09 New Job: 63a406f0 Epoch: #439 Block: #13177624 Diff: 4.295G 11:40:09 GPU2: DAG generated in 8.68s [523 MB/s] 11:40:09 GPU2: DAG verification passed 11:40:10 New Job: f4eaccdb Epoch: #439 Block: #13177624 Diff: 4.295G 11:40:10 New Job: 44d3a78b Epoch: #439 Block: #13177624 Diff: 4.295G 11:40:11 New Job: 37c7db19 Epoch: #439 Block: #13177624 Diff: 4.295G 11:40:11 New Job: 650a94eb Epoch: #439 Block: #13177624 Diff: 4.295G 11:40:11 New Job: 6dfcb618 Epoch: #439 Block: #13177624 Diff: 4.295G 11:40:12 New Job: 7a73003a Epoch: #439 Block: #13177624 Diff: 4.295G 11:40:12 GPU3: DAG generated in 12.21s [371 MB/s] 11:40:12 GPU3: DAG verification passed 11:40:12 GPU4: DAG generated in 12.21s [371 MB/s] 11:40:12 GPU4: DAG verification passed 11:40:12 GPU1: DAG generated in 12.38s [366 MB/s] 11:40:12 GPU1: DAG verification passed 11:40:14 New Job: f617d3f6 Epoch: #439 Block: #13177624 Diff: 4.295G 11:40:14 GPU5: DAG generated in 13.62s [333 MB/s] 11:40:14 GPU5: DAG verification passed 11:40:16 New Job: bcf1358b Epoch: #439 Block: #13177624 Diff: 4.295G
Скрины:
1) до ‘отвала’
![]()
2) спустя 4 дня
![]()
3) после перезагрузки майнера
![]()
4) шары идут
![]()
5) после отвала
![]()
снижай разгон для этой карты, она явно не тянет настройки разгона, добавь поверлимита, ты поставил 125 а это нижний порог для этих карт, поставь на 130 с запасом немного
Последнее редактирование: 17 Сен 2021
-
#19
Поделитесь биосом) у меня 31 при 86W
В теме 2060 есть,на первой странице.
-
#20
[UP ниже читайте — все получилось!!!]
Проблема аналогичная с этой КАРТОЙ Inno3d 2060 Hynix
ставил в хайве 1020-1100 по ядру, потребление ниже 100w не опускается,но главное хэшрейт 29.5 при памяти 1600, на 2200 -30.5 но через пару минут вылетает карта
я так понял, это новая партия карт. они то ли залочены, то ли rev 2 такой
биос: 90.06.69.00.28
Последнее редактирование: 4 Окт 2021
import os
os.environ['CUDA_LAUNCH_BLOCKING'] = "1"
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
torch.backends.cudnn.enabled = False
# Step 1: Load the data
data = np.random.rand(5000,20)
nVar = data.shape[1]
# Step 2: Create training and validation sets
train_data = data[:3000, :]
val_data = data[3000:, :]
# Step 3: Normalize the data
train_mean = train_data.mean(axis=0)
train_std = train_data.std(axis=0)
train_data = (train_data - train_mean) / train_std
val_data = (val_data - train_mean) / train_std
# Step 4: Create sequences of input data and target values
def create_sequences(data, seq_len):
X = []
y = []
for i in range(seq_len, len(data)):
X.append(data[i-seq_len:i,:])
y.append(data[i, 0])
return np.array(X), np.array(y)
seq_len = 20
train_X, train_y = create_sequences(train_data, seq_len)
val_X, val_y = create_sequences(val_data, seq_len)
# Step 5: Define the Transformer model
class TransformerModel(nn.Module):
def __init__(self, input_dim, output_dim, n_heads, n_layers, dropout):
super(TransformerModel, self).__init__()
self.transformer_encoder = nn.TransformerEncoder(
nn.TransformerEncoderLayer(
d_model=input_dim,
nhead=n_heads,
dropout=dropout
),
num_layers=n_layers
)
self.decoder = nn.Linear(input_dim, output_dim)
def forward(self, x):
x = self.transformer_encoder(x)
x = self.decoder(x[:, -1, :])
return x
# Step 6: Train the model
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
train_dataset = torch.utils.data.TensorDataset(
torch.tensor(train_X, dtype=torch.float32),
torch.tensor(train_y, dtype=torch.float32)
)
val_dataset = torch.utils.data.TensorDataset(
torch.tensor(val_X, dtype=torch.float32),
torch.tensor(val_y, dtype=torch.float32)
)
batch_size = 64
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, pin_memory=False)
val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False)
input_dim = train_X.shape[2]
output_dim = 1
n_heads = 2
n_layers = 2
dropout = 0.1
model = TransformerModel(input_dim, output_dim, n_heads, n_layers, dropout).cuda()
criterion = nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)
n_epochs = 10000
train_losses = []
val_losses = []
for epoch in range(n_epochs):
# Train the model
print(epoch)
model.train()
train_loss = 0.0
for i, (inputs, targets) in enumerate(train_loader):
inputs = inputs.cuda()
targets = targets.cuda()
optimizer.zero_grad()
outputs = model(inputs)
loss = criterion(outputs.view(-1), targets)
loss.backward()
optimizer.step()
train_loss += loss.item() * inputs.size(0)
train_loss /= len(train_loader.dataset)
train_losses.append(train_loss)
# Evaluate the model on the validation set
RuntimeError Traceback (most recent call last)
in
102 outputs = model(inputs)
103 loss = criterion(outputs.view(-1), targets)
—> 104 loss.backward()
105 optimizer.step()
106 train_loss += loss.item() * inputs.size(0)
~/anaconda3/envs/torch/lib/python3.7/site-packages/torch/_tensor.py in backward(self, gradient, retain_graph, create_graph, inputs)
394 create_graph=create_graph,
395 inputs=inputs)
—> 396 torch.autograd.backward(self, gradient, retain_graph, create_graph, inputs=inputs)
397
398 def register_hook(self, hook):
~/anaconda3/envs/torch/lib/python3.7/site-packages/torch/autograd/init.py in backward(tensors, grad_tensors, retain_graph, create_graph, grad_variables, inputs)
173 Variable.execution_engine.run_backward( # Calls into the C++ engine to run the backward pass
174 tensors, grad_tensors, retain_graph, create_graph, inputs,
—> 175 allow_unreachable=True, accumulate_grad=True) # Calls into the C++ engine to run the backward pass
176
177 def grad(
RuntimeError: CUDA error: unspecified launch failure
maybe I have error in the code? but the first few iterations run no problem, and it runs no problem on colab or on other PCs.
Same error if we put tensor core enabled, or put memory pin/ true or false
Самое полное собрание ошибок в майнинге на Windows, HiveOS и RaveOS и их быстрых и спокойных решений
CAN’T FIND NONCE WITH DEVICE CUDA_ERROR_LAUNCH_FAILED
Ошибка говорит о том, что майнер не может найти нонс и сразу же сам предлагает решение — уменьшить разгон. Особенно начинающие майнеры стараются выжать из видеокарты максимум — разгоняют слишком сильно по ядру или памяти. В таком разгоне видеокарта даже может запуститься, но потом выдавать ошибки как указано ниже. Помните, лучше — стабильная отправка шар на пул, чем гонка за цифрами в майнере.
Зарабатывай на чужих сделках на бирже BingX. Подробнее — тут.
PHOENIXMINER CONNECTION TO API SERVER FAILED — ЧТО ДЕЛАТЬ?
Такая ошибка встречается на PhoenixMiner на операционной систему HiveOS. Она говорит о том, что майнинг-ферма/риг не может подключиться к серверу статистики. Что делать для ее решения:
- Введите команду net-test и запомните/запишите сервер с низким пингом. После чего смените его в веб интерфейсе Hive (на воркере) и перезагрузите ваш риг.
- Если это не помогло, выполните команду dnscrypt -i && sreboot
PHOENIXMINER CUDA ERROR IN CUDAPROGRAM.CU:474 : THE LAUNCH TIMED OUT AND WAS TERMINATED (702)
Эта ошибка, как и в первом случае, говорит о переразгоне карты. Откатите видеокарту до заводских настроек и постепенно поднимайте разгон до тех пор, пока не будет ошибки.
UNABLE TO ENUM CUDA GPUS: INVALID DEVICE ORDINAL
Проверяем драйвера видеокарты и саму видеокарту на работоспособность (как она отмечена в диспетчере устройств, нет ли восклицательных знаков).
Если все ок, то проверяем райзера. Часто бывает, что именно райзер бывает причиной такой ошибки.
UNABLE TO ENUM CUDA GPUS: INSUFFICIENT CUDA DRIVER: 5000
Аналогично предыдущей ошибке — проверяем драйвера видеокарты и саму видеокарту на работоспособность (как она отмечена в диспетчере устройств, нет ли восклицательных знаков).
NBMINER MINING PROGRAM UNEXPECTED EXIT.CODE: -1073740791, REASON: PROCESS CRASHED
Ошибка code 1073740791 nbminer возникает, если ваш риг/майнинг-ферма собраны из солянки Nvidia+AMD. В этом случае разделите майнинг на два .bat файла (или полетника, если вы на HiveOS). Один — с картами AMD, другой с картами Nvidia.
NBMINER CUDA ERROR: OUT OF MEMORY (ERR_NO=2) — как исправить?
Одна из самых распространённых ошибок на Windows — нехватка памяти, в данном случае на майнере Nbminer, но встречается и в майнере Nicehash. Чтобы ее исправить — надо увеличить файл подкачки. Файл подкачки должен быть равен сумме гб всех видеокарт в риге плюс 10% запаса. Как увеличить файл подкачки — читаем тут.
GMINER ERROR ON GPU: OUT OF MEMORY STOPPED MINING ON GPU0
В данном случае скорее всего виноват не файл подкачки, а переразгон по видеокарте, которая идет под номером 0. Сбавьте разгон и ошибка должна пропасть.
Socket error. the remote host closed the connection, в майнере Nbminer
Также может быть описана как «ERROR — Failed to establish connection to mining pool: Socket operation timed out».
Сетевой конфликт — проверьте соединение рига с интернетом. Перегрузите роутер.
Также может быть, что провайдер закрывает соединение с пулом. Смените пул, попробуйте VPN или измените адреса DNS на внешнего провайдера, например cloudflare 1.1.1.1, 1.0.0.1
Server not responded on share, на майнере Gminer
Такая ошибка говорит о том, что у вас что-то с подключением к интернету, что критично для Gminer. Попробуйте сделать рестарт роутера и отключить watchdog на майнере.
DAG has been damaged check overclocking settings, в майнере Gminer
Также в этой ошибке может быть указано Device not responding, check overclocking settings.
Ошибка говорит о переразгоне, попробуйте сначала убавить его.
Если это не помогло, смените майнер — Gminer никогда не славился работой с видеокартами AMD. Мы рекомендуем поменять майнер на Teamredminer, а если вам критична поддержка майнером одновременно Nvidia и AMD видеокарт, то используйте Lolminer.
Если смена майнера не поможет, переставьте видеодрайвер.
Если и это не поможет, то нужно тестировать эту карту отдельно в слоте X16.
ERROR: Can’t start T-Rex, failed to initialize device map: can’t get busid, code -6
Ошибки настройки памяти с кодом -6 обычно указывают на проблему с драйвером.
Если у вас Windows, используйте программу DDU (DisplayDriverUninstaller), чтобы полностью удалить все драйверы Nvidia.
Перезагрузите систему.
Установите новый драйвер прямо с сайта Nvidia.
Перезагрузите систему снова.
Если у вас HiveOS/RaveOS — накатите чистый образ системы. Чтобы наверняка. 🙂
TREX: Can’t unlock GPU
Полный текст ошибки:
TREX: Can’t unlock GPU [ID=1, GPU #1], error code 15
WARN: Miner is going to shutdown…
WARN: NVML: can’t get fan speed for GPU #1, error code 15
WARN: NVML: can’t get power for GPU #1, error code 15
WARN: NVML: can’t get mem/core clock for GPU #1, error code 17
Решение:
- Проверьте все кабельные соединения видеокарты и райзера, особенно кабеля питания.
- Если с первый пунктом все ок, попробуйте поменять райзер на точно рабочий.
- Если ошибка остается, вставьте видеокарту в разъем х16 напрямую в материнскую плату.
CAN’T START MINER, FAILED TO INITIALIZE DEVIS MAP, CAN’T GET BUSID, CODE -6
В конкретном случае была проблема в блоке питания, он не держал 3 видеокарты. После замены блока питания ошибка пропала.
Если вы уверены, что ваш мощности вашего блока питания достаточно, попробуйте сменить майнер.
Зарабатывай на чужих сделках на бирже BingX. Подробнее — тут.
ОШИБКА 511 ГРАДУСОВ НА ВИДЕОКАРТА
Ошибка 511 говорит о неисправности райзера или питания карты. Проверьте все соединения. Для выявления неисправности рекомендуется запустить систему с одной картой. Протестировать, и затем добавлять по одной карте.
GPU driver error, no temps в HiveOS — что делать?
Вероятнее всего, вы получили эту ошибку, майнив на HiveOS. Причин ее появления может быть несколько — как софтовая, так и аппаратная (например райзер).
Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.
Если ошибка не уйдет — проверьте райзер.
GPU are lost, rebooting
Это не ошибка, а ее последствие. Что узнать какая ошибка приводит к перезагрузке карт, сделайте следующее:
Включите сохранение логов (по умолчанию они выключены) командой
logs-on
И перезагрузите риг.
После того как ошибка повторится можно будет скачать логи командами ниже.
Вы можете использовать следующую команду, чтобы загрузить логи майнера прямо с панели мониторинга;
message file «miner.log» -f=/var/log/miner/minername/minername.log
Итак, скажем, например, мне нужны логи TeamRedMiner
message file «teamredminer.log» -f=/var/log/miner/teamredminer/teamredminer.log
Отправленная командная строка будет выделена синим цветом. Загружаемый файл будет отображаться белым цветом. Нажав на него, вы сможете его скачать.
Эта команда позволит скачать лог системы
message file «syslog» -f=/var/log/syslog
exitcode=3 в HiveOS
Вероятнее всего, вы получили эту ошибку, майнив на HiveOS. Причин ее появления может быть несколько — как софтовая, так и аппаратная (например райзер).
Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.
Если ошибка не уйдет — проверьте райзер.
exitcode=1 в HiveOS
Данная ошибка возникает когда есть проблема с датой в биосе материнской платы (сбитое время) и (или) есть проблема с интернетом.
Если сбито время, то удаленно вы не сможете подключиться.
Тем не менее, обновление драйверов Nvidia должно пройти командой:
nvidia-driver-update —list
gpu fault detected 146
Скорее всего вы пытаетесь майнить с помощью Phoenix miner. Решения два:
- Откатитесь на более старую версию, например на 5.4с
- (Рекомендуемый вариант) Используйте Trex для видеокарт Nvidia и TeamRedMiner для AMD.
Waiting interface to come up — не работает VPN на HiveOS
Начните с логов, чтобы понять какая именно ошибка вызывает эту проблему.
Команды для получения логов:
systemctl status [email protected]
journalctl -u [email protected] -e —no-pager -n 100
Как узнать ip адрес воркера hive os
Самое простое — зайти в воркера и прокрутить страницу ниже видеокарт. Там будет указан Remote IP — это и есть внешний IP.
Альтернативный вариант — вы можете проверить ваш внешний айпи адрес hive через консоль Hive Shell:
Выполните одну из команд:
curl 2ip.ru
wget -qO- eth0.me
wget -qO- ipinfo.io/ip
wget -qO- ipecho.net/plain
wget -qO- icanhazip.com
wget -qO- ipecho.net
wget -qO- ident.me
Repository update failed в HiveOS
Иногда встречается на HiveOS. Полный текст ошибки:
Some index files failed to download. They have been ignored, or old ones used instead.
Repository update failed
------------------------------------------------------
> Restarting autofan and watchdog
> Starting miners
Miner screen is already running
Run miner or screen -r to resume screen
Upgrade failed
Решение:
- Выполнить команду apt update && selfupgrade -f
- Если не сработала и она, то 99.9%, что разработчики HiveOS уже знают об этой проблеме и решают ее. Попробуйте выполнить обновление через некоторое время.
Rave os не запускается. Boot aborted Rave os
Перепроверьте все настройки ПК и БИОСа материнской платы:
— Установите загрузочное устройство HDD/SSD/M2/USB в зависимости от носителя с ОС.
— Включите 4G decoding.
— Установите поддержку PCIe на Auto.
— Включите встроенную графику.
— Установите предпочтительный режим загрузки Legacy mode.
— Отключите виртуализацию.
Если после данных настроек не определяется часть карт, то выполните следующие настройки в BIOS (после каждого пункта требуется полная перезагрузка):
— Отключите 4G decoding
— Перезагрузка
— Отключите CSM
— Перезагрузка
— Включите 4G decoding, установите PCI-E Gen2/3, а при отсутствии Gen2/3, можно выбрать Gen1
Failed to allocate memory Raveos
Эта же ошибка может называться как:
failed to allocate initramfs memory bailing out, failed to load idlinux c.32
или
failed to allocate memory for kernel boot parameter block
или
failed to allocate initramfs memory raveos bailing
Но решение у нее одно — вы должны правильно настроить БИОС материнской платы.
gpu_driver_fault, GPU #0 fault в RaveOS
gpu_driver_fault, GPU #0 fault в RaveOS
В большинстве случаев эта проблема решается уменьшением разгона (особенно по памяти) на конкретной видеокарте (на скрине это карта номер 0).
Если уменьшение разгона не помогает, то попробуйте обновить драйвера.
Если обновление драйверов не привело к решению проблемы, то попробуйте поменять райзер на этой карте на точно работающий.
Если и это не помогает, перепроверьте все кабельные соединения и мощность блока питания, хватает ли его для вашей конфигурации.
Gpu driver fault. All tasks have been stopped. Worker will be rebooted after 5 minutes в RaveOS
Что приводит к появлению этой ошибки? Вероятно, вы переразогнали видеокарту (часто сильно гонят по памяти), сбавьте разгон. На скрине видно, что проблему дает именно GPU под номером 1 — начните с нее.
Вторая частая причина — нехватка питания БП на систему с видеокартами. Учтите, что сама система потребляет не менее 100 вт, каждый райзер еще закладывайте 50 вт. БП должно хватать с запасом в 20%.
Miner restarted after error RaveOS
Смотрите логи майнера, там будет указана конкретная ошибка, которая приводит к miner restarted. После этого найдите ее на этой странице и исправьте. Проблема уйдет. 🙂
Miner restart limit reached. Worker rebooting by flag auto в RaveOS
Аналогично предыдущему пункту — смотрите логи майнера, там будет указана конкретная ошибка, которая приводит к рестарту воркера. Пофиксите ту ошибку — уйдет и эта проблема.
Miner cannot be started, ОС RaveOS
Непосредственно перед этой ошибкой обычно пишется еще другая, которая и вызывает эту проблему. Но если ничего нет, то:
- Поставьте майнер на паузу, перезагрузите риг и в консоли выполните команды clear-miners clear-logs и fix-fs. Запустите майнинг.
- Если ошибка не ушла, перепишите образ RaveOS.
Overclock can’t be applied в RaveOS
Эта ошибка означает, что значения разгона между собой конфликтуют или выходят за пределы допустимых. Перепроверьте их. Скиньте разгон на стоковый и попробуйте еще раз.
В редких случаях причиной этой ошибки также становится райзер.
Error installing hive miners
Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.
Если ошибка не уйдет — физически перезапишите образ. Если у вас флешка, то скорее всего она умерла. Купите SSD. 🙂
Warning: Nvidia settings applied with errors
Переразгон. Снизьте значения частот ядра и памяти. После этого перезагрузите риг.
Nvtool error или Danger: nvtool error
Скорее всего при установке драйвера появилась проблема с модулем nvtool
Попробуйте переустановить драйвер Nvidia командой через Hive shell:
nvidia-driver-update версия_драйвера —force
Или попробуйте обновить систему полностью командой из Hive shell:
hive-replace -y —stable
Перестал отображаться кулер видеокарты HiveOS
0% скорости вращения кулера.
Это может произойти по нескольким причинам:
- кулер действительно не крутится
- датчик оборотов отключен или сломан
- видеокарта слишком агрессивно работает (высокий разгон)
- неисправен райзер или одно из его частей
ERROR: parsing JSON failed
Необходимо выполнить на риге локально (с клавиатурой и монитором) следующую команду:
net-test
Данная команда покажет ваше текущее состояние подключения к разным зеркалам API серверов HiveOS.
Посмотрите, к какому API у вас наименьшая задержка (ping), и когда воркер снова появится в панели, измените стандартное зеркало на то, что ближе к вам.
После смены зеркала, в обязательном порядке перезагрузите ваш воркер.
Изменить сервер API вы можете командой nano /hive-config/rig.conf
После смены нажмите ctrl + o и ентер для того чтобы сохранить файл.
После этого выйдите в консоль командой ctrl + x, f10 и выполните команду hello
NVML: can’t get fan speed for GPU #5, error code 999 hive os
Проблема с скоростью кулеров на GPU 5
0% скорости вращения кулера / ошибки в целом
Это может произойти по нескольким причинам:
— кулер действительно не крутится
— датчик оборотов отключен или сломан
— видеокарта слишком агрессивно работает (высокий разгон)
Начните с визуальной проверки карты и ее кулера.
Can’t get power for GPU #2
Как правило эта ошибка встречается рядом вместе с другими:
Attribute ‘GPUGraphicsClockOffset’ was already set to 0
Attribute ‘GPUMemoryTransferRateOffset’ was already set to 2200
Attribute ‘GPUFanControlState’ (hive1660s_ETH:0[gpu:2]) assigned value
0.
20211029 12:40:50 WARN: NVML: can’t get fan speed for GPU #2, error code 999
20211029 12:40:50 WARN: NVML: can’t get power for GPU #2, error code 999
20211029 12:40:50 WARN: NVML: can’t get mem/core clock for GPU #2, error code 999
Решение:
Проверьте корректность установки драйвера на видеокарте.
Убедитесь что нет проблем с драйвером, если все в порядке, то попробуйте другой параметр разгона. Например уменьшить разгон по памяти.
GPU1 search error: unspecified launch failure
Уменьшите разгон и проверьте контакты райзера
Warning: Autofan: unable to set fan speed, rebooting
Найдите логи майнера, посмотрите какие ошибки майнер пишет в логах. Например:
kernel: [12112.410046][ T7358] NVRM: GPU at PCI:0000:0c:00: GPU-236e3bef-2e03-6cdb-0518-7ac01eb8736d
kernel: [12112.410049][ T7358] NVRM: Xid (PCI:0000:0c:00): 62, pid=7317, 0000(0000) 00000000 00000000
kernel: [12112.433831][ T7358] NVRM: Xid (PCI:0000:0c:00): 45, pid=7317, Ch 00000010
CRON[21094]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Исходя из логов, мы видим что есть проблема с видеокартой на слоте PCIE 0c:00 (под номером Gpu пишется номер PCIE слота) с ошибками 45 и 62
Коды ошибок (других, которые также могут быть там) и что с ними делать:
• 13, 43, 45: ошибки памяти, снизить MEM
• 8, 31, 32, 61, 62: снизить CORE, возможно и MEM
• 79: снизить CORE, проверить райзер
Ошибка Kernel-Power код 41
Проверьте все провода (от БП до карт, от БП до райзеров), возможно где-то идёт оплавление. Если визуальный осмотр показал, что все ок, то ошибка программная и вам нужно переустановить Windows.
Danger: hive-replace -y —stable (failed, exitcode=137)
Очень редкая ошибка, которая вылезла в момент удаленного обновления образа HiveOS. Она не встречается в тематических майнинг группах и сайтах. Не поверите что произошло.
На балконе, где стоял риг, поселилась семья голубей. Они засрали риг, в прямом смысле, из-за этого он постоянно уходил в оффлайн. После полной продувки материнской платы и видеокарт проблема решилась сама.
MALFUNCTION HIVEOS
Malfunction — неисправность. Причин и решений может быть несколько:
- Вам следует переустановить видео драйвер;
- Если драйвер не помог, тогда отключайте все GPU и поочередно вставляйте по 1 шт, и смотрите вызовет ли какая-то видеокарта подобную ошибку или нет. Если да, то возможно это райзер.
- Неисправен носитель, на который записана Hive OS, запишите образ еще раз.
Не нашли своей ошибки? Помогите сделать мир майнинга лучше. Отправьте ее по этой форме и мы обновим наш гайд в самое ближайшее время.
To practice coding with CUDA, I made a little test scenario where I have three files:
memory.c
Holds pureC
codememory_kernels.h
Declarations for CUDA kernels and functions to launch kernelsmemory_kernels.cu
Definitions of kernels
What the program should do is create an integer array on the host, copy it to the device and query the elements. The kernel will print out a few details.
However, I am getting the error:
Error in memory_kernels.cu at line 43 with error code "unspecified launch failure"
The source code for the three files are given below:
/**
* memory.c
*
* Test copying large arrays to device
* and printing from kernel
*/
/* Include standard libraries */
#include <stdlib.h>
#include <stdio.h>
/* Include local header files */
#include "memory_kernels.h"
int main() {
/* Size of array */
int i, N = 1024;
/* Array */
int *intArr = (int *) malloc( N * sizeof(int) );
/* Fill array */
for( i = 0; i < N; i++ ) {
intArr[i] = i;
}
/* Run CUDA code */
cuda_mem( &intArr );
/* Clean up device */
cudaDeviceReset();
/* Everything done */
exit(EXIT_SUCCESS);
}
/**
* memory_kernels.h
*
* Declarations for CUDA kernels
*/
/* Determine compiler */
#ifdef __cplusplus
#define EXTCFUNC extern "C"
#else
#define EXTCFUNC extern
#endif
#ifndef KERNELS_H
#define KERNELS_H
/* Standard libraries (only needed for debugging) */
#include <stdio.h>
/* Include CUDA header files */
#include <cuda.h>
#include <cuda_runtime.h>
#define CUDA_CALL(x) do { if((x) != cudaSuccess) {
printf("Error in %s at line %d with error code "%s"n",__FILE__,__LINE__,cudaGetErrorString(x));
exit(x);}} while(0)
/* Device globals */
__device__ int *d_intArr;
/* Device kernels */
__global__ void mem();
/* Host access functions */
EXTCFUNC void cuda_mem( int **intArr );
#endif
/**
* memory_kernels.cu
*
* CUDA kernel implementations
*/
/* Include header file */
#include "memory_kernels.h"
__global__ void mem() {
int i = threadIdx.x;
int a = d_intArr[i];
printf("i = %d a = %dn",i,a);
}
/* Determine compiler */
#ifdef __cplusplus
#define EXTCFUNC extern "C"
#else
#define EXTCFUNC extern
#endif
/**
* cuda_mem()
*
* Test copying large array to device
* and printing from kernel
*/
EXTCFUNC void cuda_mem( int **intArr ) {
/* Local variables */
int N = 1024;
/* Initialise device variables */
CUDA_CALL( cudaMalloc( (void **) &d_intArr, sizeof(int) * N ) );
/* Copy to device initial values */
CUDA_CALL( cudaMemcpy( d_intArr, *intArr, sizeof(int) * N, cudaMemcpyHostToDevice ) );
/* Run kernel */
mem <<< 1,N >>> ();
CUDA_CALL( cudaPeekAtLastError() );
CUDA_CALL( cudaDeviceSynchronize() );
/* Free local scoped dynamically allocated memory */
CUDA_CALL( cudaFree( d_intArr ) );
}
Compilation is done with the following commands:
nvcc -c -o memory.o memory.c -arch=sm_20
nvcc -c -o memory_kernels.o memory_kernels.cu -arch=sm_20
nvcc -o memory memory.o memory_kernels.o -arch=sm_20
and ran on an NVIDIA Tesla M2050 with CUDA 4.0. Compute capability 2.0 is required to use printf()
in the kernel.
Having searched around for a solution, the error code suggests I have a segmentation fault in the kernel, when reading from global memory. However, I am launching the same number of threads as the size of the array.
Having experimented around, I have a feeling the error is caused when copying intArr
to the device. Maybe I am getting my pointers all mixed up?
I understand if the file structure is a bit strange, but it’s all part of a larger program, but I have reduced the error to this smaller case.
Loading