Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Восстановление RAID-5 массива
2x4.RU WEB Hosting > Общие форумы по услугам хостинг компании 2x4 > Выделенные сервера и размещение оборудования
admin
В конце прошлой недели получили проблему с файловым сервером на котором размещались несколько клиентов.

На файловом сервере использовался RAID-5 3ware9650SE-12ML в составе 12 дисков 750GB Western Digital (WD)






12 дисков *

Были начаты восстановительные работы.


Параметры RAID 9650SE
Цитата
"Параметры производительности"
Скорость передачи данных 700 Мб/сек (чтение), 600 Мб/сек (запись) при работе в RAID6
"Конфигурация"
Поддерживаемые уровни RAID 0, 1, 5, 6, 10, 50, JBOD
Чип PowerPC PPC405CR
Память 256 Мб DDR2 PC4200. Возможна установка батареи резервного питания BBU-MODULE-03
Опции (батарея аварийного питания) BBU-MODULE-03
Число поддерживаемых устройств До 12 жестких дисков Serial ATA-II с поддержкой Hot-swap и hot-spare
BIOS Есть.Поддерживается аварийное восстановление BIOS при неудачном обновлении.
"Интерфейс, разъемы и выходы"
Внутренний порт 3x SFF-8087 |кабели SFF-8087
Интерфейс PCI Express 8x
admin
Причина происшествия:

18.05.2012 в процессе работы сервера возникли проблема работы отдельного диска, предположительно плохой контакт либо одиночная ошибка, и получилось так что из массива "выпал" диск номер 6. Данный диск был подхвачен обратно RAID контроллером и последний начал штатную процедуру REBUILD диска для того чтобы "освежить" на нем данные и сделать массив консистентным (consitent). Однако данная процедура не смогла быть завершена в связи с тем что возникли проблемы чтения винчестера номер 3.

18.05.2012 Диск номер 3 стал "сыпаться" показывая множественные отказы чтения и проблемы доступа к данным и служебным областям. Вынести данные не представлялось возможным.

В результате чего мы получили неработоспособный массив в котором отсутствовало 2 диска. Однако диск 6 содержал исправные данные и проблем с работоспособностью не испытывал. Однако не виделся RAID контроллером.
admin
18.05 Было принято решение вернуть массив из состояния OFFLINE в состояние DEGRADED т.к. на диске 6 были валидные данные.

Мы предприняли попытки связаться с поизводителем 3ware (LSI) в США и в России через компании, которые занимаются восстановлением данных.

Были созданы тикеты в системе поддержки пользовалей 3ware, lsi ]]>http://www.lsi.com/support/Pages/submitsupportrequest.aspx]]>


Связаться с ними и обсудить проблему удалось 21.05. Тогда же получили должные прошивки для дисков (DCB) чтобы вернуть массив к нормальному состоянию.

По результатам проведенных работ 21.05 состояние массива было восстановлено до DEGRADED.
Цитата
/c0 Auto-Rebuild Policy = on
/c0 Rebuild Mode = Adaptive
/c0 Rebuild Rate = 1
/c0 Verify Mode = Adaptive
/c0 Verify Rate = 4
/c0 Controller Bus Type = PCIe
/c0 Controller Bus Width = 8 lanes
/c0 Controller Bus Speed = 2.5 Gbps/lane

Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 DEGRADED - - 64K 7683.3 RiW ON

VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 698.63 GB SATA 0 - WDC WD7500AAKS-22RB
p1 OK u0 698.63 GB SATA 1 - WDC WD7500AAKS-22RB
p2 OK u0 698.63 GB SATA 2 - WDC WD7500AAKS-22RB
p4 OK u0 698.63 GB SATA 4 - WDC WD7500AAKS-22RB
p5 OK u0 698.63 GB SATA 5 - WDC WD7500AAKS-22RB
p6 OK u0 698.63 GB SATA 6 - WDC WD7500AAKS-22RB
p7 OK u0 698.63 GB SATA 7 - WDC WD7500AAKS-22RB
p8 OK u0 698.63 GB SATA 8 - WDC WD7500AAKS-22RB
p9 OK u0 698.63 GB SATA 9 - WDC WD7500AAKS-22RB
p10 OK u0 698.63 GB SATA 10 - WDC WD7500AAKS-22RB
p11 OK u0 698.63 GB SATA 11 - WDC WD7500AAKS-22RB


Диск 3 "умер" окончательно. Видимо "посыпалась" служебная область. Есть опасность того что другие диски также могут выйти из строя в ближайшее время.

Однако доступ к данным до сих пор затруднен.
Ведутся работы по мантированию и проверке раздела.
admin
Анализ данных SMART дисков приведен ниже. Диски 0 и 8 находятся в плохом состоянии которое ухудшается. Диск 6 имеет несколько незначительных ошибок из за которых пошли основные проблемы.


Цитата
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE

DISK 0
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0012 196 196 000 Old_age Always - 514
198 Offline_Uncorrectable 0x0010 196 196 000 Old_age Offline - 503
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 193 193 051 Old_age Offline - 556

DISK 6
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0012 200 200 000 Old_age Always - 7
198 Offline_Uncorrectable 0x0010 200 200 000 Old_age Offline - 0

DISK 8
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0012 198 198 000 Old_age Always - 332
198 Offline_Uncorrectable 0x0010 198 198 000 Old_age Offline - 317
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 196 196 051 Old_age Offline - 355


Возможность восстановления данных с массива находиться под вопросом.

admin
Переписка с техподдержкой производителя.


Цитата
S> Here is the complete binary for your array only pridcbx.bin files,
S> not .boat or .exe so the e-mail server cannot block the file.

S> Notice I renamed pridcb3.bin so the script does not try to join it into the unit.

S> Joseph


S> Thank you and let me know if you have any questions,
S> Joseph

S> Joseph Infelise
S> LSI Corporation
S> Channel product Technical support engineer
S> 1621 Barber ln
S> Milpitas Ca 95035

S> LSI Corporation


Цитата
I am sure that you can go home after this repair!
I set p6 back to a good member of the array and removed p3 from the script.
Here are the default instructions.

Good luck and take care,
Joseph





Thank you and let me know if you have any questions,
Joseph


The Repair script has been attached.

Before running this script, you will need to remove the drive from port 3
Check the 3ware BIOS and make sure that the drive from port port 3 is not present.

To open the file, use the free utilities Winimage, UltraISO or the mount -o loop command in Linux.
Other compression utilities such as Winzip, Winrar or other CD utilities may see the file as corrupt.
Once opened, copy the files to your DOS boot device and reboot clean to DOS by pressing F5 at the "Starting MS-DOS banner.

Run
writedcb

***Warning***
After the program has completed, reboot and check the array size and status in the 3ware BIOS before booting. Do not allow the OS to load until you have determined that the array is at least in a degraded state.

***Warning***
Avoid any checkdisk, write operations, or rebuild operations until you have verified the file structure and that you have a complete backup of your data.

If you cannot access your data, contact your support engineer immitiatly or e-mail as instructed below.

If the program has failed to run or has not brought the array into at least a degraded state, copy the file dumpdcb.log, a picture of the ending screen if possible, and e-mail the file to [email protected] ATTN: DCB repair <and your case #>

Thank you, and let me know if you have any questions,
Joseph

-----Original Message-----
From: a****@2x4.ru [mailto:a****@2x4.ru]
Sent: Monday, May 21, 2012 11:49 AM
To: Support
Subject: Re: Repair script

Здравствуйте,

we wait.
please keep me updated.

Вы писали 21 мая 2012 г., 22:02:49:

S> Just about done,
S> Joseph


S> Joseph Infelise
S> LSI Corporation
S> Channel product Technical support engineer
S> 1621 Barber ln
S> Milpitas Ca 95035

S> LSI Corporation



S> -----Original Message-----
S> From: a****@2x4.ru [mailto:a****@2x4.ru]
S> Sent: Monday, May 21, 2012 9:11 AM
S> To: Support
S> Subject: Re: Repair script

S> Здравствуйте,

S> we have 12HDDs

S> disk port 6 - no DCB, but all information OK.
S> disk port 3 - no DCB file becouse disk dead complitely.

S> I attach archive with our DCB dump and all information inside.

S> Btw, do you have any plans to upgrade firmware of the RAID to
S> allow SKIP INIT when creating RAID ?
S> (Adaptec, LSI looks has it but 3ware now)
S> I also searched some time the internet about DCB block structure,
S> but didn't find it. I wanted to find it try to fix by myself becouse no other way.

S> I am online. please send info as soon as possible.


Российская часть ответила последней.
Цитата
добрый день!
На самом деле пути решения проблемы 2:
1) Либо самостоятельно зарегистрироваться на lsi.com/channel и отправить запрос в worldwide support (если дружите с английским)
2) В противном случае можете сбросить дамп мне, я попробую выйти на саппорт сам.

Kind Regards,
Yaroslav Nadporozhskiy
LSI Field Application Engineer
admin
В связи с тем что при первоначальной загрузке массива с битым диском был автоматически запуск утилиты проверки диска fsck была потеряна частично структура файловой системы.

Сейчас идет анализ ПО которым можно попытаться вытащить оставшиеся файлы.

]]>http://www.stellarinfo.com/disk-recovery/u...le-recovery.php]]>
]]>http://freesoft.ru/?id=681302]]>
]]>http://rlab.ru/files/Download/logicheskoe_...h/UFS_Explorer/]]>
]]>http://www.ufsexplorer.com/rdr_ufs.php]]>

проблема в том что как правило весь этот софт написан под Windows.
хотя UFS используется как правило во FreeBSD только. чем они думали?

Продолжаем анализ.
admin
На заметку. Дампы DCB (disk configuration block) делались при помощи утилиты tw_cdiag.exe
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Русская версия IP.Board © 2001-2024 IPS, Inc.