RAID-1 成員磁碟更換之後無法重建 [已解決]

以往很少有機會處理 RAID 磁碟的問題(畢竟只是業餘兼差性質),這回碰到了,而且還是挺古老的機器。可以說碰了一鼻子灰....

我原以為很簡單的。因為我在另一台比較新的機器上試過:刻意把正常運作的一組 RAID-1 卷冊(volume)的其中一顆成員磁碟卸下,然後裝上一顆全新的硬碟。開機後,進入 Windows Server 2016,接著就看到工作列右下角的圖示區浮出訊息,顯示 Intel 的 RAID 管理程式偵測到一顆新的 non-RAID 磁碟。接著只要打開 RAID 管理程式,在那顆新硬碟上點右鍵,選擇 Rebuild,就會開始重建 RAID-1 卷冊,也就是把那顆新硬碟加入卷冊,並將另一顆成員硬碟的資料複製到新硬碟。

可是那台出問題的機器,卻完全不是這麼回事。

作業環境
  • Windows Server 2003
  • Intel Matrix Storage Manager v8.9 (以下簡稱 IMSM,或 RAID 管理程式)
    這是能夠安裝在 Windows Server 2003 的最高版本,我試過下載其他幾個比較新版本的 RAID 管理程式,都顯示不支援此版本的作業系統而中止安裝。
問題描述

機器上有兩組 RAID-1 卷冊,名稱分別是 Volume0 和 Volume1,且各有一顆成員磁碟故障。其中 Volume0 是系統卷冊(要負責開機的),磁碟機代號是 C:,Volume1 是資料卷冊,磁碟機代號是 D:。

我先嘗試解決 Volume1 的狀況:把故障的那顆硬碟抽出來,換裝上一顆相同廠牌、相同容量的全新硬碟(規格稍新,因為已經買不到那麼舊的型號的硬碟)。

裝上新硬碟後,開機進入 Windows Server 2003,可以看到 RAID 管理程式顯示 RAID 卷冊可以重建,還告訴你怎麼操作:



可是,開啟 IMSM,卻遍尋不著任何「Rebuild」選項或按鈕。我不禁納悶:怎麼跟 IMSM 的使用手冊上講的不一樣?我到底漏掉了什麼環節?

於是打電話給當初出售這台主機的廠商,對方的工程師蠻熱心幫忙,還遠端連線到主機上查看。最終給出的結論是:主機板和作業系統太老舊了,還要想想有什麼方法可以處理,並建議趕緊備份資料。

備份資料的時候,我也到 Intel 論壇上發問,也許 Intel 那邊有人知道問題出在哪裡,畢竟是他們家的產品。然而 Intel 員工的研判也是一樣:那台主機的軟硬體太老舊,以至於有相容性的問題,導致 IMSM 不認為可以重建至新硬碟,因此沒有提供 Rebuild 選項。

不過,對方還提了一個點子:既然這台主機太老舊,不妨把兩顆硬碟都拿去另一台規格比較新的主機上,也許就能夠重建。等到重建完成,再把兩顆硬碟裝回那台古董機器。

解決方法

從 Intel 論壇上得到的點子,我覺得應該可行。但我後來先試了另一種方法,而且成功了。

我採用的方法,需要買兩顆規格相同的新硬碟,主要步驟是:
  1. 在那台老舊主機上把兩顆新硬碟建立成 RAID-1 卷冊。
  2. 把其中一顆硬碟抽出來,換上舊的硬碟(沒有故障的那顆),然後進入 Windows,進行磁碟對拷:把舊硬碟的資料完整複製一份到新硬碟。
  3. 把舊硬碟抽出來,換回新硬碟,接著讓 IMSM 自動重建卷冊。

以下短片即說明了問題與解決方法:


如果需要更詳細的操做步驟,可繼續看以下說明:
  1. 把主機上既有的 Volume1 的兩顆成員磁碟拆下(其中一顆是好的,一顆故障),換上兩顆新硬碟。
  2. 開機後,看到螢幕上顯示可以按 Ctrl+I 時,按!接著會開啟 RAID option ROM 畫面。在 RAID option ROM 中選擇建立一組新的 Volume,同樣命名為 Volume1,採用 RAID-1 模式。完成後結束 option ROM。
  3. 接著會進入 Windows 系統,此時 IMSM 顯示新建立的 Volume1 目前正常運行(綠色圖示):



    接著開啟 Windows 磁碟管理程式,為這顆新硬碟建立分割區,並指定磁碟機代號為原先那組 Volume1 的磁碟代號(D:)。
  4. 關機,然後把 Volume1 的其中一顆硬碟拆下,換成原本的舊硬碟,即步驟 1 拆下來的、沒有故障的那顆舊硬碟。
  5. 開機,進入 Windows 之後,Intel Matrix Storage Manager 顯示:



    此時可開啟 Windows 磁碟管理程式,為這顆剛換上的舊硬碟指定一個磁碟機代號,例如 F:。
  6. 使用磁碟複製工具,將 F: 完整複製到 D:。
    註1:要關閉防毒軟體。一開始我沒注意到,光是統計檔案複製的大小(800GB 左右)並預估完成時間,就花了近二十分鐘都還沒有計算完成。
    註2:我後來是 Total Commander 來複製檔案(複製時勾選 "copy NTFS permissions")。
  7. 完成磁碟對拷之後,關機,把舊硬碟拆下,換回新硬碟。
  8. 開機時,可以看到 option ROM 畫面上顯示有一個離線成員(Offline Member)已經重新接上:

  9. 進入 Windows 之後,應該就能夠使用 Intel Matrix Storage Manager 來將 RAID Volume1 的資料重建至剛剛換上的磁碟,如下圖:



資料卷冊的部分到此處理完畢,接著還有系統卷冊的硬碟故障問題要解決。系統卷冊的部分,也許會用到 WinPE 光碟。等到全部做完之後再補下篇吧。


後記 2017-01-27:更換系統卷冊的兩顆硬碟,並移轉既有硬碟的資料

系統卷冊(Volume0)也是 RAID-1,兩顆硬碟的規格型號相同,容量為 250GB。RAID 管理程式顯示故障一顆:



新買的兩顆硬碟則為 1TB,一顆是 WD 金標,另一顆則是 Seagate:


原本我以為要用到 WinPE 光碟片開機,後來發現不用。以下是更換系統卷冊與資料移轉的步驟:
  1. 現有的系統卷冊(Volume0)的兩顆硬碟先不動,也就是插在 Port 0 和 Port 1 的位置。然後把兩顆新硬碟安裝到 Port 2 和 Port 3。
  2. 開機時,按 Ctrl+I 進入 option ROM,執行「建立新卷冊」的功能,把兩顆新硬碟設定成 RAID-1,卷冊名稱同樣命名為 "Volume0"。

  3. 離開 option ROM,接著進入 Windows,開啟磁碟管理程式,會看到一顆新的磁碟。把這個磁碟設定成「基本磁碟」(不轉換成「動態磁碟」)。
  4. 開啟 EaseUS Todo Backup Server,執行[複製]功能,將舊磁碟整顆複製到新磁碟。
  5. 把 Port 0 和 Port 1 的兩顆舊硬碟拆下,然後把 Port 2 和 Port 3 的新硬碟拆下,接到 Port 0 和 Port 1 取代原本的舊硬碟。完工!


後記:四顆全新硬碟竟然還是出現故障?!

兩組 RAID-1 卷冊,共四顆硬碟,全數更換成全新硬碟之後,才隔不到兩天,我又發現 Intel RAID 管理程式出現警告:某一顆成員磁碟故障。

我嘗試將那顆磁碟標示為「正常」,觀察重建磁碟之後的後續狀況。結果隔一天之後,換另一個卷冊有一顆硬碟顯示為故障。

難道四顆新硬碟裡面,竟然買到兩顆不良品?這不太可能吧!

我突然想起,安裝好四顆新硬碟之後,我在 Intel RAID 管理程式裡面,把兩個卷冊的「卷冊回寫式快取已啟用」選項從「否」改為「是」(參見本文最後一張圖片,也就是上面那張圖的右邊面板,第三個參數)。抱著姑且一試的心態,把它改回「否」,也就是不啟用這項快取功能。結果觀察了兩天,目前都沒有再出現磁碟故障的訊息了。


沒有留言:

技術提供:Blogger.
回頂端⬆️