硬碟消失-系統出現Disk Unplugged-硬碟維修DIY

話說幾週前的某個晚上我的NAS突然出現錯誤訊息 Hard Disk 3 unplugged,系統告訴我 硬碟消失 了。但是轉頭望去那個Disk 3卻仍好好的插在NAS上啊! 這是怎麼回事? 由於我採用RAID5來做容錯,對於單顆硬碟的故障我是沒在怕的,只是這顆硬碟我也才沒用多久,會出現故障我也滿訝異,於是便想要來研究看看到底是哪裡出問題?

以結果論來說,阿信助教這次修好了一顆硬碟,但本篇的重點並不在於告訴你如何維修,而在於整個找問題的思路,畢竟我不是硬碟專家,大家可以一起跟著我的文字,試著模擬一下,如果是你的話會怎麼做?

下面就是NAS回報的log,明明硬碟就還插在NAS上,但卻出現unplugged的訊息,請看紅圈標示1的部分。分析Log是除錯中很重要的依據,它是系統運作的紀錄,少了它會增加除錯的困難度。

HDD was reported unplugged at first time
HDD was reported unplugged at first time

硬碟消失 重新插拔

由於NAS號稱硬碟可以熱插拔,所以我直接就把硬碟從運轉中的NAS拔出來,仔細觀察SATA接頭的金屬接點,看起來都亮晶晶的,目視也沒甚麼異狀,想說直接再差回去或許只是單純接觸不良的問題而已,過去我修過很多電器都是這個問題,幾乎毫無例外。

SATA的金手指看起來沒有鏽蝕
SATA的金手指看起來沒有鏽蝕

硬碟插回NAS之後竟然認到硬碟了,請看上方的log位在紅圈標示2的部分,既然認到了NAS就自動開始做重建RAID的動作,但好景不常大約過了1小時,如上圖的Log,NAS又回報Hard Disk 3 unplugged了,請看紅圈標示3的部分,原來在那之前系統已經告知無法存取HDD了,會不會是硬碟真的快掛了? 要死也要知道怎麼死的,不能死得不明不白,身為工程師的我會不甘心的。

SMART滿分 接點清潔無效

由於每顆硬碟都有個健康診斷表稱為S.M.A.R.T,我想應該要檢查一下這張表,但問題是現在硬碟是處於”拔出”的狀態,儘管它還是好好的插在NAS上,看來硬碟是被系統踢出來的。所以我必須將硬碟拔出來再插回去,讓系統與硬碟連線後,才有機會看到SMART的報告。

插回硬碟之前我想先清一清SATA接頭,既便是看起來就是沒有異狀,我還是拿起棉花棒沾一些WD-40溶劑來擦,因為它帶有些微腐蝕金屬的效果,某程度上算是接點清潔劑。於是把SATA接點煞有其事的擦一擦後再將硬碟插回NAS,系統果然又認到它了,接著趕快把握時間做SMART測試。

SMART report has no error
SMART report has no error

上圖就是SMART的測試結果,竟然完全沒問題? 真是吐血,白紙黑字寫著Completed without error,所以這是見鬼的意思嗎? SMART呈現健康狀況良好的硬碟,卻會時不時被系統踢出來unplugged? 老天真的不要再開我玩笑了,我想睡了,但至少我已經可以確定不是SATA接頭的問題了,否則SMART資訊無法回傳。

原廠診斷程式

既然不是SATA connector的問題,那該不會是壞軌吧? 若能夠用軟體方式來檢查問題,甚至解決問題,那當然是最好的,於是我找了seagate的診斷程式來用,想說原廠的程式應該比較原汁原味,於是又用這個程式做了一次SMART,結果一樣是沒問題,表示硬碟還很健康。

另外我也做了短測short generic也沒問題,雖然Seagate沒有揭露到底測了甚麼,總之就是PASS。但當我做到長測long generic,診斷程式看起來就一副當機的樣子,而且當我把診斷程式強制關閉再重開的時候,就再也scan不到這顆Seagate硬碟了,這感覺就是硬碟被偷走一樣,這不剛好跟NAS的回報訊息”Hard disk unplugged”有異曲同工之妙。

低階格式化-Low Level Format

這時我把心一橫,反正都已經是有問題的硬碟,若是裡面的壞軌造成,那我最後的大絕招就是做低階格式化low level format,至少它會把壞軌標記並跳開,而且我也不怕這顆硬碟的資料全毀。

於是我在網路上任意找了一款做Low Level Format的軟體,用來當作最後手段,沒想到才開始沒多久,竟然就跳出錯誤訊息Media was unplugged,而且再也scan不到這顆硬碟,除非我把電腦重開機,只要一做low level format就掛。

Error message again: Media was unplugged
Error message again: Media was unplugged

還真是想死卻死不了,但是從NAS、原廠診斷程式、到現在的低階格式化,都指出兩個事實。

  • 硬碟還很健康,因為SMART滿分
  • 硬碟會不定時離開系統

大膽假設 小心求證

由於我沒有線路圖,甚至連硬碟的方塊圖也沒有,於是我大膽假設,硬碟會離線單純是因為通訊中斷,只要通訊持續暢通,SMART就能運作,而且SMART的資料量很小,若遇到需要存取大量資料,例如格式化、長週期測試,硬碟若通訊不穩定就容易出狀況。

所以通訊會容易在哪裡斷掉,就是接下來的重點了,也就是小心求證。硬碟的鐵殼裡面有碟盤與磁頭,這構成了存放資料的地方,由於鐵殼裡面的空間很小,基本上只有放馬達等機械裝置,控制磁頭與碟盤的邏輯電路則是在外面那塊綠色的電路板,這塊電路板是如何跟鐵殼裡面的電路溝通呢? 它總要有一個接觸介面吧,也許是接頭、也許是用簧片觸碰的。

硬碟是由控制電路與碟盤所組成
硬碟是由控制電路與碟盤、磁頭所組成

於是我把硬碟翻過來仔細端詳了一下,發現碟片轉軸外圈延伸了三條線到電路板下方,另外在靠近SATA接頭的附近,從側面的接縫也能隱約看見有類似接頭的東西,它似乎是從鐵殼內延伸出來的訊號端子,用它與外面的電路板接觸。

這些線索讓我大膽推測這些接點極有可能就是造成HDD unplugged的元兇,因為訊號中斷就一切免談,而且它會真的與硬碟拔除是一樣的現象。

拆開電路板

該是見證理論是否正確的時候了,把螺絲卸下後,輕輕地翻開控制電路版,果然就發現電路板的PAD原本應該是古銅色的銅箔,現在都變成黑色的氧化物了,就連螺絲孔也一樣。

由於PCB板在成本壓力下大都採用化金板ENIG製程,基本上就是銅箔先鍍上鎳,鎳上面再用化學藥劑置換出很薄的金, 這應該是接點表層的金已經無法保護下面的鎳,因而氧化形成黑墊(Black-pad)。

硬碟的控制PCB接點氧化
硬碟的控制PCB接點氧化變黑

於是再拿出WD-40來擦拭鐵殼延伸出來的兩組接點,一個是馬達另一個是磁頭,雖然他們看起來沒有很髒,既然拆開了就順手清一清。再來就是清理嚴重氧化的電路板接點了,還好WD-40滲透性很強,外加有輕微潤滑的效果,只需要輕輕擦拭就可以把黑黑的氧化層推開。

清理硬碟馬達訊號線
清理硬碟鐵殼延伸出來的馬達訊號線

清理之後如下圖,原本黑黑的接點露出古銅色了,只是有些黑色的點點我無論怎麼擦都擦不掉,,而且現在黑色面積已經小很多,我想應該不影響運作。比較一下前面氧化的PCB照片,是不是好看多了?

清理過後的接點露出古銅色光澤
Disk3用WD-40清理過後的接點露出古銅色光澤

清理完組裝好,接下來當然要好好測試一下,就來個低階格式化吧,大家不用擔心這會多傷硬碟,比起P2P這類的軟體不分晝夜地跑,偶爾做一次低階格式化不會怎樣的。

果然,接點清潔後通訊順暢,格式化就成功了,再也沒有出現HDD was unplugged的訊息,為何我這麼肯定? 因為這是一台3T的硬碟,它需要一個一個byte這樣格式化,好歹也搞了我17個小時,比起之前不到30min就出現錯誤,絕對有天壤之別,所以我可以很肯定這算修好了。

低階格式化成功
低階格式化成功

那這樣的維修處理我是否有擔心的地方呢? 說實話是有的,因為黑鎳Black pad已經產生,而且還剝落了,我會擔心銅已經失去鎳層的保護,會慢慢導致下方裸銅氧化,所以後續就繼續觀察,有消息會再更新給大家。

新硬碟上場

由於這整個過程花了我太多時間,NAS又不能空著,所以我在維修期間,已經買了新硬碟來替換了,畢竟當時我並沒有把握能修好,既然現在修好了就當作備品來放著吧。

基於好奇,我也把新的硬碟拆了,看看它的電路板是不是有比較光亮,其實有點失望,它的接點並沒有想像中光亮,上面已經開始有輕微氧化的痕跡,但至少沒有黑到剝落的現象,若你仔細看還能發現硬碟接點的銀色壓痕。雖然PCB有輕微氧化的現象,但硬碟本體的接點卻是完全光亮的,看來SATA connector廠商與硬碟本體的接點製造商都比較重視防氧化。PCB板若非採用正港的鍍金而是採用化金ENIG處理的話,看來真的是第一個會掛的。

The PAD of new HDD
The PAD of new HDD

最後回顧我的維修DIY歷史,接觸不良還真的是永遠的第一名,從燈泡閃爍到硬碟故障居然都是同一個原因,還真是毫無例外,若有人能發明絕不氧化的導體,應該會很受歡迎,只是我猜應該很難賣,用不壞的東西與既有利益相衝突,應該沒有代理商想賣吧。

維修後續追蹤-Unplugged又來了

Disk4出問題-WD40維修失敗

就在我修好了Disk 3之後,不到兩星期,如下圖,我的Disk 4也出問題了,症狀完全一樣。為了防範未然,我把剩餘的3顆硬碟全部拔出來做接點清理,果然打開PCB後接點已經面目全非,只有兩星期前更換的新硬碟看起來還好,若沒有處理,我想過一陣子其它硬碟應該也會陸續出現相同問題。

硬碟又離線了
9/30 Disk 4硬碟離線了

所以我又把WD-40拿來噴,當下確實是把Disk4修好了,也運作了好幾天,到了第5天,Disk4又出現unplugged錯誤訊息,當下我就意識到WD-40雖然清除鐵鏽效果還不錯,但還真的無法去除銅箔的氧化物,它只是因為滲透力強比較方便把已經成片狀氧化物屑屑推走,但還稱不上能讓銅箔重拾光亮表面。

使用WD-40清理過的HDD又出現問題了
10/5 也就是5天後,使用WD-40清理過的Disk 4又出現相同問題

Disk4又出問題-銅油維修失敗

於是我拿出終極武器-銅油,當過兵的都知道,用銅油抹在金屬上死命地用布擦拭,會讓金屬光亮如新,但銅油的原理是利用細小顆粒做打磨,基本上銅油磨下去銅箔上的鍍金就全掉了,而因為我也沒有其他方法可以用了。於是就銅油擦下去了,果然所有的PAD都光亮如新。

銅油清理後的銅箔光亮如新
Disk4用銅油清理後的銅箔光亮如新

我也知道失去保護鍍層之後可能也會更容易氧化,但也只能時看看這也是沒辦法中的辦法。目前使用銅油打磨過後,初期一切正常,到了第三個星期噩夢又來了,於是銅油的PAD接點維修也宣告失敗。

10/22 Disk 4又出現問題
10/22 Disk 4在22天之後又出現相同問題

最後大絕招-銅箔上錫

最後我不得不用破壞性的策略,也就是把接觸的銅箔上錫,因為焊錫會覆蓋銅箔,避免銅氧化,而焊錫自己也能導電,因此這次就試著以動用烙鐵的方式來維修。

使用烙鐵將焊錫黏在銅箔上
使用烙鐵將錫焊在銅箔上

以我這台4-bay的NAS,目前的維修紀錄為:

  • Disk 3 unplugged – 已換上新硬碟,故障硬碟用WD-40維修好後過尚未使用
  • Disk 4 unplugged – 22天之內用WD-40/銅油皆維修失敗,目前採用上錫方式維修,觀察中
  • Disk1/2 – 無災情傳出,僅用WD-40做預防性處理
  • 以上所有硬碟的SMART報告都是正常的

銅箔氧化是工作環境造成的,同時開封的硬碟幾乎都會在相同時間出問題,環境中若有潮濕、硫磺氣更會加速氧化程度。清理過後把硬碟重插回NAS,又是生龍活虎了,不過目前的殺手鐧-上錫,到底是不是好方法呢? 我還在觀察中,有任何問題我再更新上來。

下次各位硬碟有問題,可要先診斷SMART,若沒有壞軌,或許可以像我這樣清理接點就可以囉。

本文同步刊登於MAKERPRO  :  【實作實驗室】什麼!? 硬碟消失!自救教戰實作

Be the first to comment

Leave a Reply

Your email address will not be published.


*