話說幾週前的某個晚上我的NAS突然出現錯誤訊息 Hard Disk 3 unplugged,系統告訴我 硬碟消失 了。但是轉頭望去那個Disk 3卻仍好好的插在NAS上啊! 這是怎麼回事? 由於我採用RAID5來做容錯,對於單顆硬碟的故障我是沒在怕的,只是這顆硬碟我也才沒用多久,會出現故障我也滿訝異,於是便想要來研究看看到底是哪裡出問題?
以結果論來說,阿信助教這次修好了一顆硬碟,但本篇的重點並不在於告訴你如何維修,而在於整個找問題的思路,畢竟我不是硬碟專家,大家可以一起跟著我的文字,試著模擬一下,如果是你的話會怎麼做?
下面就是NAS回報的log,明明硬碟就還插在NAS上,但卻出現unplugged的訊息,請看紅圈標示1的部分。分析Log是除錯中很重要的依據,它是系統運作的紀錄,少了它會增加除錯的困難度。
硬碟消失 重新插拔
由於NAS號稱硬碟可以熱插拔,所以我直接就把硬碟從運轉中的NAS拔出來,仔細觀察SATA接頭的金屬接點,看起來都亮晶晶的,目視也沒甚麼異狀,想說直接再差回去或許只是單純接觸不良的問題而已,過去我修過很多電器都是這個問題,幾乎毫無例外。
硬碟插回NAS之後竟然認到硬碟了,請看上方的log位在紅圈標示2的部分,既然認到了NAS就自動開始做重建RAID的動作,但好景不常大約過了1小時,如上圖的Log,NAS又回報Hard Disk 3 unplugged了,請看紅圈標示3的部分,原來在那之前系統已經告知無法存取HDD了,會不會是硬碟真的快掛了? 要死也要知道怎麼死的,不能死得不明不白,身為工程師的我會不甘心的。
SMART滿分 接點清潔無效
由於每顆硬碟都有個健康診斷表稱為S.M.A.R.T,我想應該要檢查一下這張表,但問題是現在硬碟是處於”拔出”的狀態,儘管它還是好好的插在NAS上,看來硬碟是被系統踢出來的。所以我必須將硬碟拔出來再插回去,讓系統與硬碟連線後,才有機會看到SMART的報告。
插回硬碟之前我想先清一清SATA接頭,既便是看起來就是沒有異狀,我還是拿起棉花棒沾一些WD-40溶劑來擦,因為它帶有些微腐蝕金屬的效果,某程度上算是接點清潔劑。於是把SATA接點煞有其事的擦一擦後再將硬碟插回NAS,系統果然又認到它了,接著趕快把握時間做SMART測試。
上圖就是SMART的測試結果,竟然完全沒問題? 真是吐血,白紙黑字寫著Completed without error,所以這是見鬼的意思嗎? SMART呈現健康狀況良好的硬碟,卻會時不時被系統踢出來unplugged? 老天真的不要再開我玩笑了,我想睡了,但至少我已經可以確定不是SATA接頭的問題了,否則SMART資訊無法回傳。
原廠診斷程式
既然不是SATA connector的問題,那該不會是壞軌吧? 若能夠用軟體方式來檢查問題,甚至解決問題,那當然是最好的,於是我找了seagate的診斷程式來用,想說原廠的程式應該比較原汁原味,於是又用這個程式做了一次SMART,結果一樣是沒問題,表示硬碟還很健康。
另外我也做了短測short generic也沒問題,雖然Seagate沒有揭露到底測了甚麼,總之就是PASS。但當我做到長測long generic,診斷程式看起來就一副當機的樣子,而且當我把診斷程式強制關閉再重開的時候,就再也scan不到這顆Seagate硬碟了,這感覺就是硬碟被偷走一樣,這不剛好跟NAS的回報訊息”Hard disk unplugged”有異曲同工之妙。
低階格式化-Low Level Format
這時我把心一橫,反正都已經是有問題的硬碟,若是裡面的壞軌造成,那我最後的大絕招就是做低階格式化low level format,至少它會把壞軌標記並跳開,而且我也不怕這顆硬碟的資料全毀。
於是我在網路上任意找了一款做Low Level Format的軟體,用來當作最後手段,沒想到才開始沒多久,竟然就跳出錯誤訊息Media was unplugged,而且再也scan不到這顆硬碟,除非我把電腦重開機,只要一做low level format就掛。
還真是想死卻死不了,但是從NAS、原廠診斷程式、到現在的低階格式化,都指出兩個事實。
- 硬碟還很健康,因為SMART滿分
- 硬碟會不定時離開系統
大膽假設 小心求證
由於我沒有線路圖,甚至連硬碟的方塊圖也沒有,於是我大膽假設,硬碟會離線單純是因為通訊中斷,只要通訊持續暢通,SMART就能運作,而且SMART的資料量很小,若遇到需要存取大量資料,例如格式化、長週期測試,硬碟若通訊不穩定就容易出狀況。
所以通訊會容易在哪裡斷掉,就是接下來的重點了,也就是小心求證。硬碟的鐵殼裡面有碟盤與磁頭,這構成了存放資料的地方,由於鐵殼裡面的空間很小,基本上只有放馬達等機械裝置,控制磁頭與碟盤的邏輯電路則是在外面那塊綠色的電路板,這塊電路板是如何跟鐵殼裡面的電路溝通呢? 它總要有一個接觸介面吧,也許是接頭、也許是用簧片觸碰的。
於是我把硬碟翻過來仔細端詳了一下,發現碟片轉軸外圈延伸了三條線到電路板下方,另外在靠近SATA接頭的附近,從側面的接縫也能隱約看見有類似接頭的東西,它似乎是從鐵殼內延伸出來的訊號端子,用它與外面的電路板接觸。
這些線索讓我大膽推測這些接點極有可能就是造成HDD unplugged的元兇,因為訊號中斷就一切免談,而且它會真的與硬碟拔除是一樣的現象。
拆開電路板
該是見證理論是否正確的時候了,把螺絲卸下後,輕輕地翻開控制電路版,果然就發現電路板的PAD原本應該是古銅色的銅箔,現在都變成黑色的氧化物了,就連螺絲孔也一樣。
由於PCB板在成本壓力下大都採用化金板ENIG製程,基本上就是銅箔先鍍上鎳,鎳上面再用化學藥劑置換出很薄的金, 這應該是接點表層的金已經無法保護下面的鎳,因而氧化形成黑墊(Black-pad)。
於是再拿出WD-40來擦拭鐵殼延伸出來的兩組接點,一個是馬達另一個是磁頭,雖然他們看起來沒有很髒,既然拆開了就順手清一清。再來就是清理嚴重氧化的電路板接點了,還好WD-40滲透性很強,外加有輕微潤滑的效果,只需要輕輕擦拭就可以把黑黑的氧化層推開。
清理之後如下圖,原本黑黑的接點露出古銅色了,只是有些黑色的點點我無論怎麼擦都擦不掉,,而且現在黑色面積已經小很多,我想應該不影響運作。比較一下前面氧化的PCB照片,是不是好看多了?
清理完組裝好,接下來當然要好好測試一下,就來個低階格式化吧,大家不用擔心這會多傷硬碟,比起P2P這類的軟體不分晝夜地跑,偶爾做一次低階格式化不會怎樣的。
果然,接點清潔後通訊順暢,格式化就成功了,再也沒有出現HDD was unplugged的訊息,為何我這麼肯定? 因為這是一台3T的硬碟,它需要一個一個byte這樣格式化,好歹也搞了我17個小時,比起之前不到30min就出現錯誤,絕對有天壤之別,所以我可以很肯定這算修好了。
那這樣的維修處理我是否有擔心的地方呢? 說實話是有的,因為黑鎳Black pad已經產生,而且還剝落了,我會擔心銅已經失去鎳層的保護,會慢慢導致下方裸銅氧化,所以後續就繼續觀察。
新硬碟上場
由於這整個過程花了我太多時間,NAS又不能空著,所以我在維修期間,已經買了新硬碟來替換了,畢竟當時我並沒有把握能修好,既然現在修好了就當作備品來放著吧。
基於好奇,我也把新的硬碟拆了,看看它的電路板是不是有比較光亮,其實有點失望,它的接點並沒有想像中光亮,上面已經開始有輕微氧化的痕跡,但至少沒有黑到剝落的現象,若你仔細看還能發現硬碟接點的銀色壓痕。雖然PCB有輕微氧化的現象,但硬碟本體的接點卻是完全光亮的,看來SATA connector廠商與硬碟本體的接點製造商都比較重視防氧化。PCB板若非採用正港的鍍金而是採用化金ENIG處理的話,看來真的是第一個會掛的。
最後回顧我的維修DIY歷史,接觸不良還真的是永遠的第一名,從燈泡閃爍到硬碟故障居然都是同一個原因,還真是毫無例外,若有人能發明絕不氧化的表面處理方式,應該會很受歡迎,只是我猜應該很難賣,用不壞的東西與既有利益相衝突,應該沒有代理商想賣吧。
維修後續追蹤-Unplugged又來了
Disk4出問題-以WD40維修後失敗
就在我修好了Disk 3之後,不到兩星期,如下圖,我的Disk 4也出問題了,症狀完全一樣。為了防範未然,我把剩餘的3顆硬碟全部拔出來做接點清理,果然打開PCB後接點已經面目全非,只有兩星期前更換的新硬碟看起來還好,若沒有處理,我想過一陣子其它硬碟應該也會陸續出現相同問題。
所以我又把WD-40拿來噴,當下確實是把Disk4修好了,也運作了好幾天,到了第5天,Disk4又出現unplugged錯誤訊息,當下我就意識到WD-40雖然清除鐵鏽效果還不錯,但還真的無法去除銅箔的氧化物,它只是因為滲透力強比較方便把已經成片狀氧化物屑屑推走,但還稱不上能讓銅箔重拾光亮表面。
Disk4又出問題-銅油維修後失敗
WD40失敗後,我拿出終極武器-銅油,當過兵的都知道,用銅油抹在金屬上死命地用布擦拭,會讓金屬光亮如新,但銅油的原理是利用細小顆粒做打磨,基本上銅油磨下去銅箔上的鍍金就全掉了,而因為我也沒有其他方法可以用了。於是就銅油擦下去了,果然所有的PAD都光亮如新。
我也知道失去保護鍍層之後可能也會更容易氧化,但也只能時看看這也是沒辦法中的辦法。目前使用銅油打磨過後,初期一切正常,到了第三個星期噩夢又來了,於是銅油的PAD接點維修也宣告失敗。
最後大絕招-銅箔上錫後依舊失敗
最後我不得不用破壞性的策略,也就是把接觸的銅箔上錫,因為焊錫會覆蓋銅箔,避免銅氧化,而焊錫自己也能導電,因此這次就試著以動用烙鐵的方式來維修,但依舊失敗,系統完全認不到Disk 4,我認為案情不單純。
交叉測試
還記得前面我修好了Disk 3吧,我把Disk 3從櫃子裡拿出來,將Disk 3與Disk 4兩台硬碟的電路板交換,發現只要是Disk 4的電路板,系統就無法認到,而且原本應該12V左右的電壓,現在到了13.12V,看來應該是電路板出問題了。
順手將Disk3也上電看看運轉狀況,結果原本修好的Disk3竟然沒有轉動! 我無法理解這是為什麼,只是把修好的硬碟放在櫃子內幾個星期,馬達就不轉了,那是馬達故障嗎? 非也,我把Disk4的PCB拿來裝上,硬碟馬達可以順利運轉,只是系統認不到它。
天啊,這是鬧機瘟的意思嗎? 測量了一下Disk3 PCB各電源的電壓,如下圖竟然有兩個0V。這些電壓都是從右下角的SMOOTH晶片出來的,看來這顆IC掛了,整塊PCB也不用修了。真可惜,碟盤機構本身沒有故障,而是外面的PCB掛掉。
直接後送維修
為何PCB會故障? 我目前毫無頭緒,由於之前觀察SMART report看來堅若磐石的硬碟內部其實狀況很好,但是外面的PCB電路板似乎抵抗力很差,一下就掛了,我才買一年多呢。
這很像你買了一個很堅固的房子,抗核爆耐地震,結果裡面的水電用料很差,這個壞那個壞,結果還是不能住人。硬碟的SMART報告只能針對硬碟碟盤的使用狀況作監測,如果是電路板用料或製程太差,它可是一點辦法也沒有。
由於Disk3與Disk4都還在保固期,既然發現PCB板雙雙故障,那也只能送修。由於Disk3馬達不轉,代理商馬上換新機給我,而Disk4系統認不到,需要後送原廠,代理商也在兩週後換了同型的硬碟給我。所以目前我的心得是,硬碟的問題若單純是接觸不良,WD40是可以克服的,但若問題來源是硬碟的電路板,那可能會有惡化的機率,因為原本以為只是單純兩顆硬碟沒插好的問題,後來竟演變成一個HDD馬達不轉動,另一個HDD電路板故障。
由於SMART報告皆指出硬碟本體沒問題,因此若硬碟廠商的控制電路板壽命小於硬碟本體壽命,那整體來說還是短命。我買了4顆硬碟一年就幾乎同時死了2顆,說實在的機率還滿高的,這原廠應該要檢討一下才對。
在跟各位報告一下,後來三個月過後我的Disk 2也掛點,症狀相同,我認為可能那一批的硬碟都有問題,買四顆中三顆,這個比例也太高了,細節我就不貼圖了,反正過程都一樣,最後還是送修換新品才搞定。
下次各位硬碟有問題,可以先診斷SMART,若沒有壞軌,或許可以像我這樣清理接點就可以囉。如果你也抽到籤王,跟我依樣是電路板故障,那就真的要後送了。
好詳細的經驗分享,我有幾顆硬碟,也是備份完資料,放著一段時間,在BIOS中就辨識不到硬碟了,我拆開硬碟PCB電路板,也是有接點氧化的情形, 我用WD-40跟電子接點清潔劑跟還原劑去處理都沒有救回來, 很感謝您提供的經驗分享,謝謝!
現在有好幾家出電子接點清潔劑跟還原劑,
號稱不用擦拭,類似的問題會有效嗎?
不確定, 我沒有經常這麼作, 僅就幾次經驗分享