軟錯(Soft Errors)是半導體元件中的「雜訊脈衝」或資料流失,並不會刻意重複發生。這些隨機發生的雜訊脈衝通常不會衍生嚴重的後果,同時不會損壞元件。造成雜訊脈衝的外在因素超乎研發業者的可控制範圍,其中包括α粒子、繪圖處理器宇宙射線以及熱中子。事實上,許多系統均能容許某種程序的軟錯。例如,若工程師正針對音效、影片或靜態影像系統,設計一組預先壓縮的擷取緩衝區或解壓縮後的播放緩衝區,則相關的錯誤位元(bad bit)可能不易被使用者察覺,並且也不是那麼重要。然而,當記憶體元件被使用於支援各種關鍵任務的應用,負責控制系統運作時,軟錯可能就會產生嚴重的影響,不單只是造成資料的毀損,更可能導致功能與系統的故障。而本文將探討這些軟錯的成因、不同的量測技術以及克服這些軟錯的方法。
軟錯是新問題嗎?
軟錯率(SER)的問題在1970年開始被業界廣泛重視,當時DRAM開始出現許多隨機性錯誤的跡象,被認為是一種記憶體資料問題。隨著製程技術的規格持續縮小,造成故障所需的電荷持續減低,且速度遠超過記憶體單元中的電荷儲存區(collection area)。這意謂著在90奈米這類小尺寸的元件中,軟錯問題愈來愈受到注意與重視,同時須加入更多的步驟才能確保軟錯率降低至可接受的範圍內。
SER趨勢與應用
縮小元件尺寸是業界生存的要訣,這同時也是增加密度、提高效能以及降低成本的方法。隨著元件技術邁向深次微米的閘極深度從0.24微米至90奈米,記憶體產品的單元尺寸亦持續縮小,因而導致電壓降低,範圍可能從5伏特、3.3伏特一直到1.8伏特,及元件單元中的電容減縮範圍也可能從10fF至5fF。由於電容降低,記憶體元件的關鍵電荷,也就是元件單元保留資料所需的最低電荷,亦持續減低,造成對SER的抵抗力相對減弱。這表示能量較低的α粒子或宇宙射線也可對元件單元造成破壞。
系統層級的建置與重要性
軟錯的量測單位為FIT;FIT是指運作小時中在10億組元件內所發現的錯誤數量,1000 FIT相當於114年的平均出錯時間(MTTF)。為瞭解軟錯的重要性,以下舉一個例子來說明軟錯對於一般記憶體所產生的影響:手機中裝置的4 Mbit 低耗電記憶體,其軟錯率為1000 FIT-per-Mbit,代表每28年會出現一次軟錯。一部典型的高階路由器內建10 Gbit的同步SRAM記憶體,其軟錯率為600 FIT per Mbit,代表平均每隔17小時就會發生一次錯誤。想像一個人坐在一架飛越大西洋的客機上,在3萬5000呎的高空上使用一部內建256 Mbyte或2 Gbits記憶體的筆記型電腦。原先的600 FIT per Mbit軟錯率在高空環境中立即升高為10萬 FIT per Mbit,也就是說大約每5小時就會發生錯誤。軟錯是相當重要的,是因為其FIT率相當於高可靠度元件錯誤FIT率的10倍以上。很明顯地,軟錯並不會對行動電話造成太大的影響,但卻會對裝有大量記憶體的系統產生嚴重的影響。
SER來源
在對軟錯有基本的概念之後,接下來將介紹各種軟錯成因的形成機制。
α粒子造成的效應
半導體元件的封裝材料中含有Th232 以及U238等這類會持續衰減的雜質。這些雜質會釋放能量介於2 至9 MeV (百萬電子伏特)之間的α粒子。在矽元件上形成電子孔對(electron-hole pair)所需的能量為3.6Ev。這意謂α粒子大約會造成106個電子孔。如(圖一)所示,空乏區域的電場(electric field)會造成電荷飄移,並在電晶體中產生電流干擾(current disturb)的現象。若電荷移位讓儲存在記憶體單元中的關鍵電荷(QCRIT)的狀態state 0 或1產生變化,儲存的資料就會被改變。
宇宙射線產生的效應
高能量的宇宙射線與太陽幅射粒子會在大氣層上緣產生反應,因而產生高能量的質子與中心。較令人頭痛的是中子,因為它會穿透大多數的人造物體,例如,中子能輕易穿透5英呎的混凝土。穿透力在不同的緯度與高度上亦有差異:在倫敦,穿透力比赤道高1.2倍,在海拔較高的丹佛,穿透力比海平面的舊金山高3倍,而在高空飛行的客機上,穿透力則是地面的100至800倍。
高能量的中子,其能量約為100至800 MeV,由於本身沒有帶電荷,因此與矽元件之間的互動有別於α粒子。實際上,中心必須擊中矽原子才會形成軟錯。這種碰撞是因為α粒子與其它離子所造成,因此會產生許多對電子孔,其能量亦高於封裝材料所產生的α粒子。圖二是一些中子與矽原子之間的碰撞範例。
熱中子產生的效應
熱中子是軟錯的一大成因,其能量較低,通常約為25meV。介電層BPSG硼磷玻璃中的Boron 10硼同位素則可輕易擷取這些低能量的中子。在分裂過程中擷取到的中子會產生鋰、α粒子、以及伽馬射線。只要過程中有BPSG,就會產生熱中子。若使用B10同位素就能完全消弭熱中子以及所衍生出的SER。
(表一)為以上三種軟錯成因的比較。
如何量測並降低軟錯率
業界發展出許多方法來量測元件發生軟錯的機率。其中一種方法能提供加快量測的效果,另一種方法則涉及系統層面的量測。進行量測的地點對於資料的收集有相當大的影響。為了縮小不同廠商量測資料的差異,並讓不同產品的廠商能有共同的參考點,業界針對所有廠商所提報的SER FIT建立一套標準,即以紐約市海平面的地理位置作為校對的基準點。
加速型SER資料量測法分為兩種:
- (1)α粒子加速以及宇宙射線加速測試。要量測元件受α粒子影響的機率,可將釷或鈾元素置於打開外殼的晶片上,經過一段時間後,量測所有的元件變化,然後推算出Fit或Mbits。
- (2)加速型高能量中子(宇宙射線)的量測過程較為複雜,通常在像美國加州Los Alamos國家實驗室這類擁有中子發射源的研究實驗室中進行。
上述這兩種加速型資料量測求出的通常是FIT的近似值,且經常超出實際的故障率。加速型資料可用來計算出執行一次系統SER量測所需要的時間。
另一方面,系統SER量測必須將數千組元件置於機板,並持續監視系統以量測出產生缺陷的總數量。系統SER是α粒子以及宇宙射線SER累積的結果,因此系統置放的地理位置會對量測到的數量造成相當大的影響。有一種方法可以排除α粒子與宇宙射線對量測資料所產生的影響,就是將系統置於地面下數尺深的地方,由於地面下宇宙射線幾乎等於零,同時可完全避免高海拔處α粒子所引起的變化。
系統軟錯的量測作業成本相當昂貴,記憶體廠商通常僅針對每種技術進行量測,而非針對每種元件,以便壓低作業成本。
匯整SER
降低SER的方法可分成許多種類。其中包括改變製程,如埋入式元件層及trip well等、強化電路hardening 也就是電阻反饋、在儲存節點配置更高的電容及更高的驅動電流等、設計hardening,如冗餘性等設計以及變更系列層級。
系統層級技術
在系統層級方面,可運用錯誤偵測與在線式校正技術,配合READ作業模式來降低SRAM的SER,但這些技術會相對增加SRM的延遲。透過這種模式,系統可校正單位元錯誤,修復原始的資料,並報告多位元的錯誤。系統與記憶體架構設計可同時獲得改善。記憶體拓撲位元表可運用於特定模式並加以排列,讓實體多位元事件產生的多位元或單位元錯誤都侷限在1個位元組內。ECC雖能有效校正各種單位元錯誤,但會導致晶片尺寸至少增加20%。
元件製程/封裝層面
從元件設計的角度來看,消弭SER的方法之一就是增加儲存在記憶體單元中的關鍵電荷,藉此提高元件抵抗SER的能力。業者發現PMOS的門檻電壓會縮短元件單位的回復時間,間接增強對SER的抵抗力。此外,若使用埋入式接面,如triple well結構加強重組,則軟錯期間所產生的電荷也會飄移,而遠離作用區域。這種現象會在NMOS空乏區域產生一個反作用電場,並將電荷拉向基板。然而,trip well結構僅有助於消弭NMOS區域內所發生的幅射現象
結論
隨著製程技術的規格持續縮小, 軟錯對記憶體元件造成的影響也從以往的「不明顯」,發展成系統設計方面的重要考量因素之一。在不同的應用中,某些系統受SER的影響相當顯著,有些則完全不受影響。然而,包括像Cypress Semiconductor在內的SRAM廠商在製程研發與產品設計方面都投入特別的步驟,將SER的機率降至最低,讓SRAM能擴展至90奈米以下的製程環境。只要在系統設計與產品設計層面挹注適當的步驟,SRAM在許多製程世代仍將是一項可行的記憶體解決方案。(作者任職於Cypress Semiconductor)