ODCC NVMe子系統(tǒng)故障預(yù)測(cè) 2025_第1頁
ODCC NVMe子系統(tǒng)故障預(yù)測(cè) 2025_第2頁
ODCC NVMe子系統(tǒng)故障預(yù)測(cè) 2025_第3頁
ODCC NVMe子系統(tǒng)故障預(yù)測(cè) 2025_第4頁
ODCC NVMe子系統(tǒng)故障預(yù)測(cè) 2025_第5頁
已閱讀5頁,還剩70頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

--健康度指標(biāo)行業(yè)標(biāo)準(zhǔn)草案開放數(shù)據(jù)中心標(biāo)準(zhǔn)推進(jìn)委員會(huì)ODCC2025年9月版權(quán)聲明作權(quán)法》保護(hù),編制單位共同享有著作權(quán)。轉(zhuǎn)載、摘編或利用其它方式使用ODCC成果中的文字銷售、改編、匯編和翻譯出版等侵權(quán)行為,ODCC及有關(guān)單位將追究其法律責(zé)任,感謝各單位的配合與支持。提升,NVMeSSD作為關(guān)鍵存儲(chǔ)組件,其健康狀態(tài)監(jiān)控和故障預(yù)測(cè)已成為保障數(shù)據(jù)安全和系統(tǒng)穩(wěn)定運(yùn)行的重要環(huán)節(jié)。傳統(tǒng)的存儲(chǔ)設(shè)備綜合評(píng)估能力。為了填補(bǔ)這一空白,本標(biāo)準(zhǔn)草案由美團(tuán)發(fā)起,聯(lián)合ODCC、小紅書等業(yè)界領(lǐng)先企業(yè),以及憶恒、大普、憶聯(lián)、華為、本標(biāo)準(zhǔn)的核心創(chuàng)新在于將評(píng)估范圍從單純的NVMeSSD擴(kuò)展到整個(gè)子系統(tǒng),涵蓋了NVMeSSD、硬盤背板、線纜、主板、遙測(cè)日志、持久事件日志等多維度數(shù)據(jù)源,建立了1-5分的量化健24小時(shí)窗口監(jiān)控。該標(biāo)準(zhǔn)不僅為數(shù)據(jù)中心運(yùn)維人員提供 9 1一、適用范圍本草案規(guī)定了NVMe子系統(tǒng)健康度指標(biāo)的定義、評(píng)分標(biāo)準(zhǔn)、指標(biāo)值以及相關(guān)日志的存儲(chǔ)位置和判定依據(jù)。其目的在于通過NVMeSSD作為媒介,對(duì)NVMe子系統(tǒng)所處環(huán)境的健康狀態(tài)進(jìn)行預(yù)測(cè)和指示,為行業(yè)提供參考標(biāo)準(zhǔn)。最終目標(biāo)是實(shí)現(xiàn)對(duì)NVMe子系統(tǒng)(包括總體目標(biāo):基于行業(yè)通用標(biāo)準(zhǔn),如OCP的TelemetryLog、Smart-log、Smart-log-add及其他相關(guān)日志,提取與NVMe子系統(tǒng)健同時(shí),TelemetryLog的用戶自定義區(qū)域保存IO延時(shí)分布統(tǒng)計(jì)和IO數(shù)據(jù)塊分布統(tǒng)計(jì),并要求以明文輸出,以便進(jìn)行業(yè)務(wù)層面的整體IO2二、規(guī)范性引用文件本標(biāo)準(zhǔn)參考并引用了以下行業(yè)標(biāo)準(zhǔn)及相關(guān)技術(shù)文檔,用于定義oSMART/HealthInformationoCriticalWarning2.OCPNVMeSSD規(guī)范(OCPNVMeSSDSpecification)3及IO數(shù)據(jù)塊分布的可視化與診斷。3.SMART技術(shù)標(biāo)準(zhǔn)(Self-Monitorin等關(guān)鍵健康指標(biāo),作為健康度打分的基礎(chǔ)參數(shù)。o使用NVMe規(guī)范預(yù)留的廠商自定義日志區(qū)間(Log5.Memblaze和憶聯(lián)廠商三、術(shù)語、定義和縮略語45ManagementConditionManagementManagement6AmplificationAvailable7SSD在一段時(shí)間內(nèi)處理IO請(qǐng)求的數(shù)據(jù)塊大小分布情況,以幫助分5843219四、健康度指標(biāo)定義(offset0)來存放,E4h后工具要求:標(biāo)準(zhǔn)的nvmecli工具,例如版o已用壽命百分比(PercentageUsedo控制器繁忙時(shí)間(ControllerBusyTimo不安全關(guān)機(jī)計(jì)數(shù)(UnsafeShutdoOCPNVMeSSDSpecification定義的SMART擴(kuò)展日志頁(LogoPCIe可糾正錯(cuò)誤計(jì)數(shù)(PCIeCorrectableErrorCouoPCIe不可糾正錯(cuò)誤計(jì)數(shù)(PCIeUncorrectableErroroPCIe鏈路重訓(xùn)練計(jì)數(shù)(PCIeLinkRetrainingCount):3.關(guān)鍵警告字段(Criticalo[其他關(guān)鍵警告位,具體請(qǐng)參考NVMe規(guī)范]4.持久事件日志(PersistentEventLogs):指NVMe規(guī)范定義的持久oTelemetryControNAND總擦除次數(shù)百分比(PercentageofNANDTotalNAND剩余壽命百分比(PercentageofNANDLifetimeRemaining):基于磨損模型預(yù)非ECC糾正錯(cuò)誤計(jì)數(shù)(Uncorrectable介質(zhì)錯(cuò)誤計(jì)數(shù)(MediaErrorCount)6.特性日志(FeatureSpecificLogs):o異步事件信息(AsynchronousEventInformation):記錄異步事8.IO延時(shí)分布與IO數(shù)據(jù)塊大小分布o(jì)協(xié)商速度和Lane數(shù)量:記錄PCIe鏈路最終協(xié)商的速度(例oFTL/元數(shù)據(jù)健康狀態(tài)(MetadataMetadataECCCorrectionRate/Count:元數(shù)據(jù)讀ReadDisturbCount:讀操作影響鄰近單o“靜默”數(shù)據(jù)損壞(SilentDataCorruption):端到端數(shù)據(jù)保護(hù)(End-to-EndDaDIF/DIX):NVMe標(biāo)準(zhǔn)支持基于T10DI后臺(tái)數(shù)據(jù)掃描/巡檢(BackgroundMedRead):企業(yè)級(jí)SSD通常會(huì)進(jìn)行后臺(tái)掃描以主o[其他NANDFlash讀寫相關(guān)的重要性:極其重要。企業(yè)級(jí)SSD依賴電容(或oPLPHealthStatus:一個(gè)狀態(tài)值,如Pass/Degraded/oEstimatedCapacitanceRemaining(%):估算的剩余電容容量百oPLPSuccessfulEventsCount:oPLPFailedEventsCount:PLoInternalControllerResetCount:非正常斷電或主機(jī)請(qǐng)求之外的oFirmwareAssertionFailureCount:固件內(nèi)部檢查失敗的次數(shù)。14.性能下降和延遲抖動(dòng)(PerformanceDegrado延遲百分位(LatencyPercentiles):平均延遲可能掩蓋長(zhǎng)尾延遲問題。監(jiān)控99th,99.9th,甚至99.99thSSD是否達(dá)到瓶頸或行為異常。TelemetryLog可以提o考慮納入流程:建議定期(例如,帶外通過NVMe-MI)觸發(fā)全范圍內(nèi),個(gè)別指標(biāo)略有上升(如備用空間90%-95%,壽命消耗10%-20%Telemetry數(shù)據(jù)顯示性能下降、延遲上升;PCIe鏈路或NAND操作重試次數(shù)增多,需要關(guān)注。耗20%-50%錯(cuò)誤計(jì)數(shù)頻繁增加,Telemetry1分(失效關(guān)鍵屬性達(dá)到或超過極限值(健康度指標(biāo)存儲(chǔ)于SMART/HealthInformationLogPage(Log解析NVMe標(biāo)準(zhǔn)日段令帶內(nèi):nvmeget-odcc-log<device><log_id例如:nvmeget-log/dev/nvme0n10xE40xfff0x00或GET/redfish/v1/Systems/1/LoIO延時(shí)分布:#nvmeODCClat-block-print/dev/nvIO塊大小分布:#nvmeODCClat-block-print/dev/nvEnable(default):#nvmeODCClat-block-print/dev/nvmDisable:#nvmeODCClat-block-print/dev/nvme0n五、健康度指標(biāo)計(jì)算在判定NVMeSSD的健康度時(shí),應(yīng)綜合考慮上述各項(xiàng)日志及指Σwi:指標(biāo)權(quán)重(需根據(jù)技術(shù)重要性分配,總和為100%)指標(biāo)得分:按分級(jí)閾值映射為1-5分,指標(biāo)滿分為5分12.詳細(xì)指標(biāo)012111111241022212累計(jì)超30分鐘統(tǒng)計(jì)24h具體超溫分鐘數(shù)1128123康134康題1態(tài)11用空間、電容10112關(guān)152關(guān)121226161常11分六、實(shí)施與應(yīng)用建議2.對(duì)于系統(tǒng)集成商和數(shù)據(jù)中心運(yùn)營(yíng)者,應(yīng)依據(jù)本標(biāo)準(zhǔn)對(duì)所使用的用支持本標(biāo)準(zhǔn)的nvmecli工具或第三方監(jiān)控工具,定期采集和分IO分布日志的分析和可視化功能,輔助用戶進(jìn)行七、IO延時(shí)分布和數(shù)據(jù)塊大小分布(24h窗口)異步記錄:IO分布日志的記錄操作應(yīng)盡可能異步化,避免阻塞正使能和關(guān)閉:可以設(shè)置使能或者關(guān)閉,根據(jù)不同客戶需求,可以設(shè)速或?qū)S锰幚砥鱽硖幚鞩O分布統(tǒng)計(jì),降低對(duì)主控--ss呈現(xiàn)格式:nvmeODCClat-block-print/IO塊大小分布存放位置:VendorUniqueSMART/HealthInformation--……呈現(xiàn)格式:nvmeODCClat-bloc

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論