




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、 RAC集群搭建ASM和私網(wǎng)網(wǎng)卡問題分析 一、項目背景此項目所有主機資源、網(wǎng)絡環(huán)境、存儲資源都是由XX方提供,都是在云上資源的劃分,本文分析XX方一系列問題導致搭建集群失敗,后續(xù)經(jīng)過調(diào)整,集群成功搭建的過程。在搭建前的準備和搭建中一共遇到了兩個很重要的問題,在此分享給大家,以后如果有需要搭建集群環(huán)境的項目應該注意。單塊ASM磁盤不能超過2T大小,即裸LUN的分配要注意不超過2T私網(wǎng)網(wǎng)卡在虛機上配置不要加地址綁定限制和HAIP的相關問題二、ASM磁盤的BUG剛到項目,進行環(huán)境檢查時發(fā)現(xiàn)兩個節(jié)點掛載的是一塊15T的裸LUN,就想到了去年搭建某市教育云時遇到的ASM磁盤組的BUG,這些細節(jié)地方確實前
2、期很容易被忽視。早期的集群是通過各存儲廠家的存儲技術實現(xiàn)的,直到10G之后,oracle公司研究出ASM磁盤的技術,將集群技術進行統(tǒng)一。ASM是一個卷管理器,Oracle數(shù)據(jù)庫文件的一個文件系統(tǒng),ASM支持單實例和集群配置,它是oracle推薦的存儲方案,為傳統(tǒng)卷管理器,文件系統(tǒng),裸設備提供一個選擇。2.1 每塊ASM磁盤不大于2TASM磁盤有一定限制:單塊ASM的磁盤不能大于2T,不然創(chuàng)建磁盤組就會報錯ORA-15196 WITH ASM DISKS LARGER THAN 2TB。聯(lián)系XX云平臺的相關人員進行處理,其反饋了兩個問題:- 15T裸LUN得重新劃分需要先將其格式化,15T大小的
3、磁盤格式化時間大約8個小時;- 15T的裸LUN要劃分成每塊盤不大于2T,至少需要7個LUN來進行劃分,但是目前的云平臺是不支持劃分這么多數(shù)量的,無法保證云平臺的穩(wěn)定。由于ASM磁盤的限制問題,和XX方表示,LUN的重新劃分必須要進行,后進行溝通,按照我們提出的需求XX方進行處理,但是由于前期對資源沒溝通到位,確實對項目的推進效率造成了一定的影響。2.2 ASM - Scalability and Limits參考MOS文檔:文檔 ID 370921.1ASM磁盤共有如下一些限制:1、 63 disk groups in a storage system代表一個存儲系統(tǒng)最多只能有63各磁盤組,
4、但是一般我們只需要3到四個磁盤組即可:CRS、ARCH、DATA。2、 10,000 ASM disks in a storage system代表一個存儲系統(tǒng)最多1萬個ASM盤文件,假設我們單塊磁盤2T,那我們有2*10000=2萬T的空間,這已經(jīng)很大了,綽綽有余。3、 2 terabyte maximum storage for each ASM disk即上文提到的每個ASM磁盤不超過2T,代表我們在掛裸LUN的時候,單個lUN要注意大小。4、 1 million files for each disk group代表每個磁盤組最多100萬個文件5、 2.4 terabyte maxim
5、um storage for each file每個文件的最大存儲容量2.4T,參考一下即可,我們單塊磁盤都不超過2T,沒意義的限制。當然,以上限制到12.1版本之后有所更改,比如只能有63個磁盤組增加到511個,2T磁盤限制也有所修改,具體可以參考文檔 ID 370921.1。三、私網(wǎng)網(wǎng)卡相關問題在安裝Grid集群時候,有一步要在兩個節(jié)點分別執(zhí)行root.sh,類似的操作如果有安裝過數(shù)據(jù)庫的小伙伴也應該有經(jīng)歷過。那在Grid安裝的這一步會出現(xiàn)各種莫名奇妙的問題,這個時候就需要有查看日志進行解決的能力了。、3.1 私網(wǎng)網(wǎng)卡上綁定的HAIP無法通信在一節(jié)點上執(zhí)行root.sh成功后,在二節(jié)點執(zhí)行
6、root.sh時報錯,截取了oraagent_grid.log一段最初的報錯信息,除此之后沒有其他的報錯信息:截取的這一段日志比較重要,可以看到第一行開始InstAgent,然后進行clsdmc_respget檢查(對此我的理解是兩個節(jié)點上私網(wǎng)網(wǎng)卡綁定的HAIP進行通信檢查),可以看出多次通信未成功,然后報錯ORA-03113: end-of-file on communication channel,直接把和ASM信息的數(shù)據(jù)庫斷開,然后開始清除InstAgent的信息,至此節(jié)點2執(zhí)行root.sh失敗,意味著集群搭建失敗。對于這個錯誤我的初步判斷是XX分配的私網(wǎng)網(wǎng)卡有問題。和XX方負責人溝通
7、后,并未得到想要的答案,其表示正常的私網(wǎng)網(wǎng)卡,使用沒有問題。沒辦法,只能去找確鑿的證據(jù),來告訴XX方其私網(wǎng)網(wǎng)卡確實有問題。經(jīng)過一天的排查下來,最終在MOS文檔上Doc ID 1383737.1找到證據(jù)。3.1.1 Symptoms如果這個問題出現(xiàn)在安裝Grid Infrastructure執(zhí)行root.sh腳本時,表現(xiàn)出以下癥狀:-root script screen output$GRID_HOME/cfgtoollogs/crsconfig/rootcrs_.logFor 12.1.0.2, the root.sh on the 2nd node could report:可以看出我們正好
8、符合癥狀1,執(zhí)行root.sh腳本出現(xiàn)ORA-03113: end-of-file on communication channel錯誤。3.1.2 Details*case 1:link local IP (169.254.x.x) is being used by other adapter/network *169.254.X.X這個IP時執(zhí)行root.sh腳本時候,會自動綁定一個HAIP的信息到私網(wǎng)網(wǎng)卡上,如果這個IP正好被其他設備占用,那當然會綁定失敗,最簡單的檢查辦法是通過ifconfig -a進行檢查是否存在169.254.X.X相關信息。Case2: firewall exis
9、ts between nodes on private network (iptables etc)兩節(jié)點之間的private network之間存在防火墻等問題,比如iptables,ipmon等等。HAIP is up on some nodes but not on allHAIP只在一個節(jié)點上綁定了,但是并不是所有節(jié)點都綁定了HAIP,在兩個節(jié)點都進行ifconfig檢查,就會發(fā)現(xiàn)eth1網(wǎng)卡(私有網(wǎng)卡)下面多了一個169.254.X.X格式的HAIPCase4: HAIP is up on all nodes but some do not have route info雖然所有節(jié)點
10、上都有HAIP的信息,但是路由表上沒有相關信息。檢查路由表,發(fā)現(xiàn)兩個節(jié)點都是有對應的路由信息,應該也不是這個問題Case5. HAIP is up on all nodes and route info is presented but HAIP is not pingable雖然HAIP在每個節(jié)點上都有綁定,而且路由表上也有對應IP信息,但是無法ping通。在項目現(xiàn)場,用兩個16.254.X.X的IP進行互相ping,發(fā)現(xiàn)兩個IP無法ping通,于是將此問題和XX方溝通,告知其肯定是私網(wǎng)的問題,希望其進行排查,最終XX方給了回復,確實是私網(wǎng)出現(xiàn)了問題。由于拿出了十足的證據(jù)告訴XX方確實是他們
11、方面出現(xiàn)了問題,所以后面問題的解決也比較快。這兒告訴XX方問題確實出現(xiàn)了eth1這個網(wǎng)卡上。原來XX方面做了對應網(wǎng)卡的地址綁定,每塊網(wǎng)卡寫死IP就只有對應IP能通信,坑.3.2 root.sh Fails to Start HAIP as Default Gateway is Configured for Private Network VLAN參考文檔 ID 1366211.1在XX方將對應地址綁定配置修改掉后,重新搭建集群,每次重新搭建集群就得將所有文件刪掉,將存儲dd清空,非常麻煩。本以為這次應該可以大功告成了,沒想到跑一節(jié)點的root.sh就直接報錯,真是尷尬和煩!報錯信息:這次有了私網(wǎng)的經(jīng)驗,直接檢查HAIP,發(fā)現(xiàn)根本沒有綁定HAIP,于是直接將情況和XX方進行溝通,XX方應該也意識到時自己的問題,這次對方配合很迅速。告知XX方,eth1網(wǎng)卡無法綁定IP信息原來問題是由于他們CAS配置只改了一半,沒改完全,導致無法綁定IP信息,真是坑.四、總結還好,最后將集群搭建的事宜圓滿完成了。簡單總結下吧:1.ASM磁盤不能大于2T在項目上以后很常見吧,現(xiàn)在存儲空間都很大,動輒就是申請15T的資源,那么前期溝通,應該就要知曉裸LUN不能大于2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年下一代互聯(lián)網(wǎng)建設行業(yè)當前市場規(guī)模及未來五到十年發(fā)展趨勢報告
- 2025年半導體硅片、外延片行業(yè)當前發(fā)展趨勢與投資機遇洞察報告
- 2025年麗水市遂昌縣中考沖刺卷數(shù)學試題含解析
- 操作規(guī)程制定流程課件
- 2025年3月時事政治試題及答案
- (2025)義務教育語文新課程標準考試測試題庫及參考答案
- 2025年四川省攀枝花市醫(yī)療三嚴三基理論考試試題及答案
- 2025醫(yī)師合理用藥考核試題及答案
- 2025年橋梁隧道工崗位職業(yè)技能資格知識考試題與答案
- 項目技術管理試題及答案
- 2025-2030中國家政服務從業(yè)人員培訓體系與職業(yè)發(fā)展白皮書
- 2025年安全風險分級管控培訓考試試題(附答案)
- 廠區(qū)用電安全管理制度
- 2025年消防員招錄面試題庫及答案
- 初中英語新人教版八年級上冊全冊單詞(2025秋)
- 2025年廣西中考道德與法治試題答案詳解講評課件
- 農(nóng)貿(mào)市場食品安全監(jiān)管與能力提升培訓
- 成人重癥患者人工氣道濕化護理專家共識解析與臨床應用
- ISO 22003-1:2022《食品安全-第 1 部分:食品安全管理體系 審核與認證機構要求》中文版(機翻)
- 2010年沙多瑪技術研討會
- 煤礦供電設計與繼電保護整定計算示例
評論
0/150
提交評論