全網(wǎng)內(nèi)核總結(jié)之《受污染的Linux內(nèi)核》
一、受污染的內(nèi)核
當(dāng)發(fā)生一些在稍后調(diào)查問題時可能相關(guān)的事件時,內(nèi)核會將自己標(biāo)記為“受污染 (tainted)”的。不用太過擔(dān)心,大多數(shù)情況下運行受污染的內(nèi)核沒有問題;這些信息 主要在有人想調(diào)查某個問題時才有意義的,因為問題的真正原因可能是導(dǎo)致內(nèi)核受污染 的事件。這就是為什么來自受污染內(nèi)核的缺陷報告常常被開發(fā)人員忽略,因此請嘗試用 未受污染的內(nèi)核重現(xiàn)問題。
請注意,即使在您消除導(dǎo)致污染的原因(亦即卸載專有內(nèi)核模塊)之后,內(nèi)核仍將保持 污染狀態(tài),以表示內(nèi)核仍然不可信。這也是為什么內(nèi)核在注意到內(nèi)部問題(“kernel bug”)、可恢復(fù)錯誤(“kernel oops”)或不可恢復(fù)錯誤(“kernel panic”)時會打印 受污染狀態(tài),并將有關(guān)此的調(diào)試信息寫入日志 dmesg 輸出。也可以通過 /proc/ 中的文件在運行時檢查受污染的狀態(tài)。
二、BUG、Oops或Panics消息中的污染標(biāo)志
在頂部以“CPU:”開頭的一行中可以找到受污染的狀態(tài);內(nèi)核是否受到污染和原因會顯示 在進(jìn)程ID(“PID:”)和觸發(fā)事件命令的縮寫名稱(“Comm:”)之后:
BUG: unable to handle kernel NULL pointer dereference at 0000000000000000 Oops: 0002 [#1] SMP PTI CPU: 0 PID: 4424 Comm: insmod Tainted: P W O 4.20.0-0.rc6.fc30 #1 Hardware name: Red Hat KVM, BIOS 0.5.1 01/01/2011 RIP: 0010:my_oops_init+0x13/0x1000 [kpanic] [...]
如果內(nèi)核在事件發(fā)生時沒有被污染,您將在那里看到“Not-tainted:”;如果被污染,那 么它將是“Tainted:”以及字母或空格。在上面的例子中,它看起來是這樣的:
Tainted: P W O
下表解釋了這些字符的含義。在本例中,由于加載了專有模塊( P ),出現(xiàn)了 警告( W ),并且加載了外部構(gòu)建的模塊( O ),所以內(nèi)核早些時候受到 了污染。要解碼其他字符,請使用下表。
三、解碼運行時的污染狀態(tài)
在運行時,您可以通過讀取 cat /proc/sys/kernel/tainted 來查詢受污染狀態(tài)。 如果返回 0 ,則內(nèi)核沒有受到污染;任何其他數(shù)字都表示受到污染的原因。解碼 這個數(shù)字的最簡單方法是使用腳本 tools/debugging/kernel-chktaint ,您的 發(fā)行版可能會將其作為名為 linux-tools 或 kernel-tools 的包的一部分提 供;如果沒有,您可以從 git.kernel.org 網(wǎng)站下載此腳本并用 sh kernel-chktaint 執(zhí)行,它會在上面引用的日志中有類似 語句的機(jī)器上打印這樣的內(nèi)容:
Kernel is Tainted for following reasons: * Proprietary module was loaded (#0) * Kernel issued warning (#9) * Externally-built ('out-of-tree') module was loaded (#12) See Documentation/admin-guide/tainted-kernels.rst in the Linux kernel or https://www.kernel.org/doc/html/latest/admin-guide/tainted-kernels.html for a more details explanation of the various taint flags. Raw taint value as int/string: 4609/'P W O '
你也可以試著自己解碼這個數(shù)字。如果內(nèi)核被污染的原因只有一個,那么這很簡單, 在本例中您可以通過下表找到數(shù)字。如果你需要解碼有多個原因的數(shù)字,因為它是一 個位域(bitfield),其中每個位表示一個特定類型的污染的存在或不存在,最好讓 前面提到的腳本來處理。但是如果您需要快速看一下,可以使用這個shell命令來檢查 設(shè)置了哪些位:
$ for i in $(seq 18); do echo $(($i-1)) $(($(cat /proc/sys/kernel/tainted)>>($i-1)&1));done
四、污染狀態(tài)代碼表

注:字符 _ 表示空白,以便于閱讀表。
五、污染的更詳細(xì)解釋
G 加載的所有模塊都有GPL或兼容許可證, P 加載了任何專有模塊。 沒有MODULE_LICENSE(模塊許可證)或MODULE_LICENSE未被insmod認(rèn)可為GPL 兼容的模塊被認(rèn)為是專有的。
F 任何模塊被 insmod -f 強(qiáng)制加載, ' ' 所有模塊正常加載。
S 內(nèi)核運行在不合規(guī)范的處理器或系統(tǒng)上:硬件已運行在不受支持的配置中, 因此無法保證正確執(zhí)行。內(nèi)核將被污染,例如:
在x86上:PAE是通過intel CPU(如Pentium M)上的forcepae強(qiáng)制執(zhí)行的,這些 CPU不報告PAE,但可能有功能實現(xiàn),SMP內(nèi)核在非官方支持的SMP Athlon CPU上 運行,MSR被暴露到用戶空間中。
在arm上:在某些CPU(如Keystone 2)上運行的內(nèi)核,沒有啟用某些內(nèi)核特性。
在arm64上:CPU之間存在不匹配的硬件特性,引導(dǎo)加載程序以不同的模式引導(dǎo)CPU。
某些驅(qū)動程序正在被用在不受支持的體系結(jié)構(gòu)上(例如x86_64以外的其他系統(tǒng) 上的scsi/snic,非x86/x86_64/itanium上的scsi/ips,已經(jīng)損壞了arm64上 irqchip/irq-gic的固件設(shè)置…)。
R 模塊被 rmmod -f 強(qiáng)制卸載, ' ' 所有模塊都正常卸載。
M 任何處理器報告了機(jī)器檢測異常, ' ' 未發(fā)生機(jī)器檢測異常。
B 頁面釋放函數(shù)發(fā)現(xiàn)錯誤的頁面引用或某些意外的頁面標(biāo)志。這表示硬件問題 或內(nèi)核錯誤;日志中應(yīng)該有其他信息指示發(fā)生此污染的原因。
U 用戶或用戶應(yīng)用程序特意請求設(shè)置受污染標(biāo)志,否則應(yīng)為 ' ' 。
D 內(nèi)核最近死機(jī)了,即出現(xiàn)了OOPS或BUG。
A ACPI表被重寫。
W 內(nèi)核之前已發(fā)出過警告(盡管有些警告可能會設(shè)置更具體的污染標(biāo)志)。
C 已加載staging驅(qū)動程序。
I 內(nèi)核正在處理平臺固件(BIOS或類似軟件)中的嚴(yán)重錯誤。
O 已加載外部構(gòu)建(“樹外”)模塊。
E 在支持模塊簽名的內(nèi)核中加載了未簽名的模塊。
L 系統(tǒng)上先前發(fā)生過軟鎖定。
K 內(nèi)核已經(jīng)實時打了補(bǔ)丁。
X 備用污染,由Linux發(fā)行版定義和使用。
T 內(nèi)核構(gòu)建時使用了randstruct插件,它可以有意生成非常不尋常的內(nèi)核結(jié)構(gòu) 布局(甚至是性能病態(tài)的布局),這在調(diào)試時非常有用。于構(gòu)建時設(shè)置。
