節點BusOff恢復過程分析與測試

原標題：節點BusOff恢復過程分析與測試

總線關閉是CAN節點比較重要的錯誤處理機制。那麼，在總線關閉狀態下，CAN節點的恢復流程是怎樣的？又該如何理解節點恢復流程的“快恢復”和“慢恢復”機制？本文將為大家詳細分析總線關閉及恢復的機制和原理。

圖1節點狀態轉換圖情形1

一、故障界定與總線關閉狀態

為了避免某個設備因為自身原因導致無法正確收發報文而不斷的破壞總線的數據幀，從而影響其它正常節點通信，CAN網絡具有嚴格的錯誤診斷功能，CAN通用規範中規定每個CAN控制器中有一個發送錯誤計數器和一個接收錯誤計數器。根據計數值不同，節點會處於不同的錯誤狀態，並根據計數值的變化進行狀態轉換，狀態轉換如下圖所示。

以上三種錯誤狀態表示發生故障的嚴重程度，總線關閉是節點最嚴重的錯誤狀態。並且，節點在不同的狀態下具有不同的特性，在總線關閉狀態下，節點不能發送報文或應答總線上的報文，也就意味着不能再對總線有任何影響。

狀態跳轉和錯誤計數的規則使得節點在發生通信故障時有了較好的自我錯誤處理和恢復機制，從一種較嚴重的錯誤狀態跳轉到另一種嚴重性相對較低的狀態，本質上就是一種恢復過程。圖1所呈現的轉換過程是CAN通用規範所要求的，我們從設備供應商買回來的CAN控制器已經把這些功能固化在硅片之中。

在通信過程中，錯誤主動和錯誤被動兩種狀態下節點的恢復過程一般不需要MCU進行額外的編程處理，直接使用CAN控制器固有功能即可。但對於總線關閉狀態，往往不直接使用CAN控制器固有的恢復過程，而是對其進行編程控制，以實現“快恢復”和“慢恢復”機制。

圖2 節點狀態轉換圖情形2

1、由於篇幅有限，關於錯誤計數的詳細規則以及各狀態下節點的具體特性不在本文進行討論，讀者可以查閲CAN的相關協議規範。

2、本文的“CAN控制器”是指已經實現了CAN通用協議物理層和數據鏈路層所要求的功能和特性的器件，如SJA1000；而“節點”是指把CAN控制器與MCU、收發器等相關器件進行整合開發出來的具有一定功能的CAN節點。

圖3 節點狀態轉換圖情形3

二、為什麼需要對總線關閉狀態的節點實現“快恢復”和“慢恢復”策略？

當節點進入總線關閉狀態後，如果MCU僅是開啓自動恢復功能，CAN控制器在檢測到128次11個連續的隱性位後即可恢復通信，在實際的CAN通信總線中，這一條件是很容易達到的。以125K的波特率為例，128*11*= 0.011264s。這意味着如果節點所在的CAN總線的幀間隔時間大於0.011264s，節點在總線空閒時間內便可輕易恢復通信。我們已經知道，當進入總線關閉狀態時，節點已經發生了嚴重的錯誤，處於不可信狀態，如果迅速恢復參與總線通信，具有較高的風險，因此，在實際的應用中，往往會通過MCU對CAN控制器總線關閉狀態的恢復過程進行編程處理，以控制節點從總線關閉狀態恢復到錯誤主動狀態的等待時間，達到既提高靈活性又保證節點在功能上的快速響應性的目的。具體包括“快恢復”和“慢恢復”策略，兩種策略一般同時應用。

通過以上的討論，我們可以知道，節點進入總線關閉狀態後，存在以下幾種恢復情況：

MCU僅開啓CAN控制器的自動恢復功能，節點只需檢測到128次11個連續的隱性位便可以恢復通信，恢復過程如圖1所示。

MCU沒有開啓CAN控制器的自動恢復功能，也不主動干預總線關閉錯誤，節點將一直無法“自動”恢復總線通信，只能通過重新上電的方式使節點恢復, 恢復過程如圖2所示。

MCU對CAN控制器的恢復過程進行編程處理，這時，節點的恢復行為由具體的編程邏輯決定，各廠家普遍採用了先“快恢復”後“慢恢復”的恢復策略，恢復過程如圖3所示。

圖4 MCU實現總線關閉恢復流程

三、MCU如何實現“快恢復”和“慢恢復”？

MCU編程實現總線關閉“快恢復”和“慢恢復”的一般過程可用以下流程圖描述：

節點以正常發送模式發送報文的過程中，如果出現了發送錯誤，發送錯誤計數會增加，只要發送錯誤計數沒有超過255， CAN控制器便會自動重發報文，如果出現多次發送錯誤，使發送錯誤計數累加超過255，則節點跳轉為總線關閉狀態。MCU能夠第一時間知道節點進入了總線關閉狀態，這時MCU控制CAN控制器進入“快恢復”過程，即控制CAN控制器停止報文收發，並進行等待，計時達到需要的時間T1後，MCU重新啓動恢復CAN控制器參與總線通信，這樣便完成了一次“快恢復”過程。

節點每進入一次“快恢復”過程時，MCU會對此進行計數，當節點“快恢復”計數達到設定的值N，則後續再次進入總線關閉狀態時MCU把恢復總線通信的等待時間T2進行延長，這樣便實現了“慢恢復”過程。“快恢復”和“慢恢復”過程的主要區別就在於恢復節點參與總線通信的等待時間的不同。

通過MCU對於總線關閉後的恢復行為進行編程控制，實際上是對CAN控制器的錯誤管理和恢復機制進行了補充，使得總線關閉狀態後的恢復過程更加靈活，更能適應實際應用的需要。對於 “快恢復”和“慢恢復”的等待時間，以及“快恢復”計數多少次後進入“慢恢復”過程，不同廠家可根據具體的需求進行編程實現。

圖5 功能設置

四、實測總線關閉恢復過程

通過廣州致遠電子有限公司的CAN總線分析儀的流量分析功能，可以很方便分析總線關閉後節點的恢復過程及測試“快恢復”和“慢恢復”的恢復時間。

第一步，連接DUT但先不要上電。按以下配置，使能接收干擾功能，並開啓報文讀取功能。

第二步，給DUT上電，並採集一段時間報文，停止採集後使用流量分析功能進行分析。

第三步，鼠標放置於波形“團”之間讀取恢復時間。

圖6 採集報文並進行流量分析

至此，我們便可以得出結論：該DUT對總線關閉的恢復過程進行了編程控制，採用了先“快恢復”後“慢恢復”的恢復機制，節點進入總線關閉狀態後，進行一次“快恢復”過程，後續進行“慢恢復”過程，兩個恢復過程的恢復時間分別為27.5ms和209.5ms。

那麼，我們該如何根據所得波形理解該DUT進入總線關閉狀態及恢復通信的整個過程呢？

可以清晰的看到，波形“團”中包含共32幀CAN報文。把其餘各波形“團”放大後也都是包含32幀，這裏不再把詳細的圖片貼出來。

DUT上電後，初始發送和接收錯誤計數都為0。由於在測試時配置了接收干擾功能，當DUT開始發送報文後，每一幀報文都受到CAN總線分析儀的干擾而出現發送錯誤，第一次發送時發送錯誤計數加8，並自動重發，第二次發送時錯誤計數再加8，直到發送了32次後，發送錯誤計數大於255，根據圖3的錯誤狀態的轉換規則，這時DUT跳轉為總線關閉狀態，MCU控制進入“快恢復”過程同時對“快恢復”次數進行計數，並等待約27ms後，MCU控制DUT從總線關閉狀態恢復為錯誤主動狀態，由MCU繼續啓動發送，由於仍然受CAN總線分析儀的持續干擾，發送32幀後再次進入總線關閉狀態，再次執行“快恢復”或“慢恢復”過程，以此類推。

根據流量分析的結果可知，該DUT進入“快恢復”的計數達到1次後便執行“慢恢復”過程，“慢恢復”等待時間約為209ms。

圖7 讀取恢復時間

1、干擾的設置可以根據需要設置其他的參數，只要保證能對DUT發送的幀進行干擾使其出現發送錯誤即可。

2、為了分析完整的總線關閉恢復過程，建議DUT和CAN總線分析儀連接好後，先開啓“報文讀取”和“接收干擾”功能後再上電DUT。因為這樣能確保DUT的接收錯誤計數和發送錯誤計數的初始計數都為0。

3、需要對DUT進行連續的干擾，否則DUT恢復後成功發送了報文，“快恢復”次數的計數會遞減，這不利於分析DUT總線關閉後的整個恢復行為。

4、總線關閉後節點的“恢復”是指恢復參與總線的通信，但並不意味着恢復後一定能成功發送或接收報文。如上述案例，DUT恢復通信後由於仍然受CAN總線分析儀的干擾，導致報文發送再次失敗。

圖8 放大波形“團”觀察

總結：

在總線關閉狀態下，“快恢復”和“慢恢復”不是CAN控制器固有的功能，而是通過MCU的編程邏輯實現的恢復機制，是總線關閉狀態下恢復過程的補充，使恢復過程更具有靈活性。