由當前智能語義檢索的不足思考專利檢索的特質

2020-07-14由不新伏發佈於科技

當前智能語義檢索的實際效果還遠未達到真正人工智能的程度，其原因既有算法設計本身的缺陷，亦有處理對象的複雜性。相較於算法設計的缺陷，處理對象的複雜性是人工智能在專利檢索領域更難逾越的鴻溝，但這又何嘗不是人不可替代的價值所在呢？

隨着計算機技術的發展，人工智能（AI）對於社會各行各業產生了全面而又深遠的影響，使信息革命步入了2.0版本的高級階段。專利檢索正是一種信息獲取的方式，也緊隨潮流出現了智能語義檢索。從概念上説，智能語義檢索與傳統人工操作的計算機檢索的本質不同在於：無需人工提取檢索要素並輸入構建的檢索式，而僅需輸入目標文件，就能自動獲得對比文件。但從實踐情況來看，目前智能語義檢索的效果仍然差強人意。譬如，國家知識產權局內部使用的S系統，雖然集成了“自動檢索”功能，但幾乎不能直接提供令人滿意的對比文件。而商用專利檢索工具，如Patentics，其智能語義檢索若不加進一步限定，直接有效命中對比文件的概率也不太高。所以，在使用任何智能語義檢索工具時，一般都需要手動添加檢索要素以及人工篩選文件，以一種“半自動”的方式滿足檢索需求。換言之，在專利檢索領域，所謂的智能語義檢索還遠未達到真正意義上的人工智能程度，更無法取代人工檢索。審查員無法僅憑智能語義檢索“守株待兔”式地獲取有效對比文件。大概正因如此，審查員的人均審查任務量並沒有隨着智能語義檢索的出現而成倍激增。

在人工智能機器“阿爾法狗”（AlphaGo）已經能夠擊敗圍棋頂級高手的時代，為什麼智能語義檢索還不及一名初級審查員的檢索水平？本文結合實例，從檢索方法論的角度，探討專利檢索在人工智能設計上所面臨的獨特困境，兼論智能語義檢索的可能改進方向。

雖然圍棋的變化結果理論上有10170種可能，看似是個天文數字；但從另一個角度來看，圍棋的規則卻十分簡單明確：所圍區域更多的一方獲勝。基於該簡明規則，所謂天文數字的變化其實並不需要遍歷，每一步可能的落子點並不是剩餘空位中的任意一點，而是其中獲勝概率較大的位置。AlphaGo的設計者Demis Hassabis正是抓住了這種本質，才以不變應萬變，藉助網絡實戰的大數據樣本和神經網絡算法，刪繁就簡，實現了計算機的有效自主決策，並能最終取勝。

反觀專利文獻的檢索，判斷檢索成功的標準卻要複雜得多。它並不像圍棋那樣可以簡單通過公開特徵數量的多寡，來判定檢索結果是否與本發明等效。因此智能語義檢索無法明確給出結論，只能給出相似度作為參考，最後仍然需要人工的終極決策。

雖然100%相似度的對比文件可被簡單判定為檢索成功；但是此類對比文件的獲取概率，會隨着權利要求篇幅的加長而急劇降低。對於有上百字限定的常規權利要求，除非是本人的相同申請或他人的故意抄襲，否則要找到特徵一一對應的對比文件會變得極其困難。

為避免漏檢，更全面而實用的規則是：找到能夠否定權利要求創造性的對比文件或對比文件組合。該規則相較於上述新穎性規則是較低的標準，優勢是不必檢索到權利要求中的每個細節，且可以兼容否定新穎性的檢索結果；缺點是需要辨識權利要求中各技術特徵的重要性，做一番合理的取捨，還需要考慮證據的組合方式。而這些判斷都很難量化，這是智能檢索的算法設計所面臨的瓶頸，也是人工檢索中的決策難點。所以在運用具體數據庫中的檢索技巧之前，首先應當針對個案理清楚兩個關鍵問題：一、本權利要求的組成要素是什麼？二、各要素之間結合的緊密度如何？方能刪繁就簡，有的放矢。

一、權利要求的組成要素

所謂權利要求的組成要素，是對權利要求中各必要技術特徵的概括表達。將組成要素從權利要求的連貫表述中剝離出來，主要是為了使檢索系統能為本發明有效地適配同類對比文件，同時也能使檢索者在不斷地檢索調整中始終保持清晰的目標。

組合要素的選取是否得當，主要看該要素組合的表達能否使本發明有效地區別於其他同類方案。這好比是廣播尋人啓事，對於查找對象的特徵描述必須要有辨識度，比如性別、身高、年齡、臉型等能夠迅速縮小尋找範圍的特徵，以及某處的胎記、疤痕等獨特標誌；而無需描述作為同類皆有的特徵，如兩個眼睛，一個鼻子等。與之類似，提煉權利要求的組成要素，主要從兩個方面考慮：一是具體的應用領域，二是聲稱的對現有技術的改進。

但實際操作中，對於限定較多的權利要求，有效地識別組成要素並非易事。

下面結合實際案例來分析説明。

案例1，一種養豬用料槽（201710070290 .0）

權利要求1：

一種養豬用料槽，包括頂部開口的下料桶（1）、位於下料桶兩側的槽本體（2）、位於下料桶側壁的出料口（3），所述出料口連通所述槽本體與所述下料桶，所述下料桶為立方體結構，其特徵在於：所述槽本體頂部設有翻蓋（7），所述下料桶沿長度方向的內壁垂直設有擋板（4）以及與所述擋板相適應的滑槽，所述擋板可沿所述下料桶內壁在所述滑槽內滑動，所述擋板與所述出料口（3）同側，所述擋板側壁與所述下料桶頂部接觸處設有夾緊件（10），所述下料桶底部設有分料塊（6）。

結構附圖如下所示：

該技術方案結構簡單，表述清晰。分別通過S系統智能輔助檢索，Patentics智能語義檢索，以及人工檢索三種途徑進行檢索，所得的最接近的現有技術完全不同。

★ S系統智能輔助檢索：

相似度判定為99%的最接近現有技術：一種移動式養豬用料斗（CN201623329U），以下簡稱D1。

主要結構附圖：

方案概述：該料斗分為外框架2和內部料斗7，內部料斗7下部呈錐形，方便飼料下落。需要下料時，通過把手9將推拉擋板8向外拉出即可。

★ Patentics智能語義檢索：

相似度判定94%的最接近現有技術：一種豬飼料裝置（CN204811436U），以下簡稱D2。

主要結構附圖

方案概述：飼料箱204底部依次設有第一閘門208、計量筒208和第二閘門209。通過交替開閉兩個閘門，實現每次投餵計量筒208體積內的定量飼料。此外，採用分隔板102等距分隔而形成進食口301。

★ 人工檢索：

認定的最接近現有技術：一種多孔料槽（CN20505248U）。以下簡稱D3。

主要結構附圖：

方案概述：在料斗1和料槽2之間設置有擋板3，調節擋板3在導槽4中的上下位置可控制料槽2內的飼料數量，並通過銷軸64插在檔位槽91中不同高度，實現對擋板的定位調節。料槽2上開設有多孔板22。

通過簡單對比，可以得出如下結論。

首先，三份對比文件與本發明均存在不同，均無法單獨否定本權利要求的新穎性。具體而言，D1與本發明的差異最大，僅公開了料斗及橫向抽拉的擋板8，未公開出料槽等其他特徵。D2同樣存在較大差異，所公開的兩道橫向閘門僅與本申請的擋板功能類似，結構並不相同。D3公開了可沿滑槽上下移動的擋板3及相關定位銷軸，但擋板的定位方式與本申請不同。

其次，三份對比文件彼此之間有兩點共性：一、都屬於飼料裝置，二、料斗內都設有的擋板（或閘門）。可見在提取權利要求組成要素時，都提取了技術領域“飼料裝置”和改進點“擋板”；而未限定權1中“翻蓋”、“夾緊件”和“分料塊”等其他特徵。

對於技術領域要素的表達，可以採用本申請的分類號A01K5/，且沒有明顯的交叉領域分類號，因此不會對錶達造成困擾。

而對於改進點，把什麼特徵作為要素優先考慮，則要經過一番比較和篩選。智能語義檢索的內部算法無從知曉，但從結果可以推斷它並未侷限於權利要求本身的表達，而是結合了對説明書的記載對權利要求的特徵做了篩選，否則不可能將區別如此巨大的對比文件判定為如此之高的相似度。

人工檢索時，也依據了説明書記載的技術問題和有益效果確定組成要素。説明書中聲稱所要解決的技術問題是防止多豬搶食，解決的手段是在槽體內設置薄板加以分隔，因此首先將“分隔板”作為要素之一。但該權利要求書的撰寫並不規範。在獨立權利要求1中並未記載該特徵，而是在從屬權利要求6中限定，因此在針對權利要求1的舉證文獻中該要素並不必要。

繼續研讀説明書的有益效果提煉權利要求中的改進點要素。本説明書記載的有益效果除了與聲稱的技術問題相關的“防止搶食”之外，還有另外兩個關聯度不高的效果：1、出料可控，2、飲水與飼料可分。這兩個效果均與擋板有關，因此將“擋板”也列為組成要素。

智能語義檢索的D1和D2中的“擋板”結構均是水平橫向設置的，與權利要求1中限定的“垂直設有擋板”存在明顯差別。且當本權利要求的“出料口”被限定為位於“下料桶側壁”時，橫向擋板並不能直接轉用。此外，橫向開合的擋板也無需“加緊件”來維持開口，與其結合並無必要。因此用D1或D2單篇否定權利要求1的創造性缺乏説服力。D3公開的傾斜擋板更接近於本發明的垂直擋板，也公開了設置在料斗側面的出料槽，相較於D1或D2更加接近權利要求1中的結構。但也未公開在料斗兩側分置料槽，因此仍然較難單篇否定權利要求1的創造性。

在此情形下，就需要考慮證據的組合使用。這就涉及到另一個至關重要的問題：能否採用不同證據的組合來評述作為一個整體的權利要求方案。這也是目前智能語義檢索的較大缺陷——它只能評估單篇相關文獻的相似度，卻不能判斷是否可以採用多份證據組合評述，更不會推薦證據組合的方式。

而要對證據組合的問題作出比較客觀的判斷，就需要評估各要素之間結合的緊密度。

二、各要素之間結合的緊密度

筆者曾提出過“技術特徵團”的概念【1】，用於分析各技術特徵之間結合緊密度的問題。具體而言，所屬技術領域的技術人員根據本申請的記載，如果判定某個技術特徵必須結合其他技術特徵才能共同作用，那麼這些技術特徵的組合就應當作為一個“技術特徵團”考慮，否則可以作為相對獨立的技術特徵分別考慮。

此概念也同樣適用“組成要素”之間結合緊密度的分析。如果權利要求方案中的多個組成要素客觀上只能以“要素團”的形式協同作用，那就應當以單篇對比文件舉證，而不能採用多篇證據組合。如果多個要素的作用相對獨立，那麼可用多篇對比文件分別舉證。

以大家熟知的剪刀為例，它具有左刃和右刃兩個要素，且只有通過兩爿刀刃的協同作用才能進行剪切，因此這兩個要素具有不可拆分的關聯性，共同構成了一個“要素團”。對於該“要素團”，只能舉證同時具備左刃和右刃的產品的單篇文獻作為對比文件。若採用分別公開單邊開刃的切刀的兩篇對比文件來組合否定剪刀的方案，則屬於“事後諸葛亮”，因為在這兩篇對比文件中均不存在最基本的剪切作用。

而對於帶有刀刃和刀鞘的水果刀，雖然刀刃和刀鞘同樣是高度匹配，但“刀刃”的切割作用不需要依賴“刀鞘”，“刀鞘”的保護作用也不需要藉助於“刀刃”。這兩個要素之間不存在不可拆分的關聯，即不構成“要素團”，因此可以採用不同的對比文件分別舉證。

再看上述實際案例。對於雙側料槽這一要素，説明書中聲稱可以實現將飲水和飼料分開供給的效果。説明書中給出的具體解決方式是使料斗內一側的擋板關閉出料口，然後在關閉側的槽體內注入飲水。而在權利要求中的相關特徵僅出現在前序部分：位於下料桶兩側的槽本體。並未限定它和擋板的配合方式。

雖然按照説明書的解釋，雙側食槽需要和料斗內的擋板配合使用才能實現水和飼料的分裝。但從實際的可行性來説，只要設立了兩條彼此相對隔離的食槽，就可以從不同的方向分別加裝水和飼料，實現分離。因此雙側食槽並不必須通過與擋板配合使用才能實現所述功能。

從另一角度來看，擋板的作用主要是調節料斗內飼料的出料量，也並非只與雙側食槽配合使用，作用相對獨立。因此雙側食槽和擋板之間不存在緊密關聯，不構成“要素團”，可以分別舉證。

針對雙側食槽，檢索得到如下對比文件（以下簡稱D4）：一種防拱料供給豬槽（CN203872771U）

主要結構附圖：

相關特徵為：在供料通道5的兩側分別設置供食槽3。

因此該對比文件D4可與上述D3結合評價本發明。一通採用這組證據結合否定權利要求1的創造性後，本案主撤。

三、小結

當前智能語義檢索的實際效果還遠未達到真正人工智能的程度，其原因既有算法設計本身的缺陷，亦有處理對象的複雜性。

就算法設計本身而言，首先，根據檢索結果推斷，目前的智能語義檢索主要根據對比文件與本申請之間選定要素的重合度，來評估兩者整體的相似度。雖然目前智能檢索系統對於要素的提煉能力和表達的擴展能力都相對較強；但以點代面地判斷方案之間的整體相似度仍會導致誤判。其原因在於，權利要求作為一個整體，要素與非要素之間還存在特定的關聯。若只關注要素的相似度，而不再結合相關非要素做整體匹配度的識別調整，那麼就會出現本文案例中對D1和D2相似度的誤判情形。這兩篇對比文件所公開的“擋板”要素本身就與本申請的擋板存在許多細節差異，在與出料口和食槽等非要素的匹配方面，差異就被進一步放大。這導致從最終的直觀認知上説，極少會有人認為它們與本發明的相似度可以高達99%或94%，甚至能否破壞本發明的創造性都存在疑問，因此本案的實際審查中並未採用D1或D2作為對比文件。

其次，智能語義檢索只能評估單篇文獻的相似度，而不評估多篇文獻組合後的相似度。這種檢索結果只適用於評價新穎性或區別皆為公知的創造性。而對於需要組合證據評價創造性的案例，無法自動提供充分的證據。本文列舉的實例亦是如此，採用兩篇證據的組合可以否定權利要求1的創造性，得到了申請人的默認。而其中最接近現有技術D3在patentics中判定的相似度僅有74%，D4的相似度為78%，按相似度排序均在前500名之外，基本等同於沒有命中。因此，現有智能檢索系統需要改進的重點是：根據各要素之間的結合緊密度的判斷，對要素進一步做聚合或孤立，進而對是否可以組合舉證做出有效判斷；若可以組合舉證，則給出證據的具體組合方式，並對各組合方式的整體相關度做出有效判斷。

就處理對象的複雜性而言，實際發明方案的設計和撰寫有着各種難以預料的不規範或者例外，導致創造性的實際判斷存在很多的不確定性。就本文所舉的實例而言，它的方案本身雖然毫不費解，也沒有什麼發明高度，但是在聲稱所要解決的技術問題、撰寫的權利要求方案，和聲稱所能實現的有益效果方面，三者之間多有出入。導致對於把握主旨、提煉要素產生較大的困擾。更確切地説難的不是找到相關的對比文件，而是不易確定要舉證到何種程度才算合格。由於實際操作的不確定性，使得專利檢索並不像下圍棋那樣，能完全客觀地通過公開特徵數量的多寡來判定結果；也難以通過大數據、自學習來使AI有效決策，仍然需要行業專家主觀判斷的介入。也正因如此，才會使得對於同樣的事實和證據，秉持同一套判斷規則的實審部門、複審部門及各級法院，可能會判定出截然不同的結果，來回搖擺。而且在美日歐等國家地區，亦是如此。

相較於算法設計的缺陷，處理對象的複雜性是人工智能在專利檢索領域更難逾越的鴻溝，但這又何嘗不是人不可替代的價值所在呢？

注：

【1】參見杜衡等：《技術特徵團和外延比較法——對修改超範圍的判斷方法小議》，載《專利法研究》2009年