安全生產科技創新型中小企業
國務院特貼教授級高工郭春平:機器人違章均衡作業狀態分析預測(圖文版)
來源: | 作者:郭春平 | 發布時間: 2019-05-15 | 108 次瀏覽 | 分享到:

摘要:為了分析預測未來智能與人類相當的機器人進行生產作業時會不會違章,以安全監管極其嚴格、用刑法等法律手段“反違章”的煤礦井下生產作業為樣本,應用博弈論研究分析發現:任何煤礦井下的安全員與作業人員都要進行有限博弈,都符合納什均衡存在定理要求的條件,都存在納什均衡,即安全員與作業人員之間存在所謂違章均衡。參考監管博弈理論,推導出違章均衡的數學表達式,該式表明作業人員按照一定概率進行違章作業。應用大數定律分析得出:違章作業事件在足夠長的時間和空間內一定發生,即:不僅遵章作業是作業人員的博弈策略,違章作業也是博弈策略之一。以智能與人類相當的機器人代替安全員或作業人員后,根據“等量代換原理”分析推理可知:違章均衡仍然存在。所以,智能與人類相當的機器人采煤時也必然會違章作業,只有“傻機器人”不會違章。所以,應當在設計機器人的初期,就同步設計機器人抗違章技術結構。社會上絕大部分行業監管嚴格程度遠低于煤礦井下生產作業,違章作業更為方便,違章均衡的存在具有普遍性。

關鍵詞:機器人 違章均衡 納什均衡 智能 違章



山西省辦公廳關于“煤礦井下電氣設備抗違章保護技術及對策”建議的答復

        安全監管極其嚴格、用刑法等法律手段“反違章”的煤礦井下,違章作業已成為“第六大災害”,2016年5月國家安監總局公布:90% 以上的事故由人的不安全行為造成,也就是“違章”作業造成;專家研究指出:95%的事故由違章原因造成;作者研究表明,違章帶電作業造成90~95%的電氣火源(花),引發約43.29~45.7%的瓦斯爆炸。在當前的煤礦安全生產中,預防違章主要方法是進行大規模安全檢查,大打“人海戰”,但違章事故仍時有發生。一些人把預防違章的希望寄托在機器人身上,認為“機器人聽話”,機器人采煤時不會違章作業。本文認為:作業人員采煤時存在違章均衡規律,智能與人相當的機器人采煤時也會出現違章均衡狀態,也必然有違章作業行為發生。

山西省省長樓陽生在山西“兩會”上與山西省政協委員郭春平親切握手

下面先分析井下作業人員存在違章均衡的必然性,然后預測智能與人相當的機器人作業時的工作狀態。具體分析如下:

1.作業人員在煤礦井下作業時存在違章均衡

本文作者曾提出“違章概率不可能等于零”觀點,意思是:任何一個煤礦、在一定時間內(如一個月、一季度、一年或三年等),一定會發生違章;任何一個井下作業人員、在足夠長的時間內(如1年、3年或5年等),至少發生過一次違章作業。任何一個隊阻,在一定時間內,至少有一個人會發生違章。

管理水平高的煤礦與一般煤礦相比,只有違章次數或違章概率大小的差別,沒有不違章的煤礦;安全素質高的井下作業人員與一般作業人員相比,只有違章次數或違章概率大小的差別,沒有不違章的井下作業人員。經多年觀察,“違章不可能等于零”觀點符合實際情況。如上所述“90~95%的事故由違章原因造成”,也說明在實際的安全生產中,違章的存在具有必然性。違章作業存在的必然性已被事實證明。但作者未見到理論上嚴密的證明,理論上能否予以證明?下面用博弈論中著名的納什均衡理論試證明之。

為了便于理解納什均衡理論,可先讀一下兩個著名故事,“囚徒困境”及“警察與小偷”。



囚徒困境:

  說是兩個嫌疑犯作案后被警察抓住,分別關在不同的屋子里接受審訊。警察知道兩人有罪,但缺乏足夠的證據。警察告訴每個人:如果兩人都抵賴,各判刑一年;如果兩人都坦白,各判八年;如果兩人中一個坦白而另一個抵賴,坦白的放出去,抵賴的判十年。

 于是,每個囚徒都面臨兩種選擇:坦白或抵賴。然而,不管同伙選擇什么,每個囚徒的最優選擇是坦白:如果同伙抵賴、自己坦白的話放出去,不坦白的話判一年,坦白比不坦白好;如果同伙坦白、自己坦白的話判八年,不坦白的話判十年,坦白還是比不坦白好。結果,兩個嫌疑犯都選擇坦白,各判刑八年。如果兩人都抵賴,各判一年,顯然這個結果好。但這個條件卻是無法達到的,因為它不能滿足人類的理性要求。
       囚徒困境所反映出的深刻問題是,人類的個人理性有時能導致集體的非理性——聰明的人類會因自己的聰明而作繭自縛。


警察與小偷的故事:

說的是某個小鎮上只有一名警察,他負責整個鎮的治安。現在我們假定,小鎮的一頭有一家酒館,另一頭有一家銀行。再假定該地只有一個小偷。因為分身乏術,警察一次只能在一個地方巡邏;而小偷也只能去一個地方。若警察選擇了小偷偷盜的地方巡邏,就能把小偷抓住;而如果小偷選擇了沒有警察巡邏的地方偷盜,就能夠偷竊成功。假定銀行需要保護的財產價格為2萬元,酒館的財產價格為1萬元。警察怎么巡邏才能使效果最好?

一種最容易被警察采用而且確實也更為常見的做法是,警察對銀行進行巡邏。這樣,警察可以保住2萬元的財產不被偷竊。但是假如小偷去了酒館,偷竊一定成功。這種做法是警察的最好做法嗎?答案是否定的,因為我們完全可以通過博弈論的知識,對這種策略加以改進。

警察的一個最好的策略是,抽簽決定去銀行還是酒館。因為銀行的價值是酒館的兩倍,所以用兩個簽代表,比如抽到1、2號簽去銀行,抽到3號簽去酒館。這樣警察有2/3的機會去銀行進行巡邏,1/3的機會去酒館。

而在這種情況下,小偷的最優策略是:以同樣抽簽的辦法決定去銀行還是去酒館偷盜,與警察不同的是抽到1、2號簽去酒館,抽到3號簽去銀行。這樣小偷有1/3的機會去銀行,2/3的機會去酒館。

 “囚徒困境”中囚徒互相揭發的行為,及“警察與小偷”中的雙方博弈行為,都是納什均衡,都有所謂“自覺遵守性”,這是一種是客觀規律,不以人的意志為轉移。如果參與博弈的各方構成某一個納什均衡,由于納什均衡具有“自覺遵守性”,各方在足夠長的博弈過程中,一定會自覺采用該納什均衡戰略互相博弈。

注意,要求“足夠長”的過程是因為實施完成納什均衡戰略,必須占用一定的時間和空間,其次是很多納什均衡戰略是隨機函數,如“警察與小偷”的納什均衡戰略。隨機函數表現出其隨機規律,也需要“足夠長”的時間和空間。下面將會多次用到“足夠長”這個概念。

所以,只要是納什均衡戰略,那么,無論在理論上,還是在實際的“足夠長的過程中”,就一定是客觀存在的。下面用該邏輯分析研究“違章存在的必然性”。

邏輯是:如果博弈存在納什均衡,那么,該納什均衡戰略必然存在。例:如果囚徒困境中兩個囚徒之間的博弈存在納什均衡,那么,經過足夠長的過程,該納什均衡戰略“互相揭發”就會發生,換句話說,也就是“互相揭發”現象必然存在。按此邏輯分兩步進行如下分析研究。

第一步,分析證明任何一個煤礦的安全員與專業人員之間都存在納什均衡。

分析:任何一個煤礦都是根據其生產條件配備直接生產人員及服務生產的人員(下面統稱:作業人員),并按一定比例配備相應的安全員。從他們在井下一起工作開始,就構成了博弈雙方。安全員的具體工作方法雖然有定期(不定期)檢查、突擊抽查、巡回檢查等多種多樣,但總的看,在足夠長的時間內(如一個月、一季度、一年或三年),安全員博弈戰略只有檢查不檢查(包括不去檢查、未檢查到某地方或某人,或安全員休息不工作)兩種;作業人員對付安全員的辦法,即作業人員博弈戰略,也是兩種:違章與不違章,不違章包括:遵章作業和不工作休息。


安全員和作業人員都是按照勞動定額配置的,人員數量肯定是有限的,絕不會是無限的,并且各煤礦的安全員定額數量都比作業人員定額數量小的多,山西一些煤礦是按照煤礦年生產能力配備的,生產量大的煤礦安全員就多,北京的原煤礦規定一般約為3%左右。

根據博弈論可知,任何煤礦的安全員與作業人員都構成了博弈雙方,并且是參與人數有限及博弈戰略有限的有限博弈。進一步舉例說明如下:

任選一個煤礦進行分析研究,其作業人員與安全員雙方都是有限個人員參加:假如作業人員是x名,安全員就是約kx名左右,k是配備安全員的比例,如北京原煤礦的k=0.03。約kx名安全員與x名作業人員,就展開了博弈。若:x=1000名,安全員就是約1000k名,設k=0.03,安全員就是約30名。1000名作業人員與約30名安全員展開博弈。

其博弈戰略有限:如上所述,各有兩種:違章、不違章和檢查、不檢查。

根據以上分析,列出分析證明步驟如下:

∵任何煤礦的安全員與作業人員都構成了有限博弈。

而,納什均衡存在定理指出:“每一個有限博弈至少存在一個納什均衡(純戰略或混合戰略)。且,據混合戰略定義知,純戰略是混合戰略的特例。

任何煤礦的安全員與作業人員之間至少存在一個納什均衡

∵安全員與作業人員的博弈是“監督博弈”

∴其納什均衡是監督博弈混合戰略納什均衡
即:監督博弈納什均衡是:


a是作業人員應為煤礦作的貢獻,貢獻值=作業人員創造的總價值(元)-作業人員的實際總收入(元)。為了計算方便,也可用下式代替:

該礦作業人員實際工作時間(小時)*工資(元)/小時*煤礦平均利潤率;

C是檢查成本,為了計算方便,可按該礦每月安全員工資計算;

F是違章成本,可按該礦月罰款數量計算。

當然,也可以根據實際情況,用其他數據計算。

監督博弈納什均衡表示:在足夠長的時間內(如1年或3年等),安全員以 a/(a+F)的概率檢查,作業人員以C/(a+F)的概率選擇違章。或者說:任一煤礦井下都有許多作業人員,其中有C/(a+F)比例的工作人員選擇違章,(1-C/(a+F))比例的工作人員選擇不違章。安全員與作業人員“自覺遵守”,動態中穩定運行。為進行違 章行為深入研究,把該納什均衡稱作“違章均衡”


郭春平(左一)在北京大學國家發展研究院畢業典禮大會上獲高級管理人員工商管理碩士(EMBA)學位

      第二步,用概率理論分析證明違章事件在足夠長的時間和空間內一定發生。

據以上分析可知:違章事件γ發生的概率是:




發生違章的可能性;對任何一個井下作業人員(如電工),在足夠長的時間內,如200天,實際發生違章的天數在200*C/(a+F)左右;對足夠多的井下作業人員(如100個電工),在足夠長的時間內,如一年內,實際違章電工人數在100*C/(a+F)左右波動。

根據大數定律,參照以上分析證明方法,可以證明所有混合戰略納什均衡都具有“自覺遵守性”。

“混合戰略的納什均衡戰略自覺遵守性”的數學分析證明:

根據概率論與數理統計理論可知,所有混合戰略的納什均衡戰略都是隨機變量。如:納什均衡戰略警察按一定概率抓小偷,就是一個隨機變量,而警察在具體的某時某地抓小偷是一個具體的事件。根據以上“大數定律”可知,在足夠長的時間內,或足夠大的空間內,混合戰略的納什均衡戰略表現為具體的事件,一定會發生,其發生頻率收斂于該納什均衡戰略的概率。也就是自覺遵守納什均衡戰略進行博弈。

因為,任何納什均衡都有自覺遵守性,違章盡管對安全十分有害,但它與監管構成了“壞的納什均衡” ,即:違章均衡,所以,作業人員就會“自覺”地違章。

2.與人的智能相當的機器人作業時也會出現違章均衡狀態


當前,機器人智能離人類還有很大差距,尤其是創造性思維,機器人基本沒有。但是,隨著科技發展,總可以進行如下假設:

機器人的智能與人類的智能相當,為了分析研究方便,上述煤礦的其它條件不變,而把博弈的一方:“作業人員”用“與人的智能相當的機器人JZ”代換,即:

作業人員=JZ

根據數學中的“等量代換”理論,即:


其中:f是合式公式廣義的等量代換,舉例來說就是:“如果李四是張三的同義詞,張三是人,那么李四也是人” 。

推理:如果用JZ等量代換作業人員后,因為作業人員要同安全員博弈,并存在納什均衡,所以,JZ也要用“違章、不違章戰略”同安全員進行博弈,并也存在納什均衡,即存在違章均衡。在足夠長的時間和空間內,JZ違章事件也一定會發生。

如果把博弈的另一方“安全員”用“與人的智能相當的機器人JA”代換,即:

安全員= JA

同理可證:JZ也要用“違章、不違章戰略”同JA進行博弈,并也存在違章均衡。在足夠長的時間和空間內,JZ違章事件也一定會發生。

因此,可得出:JZ和JA,與作業人員和安全員一樣,也要博弈,也存在違章均衡,上述分析證明得出的結論都可適用在機器人上。


郭春平在北大學習期間與北大教授林毅夫合影

結論:

(1)違章均衡是納什均衡的一種特例,在足夠長的時間內安全員以某一概率檢查,作業人員以另一概率選擇違章。或者說:任一煤礦井下都有許多作業人員,其中有某一比例的工作人員選擇違章,有另一比例的工作人員選擇不違章。雙方構成違章均衡,保持動態平衡。

(2)智能與人類相當的“機器人”作業時的也存在違章均衡,不論是那一個智能與人類相當的“機器人”,在煤礦井下或其它有利于違章的環境都會違章作業,只有違章概率大小的差別,而不可能不違章作業。只有“傻機器人”才不會違章作業。有軟件就有殺毒軟件,有發動機就有制動系統,有“機器人”,也必須有制約“機器人”的環節。在開發“機器人”初期,就應考慮機器人違章(或誤操作)問題,同時考慮“抗違章”問題,同步開發可實現“抗違章”功能的人工智能環節,開發“抗違章機器人”,使“機器人”“想違章(或誤操作)干不成,即使違章(或誤操作)也造不成事故”。即使是“傻機器人”,也須注意預控“傻人辦傻事”,即預控誤操作。

(3)社會上絕大部分行業的監管嚴格程度遠低于煤礦井下生產作業,這些行業的作業人員,主觀認為通過違章作業可獲得比煤礦井下更大的預期違章受益,所以,一定要與該行業的安全員進行更激烈的有限博弈。根據納什均衡存在定理推理,絕大部分行業一定普遍存在違章均衡。智能與人類相當的機器人在這些行業作業時,違章作業也將普遍存在。

郭春平簡介:

郭春平,國務院特殊津貼專家,北大EMBA,教授級高工,全國工商聯執委,山西省政協委員,中國發明協會會員,發明了“開蓋傳感器”、“防治帶電作業及瓦斯爆炸的抗違章系統”等40余項專利技術產品,入選“山西省新興產業領軍人物”,獲“山西省中國特色社會主義建設者”稱號。
手機:13513549806  郵箱:[email protected]


智能抗違章保護技術系統圖



白蛇传电子 合须弥啥最赚钱 工笔画怎么赚钱 学校内开商店赚钱吗 如何在未来智能科技产业赚钱 手机上开什么店赚钱 梦幻收0级胚子赚钱 中学生在微信怎样赚钱 地下城赚钱思路 小菜场卖水果赚钱吗 拾味爸爸靠什么赚钱 恐霸差事哪个赚钱 猫主题的餐厅不赚钱吗 激光刻字机赚钱 百度上传文档财富值赚钱吗 网上项目赚钱是真的吗 手机直播怎样刷屏赚钱