足球數據 | 被對手進球後的十分鍾內最有可能扳回比分
◆ ◆ ◆
有人說,當一支足球隊剛進球了以後,他們會突然變得比之前更容易被對方進球,這種說法是可靠的嗎?
上周,我們就進球是不是更傾向於成對出現進行了研究,具體做法是比較在前一個進球之後10分鍾以內的進球數量與同一個聯賽所有比賽中的相同10分鍾時段的進球數量。
我們還將每支隊伍的實力差別,和主客場因素考慮了進來,以站在脫離特定球隊的基礎上更精確地計算進球數的期望值。此項研究將會提出這樣一種可能性,如果先回答一個問題:進球方或失球方是否會更容易被對方進球,我們就可以據此預測出某些場次的比賽更可能出現更多的進球數。
我們的數據中有三個主要的因子是可用於預測一支足球隊在一場特定的比賽中的進球數的:
-
主場比賽還是客場比賽;
-
這支球隊的平均進球數;
-
對手的平均失球數。
我們通過觀察一個聯賽所有場次的比賽來收集上述三個因子的數據。為了量化主客場優勢,我們通過計算主場/客場球隊平均每場球的進球數占整個賽季中所有球隊在所有比賽中的平均進球數的比例,量化了一個主場/客場實力因子。
例如,在2015-2016賽季的英超聯賽中,這些因子是:
類似地,我們通過觀察球隊進球/失球數占整個聯賽的平均值的比例來計算一支球隊的進攻實力因子和防禦實力因子。例如, 曼城俱樂部在2015-2016賽季的因子是:
最後,因為球隊們不是自己跟自己比賽的,數學模型要求我們對這些因子的值做一些微調以避免對進球數目的一致估計過高。解決方法是對預測的進球數除以一個校正因子,這個因子是為每一個所考察的聯賽單獨計算的,處在1.002到1.004之間。
通過對進球數的分布和三個主要因子的獨立性做一些常規的假設,我們能用下麵的這個公式來計算主場球隊在給定的5分鍾時間內進球數的期望值。
類似地,我們把主場實力因子換成客場實力因子就可以計算出客場球隊的進球數期望值。
接下來,我們可以通過對圖表中的所有進球數取平均,來繪製一些類似的表格,但是這次是在考量了球隊實力的基礎上:
圖表1:歐洲各大聯賽2015-2016賽季進球後10分鍾內再次進球數的真實值與期望值的對比,考慮了主場與客場實力差異
然而,一旦我們把比賽球隊的實力考慮進來,進球後5-10分鍾區間內的再次進球數隻增加了5%,所以僅僅基於這張圖表,我們在提出“進球數的增加與第一個進球直接相關”這一論斷的時候需要更慎重。
然而,如果把上圖拆分為剛剛進球的球隊和剛剛失球的球隊,我們將會得到一些更有趣的結論。 圖表2:歐洲各大聯賽2015-2016賽季進球後10分鍾內再次進球數的真實值與期望值的對比,考慮了主場與客場實力差異,並且根據進球球隊和失球球隊進行了拆分
這些表格說明,盡管雙方球隊在發生進球後的5分鍾內都比較難再次進球,但是在這之後的5分鍾內,失球球隊進球的可能性有了相對提升,進球球隊則沒有。下圖通過每一分鍾的記錄可視化了這一事實:
圖表3:歐洲六大聯賽2015-2016賽季發生進球後每一分鍾進球數目期望值和實際值差異百分比,按照進球球隊和失球球隊分組
當然,這一事實並不一定意味著,如果曼城跟桑德蘭比賽並且進球了,桑德蘭現在就比曼城更有可能進下一個球。但是意味著桑德蘭比之前更有可能進球,但曼城不會。
所以,如果球隊管理層警告你說在進球後的10分鍾內一定要讓後防線保持充分的警惕,這個建議可能真的是有用的,因為數據也這樣說。
原文發布時間為:2016-10-12
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號
最後更新:2017-06-02 19:33:38