閱讀224 返回首頁    go 王者榮耀


演講實錄丨陳天 基於表現性評價的綜合問題解決能力評估


基於表現性評價的綜合問題解決能力評估

陳   天

北京師範大學未來教育高精尖中心學習科學實驗室副主任


陳天:我首先介紹一下這個項目的一些相關的一些背景。這個項目其實是起源於北京市教委的需求也就是他的一個教育為,i轎與改革的一個需求,那麼未來教育改革的一個重要的一個目標?它其實是為了它的一個評價方式的一個轉變它是更加重視這個學生的一些核心素養,重視學生發現解決問題的這樣的一個能力。也就是我們傳統的這種考試,可能是基於單一一個學科,語文,數學生物,這樣一個單一學科的一個標準化的,這樣的一種考試,而未來我們可能會更加重視這個,學生的這種綜合的,這種知識的這樣的一種應用,我們在碰到問題的時候,我們去解決這個問題的時候,麵對的不一定是一個單一的學科,可能是各種學科的一個綜合運用,那所以我們在評價學生的時候,在未來評價學生的時候,也許會從這個單一學科的這種評價轉變到這種綜合的,這種問題的這種解決能力的這樣的一個評價。所以我們作為一個研究機構我們在這方麵做了一些預言就是一些前瞻性的這樣的一些研究。這是這個項目的一個背景。

那麼關於表現性評價表現評價,表現性它的定義是通過觀察學生實際任務就是在做實際任務,這樣的一個表現,來評價學生的這樣的一個發展和評價學生的這樣的一個成就,那表現型評價和傳統的這樣的一個評價,它的好處就是說,第一個他就是更加有助於學生能夠明確他自己的一個學習目標,因為它是針對具體的事情。那麼我們學習的理論有時候很抽象,學習了一個抽像的數學理論,可能學生不知道為什麼要學。那通過您的表現評價他學生可以很明白我為什麼要學這個東西?那麼可以評價學生動手的操作的做的這樣的一個能力,可以讓學生重視這個知識的這種整合和綜合的這樣一個運用。


表現評價同時很關注,除了評價結果有很關注這個學生在完成任務當中它的一個過程,他的態度,和它的協同合作,和他的溝通,這樣的一些非知識性的因素,也是我們表現性評價非常關注的一個問題,同時可以激發學生的這樣的一個興趣。厄那麼當然表現評價目前的表現評價也存在一些問題,比方說表現評價需要水平很高的教師,能夠實時的觀測學生的在這個做實驗過程當中一些表現。所以一個是老師對老師的水平要求比較高,另外一個也在客觀性上,因為不同老師對同一撥學生做評價,或者說同一個老師對不同的學生的評價,那實際上很多時候是在給一些主觀性的這樣的一個評價,所以在客觀性上存在的一些問題。另外就是因為表現型評價他的一個很重要的要求就是他有一定的這種持續性因為單一一次的評並不能說明你的這種,比方說你的態度或者你的一些東西。但是一個持續性的評價才能夠比較說明問題,但是可持續性是表現性評價一個很重要的一個缺失。因為我,在目前的這種條件下不可能持續性的去觀測學生的這樣的一些表現的能力。所以這是我們表現成了目前表現比較碰到的一些問題。那我們嚐試利用計算機來去解決表現性評價的這樣的一些問題。那這個係統,其實是餘教授講到的智慧學辦的它的一個組成部分,那智慧學辦係統每年北京市,未來北京市所有的中小學生都會利用這個智慧學辦係統來做一些這種測評。那麼我們這個係統是在這會舉辦終端的一個環節,那主要是評測學生在高階認知水平,問題解決能力,創新遷移能力,科學素養這方麵的一些能力。並且能夠給學生提供這樣的一個能力的評估報告,和它的這樣的一個能力提升的一個建議。


那我大致介紹一下我們的測試的一個思路,那就是說我們首先我們會提供具體的一些任務或者是一些問題。那這些問題或者任務它的特點?就是第一個它是比較真實的就是學生可以理解的真實是為了學生可以理解。另外一個就是它的解題策略是開放的它不一定是一個,答案也不一定是一條解決的路徑。它有多種的解決路徑,有多種的問題的辨識,所謂的辨識就是說我們學生的角色問題溝通可能我們可能給他一個一開始給他一個中等難度的問題,如果說它達到不是特別好的話,我們可能會降低這的一些難度,可能會多種這樣的一些問題辨識,提供這個它是一個開放式的問題,所以我們會提供這個這學生解決問題他所需要的一些資料和一些工具。它在我們的這個係統當中來進行這種解題。這裏舉了一個例子,比方說我們這是一個具體的任務就是讓學生去模擬一個血液檢測中心的一個檢測員。那麼常規任務就是去檢測各種各樣的這種血型。通過這個,他通過我們的提供的這個工具然後,去觀測這個血清,觀測這個病人的血型來給病人來做這種驗血,和輸血的這樣的一個操作。


但是我們有時候會把這個問題會加大一些難度如果第一個問題它完成的還不錯的話,那麼我們可能會加大一些難度。那有時候血型不足的情況怎麼辦就是說他比方說它是一個a型血,那麼我們血庫中a型血的血,實行不足,那有哪些東西是可以替代的?如果再大一點難度,假設我們要為動物檢測血型我們知道人的血型是4種基本類型,那動物的人有多少種?可能是一個更加具有對學生來說更加具有挑戰性的任務。那麼它需要更加的去理解。去能夠綜合的運用我們當時是怎麼發現人的血型的這樣的一個背景。如果更具挑戰性的任務,那麼比方說?就是說我們血是很寶貴的,我每次做實驗的時候不可能拿真的人血做實驗。那我們有沒有在你理解了這個血型和血清的基本變化以後那裏能不能夠?去用化學藥品去替代這個學習來,去做實驗。比方說什麼樣的化學藥品能夠去替代i型血,什麼樣的化學藥品是b型血o型血,血清,用什麼樣的化學藥品去替代,能夠去模擬出來這種血型檢測的這樣的一個實驗?這是一個具體的一個任務。


然後在做這個任務的過程當中我們因為學生他在血型的檢測的時候,他隻是生物當中的一小章,所以我們給它補充了很多相關的一些資料。在這些所有的這些資料當中有些資料是關鍵性的資料,也就是說對這個解決問題是有幫助的。但是有些資料其實是幹擾性的資料。那其實我們在這個他在做任務的過程當中,計算機會自動的去跟蹤他在,在解決問題當中它所用到的一些資料,比方說它在解決這個問題當中,它用多長時間去看到了關鍵性的資料,它有多大的比例,實際上是去搜索到了一些幹擾性的資料。然後我們同時為會為他提供這樣的實驗的一個環境。就是比方說我們剛才說到的用化學藥品去檢車檢測血型去模擬血型的檢測的這個時候,他可能需要用到很多化學藥品,那麼提供這樣實驗的一些環境,看他能不能夠去很好地自主地去設計這樣的一個實驗?然後從實驗當中去總結一些規律。然後我們也會為他提供一些相關的一些幫助相關的一些幫助。同時為他提供一些相關的一些工具,比如計算器這樣的一些工具。


那這個是具體的就是也是的,一個見麵了在所有的這個,操作當中我們都為它提供這個類似於油漆這樣的一個操作界麵,然後我們會為他提供相關的資料圖書館我們會為他提供試驗的一個環境,我們會給他提供完成這個任務所需要的一些幫助,同時我們在觀察他的每一次點擊每個動作。我們去分析他到底是怎麼樣去完成這個問題的這個過程當中他是怎麼去完成的?所以整個評測方法它是一個結果評價和過程性評價相結合的這樣的一個方法,就是說,當然我們很關注它是不是能夠成功的去完成一些任務。另外我們也會去觀察他完成任務這個任務當中的一些,一些過程。比如說我們要去評測他的這個知識牽移能力的時候,我們可以去設計幾個比較類似的任務,然後去觀測它,再完成下一個任務的時候時間會不會更短?他的解決的方式會不會形成了一個穩定的解決模式?我們甚至可能不會去單獨再去看某一個問題的這樣的一個他的一個操作過程。最後我們會得到一些測試的結論比方說我們可以去分析到它去解題的這樣的一個路徑,解題的路徑是什麼?大部分學生解題路徑是什麼?它的解題的路徑是什麼?然後他使用了哪些策略它策略的有效性如何?以及最後能夠,在完成了很多這樣的這種任務,以後我們會給他提供這樣的一個相關的一個評測的一個報告。


那下麵我可以大致的介紹一下我們的一個思路,就是我們的這個能力的模型對學生能力模型的這樣的一個定義。當然我們也參考了很多國內外的一些專家的一些學術的一些成果,包括披薩對這個問題解決能力的一個定義然後我們認為一個學生在一個學生,他有一些內在的素質和一些外顯的能力,內在素質包括他的知識,他的技能,他的思維方式和他的態度,這個是他內在的一些東西,他學到的一些東西。但是它能不能夠在具體的情景當中綜合運用出來這個是他的能力的一個展現,也就是說能力實際上是在具體問題當中展現出來的,這樣的一種能力,在具體問題解決問題的過程當中,它展現出來的是問題,理解能力策略形成能力,執行操作能力,總結反思能力,這樣的一個具體這樣的一些具體的一些能力。那對每一種能力我們也做了進一步的這樣的一個細化,進一步的細化,比方說知識,我們利用了這種3層三模型來對它進行一個評測,然後具體的一些技能我們也把它做了一些中小學生的一些所需要的技能。我們也把它做了一些分類,包括它的這種思維的這樣的一個分類,然後包括他態度就完成任務過程當中他的態度的這樣的一個分類,以及我們怎麼樣去做一些評測厄包括問題理解能力,策略性能力,執行操作那種能力這些能力我們也做了一些這種內核評測方式的一些設定。


那麼在做這個係統的時候我們大概是設定了這樣的一個,係統的一個框架首先我們有一套出題係統,我們希望這個題目的來源不是我們自己,而是更多的這樣的一個學科的老師,然後,通過這種出題係統能夠出來這樣類似於遊戲的這樣的一個學生感興趣的這樣的一個能力評測的一個係統,然後在這個做能力評測的同時我們會實時的通過open ios這個,這種方式通過這種方式同實時的能夠采集到他的這個行為,然後對這種行為進行聚類,進行這種意義的解釋。然後同時能夠對它的完成遊戲的這個過程當中的進程做一定的這種控製和調試。最後能夠給學生給學生給這個老師,甚至給更大範圍內的教育管理機構學校,來提供這樣的一個評測報告,這是一個核心的一個框架。


然後這個是我們具體的開發出來的平台的展示了在這個平台當中,我們會為學生提供各種各樣的這樣的一個任務的一個結合,然後學生不同年級,然後不同背景的學生可以在這個當中選擇他合適的任務去完成。對學生來說,她看到的就是任務,他看到的是道具,他看到的是資料,完成任務所需要的資料,他看到的是他的,可視化的這樣的一個成就。


那我們在設計問題的時候其實有一些基本原則,比如說第一個就是要運含一些知識,但是這個知識是符合這個中小學生的這個課標的因為符合課程標,比較有利於這個老師。采用能夠在日常過程當中做一些采用,另外一個就是具有真實有意義的這種問題情境能夠讓學生沉浸下來然後問題的其實是落腳在這個具體的任務解決上,我們在設計任務的時候絕對不會去設那種很理論,得很知識性的這樣的一些題目。都是一些具體的這樣的一些任務的題目,同時的設定多種解題路徑多種難度的層次,然後這種讓學生產生在這個上麵產生行為能夠分析這種學生的行為的特征。然後我們還設計了很多的問題,比方說我們會設計一些熱點問題,比方說像轉基因的問題,像疫 苗問題,酸雨的問題,地震的問題園林景觀設計的問題,甚至我們文科也可以設計任務。比方說讓學生去,評價這個詩詞對聯,比方說我們還可以采用很多從這個現實生活中來源得很多,這種熱點問題也可以讓學生進行分析。比方說像這個圖片上顯示的這個鬼壓身的問題是不是真實的或者說怎麼情況下會內在的一些心理的一些反應?做夢是怎麼回事?然後包括我們看到了新聞上的一個紀錄片,我們可以播放給學生。比方說一個,撞車一個事故的產生,然後通過新聞的這個,通過這個片子,讓學生自動的去讓學生去計算當時的一個車速因為當時沒有這個新這個測速記錄表,那麼通過這個錄像,讓學生自己去評估這個車速,等等。我們會為學生玩設計很多既有趣又很有挑戰性,又能夠解決這個問題能力的這樣的一些任務。


剛才說到了就是在所有的任務當中,我們提供這種實驗室,提供實驗室的目的其實是為了評價他,第一個它的實驗設計的能力,第二個他的具體的這個實驗儀器的使用的這種能力對結果分析和歸納的這樣的一個能力。我們也為它提供這種網絡的網絡圖書館這個圖書館裏麵有,關鍵性的信息,有非關鍵性的信息,有幹擾信息就可以交互的信息。然後最後是我介紹一下幾個我們需要研究的這樣的一些關鍵的技術。


第一個就是行為采集,就是說我們通過這個引擎通過這個平台,能夠實時地采集學生的每一個動作每一個行為。然後在這個行為的采集的這個基礎之上我們去定義好這個行為的一些有特征,行為的一些特征。然後通過這個機器學習的算法把這些特征進行聚類,建立這個學生這樣的一個傳模然後由老師來去解釋,這樣的學生的一個行為代表的背後的這樣的一個教育意義,然後這個行為形成一個模式庫和建議庫。然後同時可以對,這個評測的進程的進行一個控製包括這個最後評估報告生成這個是我們需要研究關鍵的一些點。然後比方說在行為這個數據采集上,我們有一些基礎的行為的一些采集,然後包括的每一個動作進入、瀏覽、播放、反饋,然後有一些這種行為的一些時常它持續了多長時間,每個動了它持續了多長時間?然後包括一些行為的一些結果它比方說它的操作是正確的是 關鍵的,可以得分的等等這樣行為的一些結果。然後采集我們是通過有個標準跟我們的下一代標的是scpi標準然後我們通過這個標準來采集學生的這樣的一個行為。同時也利用這個標準,我們也可以采集普通的這種平台上的一個學習的一個行為。然後這個標準當中也定義了很多學生的這種標準的這樣的一個,行為庫,當然這些行為是可以還可以繼續擴充的。

陳天:然後我們也會定義行為的一些特征,比方說它的次序的特征先做了什麼後做了什麼?這種特征我們是很關注的然後它的時間的特征,比方說它的整體的用時,然後他在某個環節的用時,他在,就是某個就是某個環節到下一個環節中間的這個間隔時間,然後他的這個用時的各各種環節的用時的比例,然後他的一些交互特征,比方說他使用了那些工具,他做了哪些實驗,然後他參考了哪些資料然後各種資料的這樣的一個時間比例問題完成的這個是否正確?等等,這些都是我們需這樣的一些特征,我們會重點關注的這樣的一些特征。比方說舉個例子。這是另外一個關於露營的這樣的一個任務那在這個任務當中它其實它是作為一個錄音的組織者,他有很多的這樣的一些買票然後包括安排這個,安排這個行程然後包括這個安排帳篷這個事安排帳篷的一個環節,在安排帳篷這個環節當中我們看到了這樣的一個學生看到的這樣的一個見麵,然後一開始會,是提出來一個任務比方說一個安排帳篷的這樣的一個規則是什麼?然後我們會提取比方說學生在一看到任務說明到開始,正是做這個任務它的一個時間,他用了多長時間去看這個說明?然後從開始任務到?第一個動作,這樣的一個時間,因為學生可能分得很多種,碰到這樣的問題,可能很多學生衝動型的學生,他可能上去就開始做了,但是也有學生也有學生,他可能比較理性的學生,他可能會是,觀察一段時間或者說,設計一段時間以後,然後再去做這種推動所以我們會觀察從第一個從開始任務到第一個,解題的這樣的一個,這個市場然後它會有一些相關的一些資料相關的資料和河任務時長。然後在結果這一塊我們會看到這個任務,他很有可能不會一次性的就成功因為這個裏麵會有很多的小陷阱,他不會一次性的會成功。任務重新開始來幾次,然後任務說明看了幾次任務說明看了幾次,其實體現的是它的短期記憶的能力。因為這個任務他有一個規則。怎麼樣安排有個規則他看了幾次?他把人從外麵拖到帳篷裏和從裏拖到帳篷外了。這種動作他做了幾次?任務過程當中,它使用了圖書館沒有?然後他的這個拖動次序其實體現了它的,一個策略形成的能力的這樣的一個特征。


然後我們會對特征進行一個聚類,比方說其實我們也不太。我們也不太知道大部分學生,做第一個動作用了多長時間然後大部分學生要從做幾次,大部分學生的次序是什麼?所以我們會有一個這樣的利用這個機器學習的這種算法來對這個學生來做一個聚類。那這種利用這種算法其實也避免了我們一我們原來傳統上設定,比方說我們設定一個三分鍾或者設定一個5分鍾專家拍腦袋的這種方式,我們利用學生自己的數據,來建立這樣的一個長模。最後對學生的這個數據做專家的這種解釋,然後不同的數據它體現了,體現出來什麼樣的這樣的一個能力,它體現出來比方說,問題表征能力是怎麼樣體現的?然後策略形成能力怎麼樣體現?的各種能力它是怎麼樣體現的?


然後在任務的進行過程當中我們同時可以,就是來自動的來進行進程的這樣的一個控製。比方說當它遇到困難的時候,我們會給他一些提示,什麼時候該給他提示?他做了哪些動作表示它遇到了一些困難,遇到了多大程度的困難?那這些東西我們其實是通過前麵的這種集體學習,能夠對學生的這樣的一個操作有一定的認識以後,然後我們可以給他進行提示。然後可以給它自動的能夠增減難度,然後能夠給他自動的來推薦這樣的一個學習路徑。最後是給他一個評估報告。那這個評估報告是基於自動學習到的數據和我們老師解釋的這樣的一個數據,給它評估報告和給他建議,那麼我們初期會針對門頭溝、通州這樣的一些區域做一些小範圍的事業來,來建立一些這樣的一些,基礎的一些數據,然後完善我們的係統。然後後續我們每年會大概8到10萬名的學生北京市的學生會來,繼續進入到這個係統。然後來建立的更精準的這樣的一個學生數據的這樣的一個廠膜,然後提供,並且未來有可能會提供這種群體的這樣的一個分析報告。好,這是我的介紹謝謝大家。

本文來源於"中國人工智能學會",原文發表時間" 2016-09-29"

最後更新:2017-05-24 17:01:44

  上一篇:go  演講實錄丨王士進 人工智能開啟智慧教育新模式
  下一篇:go  演講實錄丨餘勝泉 大數據時代的教育智能