續談增強與處罰 - HAPET好寵

續談增強(Reinforcement)與處罰(Punishment)

續談增強(Reinforcement)與處罰(Punishment)

上一篇淺談訓練(Training)、增強(Reinforcement)與處罰(Punishment) 各位拔麻消化的如何?希望大家對這個主題已有了初步的了解
今天,我們要再深入一點談談 增強 處罰
首先,跟大家複習一下上一篇提到的概念,
何為增強(Reinforcement)以及處罰(Punishment)
增強“為使一項行為在未來發生的頻率增加。
處罰“則相反,為讓此行為在未來發生的頻率減少(註:這裡談及到的處罰定義不侷限在打罵這類行為。)
其中再分為正增強負增強正處罰負處罰
正(Positive)意義在於提供,負(Negative)的意義在於移除
正增強物(Positive Reinforcer)是喜愛的事物,負增強物(Negative Reinforcer)是厭惡的事物。
正增強:行為發生後,提供喜愛的事物(正增強物),使被訓練者增加行為頻率。
ex.零食、撫摸、讚美(語調一定要高)
負增強:行為發生後,移除厭惡的事物(負增強物),使被訓練者增加行為頻率。
ex.狗狗散步看到別的狗,因害怕而吠叫,如果狗狗乖乖做到不吠叫,就立刻帶狗狗離開,使狗狗在未來增加不吠叫的頻率。
正處罰:行為發生後,提供厭惡的事物(負增強物),使被訓練者減少行為頻率。
ex.責罵、打屁股、發出巨響、關籠限制其自由等
負處罰:行為發生後,移除喜愛的事物(正增強物),使被訓練者減少行為頻率。
ex.把喜歡的玩具沒收、對狗狗冷淡(讓狗狗暫時失去主人的關注)
接下來就要請大家想想為什麼我們會希望避免處罰並且極力推薦增強呢?
“處罰”在人類世界中已存在上千年。古今中外的歷史記載著大大小小的事例;可想見,人類實在很熱衷處罰,才會研究出各式各樣的酷刑手段(不論是歐洲中世紀的吊刑、刺刑或是中國古代的五馬分屍、腰斬、凌遲…越說越恐怖…)。但處罰真的能有效嚇阻行為的發生嗎?如果可以,又為什麼還是有這麼多的犯罪行為存在於我們的社會中?也許人類可以利用言語溝通來傳遞處罰的用意可以用言語威脅來達到某些目的,但終究我們還是不能避免大多數人的僥倖心態。”周圍沒人時就偷闖紅燈吧!”“酒駕只要沒被抓到就沒關係啦!”;而”怎麼打都打不怕”這句話大家應該從小聽到大吧?!

這些行為模式解釋了為何處罰的效用如此之差?因為沒有立即性的處罰以及犯錯人所存在的僥倖心態(反被增強了該行為)¹
而且,很多時候施行處罰的深層意義其實夾附著處罰者的報復及控制心理因素,所以有些處罰不是點到為止而是一再的加害於犯錯人身上,造成犯錯人身心靈的陰影。事例不勝枚舉,但事實證明犯錯者最終仍因為(沒有立即性的處罰以及犯錯者存在的僥倖心態)上述因素,一來無法真正改善問題,更不用說當處罰過當時所導致被處罰者的生理或心理傷害²

續談增強(Reinforcement)與處罰(Punishment)-HAPET好寵
動物因無法言語溝通反而觀察得更加細微。他們可以輕易將“你在=才會有處罰”做連結,再延伸成,“你=處罰。很多人都有經驗:一回到家,發現寵物把家裡搞得像戰場一樣亂七八糟,正要轉頭找他時,寵物早已擺出一副知錯、害怕、愧疚的樣子;但是,他們到底是知道自己破壞家裡是錯的?還是一看到你,就覺得自己要被打或被罵了呢?

這時候“增強”就扮演一個很重要的角色了!如果你找到被訓練者內心真正想要的增強物 (不是訓練者自認為的獎勵,但其實被訓練者沒那麼渴望的事物),經訓練受過幾次增強後的被訓練者將會開始期待下次的增強,自然而然,達到訓練者期望中指令的機率就會提高,同時被訓練者更會想要表現自己,以得到心中所期待的增強物。也許你會懷疑是否因為我們在時才有增強物的存在,當我們不在時,被訓練者可能因為得不到增強物就不會做到我們所期望的指令。別擔心,變化性增強這時就能派上用場囉!試試看在某次被訓練者達成指令時不給予任何獎勵,這時候預期如平常一樣達成目標時都會得到獎賞的被訓練者會如何呢?被訓練者也許會困惑也可能會生氣,但由於被訓練者的行為模式已養成習慣被增強,當第二次得到指令時,牠還是會再一次努力並期待這次你會看到表現並且賜與獎賞。當這次做對時,請務必給予獎賞,且這次獎賞應為平常等級的兩倍甚至三倍。日後,被訓練者將自我學習培養耐心並且說服自己要更加努力。大家可以理解了嗎?所謂變化性增強,換言之就是不固定模式及次數給予獎勵,例如可變化成做對一次、三次、二次、四次才有一次獎賞(而獎賞會隨著等待次數成正比提升),這是為了避免被訓練者對期待獎賞這件事產生鈍化,當然獎勵內容也要變化以避免被訓練者直接連結做對某件事就只會得到某種獎賞,會造成被訓練者對獎勵的反應鈍化。
舉例來說狗狗學會一項指令前是每次指令都給予獎勵,等到指令給予時能達成的成熟度接近百分百時開始作變化性增強,你就可以把獎勵收起,而不是像賄絡一樣每次都有獎勵牠才接受指令。
再來介紹「忽略行為」。
忽略行為當某一行為不再備受關注且不會有好處時,此行為將會慢慢削弱淡化。
以人來說,當今天一個人類小團體中有一個非常愛道人長短、說是非的角色存在,但是其他人都不熱衷這樣的行為,最終八卦站長在沒有聽眾的狀況下也只能宣布下台。
以狗來說,當我們外出回家時,發現本來一直都會乖乖在尿片上廁所的狗狗,突然便便皆不受控制的到處撒野,我們要做的就只是忽視它、清潔它 ; 之後若再次發生,便重複忽視它、清潔它;直至狗狗不再以此行為作為吸引你注意的籌碼為止

續談增強(Reinforcement)與處罰(Punishment)-HAPET好寵
被訓練者在達成指令時當下期待的所有事物都能稱作是獎勵品。不一定是點心或食物,也可能是玩具、社交、不被打擾、稱讚、撫摸……等等,取決於被訓練者當下所期待為何。想想看,若今天你在沙漠流浪,渴得要命,但當你完成任務,獎賞卻是一百包乾到不行的洋芋片,請問此時您的心情是?絞盡腦汁來幫你的寶貝想個最棒的獎勵品吧~

透過上述的介紹,我們可以將處罰跟增強綜合討論平時的我們常常都用放大鏡檢視別人的錯誤,並抓緊懲罰的機會,卻忽略對方做對事情後該有的獎勵,把它認為是理所當然
例如人們守規矩不闖紅燈時並不會得到嘉許或獎勵(被忽略),但闖了紅燈卻可以讓自己減少等待的時間(被增強),加上不一定會被警察開單的狀況下(僥倖心態),想當然爾,只要有闖紅燈但不會被開單的機會,人們違規的機率能不高嗎?現在,讓我們試著完全相反過來,偶爾變化性鼓勵不闖紅燈這件事,而獎勵品是對方所期待且優於闖紅燈所爭取到的時間時,我們亦可預料到闖紅燈的機率將會越來越低
再例如狗狗已百分百學會在定點大小便,我們也不能因此永遠都不給予獎勵,應該要偶爾再好好讚美牠一番,並且在狗狗不小心在不應該大小便的地方上了廁所時忽略此行為,再大大鼓勵下次牠成功的時候,牠也才知道怎樣才是對的,並能讓失誤率再次減低。
請試著從最微小的地方著手,那怕只有一點點的進步或值得嘉獎的地方都應該給予鼓勵,也讓寵物有信心且知道進步是開心的!
現代訓練已朝向正增強訓練為目標而不再維持傳統馬戲團的強壓訓練;關於動物福利提升與照顧這個議題更是我們身為人類應該想辦法改善及努力的,這也是我們可以看到海豚、海獅這些不可能被打罵訓練的動物能依照訓練師的指令做表演,甚至可以看到連雞、老鼠³都能做出我們過去想像不到的事情透過正增強的觀念可以使訓練者與被訓練者之間的合作更愉快
現今坊間還是有很多老式觀念的訓練方式,如打罵、強壓、飢餓;但若您能更加為這些動物們設身處地著想,並且願意嘗試正增強的訓練方式,我想你會得到比牠們更多!
期待你也能跟我們一樣正向思考,將會讓你發現這世界不同的一面!
註:
1.法務部指出,2007年底至2012年底,共有65,886人受惠減刑出獄,再犯人數29,732人,再犯率45.1%。
2.心理傷害最嚴重莫過於崩潰且關閉學習思想甚至放棄自我的習得無助(Learned Helplessness)。
3.下方影片來源為YOUTUBE:


↑訓練雞

↑訓練老鼠 (背景的喀喀聲來源為「響片」,是一種正增強連結工具(Bridge),將會在之後的文章做更詳細介紹。)
推薦書目:枕邊的馴獸師、鯨魚哲學、鯨魚教養法、你好棒!鯨魚訓練師告訴你讚美的力量(以下書目圖片及連結來自於金石堂與博客來網路書店)

枕邊的馴獸師
枕邊的馴獸師
鯨魚哲學
鯨魚哲學
鯨魚教養法
鯨魚教養法
你好棒!鯨魚訓練師告訴你讚美的力量
你好棒!鯨魚訓練師告訴你讚美的力量