我看到題主説讀 Eprime 的手冊時遇到了“單詞都認識,但是句子意思不明白?”的問題,恰好 Eprime 的手冊我也讀過,恰好也有過題主這樣的困惑。魏大所説的一詞多義、文化背景、對於 Eprime(心理學實驗呈現實驗材料的一個程序軟件)的手冊來説,其實恰好不存在除了魏大所説的一詞多義、文化背景和語法能力的問題,簡而言之,一本説明書,它其實是希望用最最簡單明白的詞彙和語法講述最最最能讓人容易理解的操作步驟,對於説明書來言,也沒有太多文化背景的問題。它就是需要告訴一個不會用這個軟件的人能學會用這個軟件,不需要有會用軟件的背景。當然需要實驗設計的一些術語知識,比如 block,item 等等。
那麼,如果我們就是的確知道、認識、瞭解所有的單詞,包括它的僻義、它經常配對的鄰居,而語法也掌握,可是我們就是感覺讀不懂這句話,是怎麼回事呢?如果稍微停下來想一想,其實我們在閲讀母語文字的時候,也會有這樣的情況發生。所謂的,看是看了,但是沒進腦子的結果。那如果其實我也非常集中注意力的看了呢?
在閲讀過程中,我們的大腦必須在較短時間內保存、處理加工印入腦海的新信息,並提取已知信息從而和新信息進行比對、匹配,得出對新信息最佳的理解方案。這個過程,是由我們的工作記憶來完成的。而在英語閲讀,也就是第二語言閲讀過程中,除去對句子意義本身的加工處理,我們又多了一層語言方面的加工處理。因此,工作記憶捉襟見肘。
英語閲讀過程中,工作記憶要分配處理三個方面:
單詞意義的提取和加工;
語法的提取和加工;
句子意義、句子信息和已有信息的關係、句子之間邏輯關係的釐清。
第 1 和 2 在母語閲讀加工中所消耗的工作記憶是非常少的,因為我們對於母語的加工和處理是自動化的。而在第二語言閲讀過程中,工作記憶容量有限(Miller 1956,提出工作記憶處理信息的容量大概是 7 個“塊”)侷限了三個方面的共同完成的完美處理,1 和 2 儘管能達到準確,也就是很多學習者感受到的“所有的單詞都會”、“句子也讀懂了呀”,但是卻在 3 上出了問題,因為工作記憶資源大部分調配給了 1 和 2,而 3 卻沒人理了。
這説到底還是因為 1 和 2 沒有實現自動化,就是雖然你懂,但是大腦加工和提取的速度太慢,佔用工作記憶資源太多,所以分配給 3 的工作記憶資源太少,甚至沒有,才出現了“單詞都會但是讀不懂”的現象。當然,也不排除有的閲讀材料在 3 上體現的太難、太複雜,包羅的邏輯關係太複雜、抽象程度太高,那麼就算工作記憶資源全部給了 3 還是理解的非常困難。比如我讀英文版的 Eprime mannual 的時候覺得算了為了趕緊把程序編出來我還是看中文版的吧,然而,中文版的我也看了好久……(為自己的文科腦子感到驕傲。)
不管是以上哪種緣由,我們能做的,只能是放慢速度,反覆、重複地去理解句子的意義,當工作記憶有意識地調配給 3 時,自然對 3 有了更深的加工。
然而,本篇回答的重點在於,1 為什麼沒有實現自動化?就是單詞意義的提取和加工為什麼沒有實現自動化?這個單詞我認識、理解、知道它要使用的場合和它的熟詞僻義,為什麼我對它的加工和提取還是沒有實現自動化(就是處理的很慢)?
接下來要講一個關於第二語言詞彙學習非常悲哀的故事,希望大家不要被打擊到,反正我是被打擊到了。
賓州州立大學的李平老師(男神之一,温柔儒雅)在 2002 年就提出過 DevLex Model,這是一個基於通過計算機模擬人腦語言(主要是詞彙)學習的模型,所以是基於計算語言學的二語詞彙習得的模型(插一句,計算語言學方面我不是很擅長,下面的文字基於我對李老師研究的理解,有計算語言學方向的同行,歡迎批評指正,不要讓我誤人子弟了。)
該模型主要是通過給計算機設計兩種加工信息(這裏的信息也就是語言材料)的原則:
1.Hebbian learning:是一種統計學習的規則【什麼是統計學習?簡而言之,出現的次數越多,那麼通過統計學習就越容易記住,某種特徵越明顯,也越容易通過統計學習記住這種特徵模式。人天生具有統計學習能力。那麼計算機統計什麼呢?統計單詞的語音、拼寫、組合、出現的場景、出現的頻率、句子中的位置,等等,這些一個單詞該有的信息】;
2.Self-organizing:自組織規則。【就是自己組織一下上面統計出來的具有相同特徵的東西歸類到一起】
這兩種原則相互加強、相互幫助。那麼,一個計算機設置好這樣的原則之後,李老師就開始給它輸入語言材料了,一共分了十次輸入階段(ten stages)
從上到下、從左到右,分別是 stage 1(輸入了 50 個單詞的語言材料),每一個 stage 輸入 50 個單詞的語言材料,所以,stage 3(輸入了 150 個單詞的語言材料),stage 5(輸入了 250 個),stage 10(500 個單詞),所以到了第十個階段,單詞出現了邊界清晰的詞性分類,這上面的 verbs,nouns 不是計算機顯示的,是研究人員根據這種現象打上了 label(因為動詞、名詞什麼的明顯聚在了一起)不僅僅出現了詞性的四大分類,每一個分類下面也出現了語義聚類。
這是一個輸入英語作為語言材料的模擬,而這個計算機模擬和行為研究不謀而合,因為其他研究者也的確在研究兒童母語習得的現象中發現:
兒童可以學會語言類別,比如名詞、動詞、形容詞的分類。
兒童早期的學習比較緩慢,而且是非線性的。18-22 個月只有 50-100 詞彙量,但是等到兩歲半,會進入語言習得的爆發期(vocablulary spurt,explosion)
那麼,DevLex model 就模擬出相似的“學習軌跡”,後來學習的單詞都建立在最初的 100 個單詞,早期所學的詞彙知識變成了後來所學的詞彙知識的一個框架,成為後來單詞聚類的催化劑和吸鐵石。
自組織模型需要建立一個算法(algorithm),所以開始的學習會比較緩慢,但是,當表徵的模式建立,意義和形式的鏈接就會不斷加強,隨着意義和形式的聯結加強,模型也越來越被穩定。自組織模型負責規則的提取,而 hebbian 學習負責語義發音和意義的映射,二者相互加強彼此促進。
這個模擬模型除了在英語上,在其他各種語言上都實施了,都顯示出相同的效果。但是,存在一些跨語言的差異。比如説中文(Thank god 李老師是中國人!)就和英文呈現的不太一樣。英語兒童的詞庫體現出名詞學得更好更快,但是這種名詞優勢在中文和韓國語小孩中卻不存在,中國小孩兒的動詞反而是先學會,中文的動詞還有比名詞習得數量更多的趨勢。做行為實驗的學者猜測,可能是跟父母的語言輸入有關,比如有學者發現中國爸媽在養育時嬰兒更喜歡輸入動詞【插一句個人經驗:美國小孩兒學動詞特別費勁兒,不知道是不是因為他們爸媽在他們小時候不好好給教動詞!】Li 通過計算、考察詞頻和單詞長度,認為中文的動詞相對發音長度和詞頻出現都比英文的動詞單詞長度和詞頻高,所以可能更易習得——一個基於計算語言學視角的解釋,我覺得更有説服力。
以上都還只是計算機模擬母語習得的部分結果,那麼,我們來看看計算機模擬二語詞彙習得的結果。
和前面的母語實驗差不多,本實驗就是把兩種語言輸入同一個算法中,輸入的兩種語言材料來自兒童口語語料庫 CHILDES 中的父母語料(就是嬰兒可能真實接觸到的父母口語),就是希望能真實的還原嬰兒所接觸的周遭語言材料(同時為了比對時間帶來的影響,兩種語言材料的語義進行了嚴格的匹配)。
步驟:
1.英文 + 中文,各 50 個單詞,一直到 500.【先建立 model 的算法,就是説計算機有了學習兩種語言的能力,先實現能像嬰兒一樣的學習能力】
2.1. Early learning,L2(中文)稍微晚於 L1(英文),先來 100 個英語單詞,然後 50 箇中文單詞進入計算機,然後 50L1+50L2 這樣的配置,10 個 stages 之後結束,一共要有 500 個 L2(中文)進入計算機。
2.2 Late learning,L2 在 L1 學了 400 個以後加入,然後 L2 進入,最後也一共要有 500 個 L2 進入計算機。
於是出現瞭如下圖
早期的二語詞彙學習如 A 圖 early learning,中文自己形成了一個邊緣清晰的大島,而晚期的二語詞彙學習如 B 圖,中文是分散的小島,此時,新學的 L2 就只能利用以及建立的 L1 的結構和聯結之上了。寄生於 L1 之上。
那麼,回到題目上,第二語言學習者在第二語言的使用上就會表現的更慢,也具有產出困難,可能就是因為 L2 詞彙周圍有很多高密度的母語詞彙,從而會帶來影響,周圍的母語詞彙都在和二語詞彙發生競爭。也就是在影響我們 L2 詞彙的提取和加工速度。
把上面的模型中中英文互換一下,因為我們是英語二語者,這個悲傷的故事結束了。