下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
語料庫語言學(xué)維基百科語料庫語言學(xué)(英語:corpuslinguistics)是基于語言運(yùn)用的實(shí)例(即語料庫)的語言討論。語料庫語言學(xué)可以對(duì)自然語言進(jìn)行語法與句法分析,還可以討論它與其他語言的關(guān)系。語料庫最初由手工完成,而現(xiàn)在主要是由計(jì)算機(jī)自動(dòng)完成。語料庫語言學(xué)家信任,牢靠的語言分析需建立在新奇的語料、自然的語言環(huán)境,和最小的試驗(yàn)干擾之上。在語料庫語言學(xué)中,語料標(biāo)注的意義眾說紛紜,從約翰?辛克萊⑴主見最少量的標(biāo)注,并允許文本“為自己說話",至『英語用法調(diào)杳組”(設(shè)在倫敦高校學(xué)院)[2]鼓舞更多的標(biāo)注,并認(rèn)為它是通向更完備和嚴(yán)謹(jǐn)?shù)恼Z言理解的道路。名目1歷史2方法3參考文獻(xiàn)o3.1引用o3.2期刊o3.3書籍4外部鏈接5參見歷史[編輯]現(xiàn)代語料庫語言學(xué)的一個(gè)里程碑是亨利?庫切拉和W.納爾遜弗朗西斯在1967年出版的《當(dāng)代美語的計(jì)算分析》(ComputationalAnalysisofPresent-DayAmericanEnglish)一書。該項(xiàng)工作基于對(duì)布朗語料庫的分析,布朗語料庫是一個(gè)細(xì)心編制的美國英語語料庫,規(guī)模約有一百萬詞次。庫切拉和弗朗西斯將這些語料用于各種計(jì)算分析,獲得了豐富和多樣化的成果,該成果結(jié)合了語言學(xué)、語言教、心理學(xué)、統(tǒng)計(jì)學(xué)、和社會(huì)學(xué)元素。另一關(guān)鍵出版物是1960年倫道夫?夸克的《當(dāng)代英語語法》(TowardsadescriptionofEnglishUsage)口】,在這本書中他介紹了"英語用法調(diào)杳”項(xiàng)目(TheSurveyofEnglishUsage)°此后不久,波士頓出版商霍頓米夫林邀請(qǐng)庫切拉為其新的美國傳統(tǒng)英語字典供應(yīng)百萬詞次,三線引文的來進(jìn)行詞典編纂?!睹绹鴤鹘y(tǒng)英語字典》創(chuàng)新地將規(guī)定性元素(應(yīng)如何使用語言)和描述性元素(語言實(shí)際上是如何被使用)結(jié)合在了一起。其他出版社紛紛效仿。英國出版商柯林斯COBUILD單語學(xué)習(xí)詞典,就是為非英語母語者學(xué)習(xí)英語而出版的,它使用了“英語銀行"(BankofEnglish)語料庫?!坝⒄Z用法調(diào)查”語料庫被用于由夸克等人編著的《綜合英語語法》(AComprehensiveGrammaroftheEnglishLanguage)中。布朗語料庫也催生了類似的語料庫:LOB語料庫(Lancaster-Oslo-BergenCorpus,20世紀(jì)60年月英國英語),科爾哈帕(Kolhapur,印度英語),惠靈頓(Wellington,新西蘭英語),澳大利亞英語語料庫(AustralianCorpusofEnglish,澳大利亞英語),皺眉語料庫(FrownCorpus,20世紀(jì)90年月初,美國英語),以及FLOB語料庫(FLOBCorpus,20世紀(jì)90年月,英國英語)。其他語料庫包括國際英語語料庫(InternationalCorpusofEnglish),和英國我國語料庫(BiitishNationalCorpus,收集了1億詞次的口頭和書面語料,在20世紀(jì)90年月時(shí)由出版商、牛津高校、蘭卡斯特高校和大英圖書館創(chuàng)建)。至于說到當(dāng)代的美國英語,現(xiàn)已有了美國我國語料庫(英語:AmericanNationalCorpus),以及可以在線訪問的4億多詞次的美國當(dāng)代英語語料庫(英語:CorpusofContemporaryAmericanEnglish,1990年倉犍)。第一個(gè)電腦轉(zhuǎn)錄口語語料庫,建于1971年蒙特利爾法語項(xiàng)目(MontrealFrenchProject),【用有一億詞次,這一項(xiàng)目還啟發(fā)了夏娜?帕普拉克建立了規(guī)模更大的渥太華-赫爾地區(qū)法語口語語料庫({{lang-en|CorpusofspokenFrenchintheOttawa-Hullarea)。⑶語料庫除了收集現(xiàn)存語言,也收集古代語言。比如20世紀(jì)70年月建立的希伯來文圣經(jīng)的安徒生福布斯數(shù)據(jù)庫(英語:Andersen-ForbesdatabaseoftheHebrewBible,數(shù)據(jù)庫的每個(gè)子句的語法分析都使用了多達(dá)七級(jí)語構(gòu)的圖表,每一部分都標(biāo)注了七個(gè)方面的信息。⑹⑺古蘭經(jīng)阿拉伯語語料庫(英語:QuranicArabicCorpus)是古典的阿拉伯文《古蘭經(jīng)》的標(biāo)注語料庫。它包含多層次的標(biāo)注,包括形態(tài)分割,詞性標(biāo)注,以及使用依存語法進(jìn)行的句法分析。網(wǎng)方法[編輯]語料庫語言學(xué)已經(jīng)有了一大批討論方法,這些討論方法都試圖找到從數(shù)據(jù)到理論的解決方案。瓦利斯和尼爾森⑼最先介紹了他們的3A觀點(diǎn)(英語:3Aperspective):注釋(英語:Annotation),抽象(英語:Abstraction)和分析(英語:Analysis)o注釋包括語料的數(shù)據(jù)庫方案。注釋可能包括結(jié)構(gòu)標(biāo)注,詞性標(biāo)注,句法分析和其他形式。抽象包括該方案在理論上的啟發(fā)式模型或數(shù)據(jù)集中的翻譯(映射)。抽象通常包括面對(duì)語言學(xué)家的定向搜尋,但也可能包括句法討論者的句法規(guī)章學(xué)習(xí)。分析包括統(tǒng)計(jì)學(xué)探測,操縱和對(duì)數(shù)據(jù)集的歸納概括。分析可能包括統(tǒng)計(jì)學(xué)評(píng)估,規(guī)章庫優(yōu)化和學(xué)問探究方法。如今大多數(shù)詞匯語料庫采納詞性標(biāo)注(英語:part-of-speech-tagged)。然而,即使是采納未標(biāo)注語料的語料庫語言學(xué)家也無疑會(huì)使用一些方法來從句子中隔離出他們感愛好的詞。在這種狀況下,注釋和抽象在詞匯搜素中結(jié)合起來了。發(fā)布標(biāo)注語料庫的優(yōu)點(diǎn)是其他用戶可以在語料庫中進(jìn)行討論與試驗(yàn)。語言學(xué)家與其他相關(guān)人士就可以采用語料庫來工作通過數(shù)據(jù)共享,語料庫語言學(xué)家能將語料庫視為語言研討的核心,而不是學(xué)問的源泉。CorpuslinguisticsFromWikipedia,thefreeencyclopediaCorpuslinguisticsisthestudyoflanguageasexpressedinsamples(corpora)of“realworld"text.Thismethodrepresentsadigestiveapproachtoderivingasetofabstractrulesbywhichanaturallanguageisgovernedorelserelatestoanotherlanguage.Originallydonebyhand,corporaarenowlargelyderivedbyanautomatedprocess.Corpuslinguisticsadherentsbelievethatreliablelanguageanalysisbestoccursonfield-collectedsamples,innaturalcontextsandwithminimalexperimentalinterference.Withincorpuslinguisticstherearedivergentviewsastothevalueofcorpusannotation,fromJohnSinclair^advocatingminimalannotationandallowingtextsto'speakforthemselves',toothers,suchastheSurveyofEnglishUsageteam(basedinUniversityCollege,London)@advocatingannotationasapathtogreaterlinguisticunderstandingandrigour.LinguisticsTheoreticalCognitiveGenerativeQuantitative?FunctionaltheoriesofgrammarPhonologyMorphology*MorphophonologySyntaxLexisSemanticsPragmaticsGraphcmicsOrthographySemioticsDescriptiveAnthropologicalComparative?HistoricalEtymologyGraphetics?PhoneticsSociolinguisticsAppliedandexperimentalComputational
Contrastive?Evolutionar}'ForensicInternetLanguageacquisitionSecond-languageacquisitionLanguageassessmentLanguagedevelopmentLanguageeducationLinguisticanthropology
Neurolinguistics
PsycholinguisticsRelatedarticlesHistoryoflinguisticsLinguisticprescription
Listoflinguists
UnsolvedlinguisticsproblemsLinguisticsportalContents
[hide]1History2MethodsSeealsoReferenceso4.1Journalso4.2Bookserieso4.3OtherExternallinksHistory[edit]Someoftheearliesteffortsatgrammaticaldescriptionwerebasedatleastinpartoncorporaofparticularreligiousorculturalsignificance.Forexample,PratisakhyaliteraturedescribedthesoundpatternsofSanskritasfoundintheVedas,andPanini'sgrammarofclassicalSanskritwasbasedatleastinpartonanalysisofthatsamecorpus.Similarly,theearlyArabicarammarianspaidparticularattentiontothelanguageoftheQuran.IntheWesternEuropeantradition,scholarspreparedconcordancestoallowdetailedstudyofthelanguageoftheBibleandothercanonicaltexts.AlandmarkinmoderncorpuslinguisticswasthepublicationbyHenryKuceraandW.NelsonFrancisofComputationalAnalysisofPresent-DayAmericanEnglishin1967,aworkbasedontheanalysisoftheBrownCorpus,acarefullycompiledselectionofcurrentAmericanEnglish,totallingaboutamillionwordsdrawnfromawidevarietyofsources.KuceraandFrancissubjectedittoavarietyofcomputationalanalyses,fromwhichtheycompiledarichandvariegatedopus,combiningelementsoflinguistics,languageteaching,psychology,statistics,andsociology.AfurtherkeypublicationwasRandolphQuirk's'TowardsadescriptionofEnglishUsage'(I960)團(tuán)inwhichheintroducedTheSurveyofEnglishUsage.Shortlythereafter,BostonpublisherHoughton-MifflinapproachedKuceratosupplyamillionword,three-linecitationbaseforitsnewAmericanHeritageDictionary,thefirstdictionarytobecompiledusingcorpuslinguistics.TheAHDtooktheinnovativestepofcombiningprescriptiveelements(howlanguageshouldbeused)withdescriptiveinformation(howitactuallyisused).Otherpublishersfollowedsuit.TheBritishpublisherCollins*COBUILDmonolinguallearner'sdictionary,designedforuserslearningEnglishasaforeignlanguage,wascompiledusingtheBankofEnglish.TheSurveyofEnglishUsageCorpuswasusedinthedevelopmentofoneofthemostimportantCorpus-basedGrammars,theComprehensiveGrammarofEnglish(Quirketal.1985).圖TheBrownCorpushasalsospawnedanumberofsimilarlystructuredcorpora:theLOBCorpus(1960sBritishEnglish),Kolhapur(IndianEnglish),Wellington(NewZealandEnglish),AustralianCorpusofEnglish(AustralianEnglish),theFrownCorpus(early1990sAmericanEnglish),andtheFLOBCorpus(1990sBritishEnglish).Othercorporarepresentmanylanguages,varietiesandmodes,andincludetheInternationalCorpusofEnglish,andtheBritishNationalCorpus,a100millionwordcollectionofarangeofspokenandwrittentexts,createdinthe1990sbyaconsortiumofpublishers,universities(OxfordandLancaster)andtheBritishLibrary.ForcontemporaryAmericanEnglish,workhasstalledontheAmericanNationalCorpus,butthe400+millionwordCorpusofContemporaryAmericanEnglish(1990-present)isnowavailablethroughawebinterface.Thefirstcomputerizedcorpusoftranscribedspokenlanguagewasconstructedin1971bytheMontrealFrenchProject,囪containingonemillionwords,whichinspiredShanaPoplack'smuchlargercorpusofspokenFrenchintheOttawa-Hullarea.?Besidesthesecorporaoflivinglanguages,computerizedcorporahavealsobeenmadeofcollectionsoftextsinancientlanguages.AnexampleistheAndersen-ForbesdatabaseoftheHebrewBible,developedsincethe1970s,inwhicheveryclauseisparsedusinggraphsrepresentinguptosevenlevelsofsyntax,andeverysegmenttaggedwithsevenfieldsofinformation.^TheQuranicArabicCorpusisanannotatedcorpusfortheClassicalArabiclanguageoftheQuran.Thisisarecentprojectwithmultiplelayersofannotationincludingmorphologicalsegmentation,part-of-speechtagging,andsyntacticanalysisusingdependencygrammar.倒Methods[edit]CorpusLinguisticshasgeneratedanumberofresearchmethods,attemptingtotraceapathfromdatatotheory.WallisandNelson(2001)3firstintroducedwhattheycalledthe3Aperspective:Annotation,AbstractionandAnalysis.Annotationconsistsoftheapplicationofaschemetotexts.Annotationsmayincludestructuralmarkup,part-of-speechtagging,parsing,andnumerousotherrepresentations.Abstractionconsistsofthetranslation(mapping)oftermsintheschemetotermsinatheoreticallymotivatedmodelordataset.Abstractiontypicallyincludeslinguist-directedsearchbutmayincludee.g.,rule-learningforparsers.Analysisconsistsofstatisticallyprobing,manipulatingandgeneralisi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 消防設(shè)施維護(hù)合同三篇
- 網(wǎng)絡(luò)營銷勞動(dòng)合同三篇
- 高速公路貨物運(yùn)輸合同三篇
- 汽車行業(yè)發(fā)展咨詢觀察
- 營銷行業(yè)安全管理工作總結(jié)
- 2001年河南高考化學(xué)真題及答案(圖片版)
- DB32∕T 3512-2019 公路協(xié)同巡查管理系統(tǒng)建設(shè)技術(shù)規(guī)范
- 2024年美術(shù)教案范例
- 農(nóng)田水利工程招標(biāo)合同(2篇)
- 【部編版九下歷史】知識(shí)清單
- 高考真題 選擇性必修3《邏輯與思維》-2024年高考政治一輪復(fù)習(xí)選擇題+主觀題(新教材新高考)(解析版)
- 監(jiān)察法學(xué)智慧樹知到期末考試答案2024年
- 糖尿病酮癥酸中毒PPT小講課
- 百香果的栽培條件
- 2024版國開電大法學(xué)本科《商法》歷年期末考試總題庫
- 湖北省荊州市荊州八縣市區(qū)2023-2024學(xué)年高一上學(xué)期1月期末聯(lián)考物理試題(原卷版)
- 小程序商場方案
- 班組年終總結(jié)
- 廣西桂林市2023-2024學(xué)年高二上學(xué)期期末考試物理試卷
- 內(nèi)蒙古赤峰市2023-2024學(xué)年高一上學(xué)期期末考試物理試題【含答案解析】
- nfc果汁加工工藝
評(píng)論
0/150
提交評(píng)論