五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

自然語言處理 02語料庫與詞匯知識庫

2022-02-28 16:30 作者:你晗真好看  | 我要投稿

1.語料庫與知識庫定義?

語料庫就是存放語言材料的倉庫(語言數(shù)據(jù)庫)

知識庫是以描述性方法來存儲和管理知識的機構(gòu),由知識和知識處理機構(gòu)行成一個知識域。

2.什么是平行語料庫?什么是平衡語料庫?

平行語料庫有兩種含義,一種是指在同一種語言的語料上平行,例如“國際英語語料庫”涵蓋了不同國家的英語。其平行性表現(xiàn)為語料選取的時間、對象、比例、文本數(shù)、文本長度等幾乎是一致的。建庫的目的是對不同國家的英語進行對比研究。

另一種平行語料庫是指在兩種或多種語言之間的平行采樣和加工,例如,機器翻譯中的雙語對齊語料庫。

平衡語料庫著重考慮語料的代表性與平衡性。語料采集的七項原則:語料的真實性、可靠性、科學(xué)性、代表性、權(quán)威性、分布性和流通性。其中語料的分布性還要考慮語料的科學(xué)領(lǐng)域分布、地域分布、時間分布和語體分布。

3.什么是共時語料庫?什么是歷時語料庫?

共時語料庫 是為了對語言進行共時(同一時段)研究而建立的語料庫。研究大樹的橫斷面所見的細(xì)胞和細(xì)胞關(guān)系,即研究一個共時平面中的元素與元素的關(guān)系。

歷時語料庫 是為了對語言進行歷時研究而建立的語料庫。研究一個歷時切面中元素與元素關(guān)系的演化。

4.什么是熟語料庫?什么是生語料庫?

語料 指在自然語言單位上添加人工的標(biāo)簽標(biāo)注,如經(jīng)過分詞、詞性標(biāo)注、命名實體識別、依存句法標(biāo)注形成的語料)。

生語料 指直接收集而未經(jīng)加工形成的語言資源集,如常見的微博語料,新聞?wù)Z料等。

自然語言處理 02語料庫與詞匯知識庫的評論 (共 條)

分享到微博請遵守國家法律
禄丰县| 且末县| 句容市| 和静县| 伊川县| 中阳县| 东光县| 镇安县| 三穗县| 阳东县| 长兴县| 原阳县| 涿鹿县| 治县。| 嘉荫县| 微山县| 韶山市| 通许县| 江口县| 兖州市| 株洲县| 同心县| 柳林县| 大丰市| 谷城县| 饶阳县| 荆门市| 达州市| 阿拉善右旗| 宁南县| 都昌县| 北安市| 余姚市| 辽中县| 揭西县| 来凤县| 昭苏县| 丽水市| 东宁县| 历史| 肇东市|