五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

“AIGC時代的語料庫建設(shè)與應(yīng)用專題課程:基礎(chǔ)與進(jìn)階” 結(jié)課啦!

2023-08-30 21:31 作者:翻譯技術(shù)點津  | 我要投稿

AIGC時代,人工智能究竟蘊藏著怎樣的強(qiáng)大力量?從語料清洗、編程輔助,到數(shù)據(jù)分析......AI輔助的語料庫建設(shè)與應(yīng)用正成為當(dāng)前學(xué)界關(guān)注的熱點話題。隨著AIGC時代來臨,我們?nèi)绾问褂萌斯ぶ悄芗夹g(shù),走上學(xué)術(shù)研究前沿?

8月26日,由上海海事大學(xué)劉世界博士主講的”AIGC時代的語料庫建設(shè)與應(yīng)用:基礎(chǔ)與進(jìn)階“專題課完美畫上句號。本次專題課緊緊圍繞講師的闡述、生動案例的引導(dǎo),以及實際操作的親身體驗,全方位地傳授著AI輔助下的語料庫構(gòu)建方法、技巧與理念。


接下來,就跟隨小編回顧本次專題課的精彩內(nèi)容吧~

本次專題課的主要內(nèi)容包括:

1、語料庫核心概念與基礎(chǔ)知識

2、語料庫建設(shè)流程與實操演示

3、案例驅(qū)動的語料庫分析工具應(yīng)用(一)

4、案例驅(qū)動的語料庫分析工具應(yīng)用(二)

5、基于編程的語料數(shù)據(jù)應(yīng)用探索與實踐(一)

6、基于編程的語料數(shù)據(jù)應(yīng)用探索與實踐(二)


語料庫核心概念與基礎(chǔ)知識

第一講中,世界博士詳細(xì)闡述了語料庫的核心概念、分類以及語料庫相關(guān)術(shù)語辨析。同時,他以208篇涵蓋北大核心與CSSCI論文為例,為我們梳理了語料庫研究的不同方向及歷時研究趨勢。此外,他還基于全國哲學(xué)社會科學(xué)辦公室的立項統(tǒng)計數(shù)據(jù)梳理理念來語料庫研究相關(guān)的熱點及方法論,同時梳理了國內(nèi)語料庫研究領(lǐng)域中的部分代表性學(xué)者。這些內(nèi)容的分享及解讀不僅幫助我們建立了對語料庫基本概念的清晰認(rèn)識,也為未來的學(xué)習(xí)和研究提供了有益的指引。


(語料庫立項統(tǒng)計)

(數(shù)據(jù)來源:哲學(xué)社會科學(xué)辦公室官網(wǎng))

語料庫建設(shè)流程與實操演示


第二講中,世界博士通過實際操作,為學(xué)員演示了語料采集、加工、檢索應(yīng)用等語料數(shù)據(jù)處理與應(yīng)用全流程。首先語料采集部分分為自動化采集和人工采集,世界博士為大家分享了許多親測好用自動化語料采集器,例如:八爪魚采集器、火車頭采集器、后裔采集器,TextForever等。人工采集語料也可以通過一些工具來協(xié)助我們做到批量文本處理與轉(zhuǎn)換,例如文本處理可以使用ABBY FineReader、天若文字識別等OCR軟件;格式轉(zhuǎn)換可以使用Convertio、iLovePDF等做到不同格式間無痛切換。接下來,世界博士從語料清洗、語料對齊、格式轉(zhuǎn)換、分詞賦碼四個方面介紹了語料加工流程,并基于基本的檢索工具演示語料輔助翻譯實踐及詞典編纂的應(yīng)用。




(使用正則表達(dá)式清洗語料)

案例驅(qū)動的語料庫分析工具應(yīng)用


在第三、四講中,世界博士采用講師講解、案例驅(qū)動實踐操作相結(jié)合的方式,全面介紹語料庫的核心概念、基礎(chǔ)知識與研究方法,探討語料庫完整的建設(shè)流程,以案例驅(qū)動的方式引導(dǎo)學(xué)員學(xué)習(xí)語料庫分析工具的應(yīng)用。以事先預(yù)備的語料為演示內(nèi)容,帶大家上手操作WordSmith Tools 7.0、Sketch Engine、Wmatrix、Cho-Metrix、BNCweb、COCA等語料分析工具及平臺。他強(qiáng)調(diào)了在語料庫建設(shè)中需要關(guān)注的關(guān)鍵數(shù)據(jù),例如頻率、詞匯共現(xiàn)、語義域、主題詞、 搭配、N-Grams、Keyness、Effect等,同時詳細(xì)解讀了語料庫語言學(xué)中統(tǒng)計分析相關(guān)的數(shù)據(jù)、衡量指標(biāo)及概念Chi-Squared、Log-Likelihood、TextDispersionKeyness、Dice、MI、MI2、MI3、MS、Mu、RRF、T-Score、Z-Score、p值、T檢驗、錯誤拒絕零假設(shè)等)意義,針對每個工具和平臺的具體統(tǒng)計數(shù)據(jù)進(jìn)行詳細(xì)解釋,并總結(jié)如何在研究中進(jìn)行正確匯報。最后,世界博士橫向?qū)Ρ攘诉@些語料分析工具/平臺的優(yōu)勢與所擅長分析的領(lǐng)域。




(以實際案例演示W(wǎng)ordSmith Tools 7.0的詳細(xì)操作)

新生入學(xué)必備

在第五、六講中,世界博士從ChatGPT輔助Python編程入門開始,為大家詳細(xì)講解了Python應(yīng)用中的數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)、常用函數(shù)及語句,實操演示了如何運用Python實現(xiàn)語料存儲與讀取、語料數(shù)據(jù)預(yù)處理、詞頻統(tǒng)計與關(guān)鍵詞提取、語料數(shù)據(jù)視圖化方法、詞向量訓(xùn)練、文本分類與情感分析、命名實體識別、LDA(Latent Dirichlet Allocation)主題建模等典型應(yīng)用場景,在關(guān)鍵部分世界博士詳細(xì)解釋了每一行代碼的構(gòu)造、內(nèi)容及執(zhí)行的目的。世界博士將課程從開發(fā)環(huán)境配置開始,一直引導(dǎo)大家動手實操進(jìn)行語料分析與應(yīng)用整個流程,旨在幫助學(xué)員在實踐中掌握如何利用編程技術(shù)進(jìn)行語料數(shù)據(jù)的復(fù)雜處理和多元分析



(基于Python的語料數(shù)據(jù)處理與應(yīng)用)

師生互動

除了課程內(nèi)容外,世界博士還在群內(nèi)耐心解答了各種問題。課程內(nèi)容豐富實用,受到學(xué)員們的高度評價。





(部分學(xué)員好評截圖)


“AIGC時代的語料庫建設(shè)與應(yīng)用專題課程:基礎(chǔ)與進(jìn)階”暫告一段落啦~


接下去我們還有翻譯技術(shù)及語料庫應(yīng)用研修班等待大家哦~

特別說明:本文僅用于學(xué)術(shù)交流,如有侵權(quán)請后臺聯(lián)系小編刪除。


- END -


轉(zhuǎn)載來源:語言服務(wù)行業(yè)

轉(zhuǎn)載編輯:邢薇

“AIGC時代的語料庫建設(shè)與應(yīng)用專題課程:基礎(chǔ)與進(jìn)階” 結(jié)課啦!的評論 (共 條)

分享到微博請遵守國家法律
大城县| 广丰县| 张家川| 黄浦区| 揭西县| 海门市| 乌鲁木齐市| 石家庄市| 鹿泉市| 仙桃市| 平度市| 泊头市| 广丰县| 富平县| 万源市| 河南省| 镇江市| 郁南县| 新泰市| 慈溪市| 高安市| 济南市| 石屏县| 夏津县| 清水河县| 丹凤县| 樟树市| 嘉黎县| 集安市| 绥化市| 霸州市| 洱源县| 三门县| 色达县| 正定县| 睢宁县| 淮南市| 沿河| 家居| 根河市| 福泉市|