五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

NLP方向文本分類常見面試題6道|含解析

2023-02-23 12:21 作者:七月在線-julyedu  | 我要投稿

9本電子書放文末,自取~

1、文本分類任務(wù)有哪些應(yīng)用場景?

文本分類時機(jī)器學(xué)習(xí)匯總常見的監(jiān)督學(xué)習(xí)任務(wù)質(zhì)疑,常見的應(yīng)用場景如情感分類、新聞分類、主題分類、問答匹配、意圖識別、推斷等等。分類任務(wù)根據(jù)具體的數(shù)據(jù)集的標(biāo)簽情況,還可以分為二分類、多分類、多標(biāo)簽分類等。

2、文本分類的具體流程?

文本分類的流程一般包括文本預(yù)處理、特征提取、文本表示、最后分類輸出。

文本處理通常需要做分詞及去除停用詞等操作,常會使用一些分詞工具,如hanlp、jieba、哈工大LTP、北大pkuseg等。

3、fastText的分類過程?fastText的優(yōu)點?

fastText首先把輸入轉(zhuǎn)化為詞向量,取平均,再經(jīng)過線性分類器得到類別。輸入的詞向量可以是預(yù)先訓(xùn)練好的,也可以隨機(jī)初始化,跟著分類任務(wù)一起訓(xùn)練。

fastText是一個快速文本分類算法,與基于神經(jīng)網(wǎng)絡(luò)的分類算法相比有兩大優(yōu)點: 1、fastText在保持高精度的情況下加快了訓(xùn)練速度和測試速度 2、fastText不需要預(yù)訓(xùn)練好的詞向量,fastText會自己訓(xùn)練詞向量 3、fastText兩個重要的優(yōu)化:使用層級 Softmax提升效率、采用了char-level的n-gram作為附加特征。

4、TextCNN進(jìn)行文本分類的過程?

卷積神經(jīng)網(wǎng)絡(luò)的核心思想是捕捉局部特征,對于文本來說,局部特征就是由若干單詞組成的滑動窗口,類似于N-gram。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢在于能夠自動地對N-gram特征進(jìn)行組合和篩選,獲得不同抽象層次的語義信息。因此文本分類任務(wù)中可以利用CNN來提取句子中類似 n-gram 的關(guān)鍵信息。

第一層為輸入層。將最左邊的7乘5的句子矩陣,每行是詞向量,維度=5,這個可以類比為圖像中的原始像素點了。

圖中的輸入層實際采用了雙通道的形式,即有兩個 n × k

的輸入矩陣,其中一個用預(yù)訓(xùn)練好的詞嵌入表達(dá),并且在訓(xùn)練過程中不再發(fā)生變化;另外一個也由同樣的方式初始化,但是會作為參數(shù),隨著網(wǎng)絡(luò)的訓(xùn)練過程發(fā)生改變。

第二層為卷積層。然后經(jīng)過有 filter_size=(2,3,4) 的一維卷積層,每個filter_size 有兩個輸出 channel。第三層是一個1-max pooling層,這樣不同長度句子經(jīng)過pooling層之后都能變成定長的表示了。

最后接一層全連接的 softmax 層,輸出每個類別的概率。

每個詞向量可以是預(yù)先在其他語料庫中訓(xùn)練好的,也可以作為未知的參數(shù)由網(wǎng)絡(luò)訓(xùn)練得到。

5、TextCNN可以調(diào)整哪些參數(shù)?

  • 輸入詞向量表征:詞向量表征的選取(如選word2vec還是GloVe)

  • 卷積核大?。阂粋€合理的值范圍在1~10。若語料中的句子較長,可以考慮使用更大的卷積核。另外,可以在尋找到了最佳的單個filter的大小后,嘗試在該filter的尺寸值附近尋找其他合適值來進(jìn)行組合。實踐證明這樣的組合效果往往比單個最佳filter表現(xiàn)更出色

  • feature map 特征圖個數(shù):主要考慮的是當(dāng)增加特征圖個數(shù)時,訓(xùn)練時間也會加長,因此需要權(quán)衡好。這個參數(shù)會影響最終特征的維度,維度太大的話訓(xùn)練速度就會變慢。這里在100-600之間調(diào)參即可。當(dāng)特征圖數(shù)量增加到將性能降低時,可以加強(qiáng)正則化效果,如將dropout率提高過0.5

  • 激活函數(shù):ReLU和tanh

  • 池化策略:1-max pooling表現(xiàn)最佳,復(fù)雜任務(wù)選擇k-max

  • 正則化項(dropout/L2):指對CNN參數(shù)的正則化,可以使用dropout或L2,但能起的作用很小,可以試下小的dropout率(<0.5),L2限制大一點

6、文本分類任務(wù)使用的評估指標(biāo)有哪些?

準(zhǔn)確率、召回率、ROC,AUC,F(xiàn)1、混淆矩陣?,?Precision?=????+??,?Recall?=????+??,F1-score=2?????+?

看完本篇如果對你有用請三連,你的支持是我持續(xù)輸出的動力,感謝,筆芯~

↓ ↓ ↓以下9本書電子版免費領(lǐng),直接送 ,想要哪本私我下說聲,我發(fā)你↓ ↓ ↓

《2022年Q3最新大廠面試題》電子書,部分截圖如下:


NLP方向文本分類常見面試題6道|含解析的評論 (共 條)

分享到微博請遵守國家法律
军事| 莒南县| 瓦房店市| 舟曲县| 景谷| 庐江县| 大庆市| 长治市| 枣阳市| 珠海市| 调兵山市| 于都县| 余姚市| 宁晋县| 榆林市| 七台河市| 嵊泗县| 中卫市| 渝北区| 南康市| 深圳市| 陵水| 杭锦旗| 望江县| 邓州市| 虎林市| 剑阁县| 沙洋县| 房产| 临澧县| 拉孜县| 灌南县| 北安市| 广水市| 伊吾县| 北宁市| 莲花县| 泸溪县| 鄂托克前旗| 双江| 龙泉市|