NLP方向文本分類常見面試題6道|含解析
9本電子書放文末,自取~
1、文本分類任務(wù)有哪些應(yīng)用場景?
文本分類時機(jī)器學(xué)習(xí)匯總常見的監(jiān)督學(xué)習(xí)任務(wù)質(zhì)疑,常見的應(yīng)用場景如情感分類、新聞分類、主題分類、問答匹配、意圖識別、推斷等等。分類任務(wù)根據(jù)具體的數(shù)據(jù)集的標(biāo)簽情況,還可以分為二分類、多分類、多標(biāo)簽分類等。
2、文本分類的具體流程?
文本分類的流程一般包括文本預(yù)處理、特征提取、文本表示、最后分類輸出。

文本處理通常需要做分詞及去除停用詞等操作,常會使用一些分詞工具,如hanlp、jieba、哈工大LTP、北大pkuseg等。
3、fastText的分類過程?fastText的優(yōu)點?
fastText首先把輸入轉(zhuǎn)化為詞向量,取平均,再經(jīng)過線性分類器得到類別。輸入的詞向量可以是預(yù)先訓(xùn)練好的,也可以隨機(jī)初始化,跟著分類任務(wù)一起訓(xùn)練。
fastText是一個快速文本分類算法,與基于神經(jīng)網(wǎng)絡(luò)的分類算法相比有兩大優(yōu)點: 1、fastText在保持高精度的情況下加快了訓(xùn)練速度和測試速度 2、fastText不需要預(yù)訓(xùn)練好的詞向量,fastText會自己訓(xùn)練詞向量 3、fastText兩個重要的優(yōu)化:使用層級 Softmax提升效率、采用了char-level的n-gram作為附加特征。
4、TextCNN進(jìn)行文本分類的過程?
卷積神經(jīng)網(wǎng)絡(luò)的核心思想是捕捉局部特征,對于文本來說,局部特征就是由若干單詞組成的滑動窗口,類似于N-gram。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢在于能夠自動地對N-gram特征進(jìn)行組合和篩選,獲得不同抽象層次的語義信息。因此文本分類任務(wù)中可以利用CNN來提取句子中類似 n-gram 的關(guān)鍵信息。
第一層為輸入層。將最左邊的7乘5的句子矩陣,每行是詞向量,維度=5,這個可以類比為圖像中的原始像素點了。
圖中的輸入層實際采用了雙通道的形式,即有兩個 n × k
的輸入矩陣,其中一個用預(yù)訓(xùn)練好的詞嵌入表達(dá),并且在訓(xùn)練過程中不再發(fā)生變化;另外一個也由同樣的方式初始化,但是會作為參數(shù),隨著網(wǎng)絡(luò)的訓(xùn)練過程發(fā)生改變。
第二層為卷積層。然后經(jīng)過有 filter_size=(2,3,4) 的一維卷積層,每個filter_size 有兩個輸出 channel。第三層是一個1-max pooling層,這樣不同長度句子經(jīng)過pooling層之后都能變成定長的表示了。
最后接一層全連接的 softmax 層,輸出每個類別的概率。
每個詞向量可以是預(yù)先在其他語料庫中訓(xùn)練好的,也可以作為未知的參數(shù)由網(wǎng)絡(luò)訓(xùn)練得到。
5、TextCNN可以調(diào)整哪些參數(shù)?
輸入詞向量表征:詞向量表征的選取(如選word2vec還是GloVe)
卷積核大?。阂粋€合理的值范圍在1~10。若語料中的句子較長,可以考慮使用更大的卷積核。另外,可以在尋找到了最佳的單個filter的大小后,嘗試在該filter的尺寸值附近尋找其他合適值來進(jìn)行組合。實踐證明這樣的組合效果往往比單個最佳filter表現(xiàn)更出色
feature map 特征圖個數(shù):主要考慮的是當(dāng)增加特征圖個數(shù)時,訓(xùn)練時間也會加長,因此需要權(quán)衡好。這個參數(shù)會影響最終特征的維度,維度太大的話訓(xùn)練速度就會變慢。這里在100-600之間調(diào)參即可。當(dāng)特征圖數(shù)量增加到將性能降低時,可以加強(qiáng)正則化效果,如將dropout率提高過0.5
激活函數(shù):ReLU和tanh
池化策略:1-max pooling表現(xiàn)最佳,復(fù)雜任務(wù)選擇k-max
正則化項(dropout/L2):指對CNN參數(shù)的正則化,可以使用dropout或L2,但能起的作用很小,可以試下小的dropout率(<0.5),L2限制大一點
6、文本分類任務(wù)使用的評估指標(biāo)有哪些?
準(zhǔn)確率、召回率、ROC,AUC,F(xiàn)1、混淆矩陣?,?Precision?=????+??,?Recall?=????+??,F1-score=2?????+?
看完本篇如果對你有用請三連,你的支持是我持續(xù)輸出的動力,感謝,筆芯~
↓ ↓ ↓以下9本書電子版免費領(lǐng),直接送 ,想要哪本私我下說聲,我發(fā)你↓ ↓ ↓


《2022年Q3最新大廠面試題》電子書,部分截圖如下:
