【轉(zhuǎn)載】最全人工智能專業(yè)術(shù)語表(中英文對照)
A
A/B Testing(A/B 測試)
一種受控的真實(shí)實(shí)驗(yàn),用于比較系統(tǒng)或模型的兩個變體 A 和 B。
Activation Function(激活函數(shù))
在人工神經(jīng)網(wǎng)絡(luò)的情境中,接受來自上一層的所有輸入的加權(quán)和并生成輸出值來激活下一層的函數(shù)。
Active Learning (Active Learning Strategy)(主動學(xué)習(xí)(主動學(xué)習(xí)策略))
半監(jiān)督機(jī)器學(xué)習(xí)的一種特殊情況,在這種情況下,學(xué)習(xí)代理能夠以交互的方式查詢數(shù)據(jù)庫(通常是人工標(biāo)注員),以獲取新數(shù)據(jù)點(diǎn)的標(biāo)簽。
Algorithm(算法)
一種關(guān)于如何解決某一類問題的過程的明確規(guī)范,它能夠執(zhí)行計(jì)算、處理數(shù)據(jù)并進(jìn)行自動推理。
Annotation(標(biāo)注)
附加到一條數(shù)據(jù)之上的元數(shù)據(jù),通常由人工標(biāo)注員提供。
Area Under the Curve (AUC)(曲線下面積 (AUC))
機(jī)器學(xué)習(xí)中用于確定在多個使用的模型中哪個模型具有最高性能的一種方法。
Artificial Intelligence(人工智能)
機(jī)器學(xué)習(xí)中用于確定在多個使用的模型中哪個模型具有最高性能的一種方法。
Artificial Neural Networks(人工神經(jīng)網(wǎng)絡(luò))
由簡單互聯(lián)單元(稱作神經(jīng)元)的連續(xù)層所構(gòu)成的一種架構(gòu),這些單元與非線性激活函數(shù)交織在一起,會讓人模糊地聯(lián)想到動物大腦中的神經(jīng)元。
Association Rule Learning(關(guān)聯(lián)規(guī)則學(xué)習(xí))
一種基于規(guī)則的機(jī)器學(xué)習(xí)方法,用于發(fā)現(xiàn)大型數(shù)據(jù)集中變量之間的關(guān)系。
Autoencoder(自動解碼器)
一種人工神經(jīng)網(wǎng)絡(luò),用于以無監(jiān)督、非線性的方式生成高效的數(shù)據(jù)表示,通常用于降低維度。
Automated Speech Recognition(自動語音識別)
計(jì)算語言學(xué)的一個子領(lǐng)域,主要是關(guān)于通過計(jì)算機(jī)識別和翻譯口語的方法。
B
Backpropagation (Backpropagation Through Time)(反向傳播(基于時間的反向傳播))
用于訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),進(jìn)而計(jì)算網(wǎng)絡(luò)權(quán)重計(jì)算所需梯度的一種方法。
Batch(批量)
在模型訓(xùn)練的單個梯度更新中使用的示例集。
Bayes’s Theorem(貝葉斯定理)
統(tǒng)計(jì)學(xué)家根據(jù)可能與某個存在相關(guān)的先驗(yàn)條件知識描述某個事件的概率時所用的一個著名定理。
Bias (Inductive Bias, Confirmation Bias)(偏差(歸納偏差、確認(rèn)偏差))
歸納偏差:學(xué)習(xí)者在給定輸入條件下預(yù)測尚未遇到的輸出時所用的假設(shè)事項(xiàng)集。
確認(rèn)偏差:以確認(rèn)自己的信念或假設(shè)的方式搜索、解釋、贊成和回想信息,而較少關(guān)注與之相矛盾的信息的趨勢。
Bias-Variance Tradeoff(偏差與方差權(quán)衡)
當(dāng)數(shù)據(jù)科學(xué)家嘗試同時最大程度地減小偏差和方差時所產(chǎn)生的沖突,該沖突不利于監(jiān)督算法推廣到他們的訓(xùn)練集范圍之外。
Boosting(提升)
主要用于減少監(jiān)督學(xué)習(xí)中的偏差和方差的一種機(jī)器學(xué)習(xí)集成元算法,以及將弱學(xué)習(xí)者轉(zhuǎn)化為強(qiáng)學(xué)習(xí)者的一系列機(jī)器學(xué)習(xí)算法。
Bounding Box(邊界框)
完全包含一組點(diǎn)或一個對象的最?。ň匦危┛?。
C
Chatbot(聊天機(jī)器人)
一種旨在通過對話與人類用戶進(jìn)行交互的計(jì)算機(jī)程序或 AI。
Classification(分類)
對映射函數(shù)進(jìn)行從輸入變量到離散輸出變量的近似處理的任務(wù),或者從廣義上來說,是指用于確定特定實(shí)例所屬的類的某一類機(jī)器學(xué)習(xí)算法。
Clustering(聚類)
在機(jī)器學(xué)習(xí)中,是指對一組對象進(jìn)行分組,使得同一組(即集群)中的對象彼此之間的“相似性”高于與其他組中的對象“相似性”的無監(jiān)督任務(wù)。
Cold-Start(冷啟動)
由于系統(tǒng)無法針對尚未收集到足夠信息的用戶或項(xiàng)目推斷出任何信息而引起的潛在問題。
Collaborative Filtering(協(xié)作過濾)
在推薦系統(tǒng)中使用的一種方法,用于通過收集來自較大用戶組的偏好來預(yù)測用戶的興趣。
Computer Vision(計(jì)算機(jī)視覺)
機(jī)器學(xué)習(xí)的領(lǐng)域之一,主要研究如何獲得對圖像或視頻的高級理解。
Confidence Interval(置信區(qū)間)
一種區(qū)間估計(jì),可能包含未知總體參數(shù)的真實(shí)值。該區(qū)間與置信水平相關(guān),而置信水平用于量化參數(shù)在區(qū)間中的置信度。
Contributor(貢獻(xiàn)者)
在 Figure Eight 上提供標(biāo)注服務(wù)的人工標(biāo)注員。
Convolutional Neural Network (CNN)(卷積神經(jīng)網(wǎng)絡(luò) (CNN))
一種深層、前饋人工神經(jīng)網(wǎng)絡(luò)類別,通常用于計(jì)算機(jī)視覺。
Central Processing Unit (CPU)(中央處理單元 (CPU))
計(jì)算機(jī)中通過執(zhí)行指令指定的基本算術(shù)、邏輯、控制和輸入/輸出操作來執(zhí)行計(jì)算機(jī)程序的指令的電子電路。
Cross-Validation (k-fold Cross-Validation, Leave-p-out Cross-Validation)(交叉驗(yàn)證(k 折交叉驗(yàn)證、留 p 法交叉驗(yàn)證))
旨在評估如何將預(yù)測模型的結(jié)果推廣到新數(shù)據(jù)集的一組流程。
– k 折交叉驗(yàn)證
– 留 p 法交叉驗(yàn)證
D
Data (Structured Data, Unstructured Data, Data augmentation)(數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)增強(qiáng)))
所有機(jī)器學(xué)習(xí)和人工智能項(xiàng)目的最基本要素。
非結(jié)構(gòu)化數(shù)據(jù):未經(jīng)處理的原始數(shù)據(jù)。文本數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)的完美示例,因?yàn)樗鼪]有格式化為特定功能。
結(jié)構(gòu)化數(shù)據(jù):以機(jī)器學(xué)習(xí)算法可攝取的方式處理的數(shù)據(jù);如果是監(jiān)督機(jī)器學(xué)習(xí),則為已標(biāo)記數(shù)據(jù)、在 Figure Eight 平臺上處理后的數(shù)據(jù)。
數(shù)據(jù)增強(qiáng):將內(nèi)外部來源衍生的新信息添加到數(shù)據(jù)集的過程(一般通過標(biāo)注來實(shí)現(xiàn))
Decision Tree(決策樹)
監(jiān)督機(jī)器學(xué)習(xí)算法的一個類別,在此類算法中,數(shù)據(jù)會根據(jù)給定參數(shù)或條件進(jìn)行迭代拆分。
Deep Blue(深藍(lán) (Deep Blue))
由 IBM 開發(fā)的國際象棋游戲計(jì)算機(jī),作為全球首個在常規(guī)時限內(nèi)同時戰(zhàn)勝了國際象棋游戲和國際象棋比賽衛(wèi)冕世界冠軍的計(jì)算機(jī)國際象棋游戲系統(tǒng)而聞名。
Deep Learning (Deep Reinforcement Learning)(深度學(xué)習(xí)(深度強(qiáng)化學(xué)習(xí)))
與特定任務(wù)的算法相反,基于學(xué)習(xí)數(shù)據(jù)表示的更廣泛的機(jī)器學(xué)習(xí)方法系列。深度學(xué)習(xí)包括監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)。
維度(降維、維度災(zāi)難)
降維:通過獲取一組主變量來減少所考慮的隨機(jī)變量數(shù)量的過程。另請參見特征選擇。
維度災(zāi)難:由于維數(shù)越多,可用數(shù)據(jù)量越稀疏這一事實(shí),在高維空間中分析和組織數(shù)據(jù)時出現(xiàn)的一種現(xiàn)象。
E
Embedding (Word Embedding)(嵌入(詞嵌入))
某個實(shí)例中所含的某個數(shù)學(xué)結(jié)構(gòu)的另一個實(shí)例,例如作為另一個組的子組的組。
Ensemble Methods(集成方法)
在統(tǒng)計(jì)和機(jī)器學(xué)習(xí)中,集成方法使用多種學(xué)習(xí)算法來獲得更好的預(yù)測性能,而這種性能可以單獨(dú)從任何組合式學(xué)習(xí)算法中獲得。與統(tǒng)計(jì)力學(xué)中通常是無限的統(tǒng)計(jì)集成不同,機(jī)器學(xué)習(xí)集成僅由一組有限的替代模型組成,但通常允許在這些替代模型之間存在更靈活的結(jié)構(gòu)。
Entropy(熵)
隨機(jī)數(shù)據(jù)源傳達(dá)的平均信息量。
Epoch(時期)
在深度學(xué)習(xí)模型訓(xùn)練場景中,完整訓(xùn)練數(shù)據(jù)集的一次訓(xùn)練循環(huán)。
F
Feature (Feature Selection, Feature Learning)(特征(特征選擇、特征學(xué)習(xí)))
用作模型輸入的變量。
Feature Learning(特征學(xué)習(xí))
旨在自動從原始數(shù)據(jù)中發(fā)現(xiàn)特征檢測或分類所需的表示的一組技術(shù)。
False Positive(誤報(bào))
由于結(jié)果在虛無假設(shè)原本不應(yīng)該存在的情況下拒絕虛無假設(shè)而導(dǎo)致的誤差。
False Negative(漏報(bào))
由于結(jié)果在虛無假設(shè)應(yīng)該存在的情況下未拒絕虛無假設(shè)而導(dǎo)致的誤差。
Feed-Forward (Neural) Networks(前饋(神經(jīng))網(wǎng)絡(luò))
一種人工神經(jīng)網(wǎng)絡(luò),其中神經(jīng)元之間的連接不會向后移動或形成循環(huán)。
F-Score(F?得分)
衡量模型準(zhǔn)確性的一個指標(biāo),它會考量準(zhǔn)確率和召回率來計(jì)算得分。更具體地說,F(xiàn) 得分是準(zhǔn)確率和召回率的調(diào)和平均值,該平均值的最大值為 1(完美的準(zhǔn)確率和召回率),最小值為 0。
G
Garbage In, Garbage Out(垃圾進(jìn)垃圾出)
一項(xiàng)原則,具體說的是:只要輸入數(shù)據(jù)存在缺陷,就會導(dǎo)致誤導(dǎo)性的結(jié)果并產(chǎn)生無意義的輸出,也就是“垃圾”。
General Data Protection Regulation (GDPR)(通用數(shù)據(jù)保護(hù)條例 (GDPR))
歐盟頒布的一部針對歐盟內(nèi)所有個體的數(shù)據(jù)保護(hù)和隱私法規(guī),旨在控制公民和居民對其個人數(shù)據(jù)的控制。
Genetic Algorithm(遺傳算法)
基于進(jìn)化論的一種啟發(fā)式搜索算法,進(jìn)化論反映了自然選擇的過程,在這個過程中,最能適應(yīng)環(huán)境的個體會被選出生產(chǎn)下一代。
Generative Adversarial Networks (GANs)(生成對抗網(wǎng)絡(luò) (GAN))
無監(jiān)督機(jī)器學(xué)習(xí)中使用的一種人工智能算法類別,作為零和游戲框架中相互競爭的兩個神經(jīng)網(wǎng)絡(luò)的組合予以實(shí)施。
Graphic Processing Unit (GPU)(圖形處理單元 (GPU))
一種專用的電子電路,它采用并行處理架構(gòu),旨在快速操作和更改內(nèi)存,以加速圖像渲染,從而使其可以同時執(zhí)行多個計(jì)算。
Ground Truth(事實(shí)真相)
通過直接觀察(而非推論)獲得的一條信息。
H
Human-in-the-Loop(人機(jī)協(xié)同)
人機(jī)協(xié)同 (HITL) 是人工智能的一個分支,它同時利用人類智能和機(jī)器智能來構(gòu)建機(jī)器學(xué)習(xí)模型。在傳統(tǒng)的“人機(jī)協(xié)同”方法中,人們會參與到一個良性循環(huán),在其中訓(xùn)練、調(diào)整和測試特定算法。
Hyperparameter (Hyperparameter Tuning)(超參數(shù)(超參數(shù)優(yōu)化))
模型外部的一種配置,其值無法從數(shù)據(jù)中估算出來,數(shù)據(jù)科學(xué)家會在模型訓(xùn)練過程中不斷對其進(jìn)行調(diào)整。
手動確定訓(xùn)練特定模型最佳配置的過程。I
ImageNet
一個龐大的視覺數(shù)據(jù)集,由 1400 萬個手工標(biāo)注圖像的 URL 組成,并以兩萬 (20,000) 個不同類別進(jìn)行組織,旨在用于視覺對象識別研究。
Image Recognition(圖像識別)
計(jì)算機(jī)視覺中用于確定圖像是否包含某些特定對象、特征或活動的問題。
Inference(推理)
通過將經(jīng)訓(xùn)練的模型運(yùn)用到新的未標(biāo)記實(shí)例來進(jìn)行預(yù)測的過程。
Information Retrieval(信息檢索)
計(jì)算機(jī)科學(xué)的一個領(lǐng)域,旨在研究在文檔中搜索信息、搜索文檔本身、搜索描述數(shù)據(jù)的元數(shù)據(jù)以及搜索文本、圖像或聲音數(shù)據(jù)庫的過程。
L
Layer (Hidden Layer)(層(隱藏層))
人工神經(jīng)網(wǎng)絡(luò)中的一系列神經(jīng)元,旨在處理一組輸入特征,或者從廣義上來說,處理這些神經(jīng)元的輸出。隱藏層:神經(jīng)元的一層,其輸出連接到其他神經(jīng)元的輸入,因此不能作為網(wǎng)絡(luò)輸出直接實(shí)現(xiàn)可視化。
Learning-to-Learn(元學(xué)習(xí))
機(jī)器學(xué)習(xí)領(lǐng)域的一個新方向,主要是研究算法如何通過分析自己的學(xué)習(xí)過程并對其加以改進(jìn)來改變其歸納方式。
Learning-to-Rank(排序?qū)W習(xí))
運(yùn)用機(jī)器學(xué)習(xí)構(gòu)建信息檢索系統(tǒng)的排名模型。
Learning Rate(學(xué)習(xí)率)
梯度下降算法在人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段的每次迭代中所用的標(biāo)量值,與梯度相乘得出結(jié)果。
Logit Function(Logit 函數(shù))
在數(shù)學(xué)中(尤其是在統(tǒng)計(jì)學(xué)中)使用的 S 型“邏輯”函數(shù)的逆函數(shù)。
Long Short-Term Memory Networks(長短期記憶網(wǎng)絡(luò))
遞歸神經(jīng)網(wǎng)絡(luò)的一種變體,可用作梯度消失問題的一種解決方案。
M
Machine Learning(機(jī)器學(xué)習(xí))
人工智能的一個子領(lǐng)域,通常使用統(tǒng)計(jì)技術(shù)來賦予計(jì)算機(jī)“學(xué)習(xí)”能力,即借助數(shù)據(jù)來逐步提高特定任務(wù)的性能,而無需進(jìn)行顯式編程。
Machine Learning Lifecycle Management(機(jī)器學(xué)習(xí)生命周期管理)
機(jī)器學(xué)習(xí)系統(tǒng)的 DevOps。
Machine Translation(機(jī)器翻譯)
計(jì)算語言學(xué)的一個子領(lǐng)域,主要是研究如何使用軟件將文本或語音從一種語言翻譯成另一種語言。
Model(模型)
模型是機(jī)器學(xué)習(xí)系統(tǒng)通過訓(xùn)練過程從訓(xùn)練數(shù)據(jù)中所學(xué)到內(nèi)容的抽象表示。
Monte Carlo(蒙特卡洛方法)
一種使用重復(fù)隨機(jī)采樣生成合成模擬數(shù)據(jù)的近似方法。
Multi-Modal Learning(多模式學(xué)習(xí))
機(jī)器學(xué)習(xí)的一個子領(lǐng)域,旨在將多模式信號合并到一起進(jìn)行解釋,并構(gòu)建模型來處理和關(guān)聯(lián)來自多種數(shù)據(jù)類型的信息。
Multi-Task Learning(多任務(wù)學(xué)習(xí))
機(jī)器學(xué)習(xí)的一個子領(lǐng)域,同時利用多個任務(wù)之間的異同來解決多個任務(wù)。
N
Naive Bayes(樸素貝葉斯)
基于貝葉斯定理并在特征之間具有很強(qiáng)的獨(dú)立性假設(shè)的一系列簡單概率分類器。
Named Entity Recognition(命名實(shí)體識別)
信息提取的一個子任務(wù),旨在將文本中的命名實(shí)體識別和分類為預(yù)定類別,例如名稱、位置、詞性等。
Natural Language Processing (NLP)(自然語言處理 )
人工智能領(lǐng)域之一,主要是研究計(jì)算機(jī)語言與人類語言之間的交互,尤其是如何處理和分析大量自然語言數(shù)據(jù)。
Neural Networks(神經(jīng)網(wǎng)絡(luò))
參見人工神經(jīng)網(wǎng)絡(luò)
Neuron(神經(jīng)元)
人工神經(jīng)網(wǎng)絡(luò)中的一個單元,用以處理多個輸入值,以生成單個輸出值。
Node(節(jié)點(diǎn))
參見神經(jīng)元
O
Optical Character Recognition(光學(xué)字符識別)
將打印、手寫或鍵入文本的圖像轉(zhuǎn)換為機(jī)器友好的文本格式。
Optimization(優(yōu)化)
從可用替代方案中(基于某些標(biāo)準(zhǔn))選擇最佳方案。
Overfitting(過度擬合)
模型在不知情的情況下識別出噪聲中的模式并假設(shè)這些模式代表了底層結(jié)構(gòu);模型的生成結(jié)果與特定數(shù)據(jù)集過于接近,因此無法很好地歸納到不可見的觀察結(jié)果。
P
Pattern Recognition(模式識別)
機(jī)器學(xué)習(xí)的領(lǐng)域之一,主要專注于數(shù)據(jù)模式的(監(jiān)督或無監(jiān)督)識別。
Pooling (Max Pooling)(輪詢(最大輪詢))
將卷積層生成的矩陣縮減為較小矩陣的過程。
Personally Identifiable Information(個人可識別信息)
可以單獨(dú)使用或與某些其他信息結(jié)合使用,以識別特定個人的任何信息。
Precision(準(zhǔn)確率)
正確的陽性結(jié)果數(shù)除以分類器返回的所有樣陽性結(jié)果數(shù)。
Prediction(預(yù)測)
帶有輸入實(shí)例的訓(xùn)練模型的推斷輸出。
Preprocessing(預(yù)處理)
將原始數(shù)據(jù)轉(zhuǎn)換為更易理解格式的過程。
Pre-trained Model(預(yù)訓(xùn)練模型)
通常已使用另一個數(shù)據(jù)集進(jìn)行了初步訓(xùn)練的模型或模型的組成部分。另請參見:轉(zhuǎn)移學(xué)習(xí)。
Principal Component Analysis(主組件分析)
使用正交變換將一組可能相關(guān)變量的觀測值轉(zhuǎn)換為一組線性不相關(guān)變量(稱為主組件)的過程。
Prior(先前技術(shù))
在考慮新證據(jù)之前,代表特定數(shù)量的先前存在信念的概率分布。
R
Random Forest(隨機(jī)森林)
一種集成學(xué)習(xí)方法,其工作原理是在訓(xùn)練時構(gòu)造大量決策樹并輸出每個單獨(dú)樹的結(jié)果的組合版本(例如均值或眾數(shù))。
Recall(召回率)
所有相關(guān)樣本中被正確分類為陽性的樣本數(shù)所占百分比。
Rectified Linear Unit(整流線性單元)
使用整流函數(shù)作為激活函數(shù)的單元。
Recurrent Neural Networks(遞歸神經(jīng)網(wǎng)絡(luò))
人工神經(jīng)網(wǎng)絡(luò)的類別之一,其中神經(jīng)元之間的連接沿著序列形成有向圖,使其表現(xiàn)出時序動態(tài)時間行為并使用其內(nèi)部狀態(tài)(內(nèi)存)來處理順序信號。
Regression (Linear Regression, Logistic Regression)(回歸(線性回歸、邏輯回歸))
一組用于估計(jì)變量間關(guān)系的統(tǒng)計(jì)過程。
線性回歸:一種簡單的回歸類型,以特征的線性組合作為輸入,并輸出連續(xù)值。邏輯回歸:一種回歸類型,通過將 S 型函數(shù)運(yùn)用到線性預(yù)測對分類問題中每個可能的離散標(biāo)簽值生成概率。Regressor(回歸器)
一種特征,即用作模型輸入的解釋性變量。
Regularization(正則化)
引入額外信息以防過度擬合的過程。
Reinforcement Learning(強(qiáng)化學(xué)習(xí))
機(jī)器學(xué)習(xí)的子領(lǐng)域之一,主要是受人類行為的啟發(fā),研究代理應(yīng)如何在給定的環(huán)境中采取行動,以實(shí)現(xiàn)累積獎勵概念的最大化。
Reproducibility (crisis of)(可再現(xiàn)性(危機(jī)))
科學(xué)領(lǐng)域的一種方法論危機(jī),即學(xué)者們發(fā)現(xiàn):許多科學(xué)研究的結(jié)果很難或不可能在獨(dú)立研究人員或最初研究人員自己的后續(xù)研究中復(fù)制或再現(xiàn)。
Restricted Boltzmann Machines(受限玻爾茲曼機(jī))
受限玻爾茲曼機(jī) (RBM) 是一種生成型隨機(jī)人工神經(jīng)網(wǎng)絡(luò),可以學(xué)習(xí)其輸入集上的概率分布。
S
Semi-Supervised Learning(半監(jiān)督學(xué)習(xí))
監(jiān)督學(xué)習(xí)技術(shù)的一個類別,它還可以利用可用的未標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,通常結(jié)合使用少量的已標(biāo)記實(shí)例與大量的未標(biāo)記行。另請參見監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。情緒分析
使用自然語言處理、文本分析、計(jì)算語言學(xué)和生物特征識別等功能系統(tǒng)地識別、提取、量化和研究受影響的狀態(tài)和主觀信息。
Speech Recognition(語音識別)
參見自動語音識別
Statistical Distribution(統(tǒng)計(jì)分布)
在統(tǒng)計(jì)學(xué)中,經(jīng)驗(yàn)分布函數(shù)是指與樣本的經(jīng)驗(yàn)指標(biāo)相關(guān)的分布函數(shù)。該累積分布函數(shù)是一個階躍函數(shù),在 n 個數(shù)據(jù)點(diǎn)中的每個數(shù)據(jù)點(diǎn)上都跳了 1/n 次。它在測量變量的任何指定值處的值都是小于或等于對應(yīng)指定值的測量變量觀察值的分?jǐn)?shù)。
Supervised Learning(監(jiān)督學(xué)習(xí))
一種機(jī)器學(xué)習(xí)任務(wù),主要是指基于示例輸入/輸出對學(xué)習(xí)將輸入映射到輸出的函數(shù)。
Support Vector Machines (SVM)(支持向量機(jī)(SVM))
由一個單獨(dú)的超平面正式定義的一種判別分類器類別,對于每個提供的帶標(biāo)記訓(xùn)練數(shù)據(jù)點(diǎn),算法都會輸出一個對新示例進(jìn)行分類的最佳超平面。
Synthetic Data(合成數(shù)據(jù))
當(dāng)無法收集足夠的實(shí)際數(shù)據(jù)或原始數(shù)據(jù)不滿足特定要求時人工生成的數(shù)據(jù)。
T
TensorFlow
一種開源代碼庫,在機(jī)器學(xué)習(xí)社區(qū)中非常流行,用于跨一系列任務(wù)的數(shù)據(jù)流編程。它是一個符號數(shù)學(xué)庫,還可用于神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)應(yīng)用。
Time Series (Time Series Data)(時序(時序數(shù)據(jù)))
在特定時間記錄并根據(jù)它們的出現(xiàn)順序進(jìn)行索引處理的一系列數(shù)據(jù)點(diǎn)。
Testing (Testing Data)(測試(測試數(shù)據(jù)))
測試是指在監(jiān)督機(jī)器學(xué)習(xí)情境中,使用保留數(shù)據(jù)評估模型最終性能的過程。
測試數(shù)據(jù):數(shù)據(jù)科學(xué)家針對模型開發(fā)的測試階段而選擇的可用數(shù)據(jù)的子集。
Topic Modeling(主題建模)
無監(jiān)督機(jī)器學(xué)習(xí)算法的一種類別,它使用聚類功能在文本數(shù)據(jù)中查找隱藏的結(jié)構(gòu)并作為一個主題對其進(jìn)行解釋。
Training Data(訓(xùn)練數(shù)據(jù))
在監(jiān)督機(jī)器學(xué)習(xí)情境中,構(gòu)建可從數(shù)據(jù)中學(xué)習(xí)并根據(jù)數(shù)據(jù)進(jìn)行預(yù)測的算法。
訓(xùn)練數(shù)據(jù):數(shù)據(jù)科學(xué)家針對模型開發(fā)的訓(xùn)練階段而選擇的可用數(shù)據(jù)的子集。
Transfer Learning(轉(zhuǎn)移學(xué)習(xí))
機(jī)器學(xué)習(xí)的一個領(lǐng)域,其重點(diǎn)在于使用獲得的知識來解決特定問題,并將此類知識運(yùn)用到其他相關(guān)問題。
Turing Test(圖靈測試)
由艾倫·圖靈開發(fā)的一種測試,用于評估機(jī)器表現(xiàn)出與人類相同的智能行為的能力。該測試包括人機(jī)聊天。如果在測試房間之外見證對話的評估人員不能可靠地區(qū)分人類與受測機(jī)器,則可以認(rèn)定該機(jī)器已經(jīng)通過了圖靈測試。
Type I Error(I 類誤差)
參見誤報(bào)
Type II Error(II 類誤差)
參見漏報(bào)
U
Uncertainty(不確定性)
可能包含真實(shí)值的一系列值。
Underfitting(擬合不足)
機(jī)器學(xué)習(xí)算法無法正確捕獲數(shù)據(jù)的底層結(jié)構(gòu),通常是因?yàn)槟P筒粔蚋呒壔虿贿m用于當(dāng)前任務(wù);與過度擬合的涵義相反。
Unsupervised Learning(無監(jiān)督學(xué)習(xí))
機(jī)器學(xué)習(xí)的領(lǐng)域之一,包括對用于描述未標(biāo)記數(shù)據(jù)結(jié)構(gòu)的函數(shù)進(jìn)行推斷。
V
Validation(驗(yàn)證)
使用保留數(shù)據(jù)評估訓(xùn)練模型性能的過程;與模型性能最終評估的測試階段相反,驗(yàn)證階段旨在確定是否需要對模型進(jìn)行任何迭代修改。
Vanishing/Exploding Gradients(消失/爆炸梯度)
數(shù)據(jù)科學(xué)家在采用基于梯度的學(xué)習(xí)方法和反向傳播對人工神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時,由于神經(jīng)網(wǎng)絡(luò)中接收與誤差函數(shù)偏導(dǎo)數(shù)成比例的更新的權(quán)重(考慮到每個訓(xùn)練迭代中的當(dāng)前權(quán)重)而面臨的可怕困難和主要障礙。
Variance(方差)
由于對訓(xùn)練集中小波動的敏感性而引起的誤差,該誤差按照針對隨機(jī)變量與其平均值的平方偏差的期望值進(jìn)行計(jì)算。