中文 MNIST 手寫漢字數(shù)字識別

今天是大年初一,跨象乘云祝各位粉絲在新的一年福愛 (Ai) 盈盈,虎年虎虎聲威!籍此新春之際,跨象乘云帶來一份中文 MNIST 手寫漢字數(shù)字數(shù)據(jù)集并附上相關(guān)代碼,通過知識微店開源發(fā)布。

自從 MNIST 手寫數(shù)字識別數(shù)據(jù)集發(fā)布以來,已成為機器學(xué)習(xí)的基線評估標(biāo)準(zhǔn)數(shù)據(jù)集。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,各種新模型均能在原版 MNIST 數(shù)據(jù)集上獲得優(yōu)異的表現(xiàn),因此 原版 MNIST 逐步失去了挑戰(zhàn)性。正因如此,在 MNIST 的啟發(fā)下,逐步出現(xiàn)了更多的變種,譬如:我們此前在多個視頻中采用的?Fashion MNIST 時尚衣物數(shù)據(jù)集。



在本次實驗中,喜迎農(nóng)歷新年,我們將采用一份由紐卡斯?fàn)柎髮W(xué)發(fā)布的中文手寫數(shù)字數(shù)據(jù)集,通過神經(jīng)網(wǎng)絡(luò)實現(xiàn)識別。本數(shù)據(jù)集共包含 15,000 張 64x64 像素中文手寫數(shù)字圖像樣本。由 100 名志愿者手寫,每個志愿者提供十個數(shù)字樣本,每個樣本包含完整的十五個漢字數(shù)字。
我們首先加載庫和數(shù)據(jù),然后,繼續(xù)探索性數(shù)據(jù)分析 (EDA)。隨后,進行特征工程和創(chuàng)建模型等樹預(yù)處理工作,并且將數(shù)據(jù)集分為訓(xùn)練集、驗證集和測試集。之后,通過 Keras 使用 Tensorflow 運行模型,并使用 Dropouts,可變學(xué)習(xí)速度 ( LearningRateScheduler ) 和基于驗證集準(zhǔn)確率 ( val_accuracy ) 的的早停策略。最后,利用最優(yōu)模型對測試集進行預(yù)測。用獲得的最佳模型在測試集上達到了 97% 的預(yù)測準(zhǔn)確率。

個人用戶請通過微信搜索【跨象乘云】公眾號(kxcy_ai)或掃描下方二維碼,關(guān)注后發(fā)送關(guān)鍵字【220207】,免費獲取視頻內(nèi)代碼與數(shù)據(jù)集??缦蟪嗽? 原創(chuàng)實驗演示視頻內(nèi)全部代碼、數(shù)據(jù)集僅授權(quán)予個人用戶學(xué)習(xí)與實驗使用。禁止用于二次銷售、分發(fā)傳播、課堂教學(xué)及培訓(xùn)用途。校企用戶采購請通過【了解我們】->【商務(wù)合作】聯(lián)系。

