首頁(yè) > 期刊 > 自然科學(xué)與工程技術(shù) > 信息科技 > 電子信息科學(xué)綜合 > 計(jì)算機(jī)科學(xué) > 多義詞語(yǔ)義拓?fù)浼坝斜O(jiān)督的詞義消歧研究 【正文】
摘要:多義詞語(yǔ)義是漢語(yǔ)國(guó)際教育和HSK考試的重點(diǎn)和難點(diǎn)。詞義消歧研究致力于確定多義詞在給定上下文中的具體含義,在人機(jī)交互、機(jī)器翻譯、作文自動(dòng)評(píng)分等領(lǐng)域被廣泛應(yīng)用。然而,現(xiàn)有的詞義消歧方法存在準(zhǔn)確率較低、語(yǔ)料庫(kù)匱乏、特征簡(jiǎn)單等弊端。針對(duì)漢語(yǔ)國(guó)際教育的相關(guān)語(yǔ)料庫(kù)和評(píng)價(jià)系統(tǒng),基于深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)漢語(yǔ)多義詞詞義消歧的分類模型是當(dāng)前的研究熱點(diǎn),同時(shí)也是實(shí)現(xiàn)HSK作文自動(dòng)評(píng)分的重要技術(shù)保障。已有研究假定多個(gè)義項(xiàng)相互獨(dú)立,缺乏對(duì)多義詞義項(xiàng)演變關(guān)系的重視,對(duì)此文中首先對(duì)典型的漢語(yǔ)多義詞進(jìn)行語(yǔ)義研究,以區(qū)分基礎(chǔ)義項(xiàng)和固定搭配義項(xiàng)來(lái)構(gòu)建語(yǔ)義拓?fù)鋱D,用于指導(dǎo)分類模型的訓(xùn)練。在建立多義詞語(yǔ)義拓?fù)鋱D的基礎(chǔ)上,通過對(duì)漢語(yǔ)語(yǔ)料庫(kù)的爬蟲,獲取典型多義詞的語(yǔ)料樣本,進(jìn)而構(gòu)建有監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)模型,包括RNN,LSTM和GRU。通過對(duì)爬蟲所獲樣本的分析,選取了30字長(zhǎng)和60字長(zhǎng),分別設(shè)計(jì)單向和雙向6種神經(jīng)網(wǎng)絡(luò),通過多次訓(xùn)練對(duì)模型參數(shù)進(jìn)行優(yōu)化,最終獲得詞義消歧分類模型。實(shí)驗(yàn)選取“意思”多義詞作為代表,開展多義詞在給定上下文的詞義消歧實(shí)驗(yàn)。結(jié)果表明,基于RNN,LSTM網(wǎng)絡(luò)和GRU的深度學(xué)習(xí)模型的平均準(zhǔn)確率均超過75%,其中各模型的最大準(zhǔn)確率均超過94%;各模型的ROC曲線下面積(Area Under Curve,AUC)均超過0.966,表明其對(duì)樣本類不均衡性具有較好的處理效果;單向和雙向RNN模型在不同字長(zhǎng)條件下均取得最佳學(xué)習(xí)效果。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社
主管單位:國(guó)家科學(xué)技術(shù)部;主辦單位:國(guó)家科技部西南信息中心