如何做好電影的文本分析?
單位通常稱為文本的特征或特征項。特征項必須具備壹定的特性:1)特征項要能夠確實標識文本內容;2)特征項具有將目標文本與其他文本相區分的能力;3)特征項的個數不能太多;4)特征項分離要比較容易實現。在中文文本中可以采用字、詞或短語作為表示文本的特征項。相比較而言,詞比字具有更強的表達能力,而詞和短語相比,詞的切分難度比短語的切分難度小得多。因此,目前大多數中文文本分類系統都采用詞作為特征項,稱作特征詞。這些特征詞作為文檔的中間表示形式,用來實現文檔與文檔、文檔與用戶目標之間的相似度計算 。如果把所有的詞都作為特征項,那麽特征向量的維數將過於巨大,從而導致計算量太大,在這樣的情況下,要完成文本分類幾乎是不可能的。特征抽取的主要功能是在不損傷文本核心信息的情況下盡量減少要處理的單詞數,以此來降低向量空間維數,從而簡化計算,提高文本處理的速度和效率。文本特征選擇對文本內容的過濾和分類、聚類處理、自動摘要以及用戶興趣模式發現、知識發現等有關方面的研究都有非常重要的影響。通常根據某個特征評估函數計算各個特征的評分值,然後按評分值對這些特征進行排序,選取若幹個評分值最高的作為特征詞,這就是特征抽取(Feature Selection)。 特征選取的方式常見的有4種: (I)用映射或變換的方法把原始特征變換為較少的新特征; (2)從原始特征中挑選出壹些最具代表性的特征; (3)根據專家的知識挑選最有影響的特征; (4)用數學的方法進行選取,找出最具分類信息的特征,這種方法是壹種比較精確的方法,人為因素的幹擾較少,尤其適合於文本自動分類挖掘系統的應用。 隨著網絡知識組織、人工智能等學科的發展,文本特征提取將向著數字化、智能化、語義化的方向深入發展,在社會知識管理方面發揮更大的作用。