用于实时识别短文本类别信息的方法、装置及计算机设备
2019-11-22

用于实时识别短文本类别信息的方法、装置及计算机设备

一种计算机实现的用于实时识别短文本类别信息的方法、装置及计算机设备。本发明通过获取待分类的短文本信息;将所述待分类短文本信息与已分类信息单元库中的信息单元进行匹配,以获取能够成功匹配的已分类信息单元及其对应的单元相关信息;并基于第一预定规则,根据该已分类信息单元及其对应的单元相关信息,获得所述待分类短文本信息的类别信息。与现有技术相比,本发明具有以下优点:1)本发明能够达到较佳的召回率;2)由于待分类短文本信息的确定主要通过能够成功匹配的信息单元及其相关信息来确定,因此,其处理速度快,每秒能够达到识别上万个短文本信息类别的速度,完全能够满足线上的实时识别需求。

14 作为本发明的优选方案之一,短文本处理装置根据历史短文本信息分类记录,来调整所确定的短文本信息的类别信息。其中,该历史短文本信息分类记录,可包含在所述已分类短文本信息库中,或包含在其他库中。

需要说明的是,一个待分类短文本信息可成功匹配多个信息单元,例如,短文本信息“dnf游戏下载”可成功匹配“dnf”、“游戏”、“下载”三个信息单元等。

例如,若当前所确定的短文本信息类别与多次历史短文本信息分类记录中的类别相同,则保留当前所确定的短文本信息类别。

判断为该类别,并采用;来计算该待分类信息单元的特征权值;若不满足上述条件,则

2)提取基本粒度及其组合作为信息单元;

SC

需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何判断待分类短文本信息与信息单元是否成功匹配的方式,均应包含在本发明的范围内。

在步骤S44中,短文本处理装置根据已确定类别的信息单元,来建立或更新所述已分类信息单元库。

接着,在步骤S2中,短文本处理装置将所述待分类短文本信息与已分类信息单元库中的信息单元进行匹配,以获取能够成功匹配的一个或多个已分类信息单元及其所对应的单元相关信息。其中,所述已分类信息单元库中包括已分类的信息单元及其对应的单元相关信息,该已分类信息单元库可包含在所述计算机设备中,或与所述计算机设备物理分离但通信连接。

具体地,短文本处理装置根据历史短文本信息分类记录,来判断是否需要更改当前所确定的短文本信息类别。

分类装置3基于第一预定规则,根据所述能够成功匹配的一个或多个已分类信息单元及其对应的单元相关信息,获得所述待分类短文本信息的类别信息。其中,所述类别信息包括但不限于:短文本信息的类别、短文本信息类别确定的时间等。