产品中心 > NLP自然语言处理服务
案例封面
NLP自然语言处理服务
关键字: 国产化 分词 文本相似 自然语言 NLP 检索 文本检索
自然语言处理服务组件(以下简称:NLP组件)采用了WebService、HTTP集成、Dubbo&DubboX、ICE集成、Spring集成、分布式部署、微服务集成等多种方式对外提供开放接口
创新技术
产品详情

自然语言处理服务组件:

自然语言处理服务组件
组件简介
自然语言处理服务组件(以下简称:NLP组件)采用了WebService、HTTP集成、Dubbo&DubboX、ICE集成、Spring集成、分布式部署、微服务集成等多种方式对外提供开放接口,能够实现私有云独立部署,具有完全安全可靠的开源技术和知识产权,能够应用于军品、民品、政企项目,能够适配各种国产化容器(金蝶、中创、东方通)和各种国产化数据库(达梦、神通、金仓)以及商用数据库(Oracle、MySQL、SQLServer、Postgresql),本组件在多个军品项目中得以应用。
功能模块
功能描述
集成模式
分词服务
skycto的分词服务能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词,以及助词(的,啊,地,吗等)剔除,以及词频统计、词性标注、同义标注、反义标注、拼音标注等功能,能够实现无意义词剔除,用户可以根据业务术语自由分词,能灵活指定多种分词算法,专业术语配置与扩展等,具有一定的分词歧义排除能力,具有>150万字/秒(3000KB/S)的高速处理能力(普通服务器)。
分词服务可实现独立部署、微服务部署、SOA部署、内嵌入部署等多种方式。并且能够为C++和C#等语言提供方便集成的服务。
能够适应国产化开发要求,具有安全可控技术要求。
分词服务具备分布式计算能力。
WebService、HTTP集成、Dubbo&DubboX、ICE集成、Spring集成、分布式部署、微服务集成
文本相似度服务
skycto的文本相似度计算服务支持超过十种文本相似度匹配算法,包括Jaro–Winkler距离(Jaro–Winkler Distance),Jaro的扩展,Sørensen–Dice系数(Sørensen–Dice coefficient),Jaro距离(Jaro Distance),曼哈顿距离(Manhattan Distance),欧几里得距离(Euclidean Distance),Jaccard相似性系数(Jaccard similarity coefficient),SimHash + 汉明距离,编辑距离,简单共有词,余弦相似度以及根据特定业务场景模型实现的自定义相似度匹配算法。
文本相似度服务支持灵活的动态配置,对任意的数据库表进行相似度匹配检索。并且通过索引缓存技术,实现了高性能快速检索,能够处理数据库海量数据写入缓存索引系统,然后再根据缓存索引对海量数据进行相似度匹配。
实现文本相似度1:1相似度计算,1:N相似度计算。
实现数据库表字段数据相似度匹配计算、数据库表字段数据联合(合并)相似度计算。
WebService、HTTP集成、Dubbo&DubboX、ICE集成、Spring集成、分布式部署、微服务集成

 
 
QQ在线咨询
QQ
542672941
联系电话
028-83410634