HanLP.com在保持HanLP开源版功能性和专业性的前提下,提供了更易用和更经济的cloud-API服务,
助力开发人员提升开发效率。

多语言分词

将一段文本拆分为一系列单词,拼接后等于原文本。并使其具有语义合理性和完整的词汇序列。为更好更精确的挖掘文本价值提供基础支撑。2.1接口支持包括简繁中英日俄法德在内的104种语言。

产品优势

性能高效
算法最全,速度最快(第三方评测),达到史上最高准确率
语料时新
采用全球范围内已知最大的亿字级别的中文分词词库
多语言支持
支持包括简繁中英日法德在内104种语言

模型介绍

  • CRF模型分词
  • 索引分词
  • N-最短路径分词
  • NLP分词
  • 极速词典分词
  • 标准分词
  • 深度学习分词
  • 自定义词典分词

CRF模型分词

目前非深度学习方法中最佳的分词效果,対歧义词和未知词的识别效果更优

评测结果

模型
P
R
F1
ROOV
RIV
CRF分词 96.86 96.64 96.75 71.54 97.33
索引分词 暂无 暂无 暂无 暂无 暂无
N-最短路径分词 87.31 85.92 86.61 53.23 86.81
NLP分词 91.87 90.74 91.30 38.78 92.15
极速词典分词 91.73 95.69 93.67 2.47 98.22
标准分词 85.36 87.72 86.52 39.20 98.04
深度学习分词 97.50
自定义词典分词 暂无 暂无 暂无 暂无 暂无

应用场景

  • 文本检索
  • 自动摘要
  • 歧义识别
  • 新词发现
  • 语音指令解析
  • 海量数据整理

数据文本检索

结合词性标注,帮助各大企业对海量信息的检索,提高文本处理的精度与速度

智慧教育辅助

通过分词断句,用精炼的话来概括整篇文章的大意,可用作于新闻摘要、智慧教育等场景

文本纠错

对文本种的交集性词语进行歧义识别,可用作于文本纠错、语音转换等场景

实时热点追踪

对社交网络和爆炸新闻中制造与流行的新词进行发现,实现更精准的文本语义分析,可用于舆情分析、热点追踪等场景

智能家居语音助手

结合词性标注,让机器更好的理解指令语义,快速做出对应响应,可用作于语音助手、智能家居、智慧硬件等场景

企业信息资产

针对急剧膨胀的海量信息,可助力企业更好的整理信息资源,对后续的检索、分类下游任务提升效率,使信息变为资产

生成接口

API地址
参数说明
功能演示
    • 接口示例

    • 接口地址:/segment/crf
    • token:2145fa74hf61jf9a8vj417a9341123sd
    • 建立时间:2020-01-01 00:00:00
    • 备注:

    停用 启用 删除
    • 接口地址:{{item.url}}
    • token:{{item.token}}
    • 建立时间:{{item.createDate}}
    • 备注:
      保存取消

    已启用 已停用 停用 启用 删除
请求方式

POST

请求参数
参数名称 参数说明 请求类型 是否必须 数据类型
text 需要分词的文本, 支持中、英、日等多种语言 Body:form-data true string
token 使用API时系统需要验证的身份信息 Headers true string

下载范例程序
API地址
参数说明
功能演示
    • 接口示例

    • 接口地址:/segment/index
    • token:2145fa74hf61jf9a8vj417a9341123sd
    • 建立时间:2020-01-01 00:00:00
    • 备注:

    停用 启用 删除
    • 接口地址:{{item.url}}
    • token:{{item.token}}
    • 建立时间:{{item.createDate}}
    • 备注:
      保存取消

    已启用 已停用 停用 启用 删除
请求方式

POST

请求参数
参数名称 参数说明 请求类型 是否必须 数据类型
text 需要分词的文本, 支持中、英、日等多种语言 Body:form-data true string
token 使用API时系统需要验证的身份信息 Headers true string

下载范例程序
API地址
参数说明
功能演示
    • 接口示例

    • 接口地址:/segment/nShort
    • token:2145fa74hf61jf9a8vj417a9341123sd
    • 建立时间:2020-01-01 00:00:00
    • 备注:

    停用 启用 删除
    • 接口地址:{{item.url}}
    • token:{{item.token}}
    • 建立时间:{{item.createDate}}
    • 备注:
      保存取消

    已启用 已停用 停用 启用 删除
请求方式

POST

请求参数
参数名称 参数说明 请求类型 是否必须 数据类型
text 需要分词的文本, 支持中、英、日等多种语言 Body:form-data true string
token 使用API时系统需要验证的身份信息 Headers true string

下载范例程序
API地址
参数说明
功能演示
    • 接口示例

    • 接口地址:/segment/nlp
    • token:2145fa74hf61jf9a8vj417a9341123sd
    • 建立时间:2020-01-01 00:00:00
    • 备注:

    停用 启用 删除
    • 接口地址:{{item.url}}
    • token:{{item.token}}
    • 建立时间:{{item.createDate}}
    • 备注:
      保存取消

    已启用 已停用 停用 启用 删除
请求方式

POST

请求参数
参数名称 参数说明 请求类型 是否必须 数据类型
text 需要分词的文本, 支持中、英、日等多种语言 Body:form-data true string
token 使用API时系统需要验证的身份信息 Headers true string

下载范例程序
API地址
参数说明
功能演示
    • 接口示例

    • 接口地址:/segment/speed
    • token:2145fa74hf61jf9a8vj417a9341123sd
    • 建立时间:2020-01-01 00:00:00
    • 备注:

    停用 启用 删除
    • 接口地址:{{item.url}}
    • token:{{item.token}}
    • 建立时间:{{item.createDate}}
    • 备注:
      保存取消

    已启用 已停用 停用 启用 删除
请求方式

POST

请求参数
参数名称 参数说明 请求类型 是否必须 数据类型
text 需要分词的文本, 支持中、英、日等多种语言 Body:form-data true string
token 使用API时系统需要验证的身份信息 Headers true string

下载范例程序
API地址
参数说明
功能演示
    • 接口示例

    • 接口地址:/segment/standard
    • token:2145fa74hf61jf9a8vj417a9341123sd
    • 建立时间:2020-01-01 00:00:00
    • 备注:

    停用 启用 删除
    • 接口地址:{{item.url}}
    • token:{{item.token}}
    • 建立时间:{{item.createDate}}
    • 备注:
      保存取消

    已启用 已停用 停用 启用 删除
请求方式

POST

请求参数
参数名称 参数说明 请求类型 是否必须 数据类型
text 需要分词的文本, 支持中、英、日等多种语言 Body:form-data true string
token 使用API时系统需要验证的身份信息 Headers true string

下载范例程序
API地址
参数说明
功能演示
    • 接口示例

    • 接口地址:/segment/chinese
    • token:2145fa74hf61jf9a8vj417a9341123sd
    • 建立时间:2020-01-01 00:00:00
    • 备注:

    停用 启用 删除
    • 接口地址:{{item.url}}
    • token:{{item.token}}
    • 建立时间:{{item.createDate}}
    • 备注:
      保存取消

    已启用 已停用 停用 启用 删除
请求方式

POST

请求参数
参数名称 参数说明 请求类型 是否必须 数据类型
text 需要分词的文本, 支持中、英、日等多种语言 Body:form-data true string
token 使用API时系统需要验证的身份信息 Headers true string

下载范例程序
API地址
参数说明
功能演示
    选择分词模型
    CRF模型分词 索引分词 N-最短路径分词 NLP分词 极速词典分词 标准分词
    • 接口示例

    • 接口地址:/segment/custom
    • token:2145fa74hf61jf9a8vj417a9341123sd
    • 建立时间:2020-01-01 00:00:00
    • 备注:
    • 词典管理词典示例

    停用 启用 删除
    • 接口地址:{{item.url}}
    • token:{{item.token}}
    • 建立时间:{{item.createDate}}
    • 备注:
      保存取消

    已启用 已停用 停用 启用 删除
请求方式

POST

请求参数
参数名称 参数说明 请求类型 是否必须 数据类型
text 需要分词的文本, 支持中、英、日等多种语言 Body:form-data true string
token 使用API时系统需要验证的身份信息 Headers true string

下载范例程序

{{item.dictionaryName}}

生成接口 取 消

使用教程

常见问题