HanLP.com在保持HanLP开源版功能性和专业性的前提下,提供了更易用和更经济的cloud-API服务,
助力开发人员提升开发效率。

新词发现

从文本中挖掘出新词、新概念,可以用于专业词典的编撰,也可以进一步编辑标注,导入分词词典中,提高分词系统的准确度,并适应新的语言变化

产品优势

功能全面
通过无监督发掘一些语言特征,来判断语料库中的新词
算法高效
提高领域文本在信息检索、信息抽取、文本分类聚类等应用中的精度
可自定义化
可进一步编辑标注,导入分词词典中,提高分词系统的准确度

模型介绍

新词发现

该方法在文本分类聚类的特征选取,以及知识图谱中识别实体等领域应用广泛。

了解更多

应用场景

  • 用户画像
  • 信息抽取
  • 对话问答
  • 数据挖掘
  • 内容审核

千人千面分析

以第三方数据为研究基础,以完善企业及各人画像。助力企业潜在客户获取,风险管控,辅助发现不良资产、企业风险
可作用于金融风险管理和反欺诈、ToB商户赋能、辅助信贷审核等应用场景

电商客服咨询

接受用户用自然语言提出的问题,并返回尽可能简洁、准确的答案,可极大提高用户检索信息的效率
可作用于语音助手(智慧硬件)、百科问答、闲聊机器人等应用场景

简历精准匹配

从非结构化或者半结构化的文本中抽取需要的信息,结合语义关系让计算机具备文字阅读能力,自动处理海量文本数据,为企业降本增效
可作用于合同文档解析、客户意见分析等应用场景

数据决策辅助

针对海量数据中特定词性的词语进行挖掘,对下游任务提供支撑服务
可作用于决策辅助、舆情分析、用户反馈等场景

APP/社区评论留言

基于海量的样本数据,协同智慧策略定制,高效过滤色情、广告、涉政、暴恐等多类垃圾文字及敏感词,违禁变种
可作用于即时通讯违规传播、虚假商业推广反制、用户黑白名单管理等应用场景

生成接口

新词发现

API地址
参数说明
    • 接口示例

    • 接口地址:/newWordDiscover/extract
    • token:2145fa74hf61jf9a8vj417a9341123sd
    • 建立时间:2020-01-01 00:00:00
    • 备注:

    停用 启用 删除
    • 接口地址:{{item.url}}
    • token:{{item.token}}
    • 建立时间:{{item.createDate}}
    • 备注:
      保存取消

    已启用 已停用 停用 启用 删除
请求方式

POST

请求参数
参数名称 参数说明 请求类型 是否必须 数据类型
file 用户需要调用或上传的语料库文件 Body:form-data true file
size 需要发现的新词数量 Body:form-data true string
token 使用API时系统需要验证的身份信息 Headers true string

下载范例程序

使用教程

常见问题