npm package discovery and stats viewer.

Discover Tips

  • General search

    [free text search, go nuts!]

  • Package details

    pkg:[package-name]

  • User packages

    @[username]

Sponsor

Optimize Toolset

I’ve always been into building performant and accessible sites, but lately I’ve been taking it extremely seriously. So much so that I’ve been building a tool to help me optimize and monitor the sites that I build to make sure that I’m making an attempt to offer the best experience to those who visit them. If you’re into performant, accessible and SEO friendly sites, you might like it too! You can check it out at Optimize Toolset.

About

Hi, 👋, I’m Ryan Hefner  and I built this site for me, and you! The goal of this site was to provide an easy way for me to check the stats on my npm packages, both for prioritizing issues and updates, and to give me a little kick in the pants to keep up on stuff.

As I was building it, I realized that I was actually using the tool to build the tool, and figured I might as well put this out there and hopefully others will find it to be a fast and useful way to search and browse npm packages as I have.

If you’re interested in other things I’m working on, follow me on Twitter or check out the open source projects I’ve been publishing on GitHub.

I am also working on a Twitter bot for this site to tweet the most popular, newest, random packages from npm. Please follow that account now and it will start sending out packages soon–ish.

Open Software & Tools

This site wouldn’t be possible without the immense generosity and tireless efforts from the people who make contributions to the world and share their work via open source initiatives. Thank you 🙏

© 2024 – Pkg Stats / Ryan Hefner

hanlp-api

v1.0.8

Published

HanLP for nodejs

Downloads

41

Readme


title: 自然语言处理API服务 header-includes:

Docker Pulls Docker Stars Docker Layers

  • 支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)

  • Powered by HanLP

About me

Hain Wang, Software Developer, Thinker and Doer.

TL; DR

  1. 下载 Postman

  2. 下载 hanlp-api.postman_collection文件

  3. 打开 Postman 应用程序 导入 hanlp-api.postman_collection

API

tokenizer 中文分词

POST /tokenizer HTTP/1.1
Host: nlp.chatbot.io
Content-Type: application/json
BODY:
{
	"type": "nlp",
	"content": "刘德华和张学友创作了很多流行歌曲"
}

RESPONSE:
{
  "status": "success",
  "data": [
    {
      "word": "刘德华",
      "nature": "nr",
      "offset": 0
    },
    {
      "word": "和",
      "nature": "cc",
      "offset": 0
    },
    {
      "word": "张学友",
      "nature": "nr",
      "offset": 0
    },
    {
      "word": "创作",
      "nature": "v",
      "offset": 0
    },
    {
      "word": "了",
      "nature": "ule",
      "offset": 0
    },
    {
      "word": "很多",
      "nature": "m",
      "offset": 0
    },
    {
      "word": "流行歌曲",
      "nature": "n",
      "offset": 0
    }
  ]
}

| type | description | | --- | --- | | nlp | NLP分词,NLP分词NLPTokenizer会执行全部命名实体识别和词性标注。 | | crf | CRF分词,CRF对新词有很好的识别能力,但是无法利用自定义词典。 | | nostopword | 去除停用词分词 | | index | 索引分词,索引分词IndexTokenizer是面向搜索引擎的分词器,能够对长词全切分,另外通过term.offset可以获取单词在文本中的偏移量。| | short | 最短路分词,N最短路分词器NShortSegment比最短路分词器慢,但是效果稍微好一些,对命名实体识别能力更强。一般场景下最短路分词的精度已经足够,而且速度比N最短路分词器快几倍,请酌情选择。 | | nshort | N-最短路分词 | | speed | 极速词典分词,极速分词是词典最长分词,速度极其快,精度一般。 | | standard | 标准分词 |

  • 返回值

| key | description | | --- | --- | | nature | 词性,词性标记规范 | | offset | 单词在文本中的偏移量 |

keyword 关键词提取

内部采用TextRankKeyword实现,用户可以直接调用,算法详解 《TextRank算法提取关键词的Java实现》

POST /keyword HTTP/1.1
Host: nlp.chatbot.io
Content-Type: application/json
BODY:
{
	"num": 2,
	"content": "刘德华和张学友创作了很多流行歌曲"
}

RESPONSE:
{
  "status": "success",
  "data": [
    "创作",
    "张学友",
    "流行歌曲"
  ]
}

summary 自动摘要

内部采用TextRankSentence实现,用户可以直接调用,算法详解 《TextRank算法自动摘要的Java实现》

POST /summary HTTP/1.1
Host: nlp.chatbot.io
Content-Type: application/json
BODY:
{
	"num": 2,
	"content": "华尔街向来都是资本主义至上。但理查德·克雷布认为,华尔街还可以是一个友好合作的地方。他在旧金山创立的对冲基金Numerai依靠人工智能算法来处理所有的交易。但这位现年29岁的南非数学家并不是依靠一己之力开发出这些算法的。相反,他的基金从成千上万名匿名数据科学家那里众包这些算法,那些科学家通过打造最成功的交易模型来争夺比特币奖励。而那还不是最奇怪的部分。"
}

RESPONSE:
{
  "status": "success",
  "data": [
    "他在旧金山创立的对冲基金Numerai依靠人工智能算法来处理所有的交易",
    "华尔街还可以是一个友好合作的地方",
    "他的基金从成千上万名匿名数据科学家那里众包这些算法"
  ]
}

同时获取关键词、摘要

POST /query HTTP/1.1
Host: nlp.chatbot.io
Content-Type: application/json
BODY:
{
	"num": 3,
	"content": "华尔街向来都是资本主义至上。但理查德·克雷布认为,华尔街还可以是一个友好合作的地方。他在旧金山创立的对冲基金Numerai依靠人工智能算法来处理所有的交易。但这位现年29岁的南非数学家并不是依靠一己之力开发出这些算法的。相反,他的基金从成千上万名匿名数据科学家那里众包这些算法,那些科学家通过打造最成功的交易模型来争夺比特币奖励。而那还不是最奇怪的部分。"
}

RESPONSE:
{
  "status": "success",
  "data": [
    "争夺比特币",
    "交易模型",
    "人工智能算法"
  ]
}

phrase 短语提取

内部采用MutualInformationEntropyPhraseExtractor实现,用户可以直接调用。算法详解《基于互信息和左右信息熵的短语提取识别》

POST /phrase HTTP/1.1
Host: nlp.chatbot.io
Content-Type: application/json
BODY:
{
	"num": 4,
	"content": "华尔街向来都是资本主义至上。但理查德·克雷布认为,华尔街还可以是一个友好合作的地方。他在旧金山创立的对冲基金Numerai依靠人工智能算法来处理所有的交易。但这位现年29岁的南非数学家并不是依靠一己之力开发出这些算法的。相反,他的基金从成千上万名匿名数据科学家那里众包这些算法,那些科学家通过打造最成功的交易模型来争夺比特币奖励。而那还不是最奇怪的部分。"
}

RESPONSE:
{
  "status": "success",
  "data": {
    "keyword": [
      "算法",
      "交易",
      "依靠"
    ],
    "summary": [
      "他在旧金山创立的对冲基金Numerai依靠人工智能算法来处理所有的交易",
      "华尔街还可以是一个友好合作的地方",
      "他的基金从成千上万名匿名数据科学家那里众包这些算法"
    ]
  }
}

conversion 简、繁、拼音转换

支持声母、韵母、音调、音标和输入法首字母首声母功能。也能给繁体中文注拼音。算法详解《汉字转拼音与简繁转换的Java实现》

  • 简体转繁体
POST /conversion HTTP/1.1
Host: nlp.chatbot.io
Content-Type: application/json
BODY:
{
	"type": "ft",
	"content": "我们的机器人由诗人和音乐家驱动。"
}

RESPONSE:
{
  "status": "success",
  "data": "我們的機器人由詩人和音樂家驅動。"
}
  • 繁体转简体
POST /conversion HTTP/1.1
Host: nlp.chatbot.io
Content-Type: application/json
BODY:
{
	"type": "jt",
	"content": "我們的機器人由詩人和音樂家驅動。"
}

RESPONSE:
{
  "status": "success",
  "data": "我们的机器人由诗人和音乐家驱动。"
}
  • 转拼音
POST /conversion HTTP/1.1
Host: nlp.chatbot.io
Content-Type: application/json
BODY:
{
	"type": "py",
	"content": "我们的机器人由诗人和音乐家驱动。"
}

RESPONSE:
{
  "status": "success",
  "data": [
    "wo",
    "men",
    "de",
    "ji",
    "qi",
    "ren",
    "you",
    "shi",
    "ren",
    "he",
    "yin",
    "le",
    "jia",
    "qu",
    "dong"
  ]
}

压力测试报告

国内电信网络情况,每秒115次请求条件下,平均请求响应等待时间665毫秒。

声明

本API满足学者、开发者研究和学习使用,不能满足商业大规模访问。对分词、实体标识的错误不承担任何责任。

服务是我业余时间搭建和维护,服务器运行的成本目前由下面捐献者承担。欢迎打赏、捐助!

欢迎联系我:hain_wang#foxmail.com, "# --> @"

捐助鸣谢列表

| 按捐助时长排名 | 介绍 | | --- | --- | | | 李佳芮, 桔子互动创始人,Chatbot开发者/产品经理,Wechaty Contributor。 | | | 刘连响dotEngine创始人,音视频通信专家。 | | | 李卓桓zixia BBS,叽歪网创始人,优酷网首席科学家,水木清华BBS站长,Wechaty作者。 | | | 北京邮电大学CAD中心 |

大家怎么说

我曾经也做过 NLP 方面的研究,看了您的接口项目感到由衷敬佩。 -- jeasonstudio

感谢

HanLP自然语言处理包开源 感谢:

 Han Language Processing 码农场/自然语言处理	

《基于角色标注的中国人名自动识别研究》张华平 刘群

《基于层叠隐马尔可夫模型的中文命名实体识别》俞鸿魁 张华平 刘群 吕学强 施水才

《基于角色标注的中文机构名识别》俞鸿魁 张华平 刘群

《基于最大熵的依存句法分析》 辛霄 范士喜 王轩 王晓龙

An Efficient Implementation of Trie Structures, JUN-ICHI AOE AND KATSUSHI MORIMOTO

TextRank: Bringing Order into Texts, Rada Mihalcea and Paul Tarau

上海林原信息科技有限公司的刘先生,允许我利用工作时间开发HanLP,提供服务器和域名,并且促成了开源。感谢诸位用户的关注和使用,HanLP并不完善,未来还恳求各位NLP爱好者多多关照,提出宝贵意见。

HanLP自然语言处理 API服务 感谢:

beyai/node-hanlp 提供npm module。

fundon 提供服务域名。

FAQ

  1. 目前本站服务支持时间? 从2017年5.1至未来9个月没有问题,长期看捐助情况。

  2. 如何搭建自己的服务?

参考这里

  1. 想加入聊天机器人开发者社区? 联系我: hain_wang#foxmail.com, "# --> @"

其他

  1. 英文:https://stanfordnlp.github.io/CoreNLP/
sudo docker run -p 9000:9000 --name coreNLP --rm -i -t motiz88/corenlp
open http://localhost:9000
  1. Natural Language Toolkit: http://www.nltk.org/

  2. Guide Python自然语言处理

  1. 工作: http://nlpjob.com/