hanlpjs
v0.0.7
Published
HanLP v1.7.2 自然语言处理 for nodejs ===== * 支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注、感知机分词),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析) * 官方文档:http://www.hankcs.com/nlp/hanlp.html * 修改 java 源码添加 init 方法,自定义引入
Downloads
21
Readme
基于HanLP v1.7.2 自然语言处理 for nodejs
- 支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注、感知机分词),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)
- 官方文档:http://www.hankcs.com/nlp/hanlp.html
环境要求
java 1.8
nodejs >= 6
安装
npm install
配置
* 请下载词典 https://pan.baidu.com/s/1pKUVNYF 放入 ./data 目录下
* 请修改 hanLP.proerties 文件中 root 为您词典数据的绝对路径
* 如果需要使用自定义的hanlp版本,请将其与hanLP.proerties文件放置于同一目录下
* 如果通过自己的语料库进行训练,详细文档参见:https://github.com/hankcs/HanLP/wiki/结构化感知机标注框架
使用
const Hanlp = require("hanlpjs");
//分词库初始化及配置
const HanLP = new Hanlp({
proerties: "配置文件的绝对路径", //配置文件路径,如果需要自定义hanlp的版本,请将其jar包放到proerties的文件夹内
CustomDict : true, //使用自定义词典
NameRecognize : true, //中国人名识别
TranslatedNameRecognize : true, //音译人名识别
JapaneseNameRecognize : true, //日本人名识别
PlaceRecognize : true, //地名识别
OrgRecognize : true, //机构名识别
Perceptron: true, //使用感知机分词
});
let words = HanLP.Tokenizer("商品和服务");
API
标准分词 HanLP.Tokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.Tokenizer("我跟北京新智科技有限公司的技术总监讨论舆情分析平台的可视化需求");
//results
[
{"word": "我", "nature": {"ordinal": 83, "name": "rr"}, "offset": 0 },
{"word": "跟", "nature": {"ordinal": 103, "name": "p"}, "offset": 0 },
{"word": "北京新智科技有限公司", "nature": {"ordinal": 21, "name": "nt"}, "offset": 0 },
{"word": "的", "nature": {"ordinal": 112, "name": "ude1"}, "offset": 0 },
{"word": "技术", "nature": {"ordinal": 13, "name": "n"}, "offset": 0 },
{"word": "总监", "nature": {"ordinal": 34, "name": "nnt"}, "offset": 0 },
{"word": "讨论", "nature": {"ordinal": 64, "name": "v"}, "offset": 0 },
{"word": "舆情分析平台", "nature": {"ordinal": 21, "name": "nt"}, "offset": 0 },
{"word": "的", "nature": {"ordinal": 112, "name": "ude1"}, "offset": 0 },
{"word": "可视化", "nature": {"ordinal": 57, "name": "j"}, "offset": 0 },
{"word": "需求", "nature": {"ordinal": 13, "name": "n"}, "offset": 0 }
]
NLP分词 HanLP.NLPTokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.NLPTokenizer("中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程");
//results
[
{ word: '中国科学院计算技术研究所', nature: 'nt', offset: 0 },
{ word: '的', nature: 'ude1', offset: 0 },
{ word: '宗成庆', nature: 'nr', offset: 0 },
{ word: '教授', nature: 'nnt', offset: 0 },
...
]
索引分词 HanLP.IndexTokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.IndexTokenizer("主副食品");
//results
[
{ word: '主副食品', nature: 'n', offset: 0 },
{ word: '主副食', nature: 'j', offset: 0 },
{ word: '副食', nature: 'n', offset: 1 },
{ word: '副食品', nature: 'n', offset: 1 },
{ word: '食品', nature: 'n', offset: 2 }
]
感知机分词 HanLP.PerceptronAnalyze( text )
@param String text [文本]
@ruten Object
let words = HanLP.PerceptronAnalyze("我跟北京新智科技有限公司的技术总监讨论舆情分析平台的可视化需求");
//results
[
wordList: [
{"value": "我", "label": "r"},
{"value": "跟", "label": "p"},
{
"innerList": [
{"value": "北京", "label": "ns"},
{"value": "新智", "label": "nz"},
{"value": "科技", "label": "n"},
{"value": "有限公司", "label": "n"}
],
"label": "nt"
},
{"value": "的", "label": "u"},
{"value": "技术", "label": "n"},
{"value": "总监", "label": "n"},
{"value": "讨论", "label": "vn"},
{"value": "舆情分析", "label": "vn"},
{"value": "平台", "label": "n"},
{"value": "的", "label": "u"},,
{"value": "可视化", "label": "j"}
{"value": "需求", "label": "n"}
]
]
CRF分词 HanLP.CRFTokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.CRFTokenizer("你好,欢迎使用HanLP汉语处理包!");
//results
[
{ word: '你好', nature: 'vl', offset: 0 },
{ word: ',', nature: 'w', offset: 0 },
{ word: '欢迎', nature: 'v', offset: 0 },
{ word: '使用', nature: 'v', offset: 0 },
{ word: 'HanLP', nature: 'nz', offset: 0 },
{ word: '汉语', nature: 'gi', offset: 0 },
...
]
去除停用词分词 HanLP.NoStopWord( text )
@param String text [文本]
@ruten Object
let words = HanLP.NoStopWord("你好,欢迎使用HanLP汉语处理包!");
//results
[
{ word: '你好', nature: 'vl', offset: 0 },
{ word: '欢迎', nature: 'v', offset: 0 },
{ word: '使用', nature: 'v', offset: 0 },
{ word: 'HanLP', nature: 'nz', offset: 0 },
{ word: '汉语', nature: 'gi', offset: 0 },
...
]
最短路分词 HanLP.ShortSegment( text )
@param String text [文本]
@ruten Object
let words = HanLP.ShortSegment("今天,刘志军案的关键人物,山西女商人丁书苗在市二中院出庭受审。");
//results
[
{ word: '今天', nature: 't', offset: 0 },
{ word: ',', nature: 'w', offset: 0 },
{ word: '刘志军', nature: 'nr', offset: 0 },
{ word: '案', nature: 'ng', offset: 0 },
{ word: '的', nature: 'ude1', offset: 0 },
{ word: '关键', nature: 'n', offset: 0 },
...
]
N-最短分词 HanLP.NShortSegment( text )
@param String text [文本]
@ruten Object
let words = HanLP.NShortSegment("刘喜杰石国祥会见吴亚琴先进事迹报告团成员");
//results
[
{ word: '刘喜杰', nature: 'nr', offset: 0 },
{ word: '石国祥', nature: 'nr', offset: 0 },
{ word: '会见', nature: 'v', offset: 0 },
{ word: '吴亚琴', nature: 'nr', offset: 0 },
{ word: '先进', nature: 'a', offset: 0 },
...
]
极速词典分词 HanLP.SpeedTokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.SpeedTokenizer("江西鄱阳湖干枯,中国最大淡水湖变成大草原");
//results
[
{ word: '江西', offset: 0 },
{ word: '鄱阳湖', offset: 2 },
{ word: '干枯', offset: 5 },
{ word: ',', offset: 7 },
{ word: '中国', offset: 8 },
]
关键词提取 HanLP.Keyword( text , nTop )
@param String text [文本]
@param Number nTop [关键词个数,默认5个]
@ruten Object
let words = HanLP.Keyword("江西鄱阳湖干枯,中国最大淡水湖变成大草原" , 3);
//results
[ '中国', '最大', '淡水湖' ]
短语提取 HanLP.Phrase( text , nTop )
@param String text [文本]
@param Number nTop [短语个数,默认3个]
@ruten Object
let words = HanLP.Phrase("江西鄱阳湖干枯,中国最大淡水湖变成大草原" , 2 );
//results
[ '中国最大', '变成草原' ]
提取文章摘要 HanLP.Summary( text , nTop )
@param String text [文本]
@param Number nTop [文章摘要条数,默认3条]
@ruten Object
let text = "据美国福克斯新闻报道,俄罗斯黑海舰队一艘护卫舰格里戈罗维奇海军上将号,正在驶向美国军舰发射导弹攻击叙利亚的区域。该护卫舰是俄罗斯最先进的护卫舰,2016年才刚服役,除防空、反舰导弹外,也可以发射巡航导弹。格里戈罗维奇海军上将号原定于本周访问叙利亚的塔尔图斯港。"
let words = HanLP.Summary( text , 3);
//results
[
'俄罗斯黑海舰队一艘护卫舰格里戈罗维奇海军上将号',
'格里戈罗维奇海军上将号原定于本周访问叙利亚的塔尔图斯港',
'正在驶向美国军舰发射导弹攻击叙利亚的区域'
]
文本推荐 HanLP.Suggester( list, words, Ntop )
@param Array list 句子列表
@param Array words 词语
@param Number nTop 相似句子推荐个数,默认1个
@ruten Object
句子级别,从一系列句子中挑出与输入句子最相似的那一个
语义距离 HanLP.WordDistance( words )
@param Array words 词
@ruten Object
简繁转换 HanLP.ConversionFont( text , type )
@param String text 文本
@ruten String type 类型 jt简体|ft繁体,默认jt
@ruten String
拼音转换 HanLP.Pinyin( text , type )
@param String text 文本
@ruten String type 类型 类型 num数字音调|tone符号音调|outtone无音调|shengmu声母|yunmu韵母|head输入法头,默认outtone
@ruten Object
文本分类、情感分析
接口暂未适配