WEBDICT词库计划

WEBDICT词库计划

[词语]

[例句]

WE NEED YOUR HELP! 请帮助我们判断这是不是一个词语.

不是一个词 (F) 是一个词 (T) 跳过

到现在为止,我们总共收集到了 47527 次标注

一些判断标准

判断是否是一个词的最主要标准就是,拆开之后是否意思会发生改变,如果拆开意思不变则不是一个词语,比如“发微博”。 末尾带有“的”“地”“得”的很明显不是一个词语。
常用的短语,如果拆分之后不能表示原来的意义,也算作一个词语,比如“混口饭吃”。
很明显由两个词语构成的,不是一个词语,比如“别到”、“扭出”等。
数字不是一个词语,比如“三二五”、“五千五”等。
人名不是一个词语。
地名和机构名等命名实体一个词语,比如“南京市”、“参议员”等。

最近记录

什么是WEBDICT词库计划?

WEBDICT词表计划目标是通过机器学习算法以及人工标注构建一个包含大量网络词汇的、无版权限制的中文词库,从而提高中文网络文本自然语言分析以及开源中文输入法的效果。

现在有很多词库,为什么还要创建新的词库?

虽然目前互联网上可以得到的词库很多,但是包含网络词汇的非常少,而且都是有版权的,反之没有版权或者免费使用的词库大多比较旧。

目前的词库是怎么得到的?

目前的词库首先是通过网络爬虫从Twitter中抓取中文推(约4G左右纯文本)、以及网易新闻(3.2G),然后使用CRF进行分词,统计词频,最终从中抽取候选词集合。

怎样获得WEBDICT词库?

可以从GitHub中下载

WEBDICT词库有版权吗?

WEBDICT词库是Public Domain的,没有任何的版权限制。