Python【jieba】词性标注表 您所在的位置:网站首页 modalv表示什么词性 Python【jieba】词性标注表

Python【jieba】词性标注表

2024-06-18 19:02| 来源: 网络整理| 查看: 265

文章目录 jieba词性标注表(0.39版)读取jieba词库,生成词性标注表,保存为excel带词性的分词词与词性间映射en2cn字典映射0.42版后paddle模式词性和专名类别标签 其它词性标注表nltk词性标注表百度AI词性标注表用于【句法分析】用于【词法分析】 pyltp词性标注表补充

jieba词性标注表(0.39版) encne.g.数量a形容词高 明 尖 诚 粗陋 冗杂 丰盛 顽皮 很贵 挺好用 …4306ad副形词努目 完全 努力 切面 严实 慌忙 明确 仓惶 详细 …110ag形语素详 笃 睦 奇 洋 裸 渺 忤 虐 黢 怠 峻 悫 鄙 秀 …46an名形词麻生 猥琐 腐生 困苦 危难 负疚 刚愎 危险 悲苦 …40b区别词劣等 洲际性 超常规 同一性 年级 非农业 二合一 …1363c连词再者说 倘 只此 或曰 以外 换句话说 虽是 除非 …504d副词幸免 四顾 绝对 急速 特约 从早 务须 逐行 挨边 …2422df不要不要1dg副语素俱 辄2e叹词好哟 嗄 天呀 哎 哇呀 啊哈 嗳 诶 嗬 呜呼 哇塞 …34f方位词内侧 以来 面部 后侧 面前 沿街 之内 两岸 里 …351g语素媸 璇 戬 瓴 踔 鳌 撄 絷 膑 遘 醢 槊 胂 鹎 豳 …969h前接成分非 超低2i成语绿荫蔽日 振耳欲聋 沧海一粟 一望无边 为尊者讳 …25583j简称略语交警 中低收入 四个现代 经检测 青委 车改 …1396k后接成分型 者 式 们4l习用语不懂装懂 相聚一刻 由下而上 十字路口 查无此人 …17721m数词九六 十二 半成 戊酉 俩 一二三四五 丙戌 片片 …13178mg数语素寅 巳2mq数量词半年度 四方面 十付 三色 一口钟 四面 三分钟 …80n名词男性 娇子 气压 写实性 联立方程 商业智能 寒窗 …117902ng名语素诀 卉 茗 鹊 娃 寨 酊 钬 雹 役 莺 谊 隙 族 鸩 …280nr人名雍正皇帝 小老弟 唐僧骑 铁娘子 小甜甜 璐 …72842nrfg古近代人名刘备 关羽 张飞 赵云 任弼时 …484nrt音译人名米尔科 达尼丁 三世 五丁 塞拉 埃克尔斯 贝当 …5941ns地名南明 锡山 拱北 南非 哥里 平北 丹井 佛山 广州 …17706nt机构团体浙江队 中医院 中华网 铁道部 广电部 联想集团 …4713nz其他专名培根 补丁 圣战士 英属 国药准字 …10441o拟声词哈喇 咝 哗喇 咔喳 飕 哇哇 喃 咕隆 咿呀 唧咕 …247p介词顺当 顺着 借了 连着 乘着 除了 较之于 根 自 …114q量词毫厘 盅 封 千瓦小时 立方米 盎 座 毫克 张 斛 …232r代词该车 这时 那些 甚么 鄙人 此案 睿智者 他 怎生 …759rg代语素兹1rr代词偺们 妳们 其他人3rz代词这位1s处所词世外 肩前 舷外 手下 耳边 兜里 盘头 桌边 家外 …591t时间词新一代 清时 先上去 月初 昔年 无日 唐五代 佳日 …1768tg时间语素昔 晚 春 现 暮 夕 宵7u助词则否 等 恁地 等等 似的 来说 矣哉 来看 般 的话 …20ud得得1ug过过1uj的的1ul了了1uv地地1uz着着1v动词批发 孕育 作成 纳闷儿 遭殃 留话 吻下去 创生 …34761vd副动词狡辩 持续 逆势3vg动语素悖 谏 踞 泯 濯 掳 诌 疑 诲 吁 囿 酌 蟠 豢 匿 …160vi动词沉溺于 等同于 沉缅于 徜徉于4vn名动词审查 相互毗连 销蚀 对联 劳工 漫游 …3235vq动词捱过 唸过 去过 去浄4x非语素字舭 珑 婪 躅 蕺 蜓 螂 窀 蘅 葜 姆 榍 虺 楂 …367y语气词吓呆了 呃 呀 兮 哩 呐 嘞 哇 呗 意谓着 也罢 啦 …49z状态词歪曲 飘飘 慢慢儿 急地 沉迷在 晕呼呼 …2624zgzg鮛 瑑 灘 鄼 緣 嗙 獘 洅 暠 埄 涚 鞞 檺 肸 撻 …5666

jieba是参照【ICTCLAS 汉语词性标注集 中科院】的

读取jieba词库,生成词性标注表,保存为excel import jieba, pandas as pd, os jieba_dict = os.path.dirname(jieba.__file__) + '/dict.txt' df_jieba = pd.read_table(jieba_dict, sep=' ', header=None)[[2, 0]] dt = {k: set() for k in df_jieba[2].values} for f, w in df_jieba.values:dt[f].add(w) ls_of_ls = [(f, len(w), ' '.join(list(w)[:50])) for f, w in dt.items()] pd.DataFrame(ls_of_ls, columns=['flag', 'count', 'e.g.']).sort_values('flag').to_excel('flag.xlsx', index=None) 带词性的分词 import jieba.posseg as jp print(jp.lcut('我爱西樵山'))

[pair(‘我’, ‘r’), pair(‘爱’, ‘v’), pair(‘西樵山’, ‘ns’)]

词与词性间映射 from jieba.posseg import dt print(dt.word_tag_tab) en2cn字典映射 flag_en2cn = { 'a': '形容词', 'ad': '副形词', 'ag': '形语素', 'an': '名形词', 'b': '区别词', 'c': '连词', 'd': '副词', 'df': '不要', 'dg': '副语素', 'e': '叹词', 'f': '方位词', 'g': '语素', 'h': '前接成分', 'i': '成语', 'j': '简称略语', 'k': '后接成分', 'l': '习用语', 'm': '数词', 'mg': '数语素', 'mq': '数量词', 'n': '名词', 'ng': '名语素', 'nr': '人名', 'nrfg': '古代人名', 'nrt': '音译人名', 'ns': '地名', 'nt': '机构团体', 'nz': '其他专名', 'o': '拟声词', 'p': '介词', 'q': '量词', 'r': '代词', 'rg': '代语素', 'rr': '代词', 'rz': '代词', 's': '处所词', 't': '时间词', 'tg': '时间语素', 'u': '助词', 'ud': '得', 'ug': '过', 'uj': '的', 'ul': '了', 'uv': '地', 'uz': '着', 'v': '动词', 'vd': '副动词', 'vg': '动语素', 'vi': '动词', 'vn': '名动词', 'vq': '动词', 'x': '非语素字', 'y': '语气词', 'z': '状态词', 'zg': '状态语素', } 0.42版后paddle模式词性和专名类别标签 标签含义标签含义标签含义标签含义n普通名词f方位名词s处所名词t时间nr人名ns地名nt机构名nw作品名nz其他专名v普通动词vd动副词vn名动词a形容词ad副形词an名形词d副词m数量词q量词r代词p介词c连词u助词xc其他虚词w标点符号PER人名LOC地名ORG机构名TIME时间 from jieba import enable_paddle, posseg enable_paddle() print(posseg.lcut('小基基在南海注册桂城人工智能公司')) print(posseg.lcut('小基基在南海注册桂城人工智能公司', use_paddle=True)) 其它词性标注表 nltk词性标注表 abbreviatefull namedescriptionCCCoordinating conjunction连接词CDCardinal number基数词DTDeterminer限定词(this,those,such)不定限定词(any,each,every,either,all,many,other)EXExistential there存在句FWForeign word外来词INPreposition or subordinating conjunction介词或从属连词JJAdjective形容词或序数词JJRAdjective, comparative形容词比较级JJSAdjective, superlative形容词最高级LSList item marker列表标示MDModal情态助动词NNNoun, singular or mass常用名词 单数形式NNSNoun, plural常用名词 复数形式NNPProper noun, singular专有名词,单数形式NNPSProper noun, plural专有名词,复数形式PDTPredeterminer前位限定词POSPossessive ending所有格结束词PRPPersonal pronoun人称代词PRPPossessive pronoun所有格代名词RBAdverb副词RBRAdverb, comparative副词比较级RBSAdverb, superlative副词最高级RPParticle小品词SYMSymbol符号TOto作为介词或不定式格式UHInterjection感叹词VBVerb, base form动词基本形式VBDVerb, past tense动词过去式VBGVerb, gerund or present participle动名词和现在分词VBNVerb, past participle过去分词VBPVerb, non-3rd person singular present动词非第三人称单数VBZVerb, 3rd person singular present动词第三人称单数WDTWh-determiner关系限定词(whose,which)疑问限定词(what,which,whose)WPWh-pronoun代词(who whose which)WPPossessive wh-pronoun所有格代词WRBWh-adverb疑问代词(how where when) import nltk text = 'Sweat is the lubricant of success' words = nltk.word_tokenize(text) tags = nltk.pos_tag(words) print(words, tags, sep='\n')

[‘Sweat’, ‘is’, ‘the’, ‘lubricant’, ‘of’, ‘success’] [(‘Sweat’, ‘NN’), (‘is’, ‘VBZ’), (‘the’, ‘DT’), (‘lubricant’, ‘NN’), (‘of’, ‘IN’), (‘success’, ‘NN’)]

百度AI词性标注表 用于【句法分析】 词性含义词性含义词性含义词性含义Ag形语素g语素ns地名u助词a形容词h前接成分nt机构团体vg动语素ad副形词i成语nz其他专名v动词an名形词j简称略语o拟声词vd副动词b区别词k后接成分p介词vn名动词c连词l习用语q量词w标点符号dg副语素m数词r代词x非语素字d副词Ng名语素s处所词y语气词e叹词n名词tg时语素z状态词f方位词nr人名t时间词un未知词 用于【词法分析】 词性含义词性含义词性含义词性含义n普通名词f方位名词s处所名词t时间名词nr人名ns地名nt机构团体名nw作品名nz其他专名v普通动词vd动副词vn名动词a形容词ad副形词an名形词d副词m数量词q量词r代词p介词c连词u助词xc其他虚词w标点符号PER人名LOC地名ORG机构名TIME时间

示例

对比句法分析,缺少了

词性含义词性含义词性含义词性含义词性含义词性含义Ag形语素g语素vg动语素Ng名语素dg副语素tg时语素i成语l习用语j简称略语--h前接成分k后接成分o拟声词y语气词e叹词--b区别词z状态词 pyltp词性标注表 TagDescriptione.g.aadjective美丽bother noun-modifier最高cconjunction且dadverb非常eexclamation哎gmorpheme甥hprefix阿iidiom百花齐放jabbreviation公检法ksuffix型mnumber五ngeneral noun鸡蛋nddirection noun右侧nhperson name白居易niorganization name医院nllocation noun城郊nsgeographical name佛山nttemporal noun昨日nzother proper noun对乙酰氨基酚oonomatopoeia乒乓ppreposition在qquantity个rpronoun他uauxiliary的vverb打架wppunctuation;wsforeign wordsAPPxnon-lexeme翱zdescriptive words冷冰冰 补充 encnadjective形容词adverb副词auxiliaryadj. 辅助的;n. 助动词;abbreviation缩写conjunction连词determiner限定词interjection感叹词noun名词numeraln. 数字;adj. 数字的onomatopoeia拟声词preposition介词pronoun代词quantifier量词verb动词idiom成语prefix前缀suffix后缀attributive words区别词


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有