python如何提取文本信息?
python如何提取文本信息?
1、信息提取
先用句子分段器将文档的原始文本分成句子,再用记号赋值器将每个句子进一步分成单词。其次,给每一个句子做词性标记。以nltk中的默认工具为例,将句子分段器、分词器、词性标记器连接。
defie_preprocess(document):
#nltk默认的句子分段器
sentences=nltk.sent_tokenize(document)
#nltk默认分词器
sentences=[nltk.word_tokenize(sent)forsentinsentences]
#nltk默认词性标记
sentences=[nltk.pos_tag(sent)forsentinsentences]
2、词块划分
词块划分是实体识别的基础技术,对多个词的顺序进行划分和标记。
如NounPhraseChunking(名词短语词块划分)
使用正则表达式来定义一个语法,来进行名词短语词块的划分
3、开发和评估词块划分器
分区器可以用evaluate()方法评价分区器的性能好坏。
以下是使用一元标记来建立单词块分割器的学习。但是,不是确定每个单词的正确单词性标记,而是根据每个单词的单词性标记,确定正确的单词块标记。
#使用一元标注器建立一个词块划分器。根据每个词的词性标记,尝试确定正确的词块标记。
classUnigramChunker(nltk.ChunkParserI):
#constructor
def__init__(self,train_sents):
#将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word,tag,chunk)的列表
train_data=[[(t,c)forw,t,cinnltk.chunk.tree2conlltags(sent)]
forsentintrain_sents]
#训练一元分块器
#self.tagger=nltk.UnigramTagger(train_data)
#训练二元分块器
self.tagger=nltk.BigramTagger(train_data)
#sentence为一个已标注的句子
defparse(self,sentence):
#提取词性标记
pos_tags=[posfor(word,pos)insentence]
#使用标注器为词性标记标注IOB词块
tagged_pos_tags=self.tagger.tag(pos_tags)
#提取词块标记
chunktags=[chunktagfor(pos,chunktag)intagged_pos_tags]
#将词块标记与原句组合
conlltags=[(word,pos,chunktag)for((word,pos),chunktag)
inzip(sentence,chunktags)]
#转换成词块树
returnnltk.chunk.conlltags2tree(conlltags)
以上就是python提取文本信息的方法,希望能对大家有所帮助,更多Python学习教程请关注IT培训机构:千锋教育。
猜你喜欢LIKE
相关推荐HOT
更多>>python里glob模块怎么用?
python里glob模块怎么用?本文教程操作环境:windows7系统、Python3.9.1,DELLG3电脑。简单介绍:匹配一定的格式文件和文件夹。包含函数:1、glo...详情>>
2023-11-14 23:59:20python中time.gmtime是什么
python中time.gmtime是什么下面我们就time.gmtime函数的概念、语法、参数、返回值、实例分别进行讲解。1.概念gmtime是把日期和时间转换为格林威...详情>>
2023-11-14 21:58:02python使用OpenCV画图
python中使用OpenCV画图OpenCV的强大之处的一个体现就是其可以对图片进行任意编辑,处理。下面的这个函数最后一个参数指定的就是画笔的大小1、...详情>>
2023-11-14 19:49:08python流式读取大文件的两种方法
python流式读取大文件的两种方法1、使用read方法分块读取使用更底层的file.read()方法,与直接循环迭代文件对象不同,每次调用file.read(chunk_...详情>>
2023-11-14 16:48:08热门推荐
python里glob模块怎么用?
沸python中series转dataframe的两种方法
热python实现矩阵乘法运算的几种方法
热pandas遍历dataframe的方法有哪些
新python中time.gmtime是什么
python中RNN和LSTM的基本介绍
Python中for循环进行字典迭代
Python中哈希结构有哪几种?
python使用OpenCV画图
python绝对和相对导入的介绍
python标识符是什么意思?
python中如何查看stdin编码?
python如何访问列表元素?
python如何提取文本信息?