import re


#Lista de palabras
words = ['niño','niños', 'niñas','niñitos', 'gato', 'gatos', 'gatitos', 'paloma','palomita','palomas',
        'flores','flor','florecita','lápiz','lápices']


#Lista para guardar las palabras parseadas
morph_parsing = []

for w in words+['perritos']:
    #ecit -> DIM
    R0 = re.sub(r'([^ ]+)ecit([a|o|as|os])',r'\1-DIM\2',w)
    #it -> DIM
    R1 = re.sub(r'([^ ]+)it([a|o|as|os])',r'\1-DIM\2',R0)
    #a(s) -> FEM
    R2 = re.sub(r'([^ ]+)a(s)',r'\1-FEM\2',R1)
    #a -> FEM
    R3 = re.sub(r'([^ ]+)a\b',r'\1-FEM',R2)
    #o(s) -> MSC
    R4 = re.sub(r'([^ ]+)o(s)',r'\1-MSC\2',R3)
    #o .> MSC
    R5 = re.sub(r'([^ ]+)o\b',r'\1-MSC',R4)
    #es -> PL
    R6 = re.sub(r'([^ ]+)es\b',r'\1-PL',R5)
    #s -> PL
    R7 = re.sub(r'([^ ]+)s\b',r'\1-PL',R6)
    #Sustituye la c por z cuando es necesario
    parse = re.sub(r'c-',r'z-',R7)
    
    #Guarda los parseos
    morph_parsing.append(parse)
    
    print(w,'-->',parse)

niño --> niñ-MSC
niños --> niñ-MSC-PL
niñas --> niñ-FEM-PL
niñitos --> niñ-DIM-MSC-PL
gato --> gat-MSC
gatos --> gat-MSC-PL
gatitos --> gat-DIM-MSC-PL
paloma --> palom-FEM
palomita --> palom-DIM-FEM
palomas --> palom-FEM-PL
flores --> flor-PL
flor --> flor
florecita --> flor-DIM-FEM
lápiz --> lápiz
lápices --> lápiz-PL
perritos --> perr-DIM-MSC-PL


#Lista para guardar las palabras stemizadas
stems = []

for w in words+['perritos']:
    #ecit -> e
    R0 = re.sub(r'([^ ]+)ecit([a|o|as|os])',r'\1\2',w)
    #it -> e
    R1 = re.sub(r'([^ ]+)it([a|o|as|os])',r'\1\2',R0)
    #a(s) -> e
    R2 = re.sub(r'([^ ]+)a(s)',r'\1\2',R1)
    #a -> e
    R3 = re.sub(r'([^ ]+)a\b',r'\1',R2)
    #o(s) -> e
    R4 = re.sub(r'([^ ]+)o(s)',r'\1\2',R3)
    #o .> e
    R5 = re.sub(r'([^ ]+)o\b',r'\1',R4)
    #es -> e
    R6 = re.sub(r'([^ ]+)es\b',r'\1',R5)
    #s -> e
    R7 = re.sub(r'([^ ]+)s\b',r'\1',R6)
    #Sustituye la c por z cuando es necesario
    stem = R7
    
    #Guarda los stems
    stems.append(stem)
    
    print(w,'-->',stem)

niño --> niñ
niños --> niñ
niñas --> niñ
niñitos --> niñ
gato --> gat
gatos --> gat
gatitos --> gat
paloma --> palom
palomita --> palom
palomas --> palom
flores --> flor
flor --> flor
florecita --> flor
lápiz --> lápiz
lápices --> lápic
perritos --> perr


lemas = {'gat':'gato','niñ':'niño', 'palom':'paloma'}


#lista para guardar lemas parseados
lema_parsing = []

for p in morph_parsing:
    try:
        #Busca el stem en la cadena parseada
        stem = re.match(r'[^-]+',p).group(0)
        #stem -> lema
        lema = p.replace(stem, lemas[stem])
    except:
        #Si la palabra no tiene tags, se deja tal como está
        lema = p
    
    #Guarda los lemas
    lema_parsing.append(lema)
    
    print(lema)

niño-MSC
niño-MSC-PL
niño-FEM-PL
niño-DIM-MSC-PL
gato-MSC
gato-MSC-PL
gato-DIM-MSC-PL
paloma-FEM
paloma-DIM-FEM
paloma-FEM-PL
flor-PL
flor
flor-DIM-FEM
lápiz
lápiz-PL
perr-DIM-MSC-PL


def generate_noun(l):
    #Dim -> ecit
    C1 = re.sub(r'([^-]+[r|n])-DIM(.+)',r'\1cit\2',l)
    #DIM -> it
    C2 = re.sub(r'([^-]+)[a|e|i|o|u]-DIM(.+)',r'\1it\2',C1)
    #C9 = re.sub(r'([^-]+l)-DIM',r'\1ito',l)
    #FEM -> a
    C3 = re.sub(r'([^-]+t)-FEM(.*)',r'\1a\2',C2)
    C4 = re.sub(r'([^-]+)[o|a]-FEM(.*)',r'\1a\2',C3)
    #MSC -> o
    C5 = re.sub(r'([^-]+t)-MSC(.*)',r'\1o\2',C4)
    C6 = re.sub(r'([^-]+)[o|a]-MSC(.*)',r'\1o\2',C5)
    #PL -> es
    C7 = re.sub(r'([^-]+[d|j|l|r|n|z|í])-PL',r'\1es',C6)
    #PL -> s
    C8 = re.sub(r'([^-]+[a|e|i|o|u])-PL',r'\1s',C7)
    #zPL -> cPL
    word = re.sub(r'(.+)z(es)\b',r'\1c\2',C8)
    
    return word


for lema in lema_parsing:
    reinflection = generate_noun(lema)
    print(lema,'-->',reinflection)

niño-MSC --> niño
niño-MSC-PL --> niños
niño-FEM-PL --> niñas
niño-DIM-MSC-PL --> niñitos
gato-MSC --> gato
gato-MSC-PL --> gatos
gato-DIM-MSC-PL --> gatitos
paloma-FEM --> paloma
paloma-DIM-FEM --> palomita
paloma-FEM-PL --> palomas
flor-PL --> flores
flor --> flor
flor-DIM-FEM --> florcita
lápiz --> lápiz
lápiz-PL --> lápices
perr-DIM-MSC-PL --> perrcitos


print(generate_noun('rubí-PL'))
print(generate_noun('callo-DIM-MSC-PL'))
print(generate_noun('pan-DIM-MSC-PL'))
print(generate_noun('árbol-PL'))
print(generate_noun('carcaj-PL'))

rubíes
callitos
pancitos
árboles
carcajes


print(generate_noun('pan-DIM-MSC'))

pancito


from nltk.stem import SnowBallStemmer

---------------------------------------------------------------------------
ImportError                               Traceback (most recent call last)
<ipython-input-52-a41934a43157> in <module>
----> 1 from nltk.stem import SnowBallStemmer

ImportError: cannot import name 'SnowBallStemmer' from 'nltk.stem' (/home/mijangos/.local/lib/python3.8/site-packages/nltk/stem/__init__.py)

Parse morfológico con transductores finitos¶

Stemming¶

Lematización¶

Generación del lenguaje con transductores finitos¶