Curso IV

Ministrantes: Arnaldo Candido Junior e Edresson Casanova

Resumo:

Deep Learning trouxe grandes avanços na área de processamento de fala. Neste minicurso será apresentada uma visão geral do estado da arte da área em cada uma das principais frentes de trabalho, incluindo os modelos mais populares da área.

Conteúdo:

O processamento da fala tem grandes frentes de trabalho como a conversão de voz para (STT – Speech-To-Text), de texto para voz (TTS – Text-To-Speech), a identificação do locutor e a clonagem da voz. Será discutida uma série de modelos neurais profundos  propostos de acordo com as especificidades de cada.

Referências:

GOODFELLOW, Ian; BENGIO, Yoshua; COURVILLE, Aaron. Deep learning. MIT press, 2016.

JIA, Ye et al. Transfer learning from speaker verification to multispeaker text-to-speech synthesis. In: Advances in neural information processing systems. 2018. p. 4480-4490.

ZHANG, A.; LIPTON, Z. C.; LI, M.; SMOLA, A. J. Dive into Deep Learning. arXiv preprint arXiv:2106.11342, 2020. Disponível em: <https://d2l.ai>.

Mini CV:

Arnaldo Candido Junior possui graduação em Ciência da Computação pela Universidade Estadual Paulista Júlio de Mesquita Filho (2005), mestrado em Ciências da Computação e Matemática Computacional pelo Instituto de Ciências Matemáticas e de Computação (ICMC) da Universidade de São Paulo (USP) (2008) e doutorado em Ciências da Computação e Matemática Computacional também pelo ICMC/USP. Atualmente é professor da Universidade Tecnológica Federal do Paraná. Atua nas áreas de Inteligência Artificial, Aprendizado de Máquina e Redes Neurais Profundas aplicadas ao processamento da voz.

Edresson Casanova possui graduação em Ciência da Computação pela Universidade Tecnológica Federal do Paraná (2019). Atualmente é doutorando em Ciências da Computação e Matemática Computacional pelo Instituto de Ciências Matemáticas e de Computação (ICMC) da Universidade de São Paulo (USP). Atua nas áreas de Processamento de Língua Natural (PLN) e processamento de fala, sendo contribuidor ativo de código open source.