Hoje eu vou fazer um post curtinho, só para dar continuação a um post anterior, onde eu contei sobre um sistema que eu comecei a desenvolver para monitorar o conteúdo das emissoras de rádios. Eu vou deixar o post original linkado aqui:
Inicialmente tinha feito o projeto utilizando um sistema de inteligência artificial chamado Deepgram, que é pago. Como o projeto é independente, não teria recursos para expandir em escala, então eu comecei a procurar alternativas e consegui chegar numa solução muito satisfatória, que ficou muito legal, e que me levou a criar um site chamado MonitoraRádio, onde eu coloquei um resumo do conteúdo de mais de 700 rádios. Eu deixei o sistema monitorando sexta-feira, dia 28/10, durante o dia, e consegui pegar as propagandas eleitorais que passaram durante a programação. Todos os relatórios, arquivos de áudio gravados, e as inserções de cada rádio estão num relatório bem completo no site. Vou deixar o link no final do repositório do GitHub para quem tiver interesse de pegar os códigos para dar uma olhada.
Eu quero mandar um agradecimento do Grupo Fala Brasil, da Universidade Federal do Pará, um grupo de mestrandos e doutorando de Ciências da Computação, que fazem pesquisas na área de processamento de falas e linguagem natural em português brasileiro. No final do post também vai ficar o link para o site deles. Eles foram extremamente importantes para o projeto porque eles fizeram o modelo de linguagem natural que eu utilizei para fazer a transcrição dos áudios que vêm das rádios para português brasileiro em texto, e o modelo deles é muito bom. Então, o meu agradecimento para essa galera, porque se eles não tivessem feito esse modelo, eu não conseguiria ter construído uma solução que conseguisse fazer esse monitoramento sem custos. Agora eu consigo fazer transcrição de quantas rádios quiser e até agora foram cerca 700 rádios no Brasil inteiro. Quem tiver interesse em inteligência artificial e quiser olhar, é um sistema muito bacana.
Esse post é só para falar sobre essa atualização do sistema, e se você for no site vai conseguir encontrar um resumo de tudo. Eu queria ter feito isso antes, mas, infelizmente, foi muito em cima da hora, não deu tempo de fazer uma pesquisa maior num primeiro momento, se eu tivesse partido para essa solução logo no primeiro sistema, talvez a gente tivesse dados mais sólidos dos dias anteriores, com a polêmica toda que deu, mas a gente conseguiu pelo menos pegar o último dia, a sexta-feira, e eu estou fazendo o processamento desses dados que foram coletados durante o dia. Como é uma inteligência artificial que utiliza muito recurso de processamento, provavelmente eu só vou conseguir terminar ao longo do dia 29, então ao longo do dia eu vou continuar processando esses dados. Não está tão rápido quanto poderia, talvez no futuro eu mexa nesse código para tentar colocar processamento por GPU, porque agora está sendo processado por CPU e, por mais que o meu processador seja muito bom, é um Intel Core I9 Extreme Edition, ele também não consegue processar tamanho volume em real time, então vai ficar 1 dia de latência para os resultados. Mas ao longo do dia eu vou atualizando o relatório e subindo no site para quem quiser ver, e se você ativar o push notification do site, toda vez que tiver uma atualização ele vai enviar uma notificação de resultados novos, e você consegue acompanhar em tempo quase real.
Eu não vi nenhum sistema parecido com esse disponível na internet. Qualquer dúvida, vocês podem entrar em contato comigo por email, [email protected]. Eu vou ficando por aqui, até a próxima, valeu!
Repositório com todos os códigos do sistema: https://www.github.com/andrehrferreira/auditoriaradios
Site do Grupo Fala Brasil: https://www.ufpafalabrasil.gitlab.io/
O conteúdo deste post foi retirado do vídeo “Monitorei 700 rádios no dia 28/10 veja o resultado!”: