O reconhecimento da imagem é uma tarefa fundamental em Deep Learning e visão por computador, com várias aplicações que vão desde os veículos autónomos até ao diagnóstico médico. A Deep Learning tem revolucionado o reconhecimento de imagem ao permitir o desenvolvimento de modelos mais precisos e eficientes. Hoje, discutiremos alguns dos recentes avanços em Deep Learning para Reconhecimento de Imagem. Caso queira mais informação sobre Deep Learning, pode consultar o nosso artigo, pode também ler mais sobre o Reconhecimento de Imagem aqui.
Dois dos algoritmos mais importantes de Deep Learning para reconhecimento de imagens são as CNNs e os modelos baseados em Transformadores. Ambos podem reconhecer imagens de forma mais precisa e rápida do que programas mais antigos.
O que são CNNs (Convolutional Neural Networks)?
As CNNs, ou Convolutional Neural Networks, são um tipo de algoritmo de Deep Learning que é comummente utilizado para tarefas de reconhecimento de imagens. Processam imagens através da aplicação de uma série de filtros que extraem características da imagem em diferentes escalas e orientações.
Os filtros funcionam através de uma operação matemática chamada convolução sobre a imagem, que envolve deslizar o filtro sobre a imagem e multiplicar os valores no filtro pelos valores de pixel correspondentes na imagem. Isto produz um mapa de características que realça padrões ou características específicas na imagem.
As CNN (Convolutional Neural Networks) consistem tipicamente em várias camadas convolucionais, que extraem progressivamente características mais complexas da imagem. Estas características são depois ligadas a uma camada que executa a tarefa de classificação final. São amplamente utilizadas numa variedade de aplicações.
O que são modelos baseados em Transformadores?
Os modelos baseados em transformadores são um tipo de arquitetura de aprendizagem profunda originalmente desenvolvida para tarefas de processamento de línguas naturais, tais como tradução ou geração de texto. Contudo, investigadores adaptaram-nos recentemente para utilização em tarefas de visão por computador, tais como o reconhecimento de imagens.
No contexto do reconhecimento de imagem, os modelos baseados em transformadores dividem a imagem em patches e alimentam-nos através de várias camadas de auto-atenção e redes de alimentação. Os resultados destas camadas são então agregados para formar uma previsão final. Esta abordagem demonstrou ser eficaz na captura de dependências de longo alcance entre diferentes partes da imagem e alcançou um desempenho de ponta em vários pontos de referência de reconhecimento de imagem.
Os últimos avanços relacionados com as CNNs (Convolutional Neural Networks)






Recentemente tem havido vários avanços nas CNNs (Convolutional Neural Networks) para o reconhecimento de imagens utilizando técnicas de Deep Learning, tais como:
- Aprendizagem Auto-Supervisionada: Esta é uma técnica em que um modelo é treinado para prever uma parte de uma imagem de outra parte, sem qualquer rótulo explícito. Esta abordagem demonstrou ser eficaz no treino de CNNs em grandes quantidades de dados não rotulados, que podem então ser otimizados em conjuntos de dados rotulados para tarefas específicas.
- Redes Eficientes: Foram propostas várias novas arquiteturas CNN que foram concebidas para serem mais eficientes em termos computacionais, mantendo ao mesmo tempo uma elevada precisão nas tarefas de reconhecimento de imagem. Por exemplo, utilizando um método de escalonamento composto para otimizar a arquitetura de rede, tanto para precisão como para eficiência, ou utilizando um desenho de rede regularizado para melhorar a escalabilidade e a eficiência.
- Mecanismos de atenção: Os mecanismos de atenção foram integrados nas CNNs para melhorar o seu desempenho. Por exemplo, a técnica Squeeze-and-Excitation (SE) usa um mecanismo de atenção por canal para enfatizar seletivamente características importantes, enquanto o Spatial Attention Module (SAM) usa um mecanismo de atenção espacial para focar regiões espaciais relevantes da imagem.
- Transferência de Aprendizagem: A aprendizagem por transferência é uma técnica em que uma CNN treinada é afinada num novo conjunto de dados para uma tarefa específica. Esta abordagem demonstrou ser eficaz na redução da quantidade de dados rotulados necessários para alcançar uma elevada precisão nas tarefas de reconhecimento de imagem.
Os últimos avanços relacionados com os modelos baseados em transformadores






Tal como com as CNN (Convolutional Neural Networks), também têm existido avanços significativos com os modelos baseados em Transformadores. Aqui ficam alguns exemplos:
- Transformadores de Visão (ViT): Os Transformadores de Visão são uma classe de modelos baseados em Transformadores que foram adaptados para tarefas de reconhecimento de imagem. Em vez de utilizar CNNs para extração de características, os ViTs utilizam arquiteturas de codificador-descodificador baseadas em Transformadores para processar os valores brutos de pixel de uma imagem.
- Modelos Híbridos: Os modelos híbridos combinam CNNs com modelos baseados em transformadores para melhorar o seu desempenho em tarefas de reconhecimento de imagem. Por exemplo, o Transformador Swin utiliza um mecanismo de atenção hierárquica para processar imagens em diferentes escalas e resoluções, enquanto incorpora também CNNs para extração de características.
- Mecanismos de atenção: Estes foram integrados em modelos baseados em Transformador para melhorar o seu desempenho em tarefas de reconhecimento de imagem.
- Aprendizagem intermodal: Esta é uma técnica em que um modelo é treinado em múltiplas modalidades, tais como imagens e texto, para aprender representações conjuntas. Esta abordagem demonstrou ser eficaz em tarefas como a resposta a perguntas visuais e a legendagem de imagens.
Estes são apenas alguns exemplos de avanços, mas, à medida que a tecnologia evolui, mais e mais avanços serão esperados num futuro próximo.
Confirme aqui todas as soluções da MakeWise, e inicie o processo de transformação digital da sua empresa. Contacte-nos!

