A rotulagem de dados anda de mãos dadas com a visão por computador. Neste artigo, vamos explorar o que é a rotulagem de dados e como é que tudo isto é possível.
O que é a rotulagem de dados?
A rotulagem de dados é um processo que visa identificar objetos em dados brutos. Esses objetos podem ser imagens, áudio, vídeo e texto. Ao lhes atribuir os rótulos adequados, o algoritmo de aprendizagem automática pode fazer previsões mais exatas. Este processo deve de ser efetuado com muito cuidado, deixando pouca ou nenhuma margem para erros.
Porquê utilizar a rotulagem de dados?
Os conjuntos de dados rotulados são de extrema importância para os modelos de aprendizagem, ajudando o modelo a processar e a compreender os dados inseridos. Desta forma, uma vez analisados os dados, as previsões do modelo correspondem ou não ao seu objetivo. Após isso, o utilizador define se o modelo precisa de mais ajustes e testes ou não. Há vários casos de uso para rotulagem de dados e visão computacional, como:
Como funciona a rotulagem de dados?







Há passos específicos a seguir no processo de rotulagem de dados:
Recolha de dados
O primeiro passo consiste em recolher a quantidade e variedade corretas de dados que se adequem aos requisitos do modelo. Para isso, existem algumas abordagens diferentes:
- Recolha manual de dados – Uma maior e mais diversificada quantidade de dados garante resultados mais exatos do que uma pequena quantidade. Dependendo do caso de utilização, uma opção é fazer com que o utilizador recolha os dados por si, mas se, por exemplo, estiver a desenvolver um modelo de PNL (Processamento de linguagem natural), será melhor utilizar uma ferramenta de recolha de dados para encontrar, recolher e analisar automaticamente as informações por si.
- Conjuntos de dados de fonte aberta – Esta opção é uma excelente forma de as organizações mais pequenas terem acesso a dados que, de outra forma, demorariam muito tempo a recolher, otimizando assim a acessibilidade e a relação custo-eficácia.
- Geração de dados sintéticos – A geração de dados sintéticos envolve a criação de conjuntos de dados simulados que podem ser tanto vantajosos como desvantajosos. Os conjuntos de dados sintéticos são habitualmente utilizados em duas áreas principais: visão por computador e dados tabulares (como os dados relativos aos cuidados de saúde e à segurança). As empresas que se dedicam à condução autónoma são frequentemente pioneiras na utilização de dados sintéticos, especialmente quando se trata de objetos invisíveis ou obstruídos em cenários do mundo real.
Identificação de dados
Uma vez recolhidos os dados não rotulados, é altura de os rotular. A rotulagem de dados é efetuada por humanos que identificam dados não rotulados utilizando software específico. Por exemplo, pode ser-lhes pedido que determinem o significado de uma palavra num texto ou que acompanhem um objeto ao longo de um vídeo. Todos estes resultados servem de informação de treino para o seu modelo.
QA (Controlo de qualidade)
É fundamental dispor de um controlo de qualidade para verificar a exatidão dos dados etiquetados. O controlo de qualidade assegura resultados de qualidade consistentes, detetando erros e aumentando a produtividade nas tarefas de etiquetagem de dados.
Treino do modelo
Depois de o conjunto de dados inicial ter sido rotulado e enviado para o controlo de qualidade, pode ser utilizado para treinar o seu modelo, ensinando-o a fazer previsões exatas sobre novos dados. Nesta altura, é necessário ter em conta algumas considerações, tais como:
- Os dados são suficientes?
- Os resultados são os esperados?
- Como está o desempenho do modelo?
- O modelo está a omitir alguma informação importante?
- O modelo é bem-sucedido?
Não se esqueça de que o modelo requer uma monitorização contínua do seu desempenho.
Tipos de etiquetagem de dados
Existem vários tipos de etiquetagem de dados, mas podem ser considerados através de duas categorias principais: visão por computador e PNL.
Visão por computador
Utilizando dados de treino de alta qualidade, os modelos de VC podem abranger uma vasta gama de tarefas, tais como:
A rotulagem de dados em visão por computador e processamento de linguagem natural (PNL) difere principalmente nas técnicas de anotação utilizadas. As aplicações de visão por computador envolvem anotações como polígonos, polilinhas, segmentação semântica e de instâncias, que não são normalmente utilizadas em PNL.
PNL (Processamento de linguagem natural)
O PNL combina a aprendizagem automática e deep learning para extrair informações de dados textuais. A rotulagem de dados para PNL envolve a adição de rótulos a ficheiros ou a utilização de caixas delimitadoras para delinear o texto a rotular. As abordagens de rotulagem de dados em PNL podem ser classificadas em grupos sintáticos e semânticos.
Boas práticas de rotulagem de dados
Existem algumas boas práticas testadas e comprovadas para a rotulagem de dados. Não se trata de um modelo único, uma vez que cada projeto pode ter as suas abordagens específicas.
- Recolher dados variados – Os seus dados devem ser tão variados quanto possível;
- Ter dados específicos – Os dados recolhidos devem ser tão específicos quanto pretenda que sejam os seus resultados;
- Definir diretrizes de anotação – As instruções de anotação ajudam o modelo a evitar erros na rotulagem dos dados.
STOCK.VISION: Monitorização Automática de Prateleiras de Lojas pela MakeWise

Uma solução de monitorização de prateleiras de lojas que fornece informações de disponibilidade de artigos em tempo real com base em imagens de câmaras na loja.
- Utiliza imagens de câmaras CCTV para monitorizar
- Informações de disponibilidade em tempo real
- Alertas com a prateleira e a identificação do produto
- Stock na prateleira permanentemente monitorizado
Confirme aqui todas as soluções da MakeWise e inicie o processo de transformação digital da sua empresa. Contacte-nos!