Como a visão da máquina está impulsionando a automação

A Visão da Máquina é a fusão de várias tecnologias que permitem que o equipamento industrial ou outro automatizado deriva de imagens um entendimento avançado do ambiente em questão. Sem software de visão de máquina, imagens digitais com valores de cores variados e intensidades tonais não levariam nada mais do que uma coleção simples e desconectada de pixels para esses equipamentos. A visão da máquina permite que um computador (geralmente conectado a um controlador de máquina) detecte bordas e formas nessas imagens, a fim de permitir que um processador de nível superior reconheça um objeto de destino predefinido. As imagens nesse sentido não se limitam a imagens fotográficas no espectro visível; Eles também podem incluir imagens obtidas usando sinais infravermelhos, laser, raios-X e ultrassônicos.

Em ambientes industriais, é bastante comum que os aplicativos de visão de máquina reconheçam peças específicas das muitas peças colocadas em uma desordem de caixas de materiais. Aqui, a Visão de Máquinas ajuda o robô de pick-and-plástico a capturar automaticamente as peças corretas. Obviamente, se as peças estiverem bem organizadas na mesma orientação em um palete, seria relativamente simples reconhecê -las com feedback de imagem. No entanto, algoritmos poderosos de visão de máquina podem reconhecer objetos que estão a diferentes distâncias da câmera (e, portanto, aparecem como imagens de tamanho diferente no sensor de imagem), bem como objetos que não são orientados na mesma direção que a câmera.

Os sistemas de visão de máquina mais sofisticados permitiram designs emergentes que são muito mais complexos do que escolher peças em caixas; Por exemplo, pode não haver uma identificação mais complexa do que um carro autônomo.

machine vision

Técnicas relacionadas à visão de máquina

Às vezes, o termo visão da máquina é reservado para referência a métodos matemáticos mais sofisticados e eficientes que podem extrair informações das imagens. Por outro lado, o termo visão computacional descreve normalmente os sistemas mais modernos e computacionalmente exigentes, incluindo abordagens de caixa preta que usam aprendizado de máquina ou inteligência artificial (AI). No entanto, a visão da máquina também pode ser usada como um termo abrangente que inclui todos os métodos de extração de informações de alto nível das imagens; Nesse caso, a visão computacional descreve sua teoria subjacente da operação.

Técnicas que podem extrair o significado de alto nível das imagens são abundantes. Na comunidade de pesquisa, essas técnicas são frequentemente consideradas distintas da visão da máquina. Na realidade, no entanto, todos eles são maneiras diferentes de implementar a visão da máquina ... e se sobrepõem em muitos casos.

O processamento de imagem digital é uma forma de processamento de sinal digital que envolve aprimoramento, restauração, codificação e compactação de imagens. As vantagens sobre o processamento de imagem analógica são a minimização de ruído e distorção, bem como a multidão de algoritmos disponíveis. Um dos primeiros tipos de aprimoramento da imagem foi usado para corrigir as primeiras imagens em close da superfície lunar. Nesse processo, foram usados mapeamento fotogramétrico e filtros de ruído e foram feitas correções para distorções geométricas causadas pelo alinhamento da câmera de imagem na superfície lunar.

O aprimoramento da imagem digital geralmente envolve aumentar o contraste e possivelmente as correções geométricas para visualizar ângulos e distorção da lente. A compressão é frequentemente alcançada aproximando os sinais complexos como uma combinação de funções cosseno-uma transformação de Fourier conhecida como transformada discreta de cosseno (DCT) .O formato do arquivo JPEG é a aplicação mais comum do DCT. A restauração de imagens também pode usar a transformação de Fourier para remover o ruído e o desfoque.

A fotogrametria usa algum tipo de reconhecimento de recurso para extrair medições das imagens. Essas medidas podem incluir informações em 3D quando várias imagens da mesma cena são adquiridas em diferentes locais. Os sistemas fotogramétricos mais simples usam uma escala para medir a distância entre dois pontos em uma imagem. Para fazer isso, geralmente é necessário incluir uma escala de referência conhecida na imagem.

A detecção de recursos permite que o computador reconheça bordas, cantos ou pontos na imagem. Esta é a primeira etapa necessária para a fotogrametria e para reconhecer objetos e movimento. A detecção de BLOB identifica áreas com bordas muito lisas para a detecção de borda ou canto.

O reconhecimento de padrões é usado para reconhecer objetos específicos. No caso mais simples, isso pode significar encontrar uma peça mecânica específica bem definida em uma correia transportadora.

A reconstrução 3D determina a forma 3D de um objeto de uma imagem 2D. Esse recurso pode ser realizado por métodos fotogramétricos. Nesse caso, as alturas de características comuns (determinadas em imagens de diferentes pontos de observação) são determinadas usando triangulação. A reconstrução 3D também é possível usando imagens 2D isoladas; Aqui, o software também explica as relações geométricas entre bordas ou áreas sombreadas.

Os seres humanos podem reconstruir cubos simplesmente processando -os em seus cérebros usando desenho de linha - usando círculos sombreados para reconstruir as esferas. O sombreamento mostra a inclinação da superfície. No entanto, esse processo de derivação é muito mais complexo do que se poderia pensar, pois o sombreamento é um parâmetro unidimensional, enquanto a inclinação ocorre em um caso bidimensional. Isso pode levar a situações ambíguas - um fato validado pela arte de descrever objetos fisicamente impossíveis.

Como as tarefas de visão de máquina são sequenciadas

Muitos sistemas de visão de máquina incorporam as técnicas acima, iniciando com operações de baixo nível e depois progredindo para operações de nível superior. No nível mais baixo, todos os pixels de uma imagem são armazenados como dados de alta largura de banda. Cada operação na sequência reconhece os recursos da imagem e representa as informações de interesse com uma quantidade relativamente pequena de dados.

O primeiro é a operação de baixo nível do aprimoramento e restauração da imagem, seguido de detecção de recursos. Assim, no caso de usar vários sensores, as operações de baixo nível podem ser realizadas por processos distribuídos especializados para sensores individuais. Depois que os recursos são detectados em imagens individuais, a fotogrametria mais avançada pode ser realizada - como em qualquer reconhecimento de objetos ou outra tarefa que se baseie em dados combinados de várias imagens e sensores.

Algoritmos diretos de computação e aprendizado

No caso da visão da máquina, a computação direta é um conjunto de funções matemáticas definidas pelo programador. Essas funções recebem entradas, como valores de pixel de imagem e produzem saídas como coordenadas de borda do objeto. Por outro lado, os algoritmos de aprendizado não são escritos diretamente por seres humanos, mas são treinados nos conjuntos de dados de exemplo que correlacionam entradas com as saídas desejadas. Como resultado, os algoritmos de aprendizado são usados como caixas pretas. A maioria desse aprendizado de máquina agora usa aprendizado profundo com base em redes neurais artificiais para computação.

O aprendizado de máquina simples para aplicações industriais tende a ser mais confiável e menos exigente computacionalmente quando baseado na computação direta. Obviamente, existem limites para o que pode ser alcançado através da computação direta. Por exemplo, nunca se deve esperar realizar rostos para reconhecer os padrões avançados de reconhecimento necessários, e especialmente não de imagens de vídeo em espaços públicos lotados. Por outro lado, o aprendizado de máquina pode lidar habilmente a tais aplicações. Portanto, não surpreende que o aprendizado de máquina esteja sendo implantado cada vez mais para operações de visão de máquina de baixo nível, especificamente aprimoramento da imagem, restauração e detecção de recursos.

Métodos de ensino aprimorados (não algoritmos)

A crescente sofisticação de técnicas de aprendizado profundo deixou claro que não são os algoritmos de aprendizado que precisam ser melhorados, mas a maneira pela qual os algoritmos são treinados. Um procedimento de treinamento aprimorado é conhecido como visão computacional centrada em dados. Aqui, um sistema de aprendizado profundo aceita um conjunto de treinamento muito robusto, composto por milhares, milhões ou até bilhões de imagens - e depois salva as informações sintetizadas extraídas de cada imagem por seus algoritmos. Esses algoritmos aprendem com eficiência, vinculando -os a exemplos de trabalho e, em seguida, se referem a um "livro de respostas" para verificar se os valores corretos foram derivados.

Há um antigo conto de advertência sobre o reconhecimento de padrões digitais. As forças armadas dos EUA pretendiam usar a visão de máquina para reconhecimento de alvo, e a demonstração de um contratado de defesa identificou confiáveis tanques americanos e russos. Tanques de todos os tipos diferentes podem ser distinguidos corretamente, um após o outro, das fotografias aéreas do fornecedor. No entanto, quando testado novamente com a própria biblioteca de imagens do Pentágono, o sistema continuou dando respostas incorretas. O problema era que as imagens dos contratados de defesa retratavam tanques americanos no deserto e tanques russos em campos verdes. Em vez de identificar os diferentes tanques, o sistema identificou os diferentes fundos coloridos. Quais são os critérios de reconhecimento? Os algoritmos de aprendizado exigem dados de treinamento cuidadosamente selecionados para funcionar.

Conclusão: Uma visão segura para células de trabalho robóticas

A visão da máquina não é mais uma tecnologia de nicho. Na unidade atual, o setor industrial é a maior área de crescimento para implantações de visão de máquina. O desenvolvimento mais notável nessa área é como a visão de máquina está concluindo os sistemas de segurança em plantas industriais, ou seja, sistemas que soam um alarme ou dão notificações de voz quando um trabalhador entra em uma área de trabalho sem capacete, máscara ou outro equipamento de proteção apropriado. A visão da máquina também pode ser usada em sistemas que alertam ao mover máquinas, como empilhadeiras, chegar muito perto do pessoal.

Esses e sistemas de visão de máquinas semelhantes às vezes podem substituir medidas de proteção rígida em torno dos robôs industriais para tornar as operações mais eficientes. Os sistemas de visão de máquina também podem substituir ou aprimorar os sistemas de segurança com base na proteção de luz que param as máquinas sempre que um trabalhador é detectado entrando na célula de trabalho. Quando a Visão da Máquina monitora o piso da fábrica em torno de uma célula de trabalho, os robôs nessa célula têm o potencial de diminuir gradualmente à medida que as pessoas se aproximam.

À medida que o design de ambientes industriais evolui para acomodar robôs colaborativos e outros equipamentos de célula de trabalho que permitem que o pessoal da planta passe por aí com segurança (mesmo enquanto o equipamento estiver em funcionamento), esses e outros sistemas baseados em visão de máquina se tornarão uma parte mais comum dos processos da planta.