-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathconclusao.tex
25 lines (13 loc) · 4.63 KB
/
conclusao.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
\chapter{Conclusão} \label{chap:conclusao}
Neste trabalho foi desenvolvido um sistema de detecção de pessoas em um ambiente industrial cujo objetivo é interromper o funcionamento de equipamentos de transporte se uma pessoa for detectada, e assim, aumentar a segurança dos colaboradores na linha de produção. Duas propostas de implementação desse sistema foram avaliadas: a primeira baseada em métodos tradicionais de localização de objetos, vista no Capítulo \ref{chap:tradicional}, e a segunda com uma abordagem híbrida, contando com classificadores profundos, vista no Capítulo \ref{chap:class-profundo}.
Cada solução apresenta suas especificidades e parâmetros, que precisam ser ajustados de maneira individual. O resultado apresentado no Capítulo \ref{chap:resultados} demonstrou que o sistema com melhor desempenho foi o que utilizou um classificador CNN. Esse fato corrobora a tendência de avanço do uso das técnicas profundas que tem sido observada na comunidade de aprendizado de máquina nos últimos anos.
Embora o sistema ainda não tenha sido implantado na empresa, por desafios técnicos de montagem dos paineis de controle, os ensaios realizados utilizando vídeos de teste sugerem que o sistema funcionará de maneira satisfatória.
Das contribuições desse trabalho podem ser destacadas as comparações de classificadores superficiais (SVM) em conjunto com diferentes descritores aos classificadores profundos, nas diferentes topologias de rede CNN e MLP. O trabalho também demonstra que as técnicas profundas não se restringem a grandes conjuntos de dados (\textit{big data}), mas que podem ser empregadas em situações com volume moderado de amostras, inclusive desbalanceadas.
Durante a implementação, alguns desafios foram encontrados. Primeiramente na escolha dos descritores cuja escolha requer conhecimento específico da aplicação. Embora tenha sido utilizado um descritor recomendado na literatura, assim como uma variação proposta nesse trabalho, os resultados não foram satisfatórios. Também houve dificuldade nas primeiras etapas de treinamento das redes profundas, dado que o conjunto de treinamento era desbalanceado. Por fim, durante a fase de testes houve um conflito na unidade de processamento de vídeo que era utilizada simultâneamente pelo \textit{driver} da câmera stereo e pelo \textit{framework Keras}, mas que foi resolvido utilizando alocação de recursos da \textit{GPU}.
\section*{Trabalhos futuros}
Duas propostas de trabalhos futuros são sugeridas. Primeiramente a realização de um ajuste fino no classificador atual e em seguida outra arquitetura de detecção integralmente baseada em redes profundas.
Os vídeos utilizados para gerar o dataset deste trabalho só puderam ser gravados em uma ocasião. Isso proporcionou um conjunto de dados moderadamente limitado no sentido de ser desbalanceado e ter um padrão de peças que seriam encontradas na produção. É possível que após a instalação do sistema na fábrica ocorram mais falsos positivos do que previsto no vídeo de teste, justamente pela mudança no padrão de peças.
Poderia-se resolver esse problema gravando todas as amostras classificadas como positivas e manualmente selecionando as que foram falsos positivos. Numa próxima etapa poderia-se fazer um treinamento de ajuste, variando parâmetros apenas das últimas camadas, responsáveis pela classificação de maneira a ter um melhor desempenho real.
Tendo em vista o grande potencial das técnicas de aprendizado profundo, tanto os resultados aqui apresentados como os do estado da arte, idealizou-se uma terceira solução integralmente baseada em estruturas profundas. Nesta proposta não existiria seleção de candidatos: o quadro inteiro seria tido como entrada do classificador, que deveria então retornar uma saída indicando a existência ou não de pessoas na cena.
A topologia de rede proposta seria convolucional com uma saída bidimensional que representa um mapa de probabilidades de existir uma cabeça em cada posição deste mapa. Essa topologia permitiria maior generalização do problema de forma que houvesse invariância à translação das cabeças no quadro. Além disso, essa saída em mapa permitiria que a rede fosse treinada mais facilmente se comparada à uma única saída que representa a probabilidade do quadro conter cabeça. Isso advém do fato de uma única saída não permitir especificar qual é o objeto de interesse, portanto o treinamento iria exigir um número muito maior de amostras até conseguir modelar esse conhecimento.
Por limitação de tempo essa solução não pôde ser implementada até a apresentação desse trabalho, porém deve seguir em desenvolvimento.