De um modo geral, os métodos de reconhecimento facial funcionam comparando as características faciais selecionadas de uma determinada imagem com os rostos existentes num banco de dados. Embora a exatidão do sistema de reconhecimento facial, como tecnologia biométrica (biometria tem origem nas palavras gregas bios (vida) e metrikos (medida)), seja inferior ao reconhecimento de íris oculares e de impressões digitais, ele é ainda amplamente adotado pela sua simplicidade.

No entanto, todos reconhecemos que as expressões faciais fornecem uma fonte essencial de informações habitualmente usadas na comunicação humana, desempenhando um papel crucial na interação entre seres humanos. Para estes, o seu reconhecimento é automático e baseado na exploração das variações, em tempo real, das características faciais. A replicação desse processo natural usando sistemas de visão computacional ainda é um desafio, uma vez que os requisitos da automação e do sistema em tempo real são comprometidos para se conseguir obter uma deteção exata das emoções.

Na ausência de outras informações, como por exemplo a fala, as expressões faciais podem transmitir emoções, opiniões e pistas sobre os estados cognitivos. Existem vários campos de investigação focados no desenvolvimento de sistemas automáticos para o reconhecimento de emoções faciais.

Eles são representados principalmente por:

  • Interação cognitiva humano-robô – na qual a evolução de robôs e agentes animados por computador acaba por resultar num problema social de comunicação entre esses sistemas e os seres humanos (Hong et al., 2007);
  • Interação homem-computador – no qual a análise de expressões faciais é amplamente utilizada em telecomunicações, ciências comportamentais, videogames e outros sistemas que requerem descodificação de emoções faciais para comunicação (Fernandes et al., 2011).

Assim, foram desenvolvidos vários sistemas de reconhecimento de rosto para deteção de recursos faciais em tempo real (e.g. (Bartlett et al., 2003)). Inclusivamente foram realizados estudos psicológicos para descodificar essas informações usando apenas expressões faciais, tal como sucede no Facial Action Coding System (FACS) desenvolvido por Ekman (Ekman e Friesen, 1978).

Conforme comprovado na investigação realizada por Jamshidnezhad e Nordin, em 2012, a sequência comum entre os sistemas de reconhecimento de expressões faciais existentes, para classificação das mesmas (Bettadapura, 2009), é composta por 3 etapas:

  1. a fase de reconhecimento facial;
  2. a fase de obtenção de características faciais;
  3. a fase classificadora de Machine Learning, na qual se faz o treino preliminar do modelo e posterior previsão on-line das expressões faciais.

Conforme reivindicado na investigação acima mencionada, a segunda fase da sequência anteriormente apontada (obtenção de características faciais) influencia fortemente a exatidão e o custo computacional de todo o processo. Na realidade, a escolha do tipo de características a conseguir e os métodos correspondentes a serem utilizados para a obtenção das mesmas, são fundamentais para o desempenho geral.

Os métodos habitualmente utilizados para a obtenção das feições podem ser divididos em:

  • métodos geométricos, nos quais as características são extraídas de locais com formas ou pontos salientes, como sejam a boca ou os olhos (Kapoor et al., 2003);
  • métodos baseados na aparência, como sejam carrancas ou rugas (Fischer, 2004).

As características geométricas são selecionadas a partir de pontos de referência de partes essenciais da face, i.e. olhos, sobrancelhas e boca, obtidos a partir de uma técnica de reconhecimento de características da face. Esses métodos de extração são caracterizados pela sua simplicidade e baixo custo computacional, mas a sua exatidão depende muito do desempenho do reconhecimento facial. Exemplos de metodologias de classificação de expressões, que utilizam extração de traços geométricos, são descritos em vários artigos científicos como sejam (Cheon e Kim, 2009; Niese et al., 2012; Gang et al., 2009; Hammal et al., 2007; Seyedarabi et al., 2004; Kotsia e Pitas, 2007).

No entanto, elevada exatidão na deteção de expressões requer, geralmente, uma calibração a partir de uma face neutra, um aumento do custo computacional, uma diminuição do número de expressões detetadas ou um posicionamento manual dos nós da grelha.

Por outro lado, características baseadas na aparência funcionam diretamente na imagem e não em pontos extraídos (e.g. (Kotsia et al., 2008) (Shan et al., 2009) e (Chatterjee e Shi, 2010). Geralmente analisam a textura da pele, extraindo características relevantes para a deteção de expressões. Ao requerer uma quantidade maior de dados, o método baseado na aparência torna-se mais complexo do que o da abordagem geométrica, comprometendo também o tempo real exigido pelo processo (as características baseadas em aparência mostram alta variabilidade no tempo de desempenho de 9,6 a 11,99 segundos (Zhang et al. 2012)).

Abordagens híbridas, que combinam extração geométrica e aparência, podem ser consideradas (Youssif e Asker, 2011) mais exatas, mas ainda são caracterizadas por um elevado custo computacional. Assim, o desejável é um método de extração de características que forneça desempenhos comparáveis aos métodos baseados em aparência, sem comprometer os requisitos de tempo real e de automação do sistema. Para tal, é importante resolver os seguintes quatro principais problemas de reconhecimento de expressões faciais (Bettadapura, 2009):

  1. requisito em tempo real: a comunicação entre humanos é um processo em tempo real com uma escala de tempo de cerca de 40 milissegundos, o problema em tempo real pode ser resolvido utilizando uma extração de características de baixa complexidade, sem comprometer a exatidão da deteção de expressões;
  2. capacidade de reconhecimento de expressões padrão, múltiplas, em pessoas com diferentes características faciais antropométricas, é importante investigar todas as seis expressões faciais universais - Alegria, Tristeza, Surpresa, Medo, Nojo e Raiva - bem como Neutra e Conflituosa para solucionar este problema;
  3. capacidade de reconhecimento das expressões faciais sem calibração neutra de comparação de faces, nomeadamente o reconhecimento de oito emoções diferentes sem a necessidade de qualquer processo de calibração utilizando faces neutras;
  4. capacidade de auto-calibração automática, para evitar qualquer intervenção manual na localização das características geométricas.

Uma explicação detalhada da otimização destas quatro questões pode ser obtida através da leitura de um artigo baseado na investigação de Verónica Orvalho e co-autores (Loconsole et al., 2014). Desse artigo são aqui reproduzidas as Figuras 1, 2 e 3 que mostram um conjunto de detalhes utilizados na deteção de algumas características faciais.

Atualmente existem variadíssimas aplicações do reconhecimento facial, como sejam as redes sociais, a verificação de identidade, o FaceID e, ainda, serviços de segurança e publicidade de entre muitas outras. Existem também variadíssimas maneiras de supostamente enganar os sistemas de reconhecimento facial, como sejam o uso de óculos especialmente concebidos para enganar sistemas de identificação facial, a utilização de acessórios com luzes LED, o uso de máscaras realistas ou, mesmo, a utilização de maquilhagem e corte de cabelo.


FIGURA 1. subconjunto composto por 19 pontos dos 66 marcos faciais usados para extrair características faciais geométricas (reproduzido de Loconsole et al., 2014).


FIGURA 2. A) Definição da elipse superior da região da boca. B) Definição da elipse inferior da região da boca (reproduzido de Loconsole et al., 2014)..


FIGURA 3. A) Resultado final da construção facial a partir de oito elipses. B) As características das elipses faciais mudam de acordo com a expressão facial da pessoa (reproduzido de Loconsole et al., 2014).

Mas, paralelamente, muitos são os erros cometidos por reconhecimentos faciais incorretos, levando mesmo à detenção de pessoas, por parte das autoridades, como tem sucedido já em países onde o sistema de reconhecimento facial trabalha lado a lado com a estatística. Por isso, assim que o sistema aponta, por exemplo e dependendo do país, para 70% de possibilidade de uma pessoa ser a procurada, ela é detida.

Mais ainda, lembram-se do problema levantado, há já anos, por George Orwell no seu famoso livro 1984, que imaginou um futuro aterrador no qual o governo do Big Brother usaria ferramentas para nos vigiar a todos? Como os nossos rostos são tão individualistas quanto as nossas impressões digitais, a tecnologia de reconhecimento facial dita que a privacidade termina no momento em que saímos de casa...

Por outro lado, as organizações policiais e de segurança, armadas com a tecnologia de reconhecimento facial têm uma vantagem adicional na deteção de terroristas conhecidos, criminosos internacionais e fugitivos.

Adicionalmente, tecnologias de reconhecimento facial estão atualmente em uso, em determinados países para evitar que pessoas obtenham documentos de identificação falsos, e.g. cartões de cidadão e cartas de condução, e, ainda para evitar fraudes em votações.

Em conclusão: reconhecimento facial, uma vantagem ou uma desvantagem? Qual é a sua opinião?