Embora existam alguns trabalhos recentes em reconhecimento de movimentos de cabeça [5], muito importantes em comunicação por sinais, a grande maioria dos trabalhos se concentra nos movimentos e formas da mão. Além da importância fundamental nas línguas de sinais para surdos, sistemas para rastreamento () das mãos humanas possuem aplicações em interação homem-máquina, realidade virtual e compressão de sinais que incluem jogos controlados por movimentos de mão [6], aparelhos de televisão acionados por sinais manuais capturados através de filmadoras [6], compressão de sinais para vídeo-conferência [7] e dispositivos que substituem o
na interação com computadores pessoais.
As duas principais classes de sistemas para rastreamento da mão são: (1) as baseadas em , que requerem a utilização de luvas especiais de realidade virtual com diversos sensores para detecção das posições dos punhos, mãos, pontas dos dedos e articulações [8] e (2) as baseadas em visão computacional, que trabalham sobre um fluxo contínuo de imagens contendo as mãos e obtidas através de filmadoras digitais [9,10,11,12]. O primeiro grupo oferece geralmente maior velocidade e precisão, no entanto, o segundo grupo tem recebido cada vez mais atenção devido aos recentes avanços na área de processamento digital de imagens e à alta disponibilidade e baixo custo das câmeras digitais, além, é claro, de serem sistema não intrusivos (não requerem que o usuário ``vista'' um equipamento). Algumas técnicas baseadas em visão computacional se utilizam também de recursos intrusivos, porém bem mais acessíveis que as
, como luvas convencionais marcadas com cores que facilitam a identificação de partes das mãos [13]. Também existem sistemas que usam câmeras que captam sinais infra-vermelho para facilitar o reconhecimento do corpo humano [14]. No entanto, a baixa disponibilidade e o alto custo das câmeras de infra-vermelho, quando comparado às câmeras digitais comuns, podem não justificar o ganho de precisão obtido.
Trabalhos específicos visando a construção de sistema de reconhecimento de línguas de sinais para surdos já estão disponíveis para diversas línguas de sinais, como a australiana, a chinesa, a alemã, a árabe e a americana [8,11]. A maioria destes sistemas incluem tipicamente quatro módulos: (1) segmentação, (2) extração de parâmetros, (3) reconhecimento de posturas e (4) reconhecimento de gestos.
Na fase de segmentação a região das mãos é separada do fundo da imagem. Esta tarefa pode ser bastante complexa se não forem impostas restrições ao ambiente e as mãos estiverem nuas. No entanto, bons resultados tem sido obtidos através de técnicas baseadas em esquemas de cores invariantes em relação a luminescência [15], imagens de fundo previamente gravadas [10] e cálculo das diferenças entre duas imagens subsequentes [10] . A extração de parâmetros reduz o espaço de busca abstraindo da imagem segmentada algumas características importantes na distinção entre diferentes sinais. A importância de uma característica está diretamente relacionada com a forma em que a modelagem dos sinais manuais é efetuada, podendo incluir estimativas para a posição e os ângulos relativos entre as pontas dos dedos, para a posição e direção do centro da mão, para o contorno da mão e para os momentos da imagem (image moments) [16,14,11,13].
O reconhecimento de posturas e gestos consiste na busca pelo melhor modelo de sinal que casa com os parâmetros extraídos. Posturas são sinais que não envolvem movimento, por isto, sua modelagem é bem mais simples que a dos gestos. Modelagem de gestos envolvem informação temporal e análise de sequências de imagens. A grande maioria dos trabalhos em reconhecimento de gestos utiliza técnicas adaptadas do reconhecimento da fala, como aquelas baseadas em cadeias de Markov [8,15]. Técnicas de aprendizagem de máquina, principalmente as baseadas em redes-neurais [11], também estão sendo utilizadas tanto no reconhecimento de postura quanto no reconhecimento de gestos. Outras técnicas utilizadas no reconhecimento incluem a análise dos componentes principais (PCA - principal component analysis) [17], o casamento de padrões elásticos em grafos (elastic graph matching) [18] e os filtros de Kalman [12].