Portuguese/Perguntas Frequentes sobre o WordCheck

From DPWiki
Jump to: navigation, search

O que é e para que serve o WordCheck?

O WordCheck é uma ferramenta nova que substitui a ferramenta do Spellcheck (corrector ortográfico) e que refina e e acrescenta funcionalidade ao precedente corrector ortográfico do DP em três áreas relacionadas:

• o texto da página pode agora ser verificado em mais de um idioma,

• os erros de reconhecimento, que geralmente procedem do OCR, podem ser assinalados para chamar a atenção dos revisores utilizando listas de más palavras, e

• uma lista de boas palavras, apropriadas e da terminologia do projecto, pode ser especificada evitando que palavras escritas correctamente sejam assinaladas perante os revisores.

Muito agradecemos ao cpeel e ao jmdyck por todo o seu trabalho em fazer destas características, frequentemente pedidas, uma realidade.


O que são “Boas palavras ”, “Más palavras ”, e “Palavras assinaladas”?

A interface de WordCheck foi criada para ajudar os revisores a detectar as diferenças entre a imagem e o texto da página. Frequentemente, quando o software do OCR identifica a palavra incorrectamente, a palavra é escrita erradamente e pode ser detectada por um corrector ortográfico. Outras vezes o software do OCR identifica uma palavra incorrecta na imagem mas o texto resultante é uma palavra válida. Neste caso, estas palavras não deixam de estar erradas, apesar de serem palavras válidas. A equipa decidiu usar a nomenclatura “boa”/”má” para reflectir melhor a intenção da interface do WordCheck: ajudar o revisor a combinar a imagem com o texto. Depois do WordCheck processar palavras nos diversos níveis é criada uma lista final de más palavras a apresentar ao utilizador para que sejam validadas ou corrigidas. Estas palavras são chamadas palavras assinaladas porque foram assinaladas pelo sistema para uma inspecção mais cuidada.

De onde vêm as palavras assinaladas?

As palavras assinaladas provêm de três tipos de fontes:

• Geral – erros determinados por um corrector ortográfico externo e por dicionários ;

• local – palavras identificadas pelo administrador local como erros camuflados (stealth) comuns do OCR ;

• projecto – as palavras especificadas pelo gestor de projecto como reconhecimentos (scannos) válidos (lista de boas palavras) ou erros camuflados (stealth ) possíveis do OCR (lista de más palavras).

Cada nível tem precedência sobre o nível anterior. As palavras identificadas como más no nível geral (por um corrector ortográfico externo) mas válidas no nível do projecto (palavras boas do projecto) não serão assinaladas. Isto permite à pessoa mais próxima ao texto um maior controle sobre o que é assinalado: os gestores de projecto podem ajustar as listas de boas e más palavras no nível do projecto. Os administradores locais podem controlar as palavras más encontradas geralmente como erros de reconhecimento do OCR no nível local. Os correctores ortográficos e outros validadores externos podem ser utilizados para determinar as más palavras a um nível geral.

Pode dar-me um exemplo simples de como trabalham os níveis para assinalar palavras para o revisor corrigir ou aceitar?

Para ajudar a ilustrar como o sistema do WordCheck trabalha, considere o seguinte pseudo-projecto.

   * Nome: Uma descrição das cidades ocidentais do Texas
   * Idioma: Inglês
   * Lista de boas palavras : Lubbock Levelland Muleshoe Plainview Littlefield
   * Lista de más palavras : fiat 

Agora consideremos o seguinte texto de OCR:

Lubbock is a town of many things: arid fiat 1and, grid-like roads, arid the infamous tumbleweed.

Quando um revisor selecciona o texto “WordCheck”, o WordCheck avalia o texto em três níveis: geral, local, e projecto. Em cada nível, palavras são adicionadas ou removidas da lista das palavras assinaladas. Isto para determinar as palavras que serão efectivamente sinalizadas no texto para avaliação (pelos revisores). Eis um exemplo de como o processo de sinalização funciona, nível a nível.

Geral

Lista das palavras assinaladas à entrada do nível: nenhuma

No nível geral, o texto é verificado por um corrector ortográfico externo utilizando os dicionários do idioma especificado. O resultado depende das particularidades do corrector e do dicionário, mas assumamos que as seguintes palavras foram assinaladas como erros ou más palavras: Lubbock e tumbleweed.

Lista das palavras assinaladas à saída do nível: Lubbock tumbleweed

Local

Lista das palavras assinaladas à entrada do nível: Lubbock tumbleweed

No nível local, o texto é verificado para ver se há erros camuflados, que são os erros do software do OCR que resultam em palavras válidas/escritas correctamente, mas que no entanto, são palavras incorrectas. Além disso, palavras incorrectas podem ser identificadas por uma série de testes-padrão quando estas contêm caracteres alfabéticos e numéricos. No texto acima, seriam assinaladas como Más as palavras arid (um erro camuflado comum) e 1and (condiz com um teste-padrão suspeito).

Lista das palavras assinaladas à saída do nível: Lubbock tumbleweed arid 1and

Projecto

Lista das palavras assinaladas à entrada do nível: Lubbock tumbleweed arid 1and

O nível projecto permite que o gestor de projecto tenha mais controlo sobre as palavras que são consideradas boas ou más. Neste nível as palavras assinaladas são comparadas à lista de boas palavras do projecto. Todas as palavras encontradas na lista de boas palavras estão supostamente correctas e são removidas da lista de palavras assinaladas. Assim, Lubbock é removida da lista de palavras assinaladas nesta página. O texto é ainda comparado com a lista de más palavras do projecto. Todas as palavras no texto que forem encontradas na lista de más palavras são adicionadas à lista das palavras assinaladas nesta página. Para este exemplo, fiat é adicionado à lista.

Lista das palavras assinaladas à saída do nível: tumbleweed fiat 1and arid

A lista final de palavras assinaladas é apresentada ao utilizador e alerta-o para as corrigir ou aceitar. O revisor pode clicar no botão Unflag All Book-Plus-Small.gif a seguir a tumbleweed para marcar como válida para esta página. Da próxima vez que o gestor do projecto verificar as sugestões da lista das palavras aceites, tumbleweed será mostrada para possível inclusão na lista de boas palavras. Uma vez que arid é uma palavra má no nível local (um erro de reconhecimento neste caso), não haverá um botão Unflag All. Isto obrigará o revisor a olhar atentamente todos os casos. Nesta situação o primeiro exemplo de arid está correcto enquanto o segundo exemplo da palavra é um erro de reconhecimento para a palavra and.

Como é que a capitalização afecta a lista das palavras?

Boas e más palavras são tratadas como comparações exactas e além disso há capitalizações específicas. Por exemplo, "Lubbock" e "lubbock" são consideradas palavras separadas.