An Official Journal of the European Federation of Medical Informatics

About EJBI Editorial Board Instructions for Authors Browse EJBI Special Issues Sponsorship & Ads Contact
ISSN 1801-5603
English
English Portugese

Recuperação Semântica de Documentos Clínicos e Bibliográficos Baseada em Subwords

1. AVERBIS GmbH, Freiburg, Germany
2. Freiburg University Hospital, Medical Informatics Group, Freiburg, Germany
3. Freiburg University Hospital, Department of Dermatology, Freiburg, Germany
4. German National Library of Medicine, Cologne, Germany
5. Bertelsmann Stiftung, Gütersloh, Germany
6. Paraná Catholic University, Health Informatics Laboratory, Curitiba, Brazil
7. Universidade Tecnológica Federal do Paraná, CPGEI, Curitiba, Brazil

Sumário

Objetivos:Com o incremento da disponibilidade de documentos eletrônicos em bases bibliográficas e de documentação clínica, a recuperação dessas informações requer a adoção de técnicas e interfaces amigáveis ao usuário.

Métodos:Apresenta-se neste artigo uma estratégia específica para a recuperação de documentos, no domínio da indexação semântica de textos. A estratégia é baseada em um thesaurus de subwords e no mapeamento de textos, em diferentes linguagens, para uma representação única, interlingual, permitindo a busca entre diferentes coleções de documentos.

Resultados:Três casos são apresentados empregando a metodologia desenvolvida: uma base de dados bibliográfica, um sistema departamental de prontuário eletrônico de pacientes e um portal Web.

Conclusões:A utilização da metodologia de indexação e recuperação semântica revelou-se útil em diferentes protótipos e rotinas de trabalho, tendo sido bem aceita por diferentes grupos de usuários. Por fim, ressalta-se que a avaliação da performance da indexação já fora realizada, empiricamente, em estudos anteriores.

Palavras-Chave: Thesauri, Recuperação Semântica de Informação, Indexação de Documentos, Recuperação de Informação Inter-Língua, Banco de dados bibliográficos, Informática em saúde, Registro eletrônico do paciente

1. Introdução

Atualmente, mais da metade de toda a informação produzida encontra-se disponível digitalmente [1]. Para o domínio da saúde, o contexto não é diferente, haja vista a disponibilidade crescente de textos eletronicamente disponíveis em diferentes sistemas de informação clínica e publicações. Esta é uma das razões que justificam o desenvolvimento de sistemas específicos para a recuperação de informação (IR). Inúmeros grupos de pesquisa estiveram comprometidos na adaptação de tais sistemas para o domínio do tratamento médico [2], [3].

Em se tratando de termos médicos, há um elemento complicador, especialmente no idioma alemão, pois eles são freqüentemente caracterizados por formas complexas de composição, derivação e inflexão, como também pela geração constante de acrônimos novos, abreviações e nomes próprios. Além disso, regras gramaticais nem sempre são respeitadas. Em função dessas peculiaridades, técnicas atuais de recuperação de informação, que normalmente baseiam-se em comparação simples de palavras inteiras, não são adequadas, visto produzirem resultados quase sempre incompletos, inexatos, ou fora do escopo desejado [4].

Considerando a necessidade de recuperação de informação em outros tipos de documentos além de narrativas clínicas, como artigos relacionados à área de saúde, manuais e guidelines, é importante considerar a prevalência do inglês como idioma fonte em tais documentos de natureza técnica. Neste domínio, é comum identificar que pessoas não-nativas do idioma inglês, apresentam dificuldades para formular questões específicas e precisas em inglês, condição sine qua non para a adequada recuperação de documentos em um cenário de IR [5]. Este contexto reforça a relevância da aplicação de técnicas que permitam a recuperação de documentos em idiomas diferentes da consulta formulada (multi e interlíngua).

Para a recuperação de documentos interlíngua, três diferentes estratégias podem ser aplicadas [6], [7]:

  • Tradução da consulta: somente os termos da consulta são traduzidos; desta forma, os elementos utilizados para a indexação do documento não necessitam de modificação quando novas línguas são incorporadas ao sistema. O esforço computacional desta técnica é baixa [8].
  • Tradução de documento: pode apresentar desempenho superior quando comparada à técnica de tradução de consultas, considerando que em um mesmo documento normalmente ocorrem variações morfológicas e sinônimos dos termos empregados [9].
  • Para a aplicação de técnicas de interlíngua, tanto os documentos quando as consultas são traduzidas para uma representação comum. Para tanto, torna-se necessário um léxico independente de linguagem, com suporte ao conjunto de idiomas cobertos.

Na seqüência, apresenta-se um sistema de recuperação interlíngua conhecido como "MorphoSaurus", que considera as diversas particularidades idiomáticas do alemão e permite a busca intra e interlíngua em dados biomédicos. Na Seção 3, duas aplicações reais, baseadas no sistema MorphoSaurus, serão descritas.

2. O Sistema MorphoSaurus

2.1. Subwords como identificadores atômicos de significado

O sistema MorphoSaurus [4], [5], [10], [11] mapeia o conteúdo de textos de domínio específico para um formato interlíngua. Isto requer simplificação e padronização do conteúdo dos documentos e das consultas, de forma a facilitar a recuperação de documentos em coleções multilíngües. O sistema MorphoSaurus utiliza subwords como unidades léxicas. Uma subword é definida como uma unidade léxica mínima para um termo significante em um domínio, ou seja, o termo não admite outras subdivisões. Assim, é possível considerar o termo "hepat + itis" como uma composição de duas subwords, "hepat" e "itis", pois o significado do termo em questão é a soma do significado de seus componentes. Um contra-exemplo é "hipófise", cujo significado não pode ser derivado definitivamente de "hypo" + "physis". Subwords tendem a apresentar menor granularidade do que morfemas lingüísticos e serem mais curtas que palavras.

No sistema MorphoSaurus, cada entrada de subword tem atributos, como idioma (atualmente, inglês (en), alemão (de), francês (fr), espanhol (es), português (pt), sueco (se) e italiano (it)) e tipo (raíz (ST), prefixo (PF), sufixo (SF), invariante (IV)). As subwords estão contidas em léxicos de subwords, específicos para cada idioma suportado.

2.2. Estrutura do Tesauro

A camada semântica do sistema MorphoSaurus é representada pelas classes de equivalência, identificada por identificadores específicos denominados de MIDs (MorphoSaurus identifiers). Cada elemento léxico é associado exclusivamente a uma única classe de equivalência. Nas classes de equivalência, são agrupadas variações léxicas, sinônimos e traduções. A composição de todos os MIDs forma o tesauro independente de idioma.

O tesauro do sistema MorphoSaurus utiliza dois tipos de relação: "has_word_part" e "has_sense", conforme ilustrado na Figura 1.

  • A relação sintagmática "has_word_part" relaciona um MID com no mínimo outros dois MIDs, objetivando "mascarar" composições semânticas. Normalmente, é utilizado para termos que não podem ser divididos corretamente pela rotina de segmentação, por exemplo, quando da falta de caracteres na composição do termo ("urinalysis").
  • A relação paradigmática "has_sense" relaciona um MID ambíguo com, no mínimo, dois outros. Este tipo de relação é utilizado para o relacionamento dos possíveis significados para um mesmo termo.


Figura 1. Relações semânticas suportadas pelo tesauro do sistema MorphoSaurus.

2.3. Particularidades da base léxica do sistema MorphoSaurus

O processo decisório de construção do tesauro é guiado não apenas pelos critérios da lingüística formal, mas também pelo correto funcionamento da função de segmentação. Isto é especialmente relevante para palavras longas e compostas, com diferentes segmentações possíveis. Por exemplo, "nephrotomy" pode ser segmentada em nephr[en,ST] (#kidney) + o[en;sp;pt]IN + tomy[en]PS (#incision), mas também em nephr[en]ST + oto[en]ST (#ear) + my[en]ST (#muscle). Somente com um complexo processo de análise de contexto e de rotinas de processamento lingüístico (que normalmente não estão disponíveis), é possível garantir que a segunda opção (errônea) de segmentação NÃO seja a preferida. A solução pragmática é incluir, adicionalmente, outras variações de lexemas (sinônimos). Para o exemplo apresentado, isto significa que o significado de #kidney não é representado somente por nephr[en]ST, mas também por nephro[en]ST (como também por nefr[sp;pt]ST e nefro[sp;pt]ST).

A delimitação de subwords e classes semânticas (MIDs) é uma atividade que requer considerável conhecimento do domínio da terminologia e não por ser totalmente automatizada [4]. Para a construção do léxico e do tesauro foram investidos (até novembro/2008) sete anos de trabalho, inicialmente focado no inglês e alemão e, depois, no português, espanhol, sueco e francês. Neste processo, foi possível identificar que existe uma substancial similaridade entre os termos médicos em diferentes idiomas (cognatos). Explorando esta característica observada, desenvolveu-se um processo semi-automatizado para a aquisição de entradas lexicais para novos idiomas, otimizando a atividade de aquisição [4]. Este procedimento baseia-se em uma tabela de regras de substituição, parcialmente apresentada na Tabela 1. Com a aplicação dessas regras, um conjunto de candidatos para tradução foi gerado e validado contra uma lista de palavras na língua objeto da aquisição. Subseqüentemente, utilizaram-se corpora paralelos para enriquecer o vocabulário na língua objeto de trabalho.

 Tabela 1. Algumas regras de substituição e exemplos.

44 Regras:   Português Espanhol 7 Regras:  InglêsSueco 
ss → s fracassfracas c → k cramp  Kramp
 lh → jmulher mujer ph → f  phosphorFosfor 
 +ça → zacabeça  cabezace → s  iceland island


2.4. Arquitetura do MorphoSaurus

A arquitetura do sistema MorphoSaurus é ilustrada na Figura 2. Primeiramente, na etapa de normalização ortográfica removem-se todas as palavras insignificantes e aplica as substituições de caractere (como, por exemplo, a eliminação da capitalização e acentos). Seqüencialmente, um parser morfossintático divide cada palavra restante em subwords. A estratégia com melhor performance para a extração de subwords em bases compostas por um conjunto muito grande de textos é a aplicação de técnicas baseadas em uma máquina de estados finitos, para a decomposição léxica, derivação e deflexão, conforme descrito em [4]. Na etapa de normalização semântica, essas unidades são relacionadas com um MID.

 

Figura 2: Arquitetura do sistema MorphoSaurus.

As consultas são processadas de forma análoga, permitindo a busca mutilingual. Na Tabela 2, descrevem-se as principais etapas deste processo, com exemplos em inglês, alemão e português.

 Tabela 2. Pipeline de indexação morphosemântica.


 
A ambigüidade léxica é tratada após o processo de normalização. Por exemplo, em certo contexto, a palavra loboPT pode denotar um animal (wolfEN), mas em outro cenário denota uma parte do cérebro humano. O sistema MorphoSaurus usa uma rotina de desambiguação léxica, treinada em um corpus multilingual. Experimentos anteriores demonstraram que a desambiguação eleva, substancialmente, o desempenho global do sistema [12].

3. Aplicações

Apresentam-se três cenários de aplicação nos quais a tecnologia do sistema MorphoSaurus foi utilizada. O primeiro foca na recuperação multilíngüe em literatura publicada, enquanto o segundo mostra como usuários da área clínica podem se beneficiar de técnicas de recuperação semântica para a busca em registros eletrônicos de pacientes.

3.1. Otimizando e avaliando uma máquina de busca médica

A biblioteca nacional alemã de medicina (ZB MED) é a maior biblioteca européia de medicina. Mantém inúmeras bases bibliográficas, disponíveis através do portal MEDPILOT-Portal (http://www.medpilot.de), um desenvolvimento conjunto entre a ZB MED (German National Library of Medicine (ZB MED): http://www.zbmed.de) e o Instituto alemão de Documentação e Informação Médica (DIMDI) (German Institute of Medical Documentation and Information (DIMDI): http://www.dimdi.de). Com uma simples requisição, usuários do MEDPILOT podem, simultaneamente, pesquisar um amplo conjunto de fontes e bases médicas utilizando um sistema de busca.

Usando a estratégia de indexação do sistema MorphoSaurus, foi possível disponibilizar um sistema de inter e intra-língua para o MEDPILOT. Três diferentes bases foram disponibilizadas com a nova tecnologia: a versão de 2007 do Medline, Current Contents Medicine (CCMED) e o catálogo público de acesso (OPAC) da biblioteca nacional de medicina da Alemanha, totalizando 15.7 milhões de itens bibliográficos que, basicamente, cobrem as línguas mais faladas na Europa.

O principal objetivo foi analisar as necessidades dos usuários que efetuavam buscas na nova ferramenta e a determinação de um padrão ouro para a realização de benchmark para medição de desempenho do sistema MEDPILOT, antes e depois da integração da nova tecnologia.

Três foram os estágios de avaliação:

  • um analisador de consultas que explora as necessidades dos usuários e estabelece o escopo de conteúdo especial, como acrônimos, variações lingüísticas, o uso de termos químicos clássicos, marcas e nomes farmacêuticos;
  • desenvolvimento e avaliação de um conjunto de coleções de teste para a comparação entre os dois sistemas, levando em consideração a relevância dos resultados obtidos [13]; 
  • melhoria na usabilidade da interface com o usuário. A usabilidade é um fator importante na satisfação e na credibilidade do website [14], [15].

Para a análise de conteúdo, utilizou-se o log de consultas do MEDPILOT, como realizado por Herskovic et al., em 2007 [16]. Deste modo, foram extraídas as consultas que cobrem sete meses (142.922 consultas) e selecionado um conjunto aleatório de 10.000 consultas. Na continuidade desenvolveu-se um sistema de categorização com 24 classes que foram construídas por interação de procedimentos dedutivos e indutivos [17]. Por um lado, isto baseou-se no conhecimento sobre pesquisa médica [18] e por outro, o conteúdo do material foi analisado. A validação do sistema de categorização foi realizada com 150 consultas. Nesta atividade, o grau de confiança alcançou 88%, o que confirma a correlação realizada como suficiente [19]. Finalmente, cada uma das 10.000 consultas foi correlacionada com uma ou mais categorias por um profissional com conhecimento no domínio.

A análise foi realizada considerando o seguinte conjunto de questões:

  • Que tipo de conteúodo os usuários do MEDPILOT estão interessados?
  • Quão complexadas são as consultas de busca? Quantas são as palavras utilizadas para a busca de conteúdo médico?
  • Qual o tipo de operador e campo é utilizado nas buscas booleanas?
  • Qual o tipo de abreviações e acrônimos, no domínio médico, é utilizado nas consultas?
  • Qual a quantidade e o tipo de erros ortográficos que ocorrem nas consultas?
  • O que normalmente os usuários procuram para químicos clássicos: nome genérico, droga ou marcas?

A avaliação aconteceu com o apoio de experts em terminologia do domínio médico e biológico. Considerando que a determinação exata do valor de recall é impossível para um conjunto muito grande de documentos no Medline, foi adotada uma linha mais pragmática para a avaliação dos dados. Para este propósito, dois indicadores de performance de recuperação de informação foram utilizados: a quantidade e a qualidade (precisão) dos resultados. Cada coleção de teste utilizada para a comparação entre os sistemas (com e sem a aplicação do sistema MorphoSaurus) consistiu de 50 consultas e refletiu aspectos lingüísticos especiais, entre os quais, erros ortográficos, acrônimos, abreviações, sinônimos, composição de palavras simples, traduções, etc.

Realizou-se a comparação da quantidade (número de hits) e qualidade (número de hits relevantes entre os primeiros 20 resultados) dos resultados antes da pesquisa nas bases do Medline e CCMED, frente aos resultados da versão anterior do MEDPILOT. Futuramente, será construída uma coleção de testes na qual será possível trabalhar com um amplo conjunto de fenômenos lingüísticos.

A avaliação preliminar do MEDPILOT indicou que aproximadamente 35,9% das consultas consistem de uma única palavra, 30% das consultas contêm apenas duas palavras, 16% das consultas consistem de 3 termos e 6,6% com 4 termos. Cinco palavras são utilizadas em 3,7% das consultas e 7,8% das consultas contêm mais de 5 palavras. Em resumo, consultas com até duas palavras correspondem às estratégias de busca mais freqüentes para a busca no domínio médico. Ao examinar os arquivos de log, foi possível observar que operadores booleanos são raramente utilizados. Acrônimos e abreviações ocorrem em 5,0% das consultas e erros ortográficos estão presentes em 4,6% das consultas.

A análise do conteúdo das consultas de busca revelou que a categoria mais procurada é a de "doenças, síndromes, sintomas" com 30,9%, "métodos de tratamento, terapia e diagnósticos" aparece em segundo lugar, com 28,5% e, com 15,6%, o conteúdo de "medicina social, estatísticas, estudos e epidemiologia". Uma das razões para a investigação do conteúdo das consultas foi determinar se a busca por químicos clássicos (nome genérico) é comum. Ao analisar os resultados, foi encontrado apenas 2,1% das consultas com esta característica. Outras informações necessárias estão presentes em quatro outras categorias: bioquímica, drogas, farmacêuticas e marcas.

Preliminarmente, os resultados indicam que a tecnologia do sistema MorphoSaurus apresenta vantagens significativas, tanto na qualidade quando na quantidade de resultados recuperados. Um primeiro exame das bases do Medline e do CCMED revelou que a metodologia tradicional apresenta uma média de hits de 13,5 vezes menor do que a nova metodologia. Na mesma direção, ao se comparar a qualidade dos hits obtidos (precisão dos 20 primeiros resultados), a nova aplicação apresentou, em média, um incremento de 20 a 30% na relevância. Na média, 60% dos hits entre o conjunto dos 20 primeiros elementos foram relevantes.

3.2. Recuperação de informações em um Sistema de Prontuário Eletrônico do Paciente (PEP)

O sistema MorphoSaurus foi utilizado em um segundo cenário: a busca de informações em um banco de dados que armazena, em formato eletrônico, os registros de saúde do Departamento de Dermatologia do Centro Médico Universitário, em Freiburg, na Alemanha.

A busca e a recuperação de informações ocupam uma parte significativa do tempo dos médicos [20] que, muitas vezes, não ficam satisfeitos com as ferramentas que deveriam - em teoria - dar-lhes um acesso rápido tanto a informações clínicas sobre os pacientes quanto a informações científicas.

Soluções de busca nas quais os usuários podem facilmente navegar através de diferentes fontes de dados, utilizando uma única interface intuitiva ("Google para os médicos") são uma grande necessidade. Sistemas de Informação Hospitalar (HIS) tradicionais costumam ser centrados no paciente, considerando questões como o armazenamento de resultados laboratoriais, relatórios médicos, sumários de alta, códigos de procedimentos e diagnósticos, e outros documentos clínicos.

O PEP, "um sistema de armazenamento de informações clínicas computadorizado, associado a uma identificação pessoal" [21], [22], deve também cumprir o requisito de "ser seguro, operar em tempo real, estar disponível nos pontos de atendimento, proporcionar um recurso centralizador das informações do paciente para os médicos", de acordo com o HIMSS [23]. O PEP oferece suporte igualmente à busca de informações para outros fins que não estejam diretamente relacionados aos cuidados clínicos, como faturamento, gestão de qualidade, relatórios de aplicação de recursos, planejamento, vigilância de saúde pública e de informação. De acordo com essas definições, o acesso às informações médicas contidas nos sistemas atuais de Informação Clínica é essencialmente horizontal, centrada no paciente, ou seja: ao acessar o prontuário eletrônico do paciente, o médico recebe apenas as informações associadas ao paciente.

A definição do HIMSS sugere cenários adicionais que agregam informações de um grande número de PEPs de um modo verticalizado. Visto que os sistemas baseiam-se em conjuntos de dados estruturados como faturamento, codificação de procedimentos e diagnósticos, resultados de exames laboratoriais ou de microbiologia, essas informações facilmente podem ser recuperadas com a aplicação de técnicas convencionais de mineração de dados. No entanto, as fontes de narrativas não estruturadas, como os relatórios de queixas do paciente dos sumários de alta, são da mesma importância para a assistência ao paciente: quanto mais informações o sistema armazena, mais interessantes são suas interdependências verticais, independentes do paciente.

Algumas questões que o médico poderia formular:

  • "Que pacientes com a mesma doença foram tratados?"
  • "Quais foram os resultados / efeitos adversos de determinado tratamento?"
  • "Eu tive pacientes com doença X sintoma Y?"
  • "Qual era o nome do paciente com sintomas YI que atendi três semanas atrás?"

Embora diversas tecnologias promissoras como a Clinical Document Architecture [24], [25] e as terminologias médicas tenham sido desenvolvidas com o objetivo de padronizar e estruturar as informações clínicas, ainda existe uma lacuna entre as necessidades clínicas e o que realmente se pratica.

No estudo realizado, foram extraídos aproximadamente 30.000 documentos clínicos da base de dados do sistema de informação hospitalar do Departamento de Dermatologia do Centro Médico Universitário em Freiburg, na Alemanha. Os documentos eram, em sua maioria, sumários de alta, mas existiam também relatórios cirúrgicos, relatos imuno-dermatológicos e vários outros tipos de relatos e relatórios. Utilizando a abordagem de busca semântica desenvolvida, todas as informações foram disponibilizadas aos médicos através de uma interface de pesquisa baseada no estilo Google. A fim de avaliar o seu impacto, um cenário de avaliação foi criado. Os usuários intermitentemente eram incentivados a avaliar os benefícios que perceberam no sistema e o potencial para seu trabalho. Os seguintes tópicos foram examinados na avaliação:

  • Como os resultados da pesquisa devem ser apresentados aos médicos?
  • Quais características são importantes na rotina clínica?
  • Que informações adicionais podem melhorar a usabilidade desse sistema para os médicos?
  • Quão útil é a busca e a recuperação de informações para a rotina clínica, para a pesquisa científica ou o ensino?

Considerando que as imagens fotográficas dos pacientes desempenham um papel importante na formação dos registros dermatológicos [26], um grande repositório de imagens, composto de 90.000 fotografias, foi associado à interface web, a fim de aumentar o benefício global do sistema.Para a concepção do aplicativo, baseado em interface web, utilizou-se como princípio uma combinação de facilidade de utilização com opções específicas de pesquisa, de acordo com necessidades dos profissionais (ver Figura 3):

Uma caixa de edição permite pesquisa por texto livre em todos os documentos. Os resultados podem ser classificados por relevância, data, nome e data paciente. Na seção de resultados, a parte relevante do documento é apresentada, em conformidade com os termos da pesquisa. As palavras ou suas derivações são realçadas. Informações sobre o paciente, o autor e data de criação do documento são apresentadas no respectivo contexto. O documento original pode ser visto como um arquivo PDF associado ao registro.

Outro link permite acesso à biblioteca de imagens do respectivo paciente (Figura 3), onde todas as imagens são apresentadas juntamente com a localização e a data de criação. Isto é particularmente útil para os dermatologistas, permitindo que eles possam analisar as imagens no contexto do documento subjacente e, se necessário, associar as imagens, a resultados de exames laboratoriais.


Figura 3. Interface web do Usuário e Recuperação de Imagem.

A avaliação mostrou que aceitação por parte dos usuários foi extraordinariamente alta e que os mesmos mostraram-se entusiasmados desde o início: pela primeira vez, eles tiveram acesso a milhares de documentos e imagens, independentes da visão centrada no paciente. A economia de tempo foi comprovada para todas as etapas de documentação clínica. Além disso, o sistema facilitou a recuperação de relatos de casos para fins de pesquisa clínica-epidemiológica.

No questionário aplicado, 82% dos usuários afirmaram que o sistema poderia melhorar a seu desempenho clínico. Aproximadamente 89% dos usuários consideram que esse tipo de mineração de dados, com integração de textos e imagens dermatológicas, tem um impacto muito positivo sobre o seu trabalho científico. O impacto sobre a educação dermatológica teve uma avaliação inferior: 52% dos usuários estimam um potencial benefício. Os usuários gostariam de uma integração com mais dados clínicos, como imagens de radiologia, relatórios, resultados de exames laboratoriais e outros achados clínicos. A integração do sistema com vocabulários padronizados (por exemplo, SNOMED ou MeSH) também poderia elevar significativamente o valor clínico. Informações sobre o paciente poderiam ser cruzadas e associadas a fontes externas de informação como Medline ou a base de dados Cochrane [27]. Este não foi o foco do trabalho aqui descrito, mas será um marco importante no futuro.

3.3. Facilitando acesso às informações médicas

A plataforma "Weisse Liste" (lista branca) [28] é uma associação entre o German Bertelsmann Foundation e as maiores organizações de pacientes e consumidores da Alemanha. A plataforma é centrada em tecnologia baseada em portal, livre e não comercial, que permite aos pacientes, seus familiares e conselheiros a busca de informações sobre instituições de saúde. Nesta primeira etapa, o portal oferece informações sobre cerca de 2000 hospitais na Alemanha.

O portal propicia aos usuários a formulação de consultas conforme seu conhecimento anterior e suas necessidades. O elemento central - um assistente interativo para doenças específicas - guia o usuário, passo-a-passo, na customização do resultado, provendo uma maneira simples para a compreensão de informações complexas sobre o desempenho e a estrutura da qualidade de instituições de saúde.

As informações sobre os hospitais são obtidas por intermédio do "Relatório Estruturado de Qualidade" (SQB), um relatório que agrega e normaliza informações dos hospitais na Alemanha. Essas especificações garantem que todos os hospitais, de forma pública e regular, fornecem detalhes que permitem a comparação entre a qualidade e os serviços prestados.

O SQB possui duas partes - a sessão básica contém serviços e dados de organização dos hospitais, que provê uma visão sistemática sobre o envolvimento nos processos de gerenciamento de qualidade. Indicadores de qualidade dos hospitais incluem estatísticas de diagnósticos e procedimentos utilizando o German Modification of the International Classification of Diseases (ICD-10-GM) e o German procedure classification OPS [29].

Um dos maiores desafios para o portal é oferecer aos leigos uma interface de fácil manuseio à base do SQB. Para este propósito, a "lista branca" usa uma adaptação do sistema MorphoSaurus, combinando com uma grande lista de sinônimos incluindo, aproximadamente, 20.000 termos técnicos e genéricos, permitindo a pacientes e demais pessoas que efetuem buscas com suas próprias palavras, 4.000 do ICD-10-GM e de códigos OPS.

O portal independe do interesse de companhias e provedores de saúde. O objetivo é fornecer um meio para apoiar, pacientes e seus familiares, no processo decisório e no suporte aos conselheiros e médicos, oferecendo uma interface bem organizada para acesso a informações sobre qualidade, antes disponível apenas para profissionais de saúde, o que facilita o diálogo entre médicos e pacientes, e permite uma participação ativa na seleção do provedor de saúde.

4. Conclusões

Neste artigo, apresentou-se um sistema interlíngua de recuperação de informação, denominado MorphoSaurus, que considera muitas das particularidades do alemão e permite a busca, em bases biomédicas, intra e inter lingual. Três casos reais foram descritos.

O sistema MorphoSaurus baseia-se em um tesauro que utiliza subwords como unidades lexicais e uma camada semântica onde essas subwords são mapeadas para identificadores independentes da linguagem. As aplicações desta abordagem que já haviam sido previamente descritas em diferentes cenários, como o mapeamento de terminologias e recuperação de documentos em bases monolíngües e multilíngües; puderam agora ser demonstradas em grande escala e acessadas por usuários reais. O caso da biblioteca comprovou que uma ferramenta de recuperação de documentos independente do idioma é útil para explorar uma coleção heterogênea de itens bibliográficos no campo da biomedicina. A experiência com prontuários médicos tem mostrado que, em muitos casos, a recuperação horizontal de informações neste tipo de documento vai de encontro às necessidades dos usuários e viabiliza a análise de dados em novos cenários. Por fim, o caso do portal da saúde demonstrou que a abordagem de indexação semântica facilita o acesso a informações de qualidade no serviço de saúde, tanto usando terminologia médica quanto por leigos, usando suas próprias expressões.

Agradecimentos

Este trabalho foi desenvolvido com o suporte do CNPq, Brasil (550830/05-7) e o International Bureau of the BMBF, Alemanha (BRA 05/022).

Referências

[1]    
Scott R.E.: e-Records in health-Preserving our future. International Journal of Medical Informatics. 2007; 76(5-6):427-31. 
[2]Lobach D.F., Detmer D.E.: Research Challenges for Electronic Health Records. American Journal of Preventive Medicine. 2007; 32(5), Supplement 1):S104-S11.
[3]Wen H-C, Ho Y-S, Jian W-S, Li H-C, Hsu Y-HE: Scientific production of electronic health record research, 1991-2005. Computer Methods and Programs in Biomedicine. 2007; 86(2):191-6.
[4]Markó K., Schulz S., Medelyan O., Hahn U.: Bootstrapping Dictionaries for Cross-Language Information Retrieval. Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Salvador, Brasil. 2005: 528-535.
[5]Honeck M., Hahn U., Klar R., Schulz S.: Text Retrieval Based on Medical Subwords. In: Surjan G, Engelbrecht R, McNair P (Hrsg.): Health Data in the Information Society. Proceedings of the MIE2002. Amsterdam: IOS Press, 2002; 241-245.
[6]Oard D.W., He D., Wang J.: User-assisted query translation for interactive cross-language information retrieval. Information Processing & Management; 2008: 181-211.
[7]Gey F.C., Kando N., Peters C.: Cross-Language Information Retrieval: the way ahead. Information Processing & Management. 2005; 41(3):415-31.
[8]Kishida K.: Technical issues of cross-language information retrieval: a review. Pergamon Press, Inc. 2005:433-55.
[9]Franz M., McCarley J.S., Ward R.T.: Ad hoc, cross-language and spoken document information retrieval at IBM. TREC-8. Gaithersburg, MD: National Institute of Standards and Technology, 2000.
[10]
Markó K., Hahn U., Schulz S., Daumke P., Nohama P.: Interlingual Indexing across Different Languages. 7th International Conference "Recherche d'Information Assistée par Ordinateur" (RIAO'04); 2004; Avignon, France: Proceedings of RIAO'04; 2004. p. 82-99.
[11]
Markó K., Daumke P., Schulz S., Klar R., Hahn U.: Large-Scale Evaluation of a Medical Cross-Language Information Retrieval System. Proceedings of the 12th World Congress on Medical Informatics, Brisbane, Australia (Studies in Health Technology and Informatics, vol. 129). 2007: 392-396
[12]
 Markó K., Schulz S., Hahn U.: Unsupervised Multilingual Word Sense Disambiguation via an Interlingua. Proceedings of the 20th National Conference on Artificial Intelligence (AAAI '05), Pittsburgh, Pennsylvania. 2005: 1075-1080.
[13] Lewandowski D.: Mit welchen Kennzahlen lässt sich die Qualität von Suchmaschinen messen? In: Die Macht der Suchmaschinen. / The Power of Search Engines. Machill M, Beiler M, editors. Cologne: Herbert von Halem Verlag. 2007; 243-258.
[14]Flavián C., Guinalíu M., Guerra R.: The role played by perceived usability, satisfaction and consumer trust on website loyalty. Information & Management. 2006; 43:1-14.
[15]Dzeyk W.: Vertrauen in Internetangebote. Saarbrücken: VDM Verlag. 2007.
[16]Herskovic J.R., Tanaka L.Y., Hersh W., Bernstam E.V.: A Day in the Life of PubMed: Analysis of a Typical Day's Query Log. J Am Med Inform Assoc. 2007; 14:212-220.
[17]
Rustemeyer R.: Praktisch-methodische Schritte der Inhaltsanalyse. Eine Einführung am Beispiel der Analyse von Interviewtexten. Münster: Aschendorff. 1992.
[18]Davies K.: The information-seeking behaviour of doctors: a review of evidence. Health Information and Libraries Journal. 2007; 24:78-94
[19]Wirtz M., Caspar F.: Beurteilerübereinstimmung und Beurteilerreliabilität. Methoden zur Bestimmung und Verbesserung der Zuverlässigkeit von Einschätzungen mittels Kategoriensystemen und Ratingskalen. Göttingen: Hogrefe. 2002.
[20]Koch O., Kaltenborn R,: Mehr Zeit für Patienten durch bessere Information. Deutsches Ärzteblatt 2005: 28-29: A2008-2011
[21]Waegemann C.P.: The vision of electronic health records. J Med Pract Manage 2002: 18(2): 63-65
[22]Waegemann C.P.: The five levels of electronic health records. MD Comput 1996: 13(3): 199-203
[23]HIMSS Electronic Health Record, Definitional Model. http://www.himss.org/content/files/EHRAttributes.pdf, last accessed: January 2009
[24]Dolin R.H., Alschuler L., Boyer S., Beebe C., Behlen F.M., Biron P.V., Shabo S.A.: HL7 Clinical Document Architecture, Release 2. J Am Med Inform Assoc 2006: 13(1): 30-39
[25]Müller M.L., Uckert F., Bürkle T., Prokosch H.U.: Cross-institutional data exchange using the clinical document architecture (CDA). Int J Med Inform. 2005: 245-56.
[26] Scheinfeld N.: Photographic images, digital imaging, dermatology, and the law. Arch Dermatol 2004: 140(4): 473-476
[27] The Cochrane library. http://www.cochrane.org.
[28] Weisse Liste. http://weisse-liste.de
[29] Klassifikationen im Gesundheitswesen. Deutsches Institut für Medizinische Dokumentation und Information (DIMDI). http://www.dimdi.de/static/de/klassi/index.htm