Major Minors

Ontologia de recortes de imprensa de jornais portugueses com referência a minorias, entre os quais um corpus de artigos, comentários e imagens. O corpus abarca as duas primeiras décadas do século XXI. Este projeto conta com uma base de dados ontológica, ou seja, uma árvore de relações semânticas e referências hierarquizadas, que pretende contribuir para um retrato da representação de minorias no contexto português.

16286

Artigos que referem minorias

Galeria de Artigos

4406

Comentários em artigos

Galeria de Comentários

16286

Imagens associadas a artigos

Galeria de Imagens

5178169

Triplos ontológicos

Estrutura da ontologia


Crawler

Criação de software para data mining de notícas de jornais portugueses arquivados desde 1996 até 2019 no repositório Arquivo.pt.

Scraper

Programação de ferramentas de limpeza e estruturação dos dados obtidos de cerca de 1 milhão de ficheiros em formato HTML.

Palavras-chave

Análise dos dados e criação de árvores de relações semânticas. Base de dados com milhares de palavras-chave hierarquizadas.

Website

Desenvolvimento do website e servidor, compilando as ferramentas de forma acessível e open-source à comunidade científica.

Ontologia

Compilação de uma ontologia com os dados estruturados e relações semânticas. Tecnologias SPARQL, GraphDB e OWL.

Análise de Sentimentos

Pontuação do sentimento afetivo associado a cada notícia através de ferramentas de processamento de linguagem natural.

Ontologia | SPARQL | OWL

Base de dados semântica das notícias portuguesas.


Uma ontologia é uma base de dados com representação semântica das relações entre conceitos. Podem ser usadas, entre outras coisas, com o objetivo de melhorar a exatidão de pesquisas, diminuindo o fosso homem-máquina. O SPARQL e OWL são linguagens de implementação desta tecnologia que tentam revolucionar a forma como interagimos com a Web (com recomendação do World Wide Web Consortium para o futuro da Web 3.0). Por estas características, as ontologias são uma das tecnologias chaves para a implementação da nova geração da internet, a Web Semântica. Corpus atual: Jornal Público 1996-2019 (2015-2017 parciais, em indexação; 2019 ainda não disponíel na totalidade no Arquivo.pt). Base de dados em expansão, novos corpus em tratamento. Fonte dos dados: Arquivo.pt.

ESTRUTURA QUERIES PESQUISA GUIADA GRAPHDB

Nº de artigos com referência a minorias indexados

Comentários e imagens recolhidos

3654 comentários 9482 imagens

Comentários Imagens

Referências

Referências a personalidades 23034
Referências a palavras-chave 26017
Referências a países 18066
Referências a cidades 20540

Investigação | Ciência | Tecnologia

Mapeando a representação de minorias em contexto português.


Plataforma incubada por investigadores/professores da Universidade do Minho no seio do Departamento de Informática (DI), com o objetivo de servir de repositório open-source de apoio à comunidade científica. Para além do Departamento de Informática da Universidade do Minho (DI) o projeto contou com a colaboração de Grupos de Investigação do Centro de Estudos Humanísticos da Universidade do Minho (CEHUM). O objetivo do projeto passa por ser uma ferramenta de investigação para as áreas socioculturais e humanísticas, um corpus textual para análise linguística e, pela sua componente ontológica e software produzido para mineração/tratamento de dados, uma ferramenta informática.

PRODUÇÃO CIENTÍFICA RECORTES DE IMPRENSA