O termo “dados não estruturados”, é verdadeiramente um oxímoro. Todos os dados têm estrutura e, de fato, a maioria dos dados tem múltiplas estruturas que nos permitem inspecionar, analisar, transformar e obter valor a partir deles.  

A grande pergunta que precisamos fazer não é: “Os dados são estruturados?”, mas sim: “Será que nosso entendimento atual das estruturas dos dados apóia as operações que desejamos realizar?

Considere o exemplo de um grande conjunto de páginas web.  É possível ter uma série de entendimentos estruturais progressivamente mais refinados destas informações, como por exemplo:

  1. Os dados são uma sequência de 0s e 1s, ou seja, informações binárias.
  2. Há arquivos e diretórios com alguns detalhes descritivos – nome, tamanho, data de criação, etc.
  3. O conteúdo do arquivo é “marcado” com tags HTML, proporcionando uma compreensão estrutural ainda mais rica.
  4. Arquivos Readme, folhas de estilo, esquemas XML podem existir no conjunto de dados para nos dizer ainda mais.

Mesmo que estes dados possam não estar estruturados de uma forma tão tradicional como os registros do banco de dados, eles estão estruturados. O que não sabemos é se nosso entendimento desta estrutura apóia as operações que queremos realizar.  

Esta pergunta se resume, em última análise, a quanto da semântica, o significado da informação, está representado no entendimento estrutural que temos atualmente.  

Em um banco de dados podemos, de uma maneira muito padrão e bem conhecida, encontrar um “esquema” que nos diz onde cada elemento de dados pode ser encontrado dentro da estrutura.  

Há também meta-dados robustos, informações descritivas sobre os dados, que explicam melhor os elementos de dados.  Isto inclui rótulos legíveis por humanos, tipos de dados, organização dos elementos de dados em “entidades” – por exemplo, este elemento de dados de primeiro e último nome são de uma entidade chamada Estudante, restrições sobre os dados, relações entre entidades – por exemplo, Estudante “estuda- com” Professor, e mais.

Data lake e data warehouse: quem é quem? 

Em um arquivo HTML, por outro lado, a estrutura nem sempre é tão reveladora do significado mais profundo.  Eu posso provavelmente descobrir que um dado em particular é um título quando é encontrado dentro de um <título></<título> tag-set. 

Posso saber que outro dado deve ser sublinhado ou enfatizado por causa de como é etiquetado, mas não saberia convincentemente o porquê.  Presumivelmente, esta informação é importante, mas neste nível de compreensão estrutural, ficamos sem pistas sobre a que podemos atribuir essa importância. 

A Hyper Text Markup Language (HTML) foi projetada para transmitir estruturalmente o significado de “como tornar a informação”, tipicamente dentro de um navegador da web, como experiências visíveis ou audíveis em páginas da web.  Por isso:

As páginas HTML não estão estruturadas?  Absolutamente não.  

Esta estrutura é suficiente para renderizar uma experiência visual ou sonora a um navegante da web?  Certamente.  

A semântica que entendemos apenas no nível das tags HTML é suficiente para encontrar todos os alunos da classe científica do Sr. Johnson do 3º ano, mesmo que essa informação seja claramente parte do conteúdo dessas páginas? Não.  

Felizmente para nós, o HTML (ou mais precisamente o XHTML, uma vez que reforça a sintaxe com mais rigor) é apenas um subconjunto ou forma especializada da eXtensible Markup Language (XML) que, por sua vez, é um subconjunto da Standard Generalized Markup Language (SGML). 

Nesses níveis mais altos de estrutura, podemos alcançar níveis mais profundos de compreensão semântica. De fato, podemos encontrar esquemas muito semelhantes ao que vemos em bancos de dados. 

Portanto, é realmente possível que estes dados que nos foram fornecidos possam ser suficientes para realizar esta tarefa de encontrar os estudantes de ciências da 3ª série do Sr. Johnson se pudermos simplesmente elevar nosso nível de compreensão da estrutura da informação. 

Confira os maiores desenvolvimentos em Data Science de 2021! 

Em conclusão, da próxima vez que alguém começar a falar com você sobre dados não estruturados, pense “balderdash!” silenciosamente – mas em voz alta – para você mesmo e comece a fazer a pergunta certa.  

Sua compreensão da estrutura que existe é suficiente para responder às perguntas ou resolver os problemas que você gostaria de ter com os dados em mãos?  Se a resposta for inicialmente não, não desista tão rapidamente. Talvez você possa elevar um pouco sua visão e alcançar outro nível de compreensão estrutural que seja suficiente para os desafios em mãos.

 

Published On: novembro 24th, 2021 / Categories: Uncategorized /

Aprenda a conseguir trabalho

Se inscreva para receber acesso gratuito ao módulo Conseguindo Trabalho!

Obrigado por se inscrever!
Houve um erro ao enviar sua inscrição. Tente novamente mais tarde.

Ao acessar, você concorda em receber nossos comunicados.