Pensando na escala internet

Google e IBM fazem parceria para ensinar alunos e cientistas dos EUA a lidarem com 'Everest' de dados

Ashlee Vance, New York Times

27 Outubro 2009 | 01h21

É raro alguém criticar alunos da elite das universidades dos Estados Unidos por não pensarem grande. Mas é exatamente essa a queixa de algumas gigantes da tecnologia e do governo americano.   O xis da questão é a informação. Especialistas em campos como Biotecnologia, Astronomia e Ciências da Computação logo serão vítimas de um "Everest" de dados. Telescópios sofisticados e sequências de genoma são os responsáveis por essa superabundância, assim como computadores mais rápidos e hard drives maiores.   Enquanto consumidores assimilam a ideia de comprar hard drives externos, capazes de armazenar 1 terabyte, cientistas lidam com um conjunto de dados milhares de vezes maior, que não para de crescer. A próxima geração de profissionais de Ciência da Computação precisará raciocinar no que podemos definir como "escala Internet". O Facebook, por exemplo, usa mais de 1 petabyte de espaço de armazenamento para gerenciar os 40 bilhões de fotografias dos seus usuários. O Google oferece diariamente 20 vezes essa quantidade de informações só em análise de dados.   Em breve, sistemas de sequenciamento de DNA também vão gerar vários petabytes de dados por ano. "Parece ficção científica, mas logo mais poderemos colocar um fio de cabelo numa máquina e ela nos dará a sequência de DNA", diz Jimmy Lin, professor da Universidade de Maryland.   A grande questão é se a pessoa do outro lado da máquina terá a capacidade de realizar algo interessante com uma oferta quase ilimitada de informações genéticas. Companhias como IBM e Google têm lá suas dúvidas.   Em geral, universitários usam sistemas um tanto modestos em seus estudos: computadores pessoais ou os "clusters", em que servidores se ligam formando um computador maior. Mas essas máquinas não conseguem produzir dados suficientes para desafiar e preparar as mentes que deverão refletir sobre os megaproblemas do futuro. "Estes pequenos sistemas viram a referência deles", diz Jim Spohrer, diretor do Centro de Pesquisa Almaden da IBM.   Há dois anos, IBM e Google decidiram mudar mentalidades. Criaram um sistema que permite a estudantes e pesquisadores utilizarem pela internet alguns dos maiores computadores do planeta. E equiparam os computadores com o software que empresas de internet usam para realizar suas tarefas mais difíceis de análise dos dados.   Este ano, a Fundação Nacional da Ciência, agência federal, deu um voto de confiança ao programa, distribuindo US$ 5 milhões entre 14 universidades. Os projetos que essas instituições já tocaram são impressionantes. Um exemplo é o de Andrew J. Connolly, professor da Universidade de Washington, que recorreu aos megacomputadores em seu trabalho sobre a evolução das galáxias. Connolly trabalha com dados colhidos por imensos telescópios que mapeiam cada centímetro dos céus, tirando fotos. O maior banco público dessas imagens é o Sloan Digital Sky Survey, que tem cerca de 80 terabytes de dados.   Agora, um novo sistema chamado Grande Telescópio de Pesquisa Sinóptica deverá captar imagens mais detalhadas do universo e produzir cerca de 30 terabytes de dados todas as noites. Os alunos de Connolly trabalham tentando descobrir como lidar com esse volume enorme de informações.   A Universidade Purdue tenta adotar técnicas usadas para mapear as interações entre pessoas em redes sociais no campo biológico. Os pesquisadores estão criando complexos diagramas que explicam os elos entre as reações químicas que ocorrem nas células. Lin encorajou seus alunos a recorrer ao Hadoop, plataforma de software que companhias como Facebook e Yahoo usam para dividir grandes quantidades de informações em lotes mais fáceis de manusear. Um dos projetos prevê uma varredura nos documentos divulgados depois da investigação na falida empresa de energia Enron para descobrir como as comunicações internas dos funcionários se conectavam e identificar o responsável por decisões específicas.   Lin acredita que aprender esses tipos de técnicas de análise será vital para os estudantes. "A ciência, nos nossos dias, tornou-se basicamente um problema de gerenciamento de dados", diz.   Doando equipamentos às universidades, Google e IBM esperam treinar uma nova safra de engenheiros e cientistas capazes de pensar na escala internet. Evidentemente, nem só boa vontade está por trás desses gestos. A IBM procura especialistas capazes de lidar com grandes quantidades de dados para dar consultoria em áreas como assistência médica e serviços financeiros. E Google apoia praticamente tudo que cria mais informações para catalogação e busca.   Não obstante, universidades e governo se beneficiam do projeto. "Historicamente, tem sido difícil conseguir na indústria o tipo de dado de que esses pesquisadores necessitam", diz James C. French, diretor de Pesquisa da Fundação Nacional da Ciência. "Mas chegamos ao ponto em que um biólogo precisa desses grandes volumes de informação só para começar a pensar sobre aplicações comerciais (de uma descoberta)."

Mais conteúdo sobre:
Pontoedu internet

Encontrou algum erro? Entre em contato

O Estadão deixou de dar suporte ao Internet Explorer 9 ou anterior. Clique aqui e saiba mais.