Hadoop против Unix shell

Прикольно как — обработка одного и того же набора данных модными современными инструментами (Amazon EMR и mrjob) занимает 26 минут, а простыми средствами Unix shell — 12 секунд.

https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html

«Наивное» решение средствами все той же командной строки обрабатывает те же данные за 70 секунд — что уже вполне терпимо.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *