К предыдущим двум записям

Еще одна часто игнорируемая область знаний «настоящего» программиста — умение оценивать необходимые для решения поставленной задачи вычислительные мощности. Ну да, нейросетка для MNIST на микроконтроллере за 7 $ на первый взгляд — это круто. Но с другой стороны — помните такие древние-древние наладонники Palm?

palm-pilot-1000

У них было поле для «рукописного» ввода букв и цифр — правда, с использованием упрощенного алфавита Graffiti, но как минимум цифры там были довольно похожи на «настоящие». При этом распознавание рукописного ввода с тачскрина прекрасно жило даже на самых дохлых Palm с 128 кБ ОЗУ и 512 кБ ПЗУ (в которых помещалась операционная система и кучка необходимых приложений). Тактовая частота процессора составляла всего лишь 16 МГц. Согласитесь, что то же самое распознавание цифр на микроконтроллере с тактовой частотой под 100 МГц, 320 кБ ОЗУ и 1,5 Мб Flash уже не выглядит невероятным прорывом?

А модное нынче распознавание речи? В один голос Google, Amazon и Яндекс рассказывают нам о невероятной сложности их «голосовых помощников» — мол, «Чтобы обработать речь, нужно сделать много расчетов, поэтому то, что вы говорите, передается на серверы Яндекса и распознается там.» При этом внутри «умной колонки» стоит неслабый процессор (неназванный Quad-core ARM Cortex-A53 @ 1 GHz (12000 MIPS)), 1 Гб ОЗУ и 8 Гб ПЗУ. Неслабо так, да? А тем временем, роясь в куче хлама, я недавно нашел пиратский диск конца 90-х с кучкой программ для распознавания речи — и я точно помню, что что-то оттуда работало на моем тогдашнем Pentium 120 МГц с 16 Мб ОЗУ и Windows 95, и вполне неплохо.

Вот вроде бы кажется, что «большие данные», «нейросети» и все такое — это невероятно сложно и доступно только «технологическим гигантам» — но с другой стороны, посмотрите на исследования в области искусственного интеллекта и машинного обучения конца 80-х. Результаты могут быть довольно впечатляющими даже по нынешним временам, а бюджеты и вычислительные мощности даже в самых продвинутых проектах — смешные. Поневоле задумаешься — а вдруг всякие «умные колонки», голосовые помощники, система Android и так далее — это просто инструменты для сбора данных? Во всяком случае, это укладывается в логику статьи «For Google, you’re neither the consumer nor the product. You’re a data point»:

https://rakhim.org/2018/09/you-are-a-data-point/

Ну и естественно, стоит задуматься, как все это сочетается с представлениями о приватности и безопасности.

К предыдущим двум записям: 1 комментарий

  1. на Palm всё же распознавание жестов, а не рукописного текста было

    и пользователю надо было иметь некоторую сноровку чтоб система распознавала написанное полностью и без ошибок.
    но в целом, можно было догнать скорость набора до скорости рукописного ввода. только область графити на тач скрине царапалась.
    крайне удобная система была. в PalmOs 5 поломали кстати.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *