Машинное натаскивание
Машинное натаскивание (также: машинное обучение
) — процесс предварительной настройки алгоритма извлечения данных из базы данных.
Натаскивание производится на тестовых наборах данных и типовых запросах. Программисты стремятся получить правдоподобный результат за кратчайшее время. Стараются также избегать пере-натаскивания алгоритма, когда извлечённые результаты начинают отъезжать от правдоподобных.
Алгоритмы программирования ЭВМ, разумеется, к школьному обучению никакого отношения не имеют. Например, простейшие арифметические задачки для школьников неподвластны извлечению из баз данных любых размеров (big data). Задачки приходится решать, в человеческом смысле слова.
"Технология машинного <... натаскивания> берёт начало в 1950 году, когда начали разрабатывать первые программы для игры в шашки. За прошедшие десятилетий общий принцип не изменился".[1]
Пример машинного натаскивания[править | править код]
Китайская компания DeepSeek
разрабатывает одноимённый чат-бот
.
Чат-бот — это интерфейс к базе данных слов (токенов). В базу кроме слов загружены весовые коэффициенты. Эти коэффициенты получены в процессе натаскивания, то есть загрузки большого количества образцов текстов в базу. Извлечение осуществляется через сетевые алгоритмы, условно названные нейронные сети
. Никакого отношения к человеческим нейронам эти ступенчатые алгоритмы не имеют.
Расценки на доступ к базе — для рядовых интернет-пользователей безплатно, для вторичного бизнеса:
- $0,14 за миллион входных токенов (если запрос попадает в кэш, был уже кем-то сформулирован)
- $0,55 за миллион входных токенов (если запрос проходит без кэширования)
- $2,19 за миллион выходных токенов (за ответ искусственного идиота)
Здесь токен
— обозначает условное слово
в запросе, включая пробелы.[2]
Ссылки[править | править код]
- ↑ Введение в машинное... <натаскивание> / Хабр 2019
- ↑ DeepSeek вызвал истерику у американских ИИ корпораций / Хабр 2025