Как всегда мнения полярно-категоричны, либо ламповый кейвординг либо вслепую ИИ.
Было бы оптимально взять лучшее от всего
ИИ косячит конечно, может выдать вместо описания смесителя, например, инструкцию по его установке или просто пустой ответ.
Еще накидывает всякие стокерские словечки shallow focus, low depth field совершенно не к месту, сразу видно на чём учили.
Но и плюсы тоже есть, главное - даже с корректировками выходит быстрее, схожие картинки будут иметь разнообразные описания и
в кейворды может докинуть полезное, до чего сам не додумаешься. Например, может добавить названия витаминов, содержащихся в каком-то продукте.
Сам навозился по осени, решил сделать кейвординг локально, вебсервисные ключевалки не хотелось юзать.
Установил ollama и несколько мультимодальных моделей, написал клиента для записи в jpg, попробовал, результаты так себе.
Начал улучшать, добавил в промпт указание места съемки (для тревела), сразу из jpg если есть или из истории своих геолокаций смарта.
Потом сделал пользовательскую подсказку по картинке, потом черные списки и еще уйму настроек...
Идеально не вышло, но хоть так.
Чем круче модель тем точнее описание и медленнее кейвординг, на моей 3060(12G) до 1.5 минут\jpg.
Картинки попроще описывает нормально, более сложные, в %30 приходиться перезапускать ии-подбор или править вручную.
В целом можно было бы еще докручивать, смотреть новые модели, подбирать промпты, скорее всего это даст эффект.
Но это опять время, стоит ли оно того?
Чтоб неголословно
screenshot