Вы с обратной стороны мыслите.
1. Все отрегулировано. Нельзя использовать чужие работы без разрешения, никак. Юридически, скачал на оллдэях и распечатал плакат или сунул в датасет - одинаково. Это просто использование без согласия и вознаграждения.
2. Как доказать? Я думаю, в датасетах есть изображения или их следы. Эти базы весят порядочно и их надо подключать для генерации. Можно подключать разные базы, много баз. Есть бесплатные, копилефтные, а есть просто с парсинга всего интернета.
Но в принципе, доказывать не надо ничего. Надо добиться прецедента, когда какой-нибудь Midjourney будет признан виновным. Это достаточно легко, нейросети до сих пор иногда генерят с вотермарками стоков. И датасеты тоже легко доступны. После этого им будет грозить официальный ататат и картина изменится. Возможно, они уже будут вынуждены доказывать, что беруг легальные датасеты
3. Не надо публиковать датасеты, надо чтобы грозил ататат и нейросети перестали использовать левые источники. Также, как перестали использовать пиратские картинки в рекламе. Понятно, что не полностью перестали, но нынешний балас вполне достаточен
4. Клиент пока не особо то может сгенерировать вразумительную картинку
Успешные работы получаются только когда ты ничего не ждешь. А если ищешь конкретный результат, ракурс, серию, то проще найти на стоке. Нейросети не могут рисовать руки, не могут шрифты, ничего с определенными и сложными деталями. Их работы надо править, дорисовывать, вылавливать артефакты.
Конечно, будущее у нас мрачноватое, но и датасеты тоже устаревают. Надо будет пополнять их актуальным контентом.