Якісний аналіз даних завдяки ШІ

Всі ми знаємо що зараз є ChatGPT і багато хто аналізує текст і дані в звичному нам веб-інтерфейсі. З приходом ChatGPT 4o це можна робити навіть у безкоштовній версії. У платній версії ChatGPT, якість аналізу і обробки даних, ймовірно буде трішки кращим (як мінімум через те, що ви платите кошти і вам можливо збільшать кількість токенів).

Як додатковий варіант можна створити власний GPTs. Завантажуємо файл(и), надаєм інструкції і у нас уже є готове рішення. Цей варіант трішки складніший і довший по реалізації, але якість може бути вища (насправді, точно можна буде сказати лише після тестів).

Окей, а як ще можна використовувати ChatGPT для аналізу даних? Як збільшити якість, точність? Як керувати контролем різноманітності? Вірно, тут нам на допомогу приходить ChatGPT Assistants (можна знайти тут: https://platform.openai.com/login).

ChatGPT Assistants надає широкий спектр можливостей: вибір моделі, температура, Top P параметр і найцікавіше: пошук по файлу. Мабуть, саме остання можливість робить це рішення на стільки ефективним, адже ми можемо налаштувати chunk size, chunk overlap та максимальну кількість результатів. Розберемось з кожним пунктом.

Chunk size — текстовий вміст, отриманий з завантажених файлів, який буде розбитий на фрагменти заданого розміру. Значення за замовчуванням: 800 токенів. Мінімальне: 100 токенів. Максимальне: 4096 токенів.
Chunk overlap — додавання перекриття токенів між послідовними фрагментами може збільшити ймовірність того, що модель правильно контекстуалізує інформацію, яку вона отримує. Це може бути будь-яке невід’ємне число, але воно повинно бути меншим або дорівнювати половині заданого розміру частини. За замовчуванням: 400 токенів.
Максимальна кількість результатів — за замовчуванням інструмент пошуку по файлу виводить до 20 chunks для моделей gpt-4* і до 5 chunks для gpt-3.5-turbo.

Більше деталей можна переглянути тут: https://platform.openai.com/docs/assistants/tools/file-search.

Що це нам дає?

Збільшивши максимальну кількість результатів, chunk size, chunk overlap (останні 2 параметри потребують особливо тонкого налаштування) ми можемо досягти:

збільшення якості пошуку по файлу (наш аналіз даних, про який ми говоримо в дописі);
збільшення якості відповіді на запит або інструкцію в цілому;
збільшення вартості за 1 запит (через збільшення об’єму використаних токенів на 1 запит).

Власний досвід

Особисто я почав це використовувати для реалізації уже декількох проектів і хочу вам сказати що це дійсно того варте. В одному прикладі вартість за 1 коротенький діалог виросла із 7 центів до 26 центів, але якість набагато краща і вища. Примітка, температура для цього проєкту була на 0.01 згідно вимог проєкту.

Що це нам дає?

Власний досвід

Залишити відповідь Скасувати коментар