Не можна сперечатися, що штучний інтелект все ще має чимало ненадійних моментів, але хотілося б сподіватися, що принаймні його оцінки будуть точними. Однак минулого тижня Google нібито проінструктував контрактних працівників, які оцінювали Gemini, не пропускати жодної підказки, незалежно від їхнього досвіду, повідомляє TechCrunch на основі внутрішніх інструкцій, з якими він ознайомився. Раніше цього місяця Google поділився попередньою версією Gemini 2.0.
Як повідомляється, Google доручив GlobalLogic, аутсорсинговій фірмі, підрядники якої оцінюють результати роботи штучного інтелекту, не дозволяти рецензентам пропускати підказки, що виходять за межі їхньої компетенції. Раніше підрядники могли пропустити будь-яку підказку, що виходила далеко за межі їхньої компетенції, наприклад, запитання лікаря про закони. У настановах зазначалося: “Якщо ви не володієте критично важливими знаннями (наприклад, кодування, математики), щоб оцінити цю підказку, будь ласка, пропустіть це завдання”.
Тепер же підрядникам нібито дали вказівку: “Ви не повинні пропускати підказки, які вимагають спеціалізованих знань у певній галузі”, і що вони повинні “оцінювати ті частини підказки, які ви розумієте”, додаючи при цьому примітку, що це не та сфера, в якій вони володіють знаннями. Очевидно, єдині випадки, коли контракти можуть бути пропущені, – це якщо відсутній великий шматок інформації або якщо вона має шкідливий вміст, який вимагає спеціальних форм згоди для оцінки.
Один підрядник влучно відреагував на зміни, сказавши: “Я думав, що сенс пропуску полягає в тому, щоб підвищити точність, передавши її комусь кращому?”
Незабаром після того, як ця стаття була вперше опублікована, Google надав наступну заяву: “Референти виконують широкий спектр завдань у багатьох різних продуктах і платформах Google. Вони надають цінну інформацію не лише про зміст відповідей, але й про стиль, формат та інші фактори. Оцінки, які вони надають, не впливають безпосередньо на наші алгоритми, але в сукупності є корисними даними, які допомагають нам оцінити, наскільки добре працюють наші системи”.
Представник Google також зазначив, що нова мова не обов’язково призведе до змін у точності Gemini, оскільки вони просять користувачів оцінювати саме ті частини підказок, які вони розуміють. Це може бути надання зворотного зв’язку щодо таких речей, як проблеми з форматуванням, навіть якщо оцінювач не має конкретного досвіду в цьому питанні. Компанія також зазначила, що на цьому тижні вийшов тест FACTS Grounding, за допомогою якого можна перевірити відповіді LLM, щоб переконатися, що “вони не тільки фактично точні щодо наданих даних, але й достатньо детальні, щоб надати задовільні відповіді на запити користувачів”.