ਛੋਟਾ ਜਵਾਬ: ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ ਕਿ ਤੁਹਾਡੇ ਵਰਤੋਂ ਦੇ ਮਾਮਲੇ ਲਈ "ਚੰਗਾ" ਕਿਹੋ ਜਿਹਾ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ, ਫਿਰ ਪ੍ਰਤੀਨਿਧੀ, ਵਰਜਨ ਵਾਲੇ ਪ੍ਰੋਂਪਟ ਅਤੇ ਐਜ ਕੇਸਾਂ ਨਾਲ ਟੈਸਟ ਕਰੋ। ਸਵੈਚਾਲਿਤ ਮੈਟ੍ਰਿਕਸ ਨੂੰ ਮਨੁੱਖੀ ਰੁਬਰਿਕ ਸਕੋਰਿੰਗ ਨਾਲ ਜੋੜੋ, ਨਾਲ ਹੀ ਵਿਰੋਧੀ ਸੁਰੱਖਿਆ ਅਤੇ ਪ੍ਰੋਂਪਟ-ਇੰਜੈਕਸ਼ਨ ਜਾਂਚਾਂ। ਜੇਕਰ ਲਾਗਤ ਜਾਂ ਲੇਟੈਂਸੀ ਦੀਆਂ ਸੀਮਾਵਾਂ ਬਾਈਡਿੰਗ ਬਣ ਜਾਂਦੀਆਂ ਹਨ, ਤਾਂ ਪ੍ਰਤੀ ਪੌਂਡ ਖਰਚ ਕੀਤੇ ਗਏ ਕਾਰਜ ਸਫਲਤਾ ਅਤੇ p95/p99 ਜਵਾਬ ਸਮੇਂ ਦੁਆਰਾ ਮਾਡਲਾਂ ਦੀ ਤੁਲਨਾ ਕਰੋ।
ਮੁੱਖ ਗੱਲਾਂ:
ਜਵਾਬਦੇਹੀ : ਕਿਸੇ ਵੀ ਪ੍ਰੋਂਪਟ ਜਾਂ ਮਾਡਲ ਤਬਦੀਲੀ ਤੋਂ ਬਾਅਦ ਸਪਸ਼ਟ ਮਾਲਕਾਂ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰੋ, ਸੰਸਕਰਣ ਲੌਗ ਰੱਖੋ, ਅਤੇ ਮੁਲਾਂਕਣ ਦੁਬਾਰਾ ਚਲਾਓ।
ਪਾਰਦਰਸ਼ਤਾ : ਸਕੋਰ ਇਕੱਠੇ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਸਫਲਤਾ ਦੇ ਮਾਪਦੰਡ, ਰੁਕਾਵਟਾਂ ਅਤੇ ਅਸਫਲਤਾ ਦੀਆਂ ਲਾਗਤਾਂ ਲਿਖੋ।
ਆਡਿਟਯੋਗਤਾ : ਦੁਹਰਾਉਣ ਯੋਗ ਟੈਸਟ ਸੂਟ, ਲੇਬਲ ਕੀਤੇ ਡੇਟਾਸੈੱਟ, ਅਤੇ ਟਰੈਕ ਕੀਤੇ p95/p99 ਲੇਟੈਂਸੀ ਮੈਟ੍ਰਿਕਸ ਨੂੰ ਬਣਾਈ ਰੱਖੋ।
ਮੁਕਾਬਲਾਯੋਗਤਾ : ਵਿਵਾਦਿਤ ਆਉਟਪੁੱਟ ਲਈ ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਰੁਬਰਿਕਸ ਅਤੇ ਇੱਕ ਪਰਿਭਾਸ਼ਿਤ ਅਪੀਲ ਮਾਰਗ ਦੀ ਵਰਤੋਂ ਕਰੋ।
ਦੁਰਵਰਤੋਂ ਪ੍ਰਤੀਰੋਧ : ਰੈੱਡ-ਟੀਮ ਪ੍ਰੋਂਪਟ ਟੀਕਾ, ਸੰਵੇਦਨਸ਼ੀਲ ਵਿਸ਼ੇ, ਅਤੇ ਉਪਭੋਗਤਾਵਾਂ ਦੀ ਸੁਰੱਖਿਆ ਲਈ ਬਹੁਤ ਜ਼ਿਆਦਾ ਇਨਕਾਰ।
ਜੇਕਰ ਤੁਸੀਂ ਕਿਸੇ ਉਤਪਾਦ, ਖੋਜ ਪ੍ਰੋਜੈਕਟ, ਜਾਂ ਇੱਥੋਂ ਤੱਕ ਕਿ ਕਿਸੇ ਅੰਦਰੂਨੀ ਟੂਲ ਲਈ ਮਾਡਲ ਚੁਣ ਰਹੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਸਿਰਫ਼ "ਇਹ ਸਮਾਰਟ ਲੱਗਦਾ ਹੈ" ਅਤੇ ਇਸਨੂੰ ਭੇਜ ਨਹੀਂ ਸਕਦੇ ( OpenAI evals ਗਾਈਡ ਅਤੇ NIST AI RMF 1.0 )। ਇਸ ਤਰ੍ਹਾਂ ਤੁਸੀਂ ਇੱਕ ਚੈਟਬੋਟ ਨਾਲ ਖਤਮ ਹੁੰਦੇ ਹੋ ਜੋ ਭਰੋਸੇ ਨਾਲ ਦੱਸਦਾ ਹੈ ਕਿ ਫੋਰਕ ਨੂੰ ਮਾਈਕ੍ਰੋਵੇਵ ਕਿਵੇਂ ਕਰਨਾ ਹੈ। 😬

ਇਸ ਤੋਂ ਬਾਅਦ ਤੁਸੀਂ ਜੋ ਲੇਖ ਪੜ੍ਹਨਾ ਪਸੰਦ ਕਰ ਸਕਦੇ ਹੋ:
🔗 AI ਦਾ ਭਵਿੱਖ: ਅਗਲੇ ਦਹਾਕੇ ਨੂੰ ਆਕਾਰ ਦੇਣ ਵਾਲੇ ਰੁਝਾਨ।
ਮੁੱਖ ਨਵੀਨਤਾਵਾਂ, ਨੌਕਰੀਆਂ 'ਤੇ ਪ੍ਰਭਾਵ, ਅਤੇ ਨੈਤਿਕਤਾ ਜੋ ਅੱਗੇ ਦੇਖਣੀ ਹੈ।
🔗 ਜਨਰੇਟਿਵ AI ਵਿੱਚ ਫਾਊਂਡੇਸ਼ਨ ਮਾਡਲ ਸ਼ੁਰੂਆਤ ਕਰਨ ਵਾਲਿਆਂ ਲਈ ਸਮਝਾਏ ਗਏ ਹਨ।
ਜਾਣੋ ਕਿ ਉਹ ਕੀ ਹਨ, ਕਿੰਨੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਹਨ, ਅਤੇ ਉਹ ਕਿਉਂ ਮਾਇਨੇ ਰੱਖਦੇ ਹਨ।
🔗 AI ਵਾਤਾਵਰਣ ਅਤੇ ਊਰਜਾ ਦੀ ਵਰਤੋਂ ਨੂੰ ਕਿਵੇਂ ਪ੍ਰਭਾਵਿਤ ਕਰਦਾ ਹੈ,
ਨਿਕਾਸ, ਬਿਜਲੀ ਦੀ ਮੰਗ, ਅਤੇ ਫੁੱਟਪ੍ਰਿੰਟ ਨੂੰ ਘਟਾਉਣ ਦੇ ਤਰੀਕਿਆਂ ਦੀ ਪੜਚੋਲ ਕਰੋ।
🔗 ਅੱਜਕੱਲ੍ਹ AI ਅੱਪਸਕੇਲਿੰਗ ਤਿੱਖੀਆਂ ਤਸਵੀਰਾਂ ਲਈ ਕਿਵੇਂ ਕੰਮ ਕਰਦੀ ਹੈ
ਦੇਖੋ ਕਿ ਮਾਡਲ ਕਿਵੇਂ ਵੇਰਵੇ ਜੋੜਦੇ ਹਨ, ਸ਼ੋਰ ਨੂੰ ਹਟਾਉਂਦੇ ਹਨ, ਅਤੇ ਸਾਫ਼-ਸੁਥਰੇ ਢੰਗ ਨਾਲ ਵੱਡਾ ਕਰਦੇ ਹਨ।
1) "ਚੰਗੇ" ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨਾ (ਇਹ ਨਿਰਭਰ ਕਰਦਾ ਹੈ, ਅਤੇ ਇਹ ਠੀਕ ਹੈ) 🎯
ਕੋਈ ਵੀ ਮੁਲਾਂਕਣ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ, ਫੈਸਲਾ ਕਰੋ ਕਿ ਸਫਲਤਾ ਕਿਵੇਂ ਦਿਖਾਈ ਦਿੰਦੀ ਹੈ। ਨਹੀਂ ਤਾਂ ਤੁਸੀਂ ਸਭ ਕੁਝ ਮਾਪੋਗੇ ਅਤੇ ਕੁਝ ਨਹੀਂ ਸਿੱਖੋਗੇ। ਇਹ ਇੱਕ ਕੇਕ ਮੁਕਾਬਲੇ ਦਾ ਨਿਰਣਾ ਕਰਨ ਲਈ ਇੱਕ ਟੇਪ ਮਾਪ ਲਿਆਉਣ ਵਰਗਾ ਹੈ। ਯਕੀਨਨ, ਤੁਹਾਨੂੰ ਨੰਬਰ ਮਿਲਣਗੇ, ਪਰ ਉਹ ਤੁਹਾਨੂੰ ਬਹੁਤ ਕੁਝ ਨਹੀਂ ਦੱਸਣਗੇ 😅
ਸਪੱਸ਼ਟ ਕਰੋ:
-
ਉਪਭੋਗਤਾ ਦਾ ਟੀਚਾ : ਸੰਖੇਪ, ਖੋਜ, ਲਿਖਣਾ, ਤਰਕ, ਤੱਥ ਕੱਢਣਾ
-
ਅਸਫਲਤਾ ਦੀ ਕੀਮਤ : ਇੱਕ ਗਲਤ ਫਿਲਮ ਦੀ ਸਿਫਾਰਸ਼ ਮਜ਼ਾਕੀਆ ਹੈ; ਇੱਕ ਗਲਤ ਡਾਕਟਰੀ ਹਦਾਇਤ... ਮਜ਼ਾਕੀਆ ਨਹੀਂ ਹੈ (ਜੋਖਮ ਫਰੇਮਿੰਗ: NIST AI RMF 1.0 )।
-
ਰਨਟਾਈਮ ਵਾਤਾਵਰਣ : ਡਿਵਾਈਸ 'ਤੇ, ਕਲਾਉਡ ਵਿੱਚ, ਫਾਇਰਵਾਲ ਦੇ ਪਿੱਛੇ, ਇੱਕ ਨਿਯੰਤ੍ਰਿਤ ਵਾਤਾਵਰਣ ਵਿੱਚ
-
ਮੁੱਖ ਪਾਬੰਦੀਆਂ : ਲੇਟੈਂਸੀ, ਪ੍ਰਤੀ ਬੇਨਤੀ ਲਾਗਤ, ਗੋਪਨੀਯਤਾ, ਵਿਆਖਿਆਯੋਗਤਾ, ਬਹੁਭਾਸ਼ਾਈ ਸਹਾਇਤਾ, ਸੁਰ ਨਿਯੰਤਰਣ
ਇੱਕ ਮਾਡਲ ਜੋ ਇੱਕ ਕੰਮ ਵਿੱਚ "ਸਭ ਤੋਂ ਵਧੀਆ" ਹੁੰਦਾ ਹੈ, ਦੂਜੇ ਕੰਮ ਵਿੱਚ ਤਬਾਹੀ ਮਚਾ ਸਕਦਾ ਹੈ। ਇਹ ਕੋਈ ਵਿਰੋਧਾਭਾਸ ਨਹੀਂ ਹੈ, ਇਹ ਹਕੀਕਤ ਹੈ। 🙂
2) ਇੱਕ ਮਜ਼ਬੂਤ AI ਮਾਡਲ ਮੁਲਾਂਕਣ ਢਾਂਚਾ ਕਿੰਨਾ ਵਧੀਆ ਦਿਖਦਾ ਹੈ 🧰
ਹਾਂ, ਇਹ ਉਹ ਹਿੱਸਾ ਹੈ ਜਿਸਨੂੰ ਲੋਕ ਛੱਡ ਦਿੰਦੇ ਹਨ। ਉਹ ਇੱਕ ਬੈਂਚਮਾਰਕ ਫੜਦੇ ਹਨ, ਇਸਨੂੰ ਇੱਕ ਵਾਰ ਚਲਾਉਂਦੇ ਹਨ, ਅਤੇ ਇਸਨੂੰ ਇੱਕ ਦਿਨ ਕਹਿੰਦੇ ਹਨ। ਇੱਕ ਮਜ਼ਬੂਤ ਮੁਲਾਂਕਣ ਢਾਂਚੇ ਵਿੱਚ ਕੁਝ ਇਕਸਾਰ ਗੁਣ ਹੁੰਦੇ ਹਨ (ਪ੍ਰੈਕਟੀਕਲ ਟੂਲਿੰਗ ਉਦਾਹਰਣਾਂ: OpenAI Evals / OpenAI evals ਗਾਈਡ ):
-
ਦੁਹਰਾਉਣਯੋਗ - ਤੁਸੀਂ ਇਸਨੂੰ ਅਗਲੇ ਹਫ਼ਤੇ ਦੁਬਾਰਾ ਚਲਾ ਸਕਦੇ ਹੋ ਅਤੇ ਤੁਲਨਾਵਾਂ 'ਤੇ ਭਰੋਸਾ ਕਰ ਸਕਦੇ ਹੋ।
-
ਪ੍ਰਤੀਨਿਧੀ - ਇਹ ਤੁਹਾਡੇ ਅਸਲ ਉਪਭੋਗਤਾਵਾਂ ਅਤੇ ਕਾਰਜਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ (ਸਿਰਫ ਟ੍ਰਿਵੀਆ ਨਹੀਂ)
-
ਬਹੁ-ਪੱਧਰੀ - ਸਵੈਚਾਲਿਤ ਮੈਟ੍ਰਿਕਸ + ਮਨੁੱਖੀ ਸਮੀਖਿਆ + ਵਿਰੋਧੀ ਟੈਸਟਾਂ ਨੂੰ ਜੋੜਦਾ ਹੈ
-
ਕਾਰਵਾਈਯੋਗ - ਨਤੀਜੇ ਤੁਹਾਨੂੰ ਦੱਸਦੇ ਹਨ ਕਿ ਕੀ ਠੀਕ ਕਰਨਾ ਹੈ, ਸਿਰਫ਼ "ਸਕੋਰ ਘੱਟ ਗਿਆ" ਹੀ ਨਹੀਂ।
-
ਛੇੜਛਾੜ-ਰੋਧਕ - "ਟੈਸਟ ਨੂੰ ਸਿਖਾਉਣ" ਜਾਂ ਦੁਰਘਟਨਾ ਨਾਲ ਲੀਕੇਜ ਤੋਂ ਬਚਾਉਂਦਾ ਹੈ
-
ਲਾਗਤ-ਜਾਗਰੂਕ - ਮੁਲਾਂਕਣ ਖੁਦ ਤੁਹਾਨੂੰ ਦੀਵਾਲੀਆ ਨਹੀਂ ਕਰਨਾ ਚਾਹੀਦਾ (ਜਦੋਂ ਤੱਕ ਕਿ ਤੁਹਾਨੂੰ ਦਰਦ ਪਸੰਦ ਨਹੀਂ)
ਜੇਕਰ ਤੁਹਾਡਾ ਮੁਲਾਂਕਣ ਇੱਕ ਸ਼ੱਕੀ ਸਾਥੀ ਦੇ ਕਹਿਣ 'ਤੇ ਵੀ ਟਿਕ ਨਹੀਂ ਸਕਦਾ ਕਿ "ਠੀਕ ਹੈ, ਪਰ ਇਸਨੂੰ ਪ੍ਰੋਡਕਸ਼ਨ ਲਈ ਤਿਆਰ ਕਰੋ," ਤਾਂ ਇਹ ਅਜੇ ਪੂਰਾ ਨਹੀਂ ਹੋਇਆ। ਇਹ ਵਾਈਬ ਚੈੱਕ ਹੈ।.
3) ਵਰਤੋਂ-ਕੇਸ ਸਲਾਈਸਾਂ ਨਾਲ ਸ਼ੁਰੂ ਕਰਕੇ AI ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਿਵੇਂ ਕਰੀਏ 🍰
ਇੱਥੇ ਇੱਕ ਚਾਲ ਹੈ ਜੋ ਬਹੁਤ ਸਾਰਾ ਸਮਾਂ ਬਚਾਉਂਦੀ ਹੈ: ਵਰਤੋਂ ਦੇ ਮਾਮਲੇ ਨੂੰ ਟੁਕੜਿਆਂ ਵਿੱਚ ਵੰਡੋ ।
"ਮਾਡਲ ਦਾ ਮੁਲਾਂਕਣ ਕਰੋ" ਦੀ ਬਜਾਏ, ਇਹ ਕਰੋ:
-
ਇਰਾਦੇ ਦੀ ਸਮਝ (ਕੀ ਇਹ ਉਹ ਪ੍ਰਾਪਤ ਕਰਦੀ ਹੈ ਜੋ ਉਪਭੋਗਤਾ ਚਾਹੁੰਦਾ ਹੈ)
-
ਪ੍ਰਾਪਤੀ ਜਾਂ ਸੰਦਰਭ ਵਰਤੋਂ (ਕੀ ਇਹ ਦਿੱਤੀ ਗਈ ਜਾਣਕਾਰੀ ਦੀ ਸਹੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ)
-
ਤਰਕ / ਬਹੁ-ਪੜਾਵੀ ਕਾਰਜ (ਕੀ ਇਹ ਕਦਮਾਂ ਵਿੱਚ ਇਕਸਾਰ ਰਹਿੰਦੇ ਹਨ)
-
ਫਾਰਮੈਟਿੰਗ ਅਤੇ ਬਣਤਰ (ਕੀ ਇਹ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰਦਾ ਹੈ)
-
ਸੁਰੱਖਿਆ ਅਤੇ ਨੀਤੀ ਅਨੁਕੂਲਤਾ (ਕੀ ਇਹ ਅਸੁਰੱਖਿਅਤ ਸਮੱਗਰੀ ਤੋਂ ਬਚਦਾ ਹੈ; NIST AI RMF 1.0 )
-
ਸੁਰ ਅਤੇ ਬ੍ਰਾਂਡ ਦੀ ਆਵਾਜ਼ (ਕੀ ਇਹ ਇਸ ਤਰ੍ਹਾਂ ਸੁਣਾਈ ਦਿੰਦੀ ਹੈ ਜਿਵੇਂ ਤੁਸੀਂ ਚਾਹੁੰਦੇ ਹੋ)
ਇਸ ਨਾਲ "AI ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਿਵੇਂ ਕਰੀਏ" ਇੱਕ ਵੱਡੀ ਪ੍ਰੀਖਿਆ ਵਾਂਗ ਘੱਟ ਅਤੇ ਨਿਸ਼ਾਨਾ ਬਣਾਏ ਗਏ ਕੁਇਜ਼ਾਂ ਦੇ ਸੈੱਟ ਵਾਂਗ ਵਧੇਰੇ ਮਹਿਸੂਸ ਹੁੰਦਾ ਹੈ। ਕੁਇਜ਼ ਤੰਗ ਕਰਨ ਵਾਲੇ ਹੁੰਦੇ ਹਨ, ਪਰ ਪ੍ਰਬੰਧਨਯੋਗ ਹੁੰਦੇ ਹਨ। 😄
4) ਔਫਲਾਈਨ ਮੁਲਾਂਕਣ ਦੀਆਂ ਮੂਲ ਗੱਲਾਂ - ਟੈਸਟ ਸੈੱਟ, ਲੇਬਲ, ਅਤੇ ਗੈਰ-ਗਲੈਮਰ ਵੇਰਵੇ ਜੋ ਮਾਇਨੇ ਰੱਖਦੇ ਹਨ 📦
ਔਫਲਾਈਨ ਈਵਲ ਉਹ ਥਾਂ ਹੈ ਜਿੱਥੇ ਤੁਸੀਂ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਕਿਸੇ ਵੀ ਚੀਜ਼ ਨੂੰ ਛੂਹਣ ਤੋਂ ਪਹਿਲਾਂ ਨਿਯੰਤਰਿਤ ਟੈਸਟ ਕਰਦੇ ਹੋ (ਵਰਕਫਲੋ ਪੈਟਰਨ: OpenAI ਈਵਲਸ )।
ਇੱਕ ਟੈਸਟ ਸੈੱਟ ਬਣਾਓ ਜਾਂ ਇਕੱਠਾ ਕਰੋ ਜੋ ਸੱਚਮੁੱਚ ਤੁਹਾਡਾ ਹੈ
ਇੱਕ ਚੰਗੇ ਟੈਸਟ ਸੈੱਟ ਵਿੱਚ ਆਮ ਤੌਰ 'ਤੇ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ:
-
ਸੁਨਹਿਰੀ ਉਦਾਹਰਣਾਂ : ਆਦਰਸ਼ ਆਉਟਪੁੱਟ ਜੋ ਤੁਸੀਂ ਮਾਣ ਨਾਲ ਭੇਜੋਗੇ
-
ਐਜ ਕੇਸ : ਅਸਪਸ਼ਟ ਪ੍ਰੋਂਪਟ, ਬੇਢੰਗੇ ਇਨਪੁੱਟ, ਅਣਕਿਆਸੇ ਫਾਰਮੈਟਿੰਗ
-
ਅਸਫਲਤਾ-ਮੋਡ ਪ੍ਰੋਬ : ਪ੍ਰੋਂਪਟ ਜੋ ਭਰਮ ਜਾਂ ਅਸੁਰੱਖਿਅਤ ਜਵਾਬਾਂ ਨੂੰ ਭਰਮਾਉਂਦੇ ਹਨ (ਜੋਖਮ ਜਾਂਚ ਫਰੇਮਿੰਗ: NIST AI RMF 1.0 )
-
ਵਿਭਿੰਨਤਾ ਕਵਰੇਜ : ਵੱਖ-ਵੱਖ ਉਪਭੋਗਤਾ ਹੁਨਰ ਪੱਧਰ, ਉਪਭਾਸ਼ਾਵਾਂ, ਭਾਸ਼ਾਵਾਂ, ਡੋਮੇਨ
ਜੇਕਰ ਤੁਸੀਂ ਸਿਰਫ਼ "ਸਾਫ਼" ਪ੍ਰੋਂਪਟਾਂ 'ਤੇ ਹੀ ਟੈਸਟ ਕਰਦੇ ਹੋ, ਤਾਂ ਮਾਡਲ ਸ਼ਾਨਦਾਰ ਦਿਖਾਈ ਦੇਵੇਗਾ। ਫਿਰ ਤੁਹਾਡੇ ਉਪਭੋਗਤਾ ਟਾਈਪੋਜ਼, ਅੱਧੇ ਵਾਕਾਂ ਅਤੇ ਗੁੱਸੇ-ਕਲਿੱਕ ਊਰਜਾ ਨਾਲ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ। ਹਕੀਕਤ ਵਿੱਚ ਤੁਹਾਡਾ ਸਵਾਗਤ ਹੈ।.
ਲੇਬਲਿੰਗ ਵਿਕਲਪ (ਉਰਫ਼: ਸਖ਼ਤੀ ਦੇ ਪੱਧਰ)
ਤੁਸੀਂ ਆਉਟਪੁੱਟ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਲੇਬਲ ਕਰ ਸਕਦੇ ਹੋ:
-
ਬਾਈਨਰੀ : ਪਾਸ/ਫੇਲ (ਤੇਜ਼, ਸਖ਼ਤ)
-
ਆਰਡੀਨਲ : 1-5 ਕੁਆਲਿਟੀ ਸਕੋਰ (ਸੂਖਮ, ਵਿਅਕਤੀਗਤ)
-
ਬਹੁ-ਵਿਸ਼ੇਸ਼ਤਾ : ਸ਼ੁੱਧਤਾ, ਸੰਪੂਰਨਤਾ, ਸੁਰ, ਹਵਾਲੇ ਦੀ ਵਰਤੋਂ, ਆਦਿ (ਸਭ ਤੋਂ ਵਧੀਆ, ਹੌਲੀ)
ਮਲਟੀ-ਐਟਰੀਬਿਊਟ ਬਹੁਤ ਸਾਰੀਆਂ ਟੀਮਾਂ ਲਈ ਮਿੱਠਾ ਸਥਾਨ ਹੁੰਦਾ ਹੈ। ਇਹ ਭੋਜਨ ਦਾ ਸੁਆਦ ਚੱਖਣ ਅਤੇ ਬਣਤਰ ਤੋਂ ਵੱਖਰਾ ਨਮਕੀਨਤਾ ਦਾ ਨਿਰਣਾ ਕਰਨ ਵਰਗਾ ਹੈ। ਨਹੀਂ ਤਾਂ ਤੁਸੀਂ ਸਿਰਫ਼ "ਚੰਗਾ" ਕਹਿੰਦੇ ਹੋ ਅਤੇ ਮੋਢੇ ਉੱਚਾ ਕਰਦੇ ਹੋ।.
5) ਉਹ ਮੈਟ੍ਰਿਕਸ ਜੋ ਝੂਠ ਨਹੀਂ ਬੋਲਦੇ - ਅਤੇ ਉਹ ਮੈਟ੍ਰਿਕਸ ਜੋ ਕੁਝ ਹੱਦ ਤੱਕ ਕਰਦੇ ਹਨ 📊😅
ਮਾਪਕ ਕੀਮਤੀ ਹਨ... ਪਰ ਇਹ ਇੱਕ ਚਮਕਦਾਰ ਬੰਬ ਵੀ ਹੋ ਸਕਦੇ ਹਨ। ਚਮਕਦਾਰ, ਹਰ ਜਗ੍ਹਾ, ਅਤੇ ਸਾਫ਼ ਕਰਨਾ ਔਖਾ।.
ਆਮ ਮੀਟ੍ਰਿਕ ਪਰਿਵਾਰ
-
ਸ਼ੁੱਧਤਾ / ਸਹੀ ਮੇਲ : ਕੱਢਣ, ਵਰਗੀਕਰਨ, ਢਾਂਚਾਗਤ ਕੰਮਾਂ ਲਈ ਵਧੀਆ
-
F1 / ਸ਼ੁੱਧਤਾ / ਯਾਦ : ਕੁਝ ਗੁੰਮ ਹੋਣ 'ਤੇ ਸੌਖਾ ਹੋਣਾ ਵਾਧੂ ਸ਼ੋਰ ਨਾਲੋਂ ਵੀ ਮਾੜਾ ਹੁੰਦਾ ਹੈ (ਪਰਿਭਾਸ਼ਾਵਾਂ: scikit-learn precision/recall/F-score )
-
BLEU / ROUGE ਸਟਾਈਲ ਓਵਰਲੈਪ : ਸੰਖੇਪ-ਵਰਗੇ ਕੰਮਾਂ ਲਈ ਠੀਕ ਹੈ, ਅਕਸਰ ਗੁੰਮਰਾਹਕੁੰਨ (ਮੂਲ ਮੈਟ੍ਰਿਕਸ: BLEU ਅਤੇ ROUGE )
-
ਸਮਾਨਤਾ ਨੂੰ ਏਮਬੈਡ ਕਰਨਾ : ਅਰਥਪੂਰਨ ਮੇਲ ਲਈ ਮਦਦਗਾਰ, ਗਲਤ-ਪਰ-ਸਮਾਨ ਜਵਾਬਾਂ ਨੂੰ ਇਨਾਮ ਦੇ ਸਕਦਾ ਹੈ
-
ਕਾਰਜ ਸਫਲਤਾ ਦਰ : "ਕੀ ਉਪਭੋਗਤਾ ਨੂੰ ਉਹ ਮਿਲਿਆ ਜਿਸਦੀ ਉਹਨਾਂ ਨੂੰ ਲੋੜ ਸੀ" ਸੁਨਹਿਰੀ ਮਿਆਰ ਜਦੋਂ ਚੰਗੀ ਤਰ੍ਹਾਂ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ
-
ਪਾਬੰਦੀ ਪਾਲਣਾ : ਫਾਰਮੈਟ, ਲੰਬਾਈ, JSON ਵੈਧਤਾ, ਸਕੀਮਾ ਪਾਲਣਾ ਦੀ ਪਾਲਣਾ ਕਰਦਾ ਹੈ
ਮੁੱਖ ਗੱਲ
ਜੇਕਰ ਤੁਹਾਡਾ ਕੰਮ ਖੁੱਲ੍ਹਾ ਹੈ (ਲਿਖਣਾ, ਤਰਕ ਕਰਨਾ, ਸਹਾਇਤਾ ਗੱਲਬਾਤ), ਤਾਂ ਸਿੰਗਲ-ਨੰਬਰ ਮੈਟ੍ਰਿਕਸ... ਡਗਮਗਾ ਸਕਦਾ ਹੈ। ਬੇਕਾਰ ਨਹੀਂ, ਸਿਰਫ਼ ਡਗਮਗਾ ਰਿਹਾ ਹੈ। ਇੱਕ ਰੂਲਰ ਨਾਲ ਰਚਨਾਤਮਕਤਾ ਨੂੰ ਮਾਪਣਾ ਸੰਭਵ ਹੈ, ਪਰ ਤੁਸੀਂ ਇਹ ਕਰ ਕੇ ਮੂਰਖਤਾ ਮਹਿਸੂਸ ਕਰੋਗੇ। (ਨਾਲ ਹੀ ਤੁਸੀਂ ਸ਼ਾਇਦ ਆਪਣੀ ਅੱਖ ਬਾਹਰ ਕੱਢੋਗੇ।)
ਇਸ ਲਈ: ਮੈਟ੍ਰਿਕਸ ਦੀ ਵਰਤੋਂ ਕਰੋ, ਪਰ ਉਹਨਾਂ ਨੂੰ ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਅਤੇ ਅਸਲ ਕਾਰਜ ਨਤੀਜਿਆਂ ਨਾਲ ਜੋੜੋ (LLM-ਅਧਾਰਤ ਮੁਲਾਂਕਣ ਚਰਚਾ + ਚੇਤਾਵਨੀਆਂ ਦੀ ਇੱਕ ਉਦਾਹਰਣ: G-Eval )।
6) ਤੁਲਨਾ ਸਾਰਣੀ - ਚੋਟੀ ਦੇ ਮੁਲਾਂਕਣ ਵਿਕਲਪ (ਕੁਝ ਖਾਸੀਅਤਾਂ ਦੇ ਨਾਲ, ਕਿਉਂਕਿ ਜ਼ਿੰਦਗੀ ਵਿੱਚ ਕੁਛ ਖਾਸੀਅਤਾਂ ਹਨ) 🧾✨
ਇੱਥੇ ਮੁਲਾਂਕਣ ਦੇ ਤਰੀਕਿਆਂ ਦਾ ਇੱਕ ਵਿਹਾਰਕ ਮੀਨੂ ਹੈ। ਮਿਕਸ ਐਂਡ ਮੈਚ। ਜ਼ਿਆਦਾਤਰ ਟੀਮਾਂ ਕਰਦੀਆਂ ਹਨ।.
| ਔਜ਼ਾਰ / ਢੰਗ | ਦਰਸ਼ਕ | ਕੀਮਤ | ਇਹ ਕਿਉਂ ਕੰਮ ਕਰਦਾ ਹੈ |
|---|---|---|---|
| ਹੱਥ ਨਾਲ ਬਣਾਇਆ ਗਿਆ ਪ੍ਰੋਂਪਟ ਟੈਸਟ ਸੂਟ | ਉਤਪਾਦ + ਇੰਜੀ | $ | ਬਹੁਤ ਨਿਸ਼ਾਨਾਬੱਧ, ਰਿਗਰੈਸ਼ਨ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਫੜਦਾ ਹੈ - ਪਰ ਤੁਹਾਨੂੰ ਇਸਨੂੰ ਹਮੇਸ਼ਾ ਲਈ ਬਣਾਈ ਰੱਖਣਾ ਚਾਹੀਦਾ ਹੈ 🙃 (ਸਟਾਰਟਰ ਟੂਲਿੰਗ: OpenAI Evals ) |
| ਮਨੁੱਖੀ ਰੁਬਰਿਕ ਸਕੋਰਿੰਗ ਪੈਨਲ | ਟੀਮਾਂ ਜੋ ਸਮੀਖਿਅਕਾਂ ਨੂੰ ਛੱਡ ਸਕਦੀਆਂ ਹਨ | $$ | ਸੁਰ, ਸੂਖਮਤਾ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ, "ਕੀ ਕੋਈ ਮਨੁੱਖ ਇਸਨੂੰ ਸਵੀਕਾਰ ਕਰੇਗਾ", ਸਮੀਖਿਅਕਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹੋਏ ਥੋੜ੍ਹੀ ਜਿਹੀ ਹਫੜਾ-ਦਫੜੀ |
| ਐਲਐਲਐਮ-ਬੈਠਕ-ਜੱਜ (ਰੁਬਰਿਕਸ ਦੇ ਨਾਲ) | ਤੇਜ਼ ਦੁਹਰਾਓ ਲੂਪ | $-$$ | ਤੇਜ਼ ਅਤੇ ਸਕੇਲੇਬਲ, ਪਰ ਇਹ ਪੱਖਪਾਤ ਨੂੰ ਵਿਰਾਸਤ ਵਿੱਚ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਕਈ ਵਾਰ ਤੱਥਾਂ ਦੀ ਬਜਾਏ ਵਾਈਬਸ ਨੂੰ ਗ੍ਰੇਡ ਕਰਦਾ ਹੈ (ਖੋਜ + ਜਾਣੇ-ਪਛਾਣੇ ਪੱਖਪਾਤ ਦੇ ਮੁੱਦੇ: G-Eval ) |
| ਵਿਰੋਧੀ ਲਾਲ-ਟੀਮ ਸਪ੍ਰਿੰਟ | ਸੁਰੱਖਿਆ + ਪਾਲਣਾ | $$ | ਮਸਾਲੇਦਾਰ ਅਸਫਲਤਾ ਮੋਡ ਲੱਭਦਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਤੁਰੰਤ ਟੀਕਾ - ਜਿੰਮ ਵਿੱਚ ਤਣਾਅ ਦੇ ਟੈਸਟ ਵਾਂਗ ਮਹਿਸੂਸ ਹੁੰਦਾ ਹੈ (ਖ਼ਤਰੇ ਦੀ ਸੰਖੇਪ ਜਾਣਕਾਰੀ: OWASP LLM01 ਤੁਰੰਤ ਟੀਕਾ / LLM ਐਪਸ ਲਈ OWASP ਸਿਖਰਲੇ 10 ) |
| ਸਿੰਥੈਟਿਕ ਟੈਸਟ ਜਨਰੇਸ਼ਨ | ਡਾਟਾ-ਲਾਈਟ ਟੀਮਾਂ | $ | ਵਧੀਆ ਕਵਰੇਜ, ਪਰ ਸਿੰਥੈਟਿਕ ਪ੍ਰੋਂਪਟ ਬਹੁਤ ਸਾਫ਼-ਸੁਥਰੇ, ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਿਮਰ ਹੋ ਸਕਦੇ ਹਨ... ਉਪਭੋਗਤਾ ਨਿਮਰ ਨਹੀਂ ਹਨ। |
| ਅਸਲ ਉਪਭੋਗਤਾਵਾਂ ਨਾਲ A/B ਟੈਸਟਿੰਗ | ਪਰਿਪੱਕ ਉਤਪਾਦ | $$$ | ਸਭ ਤੋਂ ਸਪੱਸ਼ਟ ਸੰਕੇਤ - ਜਦੋਂ ਮੈਟ੍ਰਿਕਸ ਬਦਲਦੇ ਹਨ ਤਾਂ ਸਭ ਤੋਂ ਵੱਧ ਭਾਵਨਾਤਮਕ ਤੌਰ 'ਤੇ ਤਣਾਅਪੂਰਨ ਵੀ ਹੁੰਦਾ ਹੈ (ਕਲਾਸਿਕ ਵਿਹਾਰਕ ਗਾਈਡ: ਕੋਹਾਵੀ ਅਤੇ ਹੋਰ, "ਵੈੱਬ 'ਤੇ ਨਿਯੰਤਰਿਤ ਪ੍ਰਯੋਗ" ) |
| ਪ੍ਰਾਪਤੀ-ਅਧਾਰਿਤ ਈਵਲ (RAG ਜਾਂਚਾਂ) | ਖੋਜ + QA ਐਪਾਂ | $$ | ਉਪਾਅ "ਸਹੀ ਸੰਦਰਭ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ," ਭਰਮ ਸਕੋਰ ਮੁਦਰਾਸਫੀਤੀ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ (RAG eval ਸੰਖੇਪ ਜਾਣਕਾਰੀ: RAG ਦਾ ਮੁਲਾਂਕਣ: ਇੱਕ ਸਰਵੇਖਣ ) |
| ਨਿਗਰਾਨੀ + ਵਹਾਅ ਖੋਜ | ਉਤਪਾਦਨ ਪ੍ਰਣਾਲੀਆਂ | $$-$$$ | ਸਮੇਂ ਦੇ ਨਾਲ ਗਿਰਾਵਟ ਨੂੰ ਫੜਦਾ ਹੈ - ਉਸ ਦਿਨ ਤੱਕ ਬੇਦਾਗ ਜਦੋਂ ਤੱਕ ਇਹ ਤੁਹਾਨੂੰ ਬਚਾਉਂਦਾ ਨਹੀਂ ਹੈ 😬 (ਡ੍ਰੀਫਟ ਸੰਖੇਪ ਜਾਣਕਾਰੀ: ਸੰਕਲਪ ਡ੍ਰਿਫਟ ਸਰਵੇਖਣ (PMC) ) |
ਧਿਆਨ ਦਿਓ ਕਿ ਕੀਮਤਾਂ ਜਾਣਬੁੱਝ ਕੇ ਘੱਟ ਹਨ। ਇਹ ਪੈਮਾਨੇ, ਟੂਲਿੰਗ, ਅਤੇ ਤੁਸੀਂ ਗਲਤੀ ਨਾਲ ਕਿੰਨੀਆਂ ਮੀਟਿੰਗਾਂ ਪੈਦਾ ਕੀਤੀਆਂ ਹਨ, ਇਸ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀਆਂ ਹਨ।.
7) ਮਨੁੱਖੀ ਮੁਲਾਂਕਣ - ਉਹ ਗੁਪਤ ਹਥਿਆਰ ਜਿਸਨੂੰ ਲੋਕ ਘੱਟ ਫੰਡ ਦਿੰਦੇ ਹਨ 👀🧑⚖️
ਜੇਕਰ ਤੁਸੀਂ ਸਿਰਫ਼ ਸਵੈਚਾਲਿਤ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਇਹ ਖੁੰਝ ਜਾਓਗੇ:
-
ਸੁਰ ਮੇਲ ਨਹੀਂ ਖਾਂਦਾ ("ਇਹ ਇੰਨਾ ਭੈੜਾ ਕਿਉਂ ਹੈ")
-
ਸੂਖਮ ਤੱਥਾਂ ਸੰਬੰਧੀ ਗਲਤੀਆਂ ਜੋ ਸਪੱਸ਼ਟ ਲੱਗਦੀਆਂ ਹਨ
-
ਨੁਕਸਾਨਦੇਹ ਪ੍ਰਭਾਵ, ਰੂੜ੍ਹੀਵਾਦੀ ਧਾਰਨਾਵਾਂ, ਜਾਂ ਅਜੀਬ ਵਾਕਾਂਸ਼ (ਜੋਖਮ + ਪੱਖਪਾਤ ਫਰੇਮਿੰਗ: NIST AI RMF 1.0 )
-
ਹਦਾਇਤਾਂ ਤੋਂ ਬਾਅਦ ਹੋਣ ਵਾਲੀਆਂ ਅਸਫਲਤਾਵਾਂ ਜੋ ਅਜੇ ਵੀ "ਸਮਾਰਟ" ਲੱਗਦੀਆਂ ਹਨ
ਰੁਬਰਿਕਸ ਨੂੰ ਕੰਕਰੀਟ ਬਣਾਓ (ਜਾਂ ਸਮੀਖਿਅਕ ਫ੍ਰੀਸਟਾਈਲ ਕਰਨਗੇ)
ਮਾੜਾ ਰੁਬਰਿਕ: “ਮਦਦਗਾਰਤਾ”
ਬਿਹਤਰ ਰੁਬਰਿਕ:
-
ਸ਼ੁੱਧਤਾ : ਪ੍ਰੋਂਪਟ + ਸੰਦਰਭ ਦੇ ਮੱਦੇਨਜ਼ਰ ਤੱਥਾਂ ਅਨੁਸਾਰ ਸਹੀ
-
ਸੰਪੂਰਨਤਾ : ਬਿਨਾਂ ਕਿਸੇ ਰੁਕਾਵਟ ਦੇ ਲੋੜੀਂਦੇ ਬਿੰਦੂਆਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ।
-
ਸਪਸ਼ਟਤਾ : ਪੜ੍ਹਨਯੋਗ, ਢਾਂਚਾਗਤ, ਘੱਟੋ-ਘੱਟ ਉਲਝਣ
-
ਨੀਤੀ / ਸੁਰੱਖਿਆ : ਪ੍ਰਤਿਬੰਧਿਤ ਸਮੱਗਰੀ ਤੋਂ ਬਚਦਾ ਹੈ, ਇਨਕਾਰ ਨੂੰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸੰਭਾਲਦਾ ਹੈ (ਸੁਰੱਖਿਆ ਫਰੇਮਿੰਗ: NIST AI RMF 1.0 )
-
ਸ਼ੈਲੀ : ਆਵਾਜ਼, ਸੁਰ, ਪੜ੍ਹਨ ਦੇ ਪੱਧਰ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ
-
ਵਫ਼ਾਦਾਰੀ : ਅਜਿਹੇ ਸਰੋਤ ਜਾਂ ਦਾਅਵੇ ਨਹੀਂ ਬਣਾਉਂਦਾ ਜੋ ਸਮਰਥਿਤ ਨਹੀਂ ਹਨ
ਨਾਲ ਹੀ, ਕਦੇ-ਕਦੇ ਇੰਟਰ-ਰੇਟਰ ਜਾਂਚਾਂ ਕਰੋ। ਜੇਕਰ ਦੋ ਸਮੀਖਿਅਕ ਲਗਾਤਾਰ ਅਸਹਿਮਤ ਹੁੰਦੇ ਹਨ, ਤਾਂ ਇਹ "ਲੋਕਾਂ ਦੀ ਸਮੱਸਿਆ" ਨਹੀਂ ਹੈ, ਇਹ ਇੱਕ ਰੁਬਰਿਕ ਸਮੱਸਿਆ ਹੈ। ਆਮ ਤੌਰ 'ਤੇ (ਇੰਟਰ-ਰੇਟਰ ਭਰੋਸੇਯੋਗਤਾ ਮੂਲ ਗੱਲਾਂ: ਮੈਕਹਿਊ ਕੋਹੇਨ ਦੇ ਕੱਪਾ 'ਤੇ )।
8) ਸੁਰੱਖਿਆ, ਮਜ਼ਬੂਤੀ, ਅਤੇ "ਉਫ਼, ਉਪਭੋਗਤਾਵਾਂ" ਲਈ AI ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਿਵੇਂ ਕਰੀਏ 🧯🧪
ਇਹ ਉਹ ਹਿੱਸਾ ਹੈ ਜੋ ਤੁਸੀਂ ਲਾਂਚ ਤੋਂ ਪਹਿਲਾਂ ਕਰਦੇ ਹੋ - ਅਤੇ ਫਿਰ ਕਰਦੇ ਰਹੋ, ਕਿਉਂਕਿ ਇੰਟਰਨੈੱਟ ਕਦੇ ਨਹੀਂ ਸੌਂਦਾ।.
ਮਜ਼ਬੂਤੀ ਟੈਸਟ ਸ਼ਾਮਲ ਕਰਨ ਲਈ
-
ਟਾਈਪੋਜ਼, ਸਲੈਂਗ, ਟੁੱਟੀ ਹੋਈ ਵਿਆਕਰਣ
-
ਬਹੁਤ ਲੰਬੇ ਪ੍ਰੋਂਪਟ ਅਤੇ ਬਹੁਤ ਛੋਟੇ ਪ੍ਰੋਂਪਟ
-
ਵਿਰੋਧੀ ਹਦਾਇਤਾਂ ("ਸੰਖੇਪ ਹੋਣ ਪਰ ਹਰ ਵੇਰਵੇ ਨੂੰ ਸ਼ਾਮਲ ਕਰੋ")
-
ਬਹੁ-ਵਾਰੀ ਗੱਲਬਾਤ ਜਿੱਥੇ ਉਪਭੋਗਤਾ ਟੀਚੇ ਬਦਲਦੇ ਹਨ
-
ਤੁਰੰਤ ਟੀਕਾ ਲਗਾਉਣ ਦੀਆਂ ਕੋਸ਼ਿਸ਼ਾਂ ("ਪਿਛਲੇ ਨਿਯਮਾਂ ਨੂੰ ਅਣਡਿੱਠ ਕਰੋ...") (ਖ਼ਤਰੇ ਦੇ ਵੇਰਵੇ: OWASP LLM01 ਪ੍ਰੋਂਪਟ ਟੀਕਾ )
-
ਸੰਵੇਦਨਸ਼ੀਲ ਵਿਸ਼ੇ ਜਿਨ੍ਹਾਂ ਨੂੰ ਧਿਆਨ ਨਾਲ ਇਨਕਾਰ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ (ਜੋਖਮ/ਸੁਰੱਖਿਆ ਫਰੇਮਿੰਗ: NIST AI RMF 1.0 )
ਸੁਰੱਖਿਆ ਮੁਲਾਂਕਣ ਸਿਰਫ਼ "ਕੀ ਇਹ ਇਨਕਾਰ ਕਰਦਾ ਹੈ" ਨਹੀਂ ਹੈ
ਇੱਕ ਚੰਗੇ ਮਾਡਲ ਨੂੰ ਇਹ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ:
-
ਅਸੁਰੱਖਿਅਤ ਬੇਨਤੀਆਂ ਨੂੰ ਸਪਸ਼ਟ ਅਤੇ ਸ਼ਾਂਤੀ ਨਾਲ ਅਸਵੀਕਾਰ ਕਰੋ (ਮਾਰਗਦਰਸ਼ਨ ਫਰੇਮਿੰਗ: NIST AI RMF 1.0 )
-
ਜਦੋਂ ਢੁਕਵਾਂ ਹੋਵੇ ਤਾਂ ਸੁਰੱਖਿਅਤ ਵਿਕਲਪ ਪ੍ਰਦਾਨ ਕਰੋ
-
ਨੁਕਸਾਨ ਰਹਿਤ ਸਵਾਲਾਂ (ਗਲਤ ਸਕਾਰਾਤਮਕ) ਤੋਂ ਜ਼ਿਆਦਾ ਇਨਕਾਰ ਕਰਨ ਤੋਂ ਬਚੋ।
-
ਅਸਪਸ਼ਟ ਬੇਨਤੀਆਂ ਨੂੰ ਸਪਸ਼ਟੀਕਰਨ ਵਾਲੇ ਸਵਾਲਾਂ ਨਾਲ ਸੰਭਾਲੋ (ਜਦੋਂ ਇਜਾਜ਼ਤ ਹੋਵੇ)
ਬਹੁਤ ਜ਼ਿਆਦਾ ਇਨਕਾਰ ਕਰਨਾ ਇੱਕ ਅਸਲ ਉਤਪਾਦ ਸਮੱਸਿਆ ਹੈ। ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਸ਼ੱਕੀ ਭੂਤਾਂ ਵਾਂਗ ਵਿਵਹਾਰ ਕਰਨਾ ਪਸੰਦ ਨਹੀਂ ਹੈ। 🧌 (ਭਾਵੇਂ ਉਹ ਸ਼ੱਕੀ ਭੂਤ ਹੀ ਕਿਉਂ ਨਾ ਹੋਣ।)
9) ਲਾਗਤ, ਲੇਟੈਂਸੀ, ਅਤੇ ਕਾਰਜਸ਼ੀਲ ਹਕੀਕਤ - ਮੁਲਾਂਕਣ ਜਿਸਨੂੰ ਹਰ ਕੋਈ ਭੁੱਲ ਜਾਂਦਾ ਹੈ 💸⏱️
ਇੱਕ ਮਾਡਲ "ਸ਼ਾਨਦਾਰ" ਹੋ ਸਕਦਾ ਹੈ ਅਤੇ ਫਿਰ ਵੀ ਤੁਹਾਡੇ ਲਈ ਗਲਤ ਹੋ ਸਕਦਾ ਹੈ ਜੇਕਰ ਇਹ ਹੌਲੀ, ਮਹਿੰਗਾ, ਜਾਂ ਕਾਰਜਸ਼ੀਲ ਤੌਰ 'ਤੇ ਕਮਜ਼ੋਰ ਹੈ।.
ਮੁਲਾਂਕਣ ਕਰੋ:
-
ਲੇਟੈਂਸੀ ਵੰਡ (ਸਿਰਫ਼ ਔਸਤ ਹੀ ਨਹੀਂ - p95 ਅਤੇ p99 ਮਾਇਨੇ ਰੱਖਦੇ ਹਨ) (ਪਰਸੈਂਟਾਈਲ ਕਿਉਂ ਮਾਇਨੇ ਰੱਖਦੇ ਹਨ: ਨਿਗਰਾਨੀ 'ਤੇ Google SRE ਵਰਕਬੁੱਕ )
-
ਪ੍ਰਤੀ ਸਫਲ ਕਾਰਜ ਲਾਗਤ (ਅਲੱਗ-ਥਲੱਗ ਪ੍ਰਤੀ ਟੋਕਨ ਲਾਗਤ ਨਹੀਂ)
-
ਭਾਰ ਹੇਠ ਸਥਿਰਤਾ (ਸਮਾਂ ਸਮਾਪਤੀ, ਦਰ ਸੀਮਾਵਾਂ, ਅਸਧਾਰਨ ਵਾਧੇ)
-
ਟੂਲ ਕਾਲਿੰਗ ਭਰੋਸੇਯੋਗਤਾ (ਜੇ ਇਹ ਫੰਕਸ਼ਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਤਾਂ ਕੀ ਇਹ ਵਿਵਹਾਰ ਕਰਦਾ ਹੈ)
-
ਆਉਟਪੁੱਟ ਲੰਬਾਈ ਦੀਆਂ ਪ੍ਰਵਿਰਤੀਆਂ (ਕੁਝ ਮਾਡਲ ਘੁੰਮਦੇ ਰਹਿੰਦੇ ਹਨ, ਅਤੇ ਘੁੰਮਦੇ ਰਹਿੰਦੇ ਹਨ, ਇਸ ਲਈ ਪੈਸੇ ਖਰਚ ਹੁੰਦੇ ਹਨ)
ਥੋੜ੍ਹਾ ਜਿਹਾ ਮਾੜਾ ਮਾਡਲ ਜੋ ਦੁੱਗਣਾ ਤੇਜ਼ ਹੈ, ਅਭਿਆਸ ਵਿੱਚ ਜਿੱਤ ਸਕਦਾ ਹੈ। ਇਹ ਸਪੱਸ਼ਟ ਲੱਗਦਾ ਹੈ, ਪਰ ਲੋਕ ਇਸਨੂੰ ਅਣਡਿੱਠ ਕਰਦੇ ਹਨ। ਜਿਵੇਂ ਕਰਿਆਨੇ ਦੀ ਦੌੜ ਲਈ ਸਪੋਰਟਸ ਕਾਰ ਖਰੀਦਣਾ, ਫਿਰ ਟਰੰਕ ਸਪੇਸ ਬਾਰੇ ਸ਼ਿਕਾਇਤ ਕਰਨਾ।.
10) ਇੱਕ ਸਧਾਰਨ ਐਂਡ-ਟੂ-ਐਂਡ ਵਰਕਫਲੋ ਜਿਸਨੂੰ ਤੁਸੀਂ ਕਾਪੀ (ਅਤੇ ਟਵੀਕ) ਕਰ ਸਕਦੇ ਹੋ 🔁✅
ਬੇਅੰਤ ਪ੍ਰਯੋਗਾਂ ਵਿੱਚ ਫਸੇ ਬਿਨਾਂ AI ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਿਵੇਂ ਕਰੀਏ, ਇਸ ਲਈ ਇੱਥੇ ਇੱਕ ਵਿਹਾਰਕ ਪ੍ਰਵਾਹ ਹੈ
-
ਸਫਲਤਾ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ : ਕੰਮ, ਰੁਕਾਵਟਾਂ, ਅਸਫਲਤਾ ਦੇ ਖਰਚੇ
-
ਇੱਕ ਛੋਟਾ "ਕੋਰ" ਟੈਸਟ ਸੈੱਟ ਬਣਾਓ : 50-200 ਉਦਾਹਰਣਾਂ ਜੋ ਅਸਲ ਵਰਤੋਂ ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਹਨ।
-
ਕਿਨਾਰੇ ਅਤੇ ਵਿਰੋਧੀ ਸੈੱਟ ਸ਼ਾਮਲ ਕਰੋ : ਟੀਕੇ ਦੀਆਂ ਕੋਸ਼ਿਸ਼ਾਂ, ਅਸਪਸ਼ਟ ਪ੍ਰੋਂਪਟ, ਸੁਰੱਖਿਆ ਜਾਂਚਾਂ (ਪ੍ਰੋਂਪਟ ਇੰਜੈਕਸ਼ਨ ਕਲਾਸ: OWASP LLM01 )
-
ਸਵੈਚਾਲਿਤ ਜਾਂਚਾਂ ਚਲਾਓ : ਫਾਰਮੈਟਿੰਗ, JSON ਵੈਧਤਾ, ਜਿੱਥੇ ਸੰਭਵ ਹੋਵੇ ਮੁੱਢਲੀ ਸ਼ੁੱਧਤਾ
-
ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਚਲਾਓ : ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਨਮੂਨਾ ਆਉਟਪੁੱਟ, ਰੁਬਰਿਕ ਦੇ ਨਾਲ ਸਕੋਰ
-
ਟ੍ਰੇਡਆਫ ਦੀ ਤੁਲਨਾ ਕਰੋ : ਗੁਣਵੱਤਾ ਬਨਾਮ ਲਾਗਤ ਬਨਾਮ ਲੇਟੈਂਸੀ ਬਨਾਮ ਸੁਰੱਖਿਆ
-
ਸੀਮਤ ਰਿਲੀਜ਼ ਵਿੱਚ ਪਾਇਲਟ : A/B ਟੈਸਟ ਜਾਂ ਸਟੇਜਡ ਰੋਲਆਉਟ (A/B ਟੈਸਟਿੰਗ ਗਾਈਡ: ਕੋਹਾਵੀ ਆਦਿ )
-
ਉਤਪਾਦਨ ਵਿੱਚ ਨਿਗਰਾਨੀ : ਡ੍ਰਿਫਟ, ਰਿਗਰੈਸ਼ਨ, ਉਪਭੋਗਤਾ ਫੀਡਬੈਕ ਲੂਪਸ (ਡਰਿਫਟ ਸੰਖੇਪ ਜਾਣਕਾਰੀ: ਸੰਕਲਪ ਡ੍ਰਿਫਟ ਸਰਵੇਖਣ (PMC) )
-
ਇਟੇਰੇਟ : ਅੱਪਡੇਟ ਪ੍ਰੋਂਪਟ, ਪ੍ਰਾਪਤੀ, ਫਾਈਨ-ਟਿਊਨਿੰਗ, ਗਾਰਡਰੇਲ, ਫਿਰ ਈਵਲ ਨੂੰ ਦੁਬਾਰਾ ਚਲਾਓ (ਈਵਲ ਇਟਰੇਸ਼ਨ ਪੈਟਰਨ: ਓਪਨਏਆਈ ਈਵਲ ਗਾਈਡ )
ਵਰਜਨ ਵਾਲੇ ਲੌਗ ਰੱਖੋ। ਇਸ ਲਈ ਨਹੀਂ ਕਿ ਇਹ ਮਜ਼ੇਦਾਰ ਹੈ, ਪਰ ਇਸ ਲਈ ਕਿ ਭਵਿੱਖ ਵਿੱਚ - ਤੁਸੀਂ ਕੌਫੀ ਫੜਦੇ ਹੋਏ ਅਤੇ "ਕੀ ਬਦਲ ਗਿਆ..." ਬੁੜਬੁੜਾਉਂਦੇ ਹੋਏ ਤੁਹਾਡਾ ਧੰਨਵਾਦ ਕਰੋਗੇ ☕🙂
11) ਆਮ ਮੁਸ਼ਕਲਾਂ (ਉਰਫ਼: ਲੋਕ ਗਲਤੀ ਨਾਲ ਆਪਣੇ ਆਪ ਨੂੰ ਮੂਰਖ ਬਣਾਉਣ ਦੇ ਤਰੀਕੇ) 🪤
-
ਟੈਸਟ ਲਈ ਸਿਖਲਾਈ : ਤੁਸੀਂ ਪ੍ਰੋਂਪਟਾਂ ਨੂੰ ਉਦੋਂ ਤੱਕ ਅਨੁਕੂਲ ਬਣਾਉਂਦੇ ਹੋ ਜਦੋਂ ਤੱਕ ਬੈਂਚਮਾਰਕ ਵਧੀਆ ਨਹੀਂ ਦਿਖਦਾ, ਪਰ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਨੁਕਸਾਨ ਹੁੰਦਾ ਹੈ
-
ਲੀਕ ਹੋਇਆ ਮੁਲਾਂਕਣ ਡੇਟਾ : ਟੈਸਟ ਪ੍ਰੋਂਪਟ ਸਿਖਲਾਈ ਜਾਂ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਡੇਟਾ ਵਿੱਚ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ (ਓਹ)
-
ਸਿੰਗਲ ਮੈਟ੍ਰਿਕ ਪੂਜਾ : ਇੱਕ ਸਕੋਰ ਦਾ ਪਿੱਛਾ ਕਰਨਾ ਜੋ ਉਪਭੋਗਤਾ ਮੁੱਲ ਨੂੰ ਨਹੀਂ ਦਰਸਾਉਂਦਾ
-
ਵੰਡ ਤਬਦੀਲੀ ਨੂੰ ਅਣਡਿੱਠ ਕਰਨਾ : ਉਪਭੋਗਤਾ ਵਿਵਹਾਰ ਬਦਲਦਾ ਹੈ ਅਤੇ ਤੁਹਾਡਾ ਮਾਡਲ ਚੁੱਪਚਾਪ ਘਟਦਾ ਹੈ (ਉਤਪਾਦਨ ਜੋਖਮ ਫਰੇਮਿੰਗ: ਸੰਕਲਪ ਡ੍ਰਿਫਟ ਸਰਵੇਖਣ (PMC) )
-
"ਸਮਾਰਟਨੈੱਸ" 'ਤੇ ਓਵਰ-ਇੰਡੈਕਸਿੰਗ : ਚਲਾਕ ਤਰਕ ਨਾਲ ਕੋਈ ਫ਼ਰਕ ਨਹੀਂ ਪੈਂਦਾ ਭਾਵੇਂ ਇਹ ਫਾਰਮੈਟਿੰਗ ਨੂੰ ਤੋੜਦਾ ਹੈ ਜਾਂ ਤੱਥਾਂ ਦੀ ਕਾਢ ਕੱਢਦਾ ਹੈ
-
ਇਨਕਾਰ ਗੁਣਵੱਤਾ ਦੀ ਜਾਂਚ ਨਹੀਂ ਕਰ ਰਿਹਾ : "ਨਹੀਂ" ਸਹੀ ਹੋ ਸਕਦਾ ਹੈ ਪਰ ਫਿਰ ਵੀ ਭਿਆਨਕ UX
ਨਾਲ ਹੀ, ਡੈਮੋ ਤੋਂ ਸਾਵਧਾਨ ਰਹੋ। ਡੈਮੋ ਫ਼ਿਲਮਾਂ ਦੇ ਟ੍ਰੇਲਰ ਵਾਂਗ ਹੁੰਦੇ ਹਨ। ਇਹ ਹਾਈਲਾਈਟਸ ਦਿਖਾਉਂਦੇ ਹਨ, ਹੌਲੀ ਹਿੱਸਿਆਂ ਨੂੰ ਲੁਕਾਉਂਦੇ ਹਨ, ਅਤੇ ਕਦੇ-ਕਦੇ ਨਾਟਕੀ ਸੰਗੀਤ ਨਾਲ ਝੂਠ ਬੋਲਦੇ ਹਨ। 🎬
12) ਏਆਈ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਿਵੇਂ ਕਰੀਏ ਬਾਰੇ ਸਮਾਪਤੀ ਸਾਰ 🧠✨
ਏਆਈ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ ਇੱਕ ਸਿੰਗਲ ਸਕੋਰ ਨਹੀਂ ਹੈ, ਇਹ ਇੱਕ ਸੰਤੁਲਿਤ ਭੋਜਨ ਹੈ। ਤੁਹਾਨੂੰ ਪ੍ਰੋਟੀਨ (ਸ਼ੁੱਧਤਾ), ਸਬਜ਼ੀਆਂ (ਸੁਰੱਖਿਆ), ਕਾਰਬੋਹਾਈਡਰੇਟ (ਗਤੀ ਅਤੇ ਕੀਮਤ), ਅਤੇ ਹਾਂ, ਕਈ ਵਾਰ ਮਿਠਾਈ (ਟੋਨ ਅਤੇ ਖੁਸ਼ੀ) ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ 🍲🍰 (ਜੋਖਮ ਫਰੇਮਿੰਗ: NIST AI RMF 1.0 )
ਜੇ ਤੁਹਾਨੂੰ ਹੋਰ ਕੁਝ ਯਾਦ ਨਹੀਂ ਹੈ:
-
ਆਪਣੇ ਵਰਤੋਂ ਦੇ ਮਾਮਲੇ ਲਈ "ਚੰਗਾ" ਦਾ ਕੀ ਅਰਥ ਹੈ, ਇਹ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ।
-
ਸਿਰਫ਼ ਮਸ਼ਹੂਰ ਬੈਂਚਮਾਰਕ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਪ੍ਰਤੀਨਿਧੀ ਟੈਸਟ ਸੈੱਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ
-
ਸਵੈਚਲਿਤ ਮੈਟ੍ਰਿਕਸ ਨੂੰ ਮਨੁੱਖੀ ਰੁਬਰਿਕ ਸਮੀਖਿਆ ਨਾਲ ਜੋੜੋ
-
ਟੈਸਟ ਮਜ਼ਬੂਤੀ ਅਤੇ ਸੁਰੱਖਿਆ ਜਿਵੇਂ ਕਿ ਉਪਭੋਗਤਾ ਵਿਰੋਧੀ ਹਨ (ਕਿਉਂਕਿ ਕਈ ਵਾਰ... ਉਹ ਹੁੰਦੇ ਹਨ) (ਪ੍ਰੌਮਪਟ ਇੰਜੈਕਸ਼ਨ ਕਲਾਸ: OWASP LLM01 )
-
ਮੁਲਾਂਕਣ ਵਿੱਚ ਲਾਗਤ ਅਤੇ ਲੇਟੈਂਸੀ ਨੂੰ ਸ਼ਾਮਲ ਕਰੋ, ਨਾ ਕਿ ਬਾਅਦ ਵਿੱਚ ਸੋਚਣ ਦੇ ਤੌਰ 'ਤੇ (ਪ੍ਰਤੀਸ਼ਤੀਕਰਨ ਕਿਉਂ ਮਾਇਨੇ ਰੱਖਦੇ ਹਨ: Google SRE ਵਰਕਬੁੱਕ )
-
ਲਾਂਚ ਤੋਂ ਬਾਅਦ ਨਿਗਰਾਨੀ - ਮਾਡਲ ਡ੍ਰਿਫਟ ਹੁੰਦੇ ਹਨ, ਐਪਸ ਵਿਕਸਤ ਹੁੰਦੇ ਹਨ, ਮਨੁੱਖ ਰਚਨਾਤਮਕ ਹੁੰਦੇ ਹਨ (ਡਰਿਫਟ ਸੰਖੇਪ ਜਾਣਕਾਰੀ: ਸੰਕਲਪ ਡ੍ਰਿਫਟ ਸਰਵੇਖਣ (PMC) )
ਏਆਈ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਇਸ ਤਰੀਕੇ ਨਾਲ ਕਰਨਾ ਹੈ ਕਿ ਜਦੋਂ ਤੁਹਾਡਾ ਉਤਪਾਦ ਲਾਈਵ ਹੁੰਦਾ ਹੈ ਅਤੇ ਲੋਕ ਅਣਪਛਾਤੇ ਲੋਕਾਂ ਨਾਲ ਕੰਮ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰ ਦਿੰਦੇ ਹਨ ਤਾਂ ਇਹ ਕਾਇਮ ਰਹਿੰਦਾ ਹੈ। ਜੋ ਕਿ ਹਮੇਸ਼ਾ ਹੁੰਦਾ ਹੈ। 🙂
ਅਕਸਰ ਪੁੱਛੇ ਜਾਂਦੇ ਸਵਾਲ
ਇੱਕ ਅਸਲੀ ਉਤਪਾਦ ਲਈ AI ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਦਾ ਪਹਿਲਾ ਕਦਮ ਕੀ ਹੈ?
ਆਪਣੇ ਖਾਸ ਵਰਤੋਂ ਦੇ ਮਾਮਲੇ ਲਈ "ਚੰਗਾ" ਦਾ ਕੀ ਅਰਥ ਹੈ, ਇਹ ਪਰਿਭਾਸ਼ਿਤ ਕਰਕੇ ਸ਼ੁਰੂਆਤ ਕਰੋ। ਉਪਭੋਗਤਾ ਦੇ ਟੀਚੇ ਨੂੰ ਸਪੈਲ ਕਰੋ, ਅਸਫਲਤਾਵਾਂ ਦਾ ਤੁਹਾਨੂੰ ਕੀ ਨੁਕਸਾਨ ਹੁੰਦਾ ਹੈ (ਘੱਟ-ਦਾਅ ਬਨਾਮ ਉੱਚ-ਦਾਅ), ਅਤੇ ਮਾਡਲ ਕਿੱਥੇ ਚੱਲੇਗਾ (ਕਲਾਊਡ, ਔਨ-ਡਿਵਾਈਸ, ਨਿਯੰਤ੍ਰਿਤ ਵਾਤਾਵਰਣ)। ਫਿਰ ਲੇਟੈਂਸੀ, ਲਾਗਤ, ਗੋਪਨੀਯਤਾ ਅਤੇ ਟੋਨ ਕੰਟਰੋਲ ਵਰਗੀਆਂ ਸਖ਼ਤ ਪਾਬੰਦੀਆਂ ਦੀ ਸੂਚੀ ਬਣਾਓ। ਇਸ ਬੁਨਿਆਦ ਤੋਂ ਬਿਨਾਂ, ਤੁਸੀਂ ਬਹੁਤ ਕੁਝ ਮਾਪੋਗੇ ਅਤੇ ਫਿਰ ਵੀ ਇੱਕ ਮਾੜਾ ਫੈਸਲਾ ਲਓਗੇ।.
ਮੈਂ ਇੱਕ ਟੈਸਟ ਸੈੱਟ ਕਿਵੇਂ ਬਣਾਵਾਂ ਜੋ ਸੱਚਮੁੱਚ ਮੇਰੇ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੋਵੇ?
ਇੱਕ ਅਜਿਹਾ ਟੈਸਟ ਸੈੱਟ ਬਣਾਓ ਜੋ ਸੱਚਮੁੱਚ ਤੁਹਾਡਾ ਹੋਵੇ, ਨਾ ਕਿ ਸਿਰਫ਼ ਇੱਕ ਜਨਤਕ ਮਾਪਦੰਡ। ਸੁਨਹਿਰੀ ਉਦਾਹਰਣਾਂ ਸ਼ਾਮਲ ਕਰੋ ਜੋ ਤੁਸੀਂ ਮਾਣ ਨਾਲ ਭੇਜੋਗੇ, ਨਾਲ ਹੀ ਸ਼ੋਰ-ਸ਼ਰਾਬੇ ਵਾਲੇ, ਇਨ-ਦੀ-ਵਾਈਲਡ ਪ੍ਰੋਂਪਟ ਟਾਈਪੋਜ਼, ਅੱਧ-ਵਾਕਾਂ ਅਤੇ ਅਸਪਸ਼ਟ ਬੇਨਤੀਆਂ ਦੇ ਨਾਲ। ਐਜ ਕੇਸ ਅਤੇ ਅਸਫਲਤਾ-ਮੋਡ ਪ੍ਰੋਬ ਸ਼ਾਮਲ ਕਰੋ ਜੋ ਭਰਮ ਜਾਂ ਅਸੁਰੱਖਿਅਤ ਜਵਾਬਾਂ ਨੂੰ ਭਰਮਾਉਂਦੇ ਹਨ। ਹੁਨਰ ਪੱਧਰ, ਉਪਭਾਸ਼ਾਵਾਂ, ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਡੋਮੇਨਾਂ ਵਿੱਚ ਵਿਭਿੰਨਤਾ ਨੂੰ ਕਵਰ ਕਰੋ ਤਾਂ ਜੋ ਨਤੀਜੇ ਉਤਪਾਦਨ ਵਿੱਚ ਨਾ ਡਿੱਗਣ।.
ਮੈਨੂੰ ਕਿਹੜੇ ਮਾਪਦੰਡ ਵਰਤਣੇ ਚਾਹੀਦੇ ਹਨ, ਅਤੇ ਕਿਹੜੇ ਗੁੰਮਰਾਹਕੁੰਨ ਹੋ ਸਕਦੇ ਹਨ?
ਮੈਟ੍ਰਿਕਸ ਨੂੰ ਟਾਸਕ ਕਿਸਮ ਨਾਲ ਮਿਲਾਓ। ਐਕਸਟਰੈਕਸ਼ਨ ਅਤੇ ਸਟ੍ਰਕਚਰਡ ਆਉਟਪੁੱਟ ਲਈ ਸਟੀਕ ਮੇਲ ਅਤੇ ਸ਼ੁੱਧਤਾ ਵਧੀਆ ਕੰਮ ਕਰਦੀ ਹੈ, ਜਦੋਂ ਕਿ ਸ਼ੁੱਧਤਾ/ਯਾਦ ਅਤੇ F1 ਕੁਝ ਗੁੰਮ ਹੋਣ 'ਤੇ ਮਦਦ ਕਰਦੇ ਹਨ ਵਾਧੂ ਸ਼ੋਰ ਨਾਲੋਂ ਵੀ ਮਾੜਾ ਹੁੰਦਾ ਹੈ। BLEU/ROUGE ਵਰਗੇ ਓਵਰਲੈਪ ਮੈਟ੍ਰਿਕਸ ਓਪਨ-ਐਂਡਡ ਕੰਮਾਂ ਲਈ ਗੁੰਮਰਾਹ ਕਰ ਸਕਦੇ ਹਨ, ਅਤੇ ਸਮਾਨਤਾ ਨੂੰ ਏਮਬੈਡ ਕਰਨ ਨਾਲ "ਗਲਤ ਪਰ ਸਮਾਨ" ਜਵਾਬ ਮਿਲ ਸਕਦੇ ਹਨ। ਲਿਖਣ, ਸਮਰਥਨ, ਜਾਂ ਤਰਕ ਲਈ, ਮੈਟ੍ਰਿਕਸ ਨੂੰ ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਅਤੇ ਕਾਰਜ ਸਫਲਤਾ ਦਰਾਂ ਨਾਲ ਜੋੜੋ।.
ਮੈਨੂੰ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਕਿਵੇਂ ਢਾਂਚਾ ਦੇਣਾ ਚਾਹੀਦਾ ਹੈ ਤਾਂ ਜੋ ਉਹ ਦੁਹਰਾਉਣ ਯੋਗ ਅਤੇ ਉਤਪਾਦਨ-ਗ੍ਰੇਡ ਹੋਣ?
ਇੱਕ ਮਜ਼ਬੂਤ ਮੁਲਾਂਕਣ ਢਾਂਚਾ ਦੁਹਰਾਉਣਯੋਗ, ਪ੍ਰਤੀਨਿਧੀ, ਬਹੁ-ਪੱਧਰੀ, ਅਤੇ ਕਾਰਵਾਈਯੋਗ ਹੁੰਦਾ ਹੈ। ਸਵੈਚਾਲਿਤ ਜਾਂਚਾਂ (ਫਾਰਮੈਟ, JSON ਵੈਧਤਾ, ਮੁੱਢਲੀ ਸ਼ੁੱਧਤਾ) ਨੂੰ ਮਨੁੱਖੀ ਰੁਬਰਿਕ ਸਕੋਰਿੰਗ ਅਤੇ ਵਿਰੋਧੀ ਟੈਸਟਾਂ ਨਾਲ ਜੋੜੋ। ਲੀਕੇਜ ਤੋਂ ਬਚ ਕੇ ਅਤੇ "ਟੈਸਟ ਨੂੰ ਸਿਖਾ ਕੇ" ਇਸਨੂੰ ਛੇੜਛਾੜ-ਰੋਧਕ ਬਣਾਓ। ਮੁਲਾਂਕਣ ਲਾਗਤ-ਜਾਗਰੂਕ ਰੱਖੋ ਤਾਂ ਜੋ ਤੁਸੀਂ ਇਸਨੂੰ ਅਕਸਰ ਦੁਬਾਰਾ ਚਲਾ ਸਕੋ, ਲਾਂਚ ਤੋਂ ਪਹਿਲਾਂ ਸਿਰਫ਼ ਇੱਕ ਵਾਰ ਨਹੀਂ।.
ਮਨੁੱਖੀ ਮੁਲਾਂਕਣ ਨੂੰ ਹਫੜਾ-ਦਫੜੀ ਵਿੱਚ ਬਦਲਣ ਤੋਂ ਬਿਨਾਂ ਕਰਨ ਦਾ ਸਭ ਤੋਂ ਵਧੀਆ ਤਰੀਕਾ ਕੀ ਹੈ?
ਇੱਕ ਠੋਸ ਰੁਬਰਿਕ ਦੀ ਵਰਤੋਂ ਕਰੋ ਤਾਂ ਜੋ ਸਮੀਖਿਅਕ ਫ੍ਰੀਸਟਾਈਲ ਨਾ ਕਰਨ। ਸ਼ੁੱਧਤਾ, ਸੰਪੂਰਨਤਾ, ਸਪਸ਼ਟਤਾ, ਸੁਰੱਖਿਆ/ਨੀਤੀ ਪ੍ਰਬੰਧਨ, ਸ਼ੈਲੀ/ਆਵਾਜ਼ ਮੇਲ, ਅਤੇ ਵਫ਼ਾਦਾਰੀ (ਦਾਅਵਿਆਂ ਜਾਂ ਸਰੋਤਾਂ ਦੀ ਖੋਜ ਨਾ ਕਰਨਾ) ਵਰਗੇ ਗੁਣਾਂ ਨੂੰ ਸਕੋਰ ਕਰੋ। ਸਮੇਂ-ਸਮੇਂ 'ਤੇ ਅੰਤਰ-ਰੇਟਰ ਸਮਝੌਤੇ ਦੀ ਜਾਂਚ ਕਰੋ; ਜੇਕਰ ਸਮੀਖਿਅਕ ਲਗਾਤਾਰ ਅਸਹਿਮਤ ਹੁੰਦੇ ਹਨ, ਤਾਂ ਰੁਬਰਿਕ ਨੂੰ ਸੰਭਾਵਤ ਤੌਰ 'ਤੇ ਸੁਧਾਰ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਖਾਸ ਤੌਰ 'ਤੇ ਸੁਰ ਮੇਲ ਨਾ ਖਾਣ, ਸੂਖਮ ਤੱਥਾਂ ਸੰਬੰਧੀ ਗਲਤੀਆਂ, ਅਤੇ ਹਦਾਇਤਾਂ-ਅਨੁਸਾਰ ਅਸਫਲਤਾਵਾਂ ਲਈ ਕੀਮਤੀ ਹੈ।.
ਮੈਂ ਸੁਰੱਖਿਆ, ਮਜ਼ਬੂਤੀ, ਅਤੇ ਤੁਰੰਤ ਟੀਕਾ ਲਗਾਉਣ ਦੇ ਜੋਖਮਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਿਵੇਂ ਕਰਾਂ?
"ਉਫ਼, ਉਪਭੋਗਤਾ" ਇਨਪੁਟਸ ਨਾਲ ਟੈਸਟ ਕਰੋ: ਟਾਈਪੋਜ਼, ਸਲੈਂਗ, ਵਿਰੋਧੀ ਨਿਰਦੇਸ਼, ਬਹੁਤ ਲੰਬੇ ਜਾਂ ਬਹੁਤ ਛੋਟੇ ਪ੍ਰੋਂਪਟ, ਅਤੇ ਮਲਟੀ-ਟਰਨ ਟੀਚਾ ਬਦਲਾਅ। "ਪਿਛਲੇ ਨਿਯਮਾਂ ਨੂੰ ਅਣਡਿੱਠ ਕਰੋ" ਵਰਗੇ ਪ੍ਰੋਂਪਟ ਟੀਕੇ ਦੇ ਯਤਨਾਂ ਅਤੇ ਸੰਵੇਦਨਸ਼ੀਲ ਵਿਸ਼ਿਆਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰੋ ਜਿਨ੍ਹਾਂ ਲਈ ਸਾਵਧਾਨੀ ਨਾਲ ਇਨਕਾਰ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਚੰਗੀ ਸੁਰੱਖਿਆ ਪ੍ਰਦਰਸ਼ਨ ਸਿਰਫ਼ ਇਨਕਾਰ ਕਰਨਾ ਹੀ ਨਹੀਂ ਹੈ - ਇਹ ਸਪੱਸ਼ਟ ਤੌਰ 'ਤੇ ਇਨਕਾਰ ਕਰਨਾ ਹੈ, ਢੁਕਵੇਂ ਹੋਣ 'ਤੇ ਸੁਰੱਖਿਅਤ ਵਿਕਲਪ ਪੇਸ਼ ਕਰਨਾ ਹੈ, ਅਤੇ UX ਨੂੰ ਨੁਕਸਾਨ ਪਹੁੰਚਾਉਣ ਵਾਲੇ ਨੁਕਸਾਨਦੇਹ ਪ੍ਰਸ਼ਨਾਂ ਨੂੰ ਜ਼ਿਆਦਾ-ਇਨਕਾਰ ਕਰਨ ਤੋਂ ਬਚਣਾ ਹੈ।.
ਮੈਂ ਲਾਗਤ ਅਤੇ ਲੇਟੈਂਸੀ ਦਾ ਮੁਲਾਂਕਣ ਇਸ ਤਰੀਕੇ ਨਾਲ ਕਿਵੇਂ ਕਰਾਂ ਜੋ ਅਸਲੀਅਤ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੋਵੇ?
ਸਿਰਫ਼ ਔਸਤ ਨਾ ਮਾਪੋ - ਲੇਟੈਂਸੀ ਵੰਡ ਨੂੰ ਟਰੈਕ ਕਰੋ, ਖਾਸ ਕਰਕੇ p95 ਅਤੇ p99। ਪ੍ਰਤੀ ਸਫਲ ਕੰਮ ਦੀ ਲਾਗਤ ਦਾ ਮੁਲਾਂਕਣ ਕਰੋ, ਪ੍ਰਤੀ ਟੋਕਨ ਦੀ ਲਾਗਤ ਨੂੰ ਅਲੱਗ-ਥਲੱਗ ਨਾ ਕਰੋ, ਕਿਉਂਕਿ ਦੁਬਾਰਾ ਕੋਸ਼ਿਸ਼ਾਂ ਅਤੇ ਰੈਂਬਲਿੰਗ ਆਉਟਪੁੱਟ ਬੱਚਤ ਨੂੰ ਮਿਟਾ ਸਕਦੇ ਹਨ। ਲੋਡ ਦੇ ਅਧੀਨ ਸਥਿਰਤਾ (ਟਾਈਮਆਉਟ, ਰੇਟ ਸੀਮਾਵਾਂ, ਸਪਾਈਕਸ) ਅਤੇ ਟੂਲ/ਫੰਕਸ਼ਨ ਕਾਲਿੰਗ ਭਰੋਸੇਯੋਗਤਾ ਦੀ ਜਾਂਚ ਕਰੋ। ਇੱਕ ਥੋੜ੍ਹਾ ਮਾੜਾ ਮਾਡਲ ਜੋ ਦੁੱਗਣਾ ਤੇਜ਼ ਜਾਂ ਵਧੇਰੇ ਸਥਿਰ ਹੈ, ਬਿਹਤਰ ਉਤਪਾਦ ਵਿਕਲਪ ਹੋ ਸਕਦਾ ਹੈ।.
ਏਆਈ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਸਧਾਰਨ ਐਂਡ-ਟੂ-ਐਂਡ ਵਰਕਫਲੋ ਕੀ ਹੈ?
ਸਫਲਤਾ ਦੇ ਮਾਪਦੰਡ ਅਤੇ ਰੁਕਾਵਟਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ, ਫਿਰ ਇੱਕ ਛੋਟਾ ਕੋਰ ਟੈਸਟ ਸੈੱਟ ਬਣਾਓ (ਲਗਭਗ 50-200 ਉਦਾਹਰਣਾਂ) ਜੋ ਅਸਲ ਵਰਤੋਂ ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਹਨ। ਸੁਰੱਖਿਆ ਅਤੇ ਟੀਕੇ ਦੀਆਂ ਕੋਸ਼ਿਸ਼ਾਂ ਲਈ ਕਿਨਾਰੇ ਅਤੇ ਵਿਰੋਧੀ ਸੈੱਟ ਸ਼ਾਮਲ ਕਰੋ। ਸਵੈਚਾਲਿਤ ਜਾਂਚਾਂ ਚਲਾਓ, ਫਿਰ ਮਨੁੱਖੀ ਰੁਬਰਿਕ ਸਕੋਰਿੰਗ ਲਈ ਨਮੂਨਾ ਆਉਟਪੁੱਟ। ਗੁਣਵੱਤਾ ਬਨਾਮ ਲਾਗਤ ਬਨਾਮ ਲੇਟੈਂਸੀ ਬਨਾਮ ਸੁਰੱਖਿਆ ਦੀ ਤੁਲਨਾ ਕਰੋ, ਇੱਕ ਸੀਮਤ ਰੋਲਆਉਟ ਜਾਂ A/B ਟੈਸਟ ਨਾਲ ਪਾਇਲਟ ਕਰੋ, ਅਤੇ ਡ੍ਰਿਫਟ ਅਤੇ ਰਿਗਰੈਸ਼ਨ ਲਈ ਉਤਪਾਦਨ ਵਿੱਚ ਨਿਗਰਾਨੀ ਕਰੋ।.
ਮਾਡਲ ਮੁਲਾਂਕਣ ਵਿੱਚ ਟੀਮਾਂ ਗਲਤੀ ਨਾਲ ਆਪਣੇ ਆਪ ਨੂੰ ਮੂਰਖ ਬਣਾਉਣ ਦੇ ਸਭ ਤੋਂ ਆਮ ਤਰੀਕੇ ਕੀ ਹਨ?
ਆਮ ਜਾਲਾਂ ਵਿੱਚ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਦੁੱਖ ਝੱਲਦੇ ਹੋਏ ਇੱਕ ਬੈਂਚਮਾਰਕ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਪ੍ਰੋਂਪਟਾਂ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣਾ, ਮੁਲਾਂਕਣ ਪ੍ਰੋਂਪਟਾਂ ਨੂੰ ਸਿਖਲਾਈ ਜਾਂ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਡੇਟਾ ਵਿੱਚ ਲੀਕ ਕਰਨਾ, ਅਤੇ ਇੱਕ ਸਿੰਗਲ ਮੈਟ੍ਰਿਕ ਦੀ ਪੂਜਾ ਕਰਨਾ ਸ਼ਾਮਲ ਹੈ ਜੋ ਉਪਭੋਗਤਾ ਮੁੱਲ ਨੂੰ ਨਹੀਂ ਦਰਸਾਉਂਦਾ। ਟੀਮਾਂ ਵੰਡ ਸ਼ਿਫਟ ਨੂੰ ਵੀ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਦੀਆਂ ਹਨ, ਫਾਰਮੈਟ ਪਾਲਣਾ ਅਤੇ ਵਫ਼ਾਦਾਰੀ ਦੀ ਬਜਾਏ "ਸਮਾਰਟਨੈੱਸ" 'ਤੇ ਓਵਰ-ਇੰਡੈਕਸ ਕਰਦੀਆਂ ਹਨ, ਅਤੇ ਇਨਕਾਰ ਗੁਣਵੱਤਾ ਟੈਸਟਿੰਗ ਨੂੰ ਛੱਡ ਦਿੰਦੀਆਂ ਹਨ। ਡੈਮੋ ਇਹਨਾਂ ਮੁੱਦਿਆਂ ਨੂੰ ਲੁਕਾ ਸਕਦੇ ਹਨ, ਇਸ ਲਈ ਰੀਲਾਂ ਨੂੰ ਉਜਾਗਰ ਕਰਨ ਦੀ ਬਜਾਏ ਢਾਂਚਾਗਤ ਮੁਲਾਂਕਣਾਂ 'ਤੇ ਭਰੋਸਾ ਕਰੋ।.
ਹਵਾਲੇ
-
ਓਪਨਏਆਈ - ਓਪਨਏਆਈ ਈਵਲਜ਼ ਗਾਈਡ - platform.openai.com
-
ਨੈਸ਼ਨਲ ਇੰਸਟੀਚਿਊਟ ਆਫ਼ ਸਟੈਂਡਰਡਜ਼ ਐਂਡ ਟੈਕਨਾਲੋਜੀ (NIST) - AI ਜੋਖਮ ਪ੍ਰਬੰਧਨ ਢਾਂਚਾ (AI RMF 1.0) - nist.gov
-
ਓਪਨਏਆਈ - ਓਪਨਏਆਈ/ਈਵਾਲਜ਼ (ਗਿਟਹਬ ਰਿਪੋਜ਼ਟਰੀ) - github.com
-
ਸਾਈਕਿਟ-ਲਰਨ - ਪ੍ਰੀਸੀਜ਼ਨ_ਰੀਕਾਲ_ਫਸਕੋਰ_ਸਪੋਰਟ - ਸਾਈਕਿਟ-ਲਰਨ.ਆਰ.ਜੀ
-
ਐਸੋਸੀਏਸ਼ਨ ਫਾਰ ਕੰਪਿਊਟੇਸ਼ਨਲ ਲਿੰਗੁਇਸਟਿਕਸ (ACL ਸੰਗ੍ਰਹਿ) - BLEU - aclanthology.org
-
ਐਸੋਸੀਏਸ਼ਨ ਫਾਰ ਕੰਪਿਊਟੇਸ਼ਨਲ ਲਿੰਗੁਇਸਟਿਕਸ (ACL ਐਂਥੋਲੋਜੀ) - ROUGE - aclanthology.org
-
arXiv - ਜੀ-ਈਵਲ - arxiv.org
-
OWASP - LLM01: ਪ੍ਰੋਂਪਟ ਇੰਜੈਕਸ਼ਨ - owasp.org
-
OWASP - ਵੱਡੀ ਭਾਸ਼ਾ ਮਾਡਲ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ OWASP ਸਿਖਰਲੇ 10 - owasp.org
-
ਸਟੈਨਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ - ਕੋਹਾਵੀ ਅਤੇ ਹੋਰ, "ਵੈੱਬ 'ਤੇ ਨਿਯੰਤਰਿਤ ਪ੍ਰਯੋਗ" - stanford.edu
-
arXiv - RAG ਦਾ ਮੁਲਾਂਕਣ: ਇੱਕ ਸਰਵੇਖਣ - arxiv.org
-
ਪਬਮੇਡ ਸੈਂਟਰਲ (PMC) - ਸੰਕਲਪ ਡ੍ਰਿਫਟ ਸਰਵੇਖਣ (PMC) - nih.gov
-
ਪਬਮੇਡ ਸੈਂਟਰਲ (PMC) - ਕੋਹੇਨ ਦੇ ਕੱਪਾ 'ਤੇ ਮੈਕਹੱਗ - nih.gov
-
ਗੂਗਲ - ਨਿਗਰਾਨੀ 'ਤੇ SRE ਵਰਕਬੁੱਕ - google.workbook