ਛੋਟਾ ਜਵਾਬ: AI ਮਾਡਲਾਂ ਦਾ ਚੰਗੀ ਤਰ੍ਹਾਂ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ, ਇਹ ਪਰਿਭਾਸ਼ਿਤ ਕਰਕੇ ਸ਼ੁਰੂ ਕਰੋ ਕਿ ਅਸਲ ਉਪਭੋਗਤਾ ਲਈ "ਚੰਗਾ" ਕਿਹੋ ਜਿਹਾ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ ਅਤੇ ਹੱਥ ਵਿੱਚ ਕੀ ਫੈਸਲਾ ਹੈ। ਫਿਰ ਪ੍ਰਤੀਨਿਧੀ ਡੇਟਾ, ਸਖ਼ਤ ਲੀਕੇਜ ਨਿਯੰਤਰਣਾਂ, ਅਤੇ ਕਈ ਮੈਟ੍ਰਿਕਸ ਨਾਲ ਦੁਹਰਾਉਣ ਯੋਗ ਮੁਲਾਂਕਣ ਬਣਾਓ। ਤਣਾਅ, ਪੱਖਪਾਤ ਅਤੇ ਸੁਰੱਖਿਆ ਜਾਂਚਾਂ ਸ਼ਾਮਲ ਕਰੋ, ਅਤੇ ਜਦੋਂ ਵੀ ਕੁਝ ਵੀ ਬਦਲਦਾ ਹੈ (ਡੇਟਾ, ਪ੍ਰੋਂਪਟ, ਨੀਤੀ), ਹਾਰਨੈੱਸ ਨੂੰ ਦੁਬਾਰਾ ਚਲਾਓ ਅਤੇ ਲਾਂਚ ਤੋਂ ਬਾਅਦ ਨਿਗਰਾਨੀ ਕਰਦੇ ਰਹੋ।
ਮੁੱਖ ਗੱਲਾਂ:
ਸਫਲਤਾ ਦੇ ਮਾਪਦੰਡ : ਮਾਪਦੰਡ ਚੁਣਨ ਤੋਂ ਪਹਿਲਾਂ ਉਪਭੋਗਤਾਵਾਂ, ਫੈਸਲਿਆਂ, ਰੁਕਾਵਟਾਂ ਅਤੇ ਸਭ ਤੋਂ ਮਾੜੀਆਂ ਅਸਫਲਤਾਵਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ।
ਦੁਹਰਾਉਣਯੋਗਤਾ : ਇੱਕ ਈਵਲ ਹਾਰਨੈੱਸ ਬਣਾਓ ਜੋ ਹਰ ਬਦਲਾਅ ਦੇ ਨਾਲ ਤੁਲਨਾਤਮਕ ਟੈਸਟਾਂ ਨੂੰ ਦੁਬਾਰਾ ਚਲਾਉਂਦਾ ਹੈ।
ਡਾਟਾ ਸਫਾਈ : ਸਥਿਰ ਵੰਡ ਰੱਖੋ, ਡੁਪਲੀਕੇਟ ਨੂੰ ਰੋਕੋ, ਅਤੇ ਵਿਸ਼ੇਸ਼ਤਾ ਲੀਕੇਜ ਨੂੰ ਜਲਦੀ ਰੋਕੋ।
ਟਰੱਸਟ ਜਾਂਚ : ਤਣਾਅ-ਟੈਸਟ ਮਜ਼ਬੂਤੀ, ਨਿਰਪੱਖਤਾ ਦੇ ਟੁਕੜੇ, ਅਤੇ LLM ਸੁਰੱਖਿਆ ਵਿਵਹਾਰ ਸਪਸ਼ਟ ਰੁਬਰਿਕਸ ਦੇ ਨਾਲ।
ਜੀਵਨ ਚੱਕਰ ਅਨੁਸ਼ਾਸਨ : ਪੜਾਵਾਂ ਵਿੱਚ ਸ਼ੁਰੂ ਕਰੋ, ਵਹਿਣ ਅਤੇ ਘਟਨਾਵਾਂ ਦੀ ਨਿਗਰਾਨੀ ਕਰੋ, ਅਤੇ ਜਾਣੇ-ਪਛਾਣੇ ਅੰਤਰਾਂ ਨੂੰ ਦਸਤਾਵੇਜ਼ਬੱਧ ਕਰੋ।
ਇਸ ਤੋਂ ਬਾਅਦ ਤੁਸੀਂ ਜੋ ਲੇਖ ਪੜ੍ਹਨਾ ਪਸੰਦ ਕਰ ਸਕਦੇ ਹੋ:
🔗 ਏਆਈ ਨੈਤਿਕਤਾ ਕੀ ਹੈ?
ਜ਼ਿੰਮੇਵਾਰ AI ਡਿਜ਼ਾਈਨ, ਵਰਤੋਂ ਅਤੇ ਸ਼ਾਸਨ ਨੂੰ ਸੇਧ ਦੇਣ ਵਾਲੇ ਸਿਧਾਂਤਾਂ ਦੀ ਪੜਚੋਲ ਕਰੋ।.
🔗 ਏਆਈ ਪੱਖਪਾਤ ਕੀ ਹੈ?
ਜਾਣੋ ਕਿ ਪੱਖਪਾਤੀ ਡੇਟਾ AI ਫੈਸਲਿਆਂ ਅਤੇ ਨਤੀਜਿਆਂ ਨੂੰ ਕਿਵੇਂ ਵਿਗਾੜਦਾ ਹੈ।.
🔗 ਏਆਈ ਸਕੇਲੇਬਿਲਟੀ ਕੀ ਹੈ?
ਪ੍ਰਦਰਸ਼ਨ, ਲਾਗਤ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਲਈ AI ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਸਕੇਲਿੰਗ ਕਰਨਾ ਸਮਝੋ।.
🔗 ਏਆਈ ਕੀ ਹੈ?
ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ, ਕਿਸਮਾਂ ਅਤੇ ਅਸਲ-ਸੰਸਾਰ ਵਰਤੋਂ ਦੀ ਇੱਕ ਸਪਸ਼ਟ ਸੰਖੇਪ ਜਾਣਕਾਰੀ।.
1) "ਚੰਗੇ" ਦੀ ਬੇਢੰਗੀ ਪਰਿਭਾਸ਼ਾ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕਰੋ
ਮੈਟ੍ਰਿਕਸ ਤੋਂ ਪਹਿਲਾਂ, ਡੈਸ਼ਬੋਰਡ ਤੋਂ ਪਹਿਲਾਂ, ਕਿਸੇ ਵੀ ਬੈਂਚਮਾਰਕ ਫਲੈਕਸਿੰਗ ਤੋਂ ਪਹਿਲਾਂ - ਫੈਸਲਾ ਕਰੋ ਕਿ ਸਫਲਤਾ ਕਿਵੇਂ ਦਿਖਾਈ ਦਿੰਦੀ ਹੈ।.
ਸਪੱਸ਼ਟ ਕਰੋ:
-
ਯੂਜ਼ਰ: ਅੰਦਰੂਨੀ ਵਿਸ਼ਲੇਸ਼ਕ, ਗਾਹਕ, ਡਾਕਟਰ, ਡਰਾਈਵਰ, ਸ਼ਾਮ 4 ਵਜੇ ਇੱਕ ਥੱਕਿਆ ਹੋਇਆ ਸਹਾਇਤਾ ਏਜੰਟ...
-
ਫੈਸਲਾ: ਕਰਜ਼ਾ ਮਨਜ਼ੂਰ ਕਰੋ, ਧੋਖਾਧੜੀ ਨੂੰ ਫਲੈਗ ਕਰੋ, ਸਮੱਗਰੀ ਸੁਝਾਓ, ਨੋਟਸ ਦਾ ਸਾਰ ਦਿਓ
-
ਅਸਫਲਤਾਵਾਂ ਜੋ ਸਭ ਤੋਂ ਵੱਧ ਮਾਇਨੇ ਰੱਖਦੀਆਂ ਹਨ:
-
ਝੂਠੇ ਸਕਾਰਾਤਮਕ (ਤੰਗ ਕਰਨ ਵਾਲੇ) ਬਨਾਮ ਝੂਠੇ ਨਕਾਰਾਤਮਕ (ਖਤਰਨਾਕ)
-
-
ਪਾਬੰਦੀਆਂ: ਲੇਟੈਂਸੀ, ਪ੍ਰਤੀ ਬੇਨਤੀ ਲਾਗਤ, ਗੋਪਨੀਯਤਾ ਨਿਯਮ, ਵਿਆਖਿਆਯੋਗਤਾ ਲੋੜਾਂ, ਪਹੁੰਚਯੋਗਤਾ
ਇਹ ਉਹ ਹਿੱਸਾ ਹੈ ਜਿੱਥੇ ਟੀਮਾਂ "ਅਰਥਪੂਰਨ ਨਤੀਜੇ" ਦੀ ਬਜਾਏ "ਸੁੰਦਰ ਮੈਟ੍ਰਿਕ" ਲਈ ਅਨੁਕੂਲਤਾ ਵੱਲ ਵਧਦੀਆਂ ਹਨ। ਇਹ ਬਹੁਤ ਵਾਰ ਹੁੰਦਾ ਹੈ। ਜਿਵੇਂ... ਬਹੁਤ ਕੁਝ।.
ਇਸ ਜੋਖਮ-ਜਾਗਰੂਕ (ਅਤੇ ਵਾਈਬਸ-ਅਧਾਰਿਤ ਨਹੀਂ) ਰੱਖਣ ਦਾ ਇੱਕ ਠੋਸ ਤਰੀਕਾ ਹੈ ਭਰੋਸੇਯੋਗਤਾ ਅਤੇ ਜੀਵਨਚੱਕਰ ਜੋਖਮ ਪ੍ਰਬੰਧਨ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਟੈਸਟਿੰਗ ਨੂੰ ਫਰੇਮ ਕਰਨਾ, ਜਿਵੇਂ ਕਿ NIST AI ਜੋਖਮ ਪ੍ਰਬੰਧਨ ਫਰੇਮਵਰਕ (AI RMF 1.0) [1] ਵਿੱਚ ਕਰਦਾ ਹੈ।

2) “AI ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕਿਵੇਂ ਕਰੀਏ” ਦਾ ਇੱਕ ਚੰਗਾ ਸੰਸਕਰਣ ਕੀ ਬਣਾਉਂਦਾ ਹੈ ✅
ਇੱਕ ਠੋਸ ਜਾਂਚ ਪਹੁੰਚ ਵਿੱਚ ਕੁਝ ਗੈਰ-ਗੱਲਬਾਤਯੋਗ ਹਨ:
-
ਪ੍ਰਤੀਨਿਧੀ ਡੇਟਾ (ਸਿਰਫ ਸਾਫ਼ ਪ੍ਰਯੋਗਸ਼ਾਲਾ ਡੇਟਾ ਹੀ ਨਹੀਂ)
-
ਸਾਫ਼ ਸਪਲਿਟਸ (ਇਸ ਬਾਰੇ ਇੱਕ ਸਕਿੰਟ ਵਿੱਚ ਹੋਰ)
-
ਬੇਸਲਾਈਨ (ਸਧਾਰਨ ਮਾਡਲ ਜਿਨ੍ਹਾਂ ਨੂੰ ਤੁਹਾਨੂੰ ਚਾਹੀਦਾ ਹੈ - ਨਕਲੀ ਅਨੁਮਾਨਕ ਇੱਕ ਕਾਰਨ ਕਰਕੇ ਮੌਜੂਦ ਹਨ [4])
-
ਕਈ ਮਾਪਦੰਡ (ਕਿਉਂਕਿ ਇੱਕ ਨੰਬਰ ਤੁਹਾਡੇ ਸਾਹਮਣੇ, ਨਿਮਰਤਾ ਨਾਲ, ਤੁਹਾਡੇ ਸਾਹਮਣੇ ਝੂਠ ਬੋਲਦਾ ਹੈ)
-
ਤਣਾਅ ਦੇ ਟੈਸਟ (ਕਿਨਾਰੇ ਦੇ ਮਾਮਲੇ, ਅਸਾਧਾਰਨ ਇਨਪੁਟ, ਵਿਰੋਧੀ-ਵਰਗੇ ਦ੍ਰਿਸ਼)
-
ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਲੂਪਸ (ਖਾਸ ਕਰਕੇ ਜਨਰੇਟਿਵ ਮਾਡਲਾਂ ਲਈ)
-
ਲਾਂਚ ਤੋਂ ਬਾਅਦ ਨਿਗਰਾਨੀ (ਕਿਉਂਕਿ ਦੁਨੀਆ ਬਦਲਦੀ ਹੈ, ਪਾਈਪਲਾਈਨਾਂ ਟੁੱਟਦੀਆਂ ਹਨ, ਅਤੇ ਉਪਭੋਗਤਾ... ਰਚਨਾਤਮਕ ਹੁੰਦੇ ਹਨ [1])
ਇਸ ਤੋਂ ਇਲਾਵਾ: ਇੱਕ ਚੰਗੇ ਤਰੀਕੇ ਵਿੱਚ ਇਹ ਦਸਤਾਵੇਜ਼ੀਕਰਨ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ ਕਿ ਤੁਸੀਂ ਕੀ ਟੈਸਟ ਕੀਤਾ, ਤੁਸੀਂ ਕੀ ਨਹੀਂ ਕੀਤਾ, ਅਤੇ ਤੁਸੀਂ ਕਿਸ ਬਾਰੇ ਘਬਰਾਉਂਦੇ ਹੋ। ਉਹ "ਮੈਂ ਕਿਸ ਬਾਰੇ ਘਬਰਾਉਂਦਾ ਹਾਂ" ਭਾਗ ਅਜੀਬ ਲੱਗਦਾ ਹੈ - ਅਤੇ ਇਹ ਉਹ ਥਾਂ ਵੀ ਹੈ ਜਿੱਥੇ ਵਿਸ਼ਵਾਸ ਇਕੱਠਾ ਹੋਣਾ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ।.
ਦੋ ਦਸਤਾਵੇਜ਼ੀ ਪੈਟਰਨ ਜੋ ਟੀਮਾਂ ਨੂੰ ਲਗਾਤਾਰ ਸਪੱਸ਼ਟ ਰਹਿਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ:
-
ਮਾਡਲ ਕਾਰਡ (ਮਾਡਲ ਕਿਸ ਲਈ ਹੈ, ਇਸਦਾ ਮੁਲਾਂਕਣ ਕਿਵੇਂ ਕੀਤਾ ਗਿਆ, ਇਹ ਕਿੱਥੇ ਅਸਫਲ ਹੁੰਦਾ ਹੈ) [2]
-
ਡੇਟਾਸੈਟਾਂ ਲਈ ਡੇਟਾਸ਼ੀਟਾਂ (ਡੇਟਾ ਕੀ ਹੈ, ਇਸਨੂੰ ਕਿਵੇਂ ਇਕੱਠਾ ਕੀਤਾ ਗਿਆ ਸੀ, ਇਸਨੂੰ ਕਿਸ ਲਈ ਵਰਤਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ/ਕਿਸ ਲਈ ਨਹੀਂ ਵਰਤਿਆ ਜਾਣਾ ਚਾਹੀਦਾ) [3]
3) ਔਜ਼ਾਰ ਦੀ ਅਸਲੀਅਤ: ਲੋਕ ਅਭਿਆਸ ਵਿੱਚ ਕੀ ਵਰਤਦੇ ਹਨ 🧰
ਔਜ਼ਾਰ ਵਿਕਲਪਿਕ ਹਨ। ਚੰਗੀਆਂ ਮੁਲਾਂਕਣ ਆਦਤਾਂ ਨਹੀਂ ਹਨ।.
ਜੇਕਰ ਤੁਸੀਂ ਇੱਕ ਵਿਹਾਰਕ ਸੈੱਟਅੱਪ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਜ਼ਿਆਦਾਤਰ ਟੀਮਾਂ ਤਿੰਨ ਬਾਲਟੀਆਂ ਨਾਲ ਖਤਮ ਹੁੰਦੀਆਂ ਹਨ:
-
ਪ੍ਰਯੋਗ ਟਰੈਕਿੰਗ (ਰਨ, ਕੌਂਫਿਗ, ਆਰਟੀਫੈਕਟ)
-
ਮੁਲਾਂਕਣ ਹਾਰਨੈੱਸ (ਦੁਹਰਾਓਣਯੋਗ ਔਫਲਾਈਨ ਟੈਸਟ + ਰਿਗਰੈਸ਼ਨ ਸੂਟ)
-
ਨਿਗਰਾਨੀ (ਡ੍ਰਾਈਫਟ-ਇਸ਼ ਸਿਗਨਲ, ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰੌਕਸੀ, ਘਟਨਾ ਚੇਤਾਵਨੀਆਂ)
ਉਦਾਹਰਨਾਂ ਜੋ ਤੁਸੀਂ ਆਮ ਤੌਰ 'ਤੇ ਬਹੁਤ ਦੇਖੋਗੇ (ਐਂਡੋਰਸਮੈਂਟ ਨਹੀਂ, ਅਤੇ ਹਾਂ - ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ/ਕੀਮਤ ਤਬਦੀਲੀ): MLflow, ਵਜ਼ਨ ਅਤੇ ਪੱਖਪਾਤ, ਵੱਡੀਆਂ ਉਮੀਦਾਂ, ਸਪੱਸ਼ਟ ਤੌਰ 'ਤੇ, Deepchecks, OpenAI Evals, TruLens, LangSmith।.
ਜੇਕਰ ਤੁਸੀਂ ਇਸ ਭਾਗ ਵਿੱਚੋਂ ਵਿਚਾਰ ਇੱਕ ਦੁਹਰਾਉਣਯੋਗ ਈਵਲ ਹਾਰਨੇਸ ਬਣਾਓ । ਤੁਸੀਂ "ਬਟਨ ਦਬਾਓ → ਤੁਲਨਾਤਮਕ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰੋ" ਚਾਹੁੰਦੇ ਹੋ, ਨਾ ਕਿ "ਨੋਟਬੁੱਕ ਦੁਬਾਰਾ ਚਲਾਓ ਅਤੇ ਪ੍ਰਾਰਥਨਾ ਕਰੋ"।
4) ਸਹੀ ਟੈਸਟ ਸੈੱਟ ਬਣਾਓ (ਅਤੇ ਡਾਟਾ ਲੀਕ ਹੋਣਾ ਬੰਦ ਕਰੋ) 🚧
ਬਹੁਤ ਸਾਰੇ "ਸ਼ਾਨਦਾਰ" ਮਾਡਲ ਗਲਤੀ ਨਾਲ ਧੋਖਾ ਕਰ ਰਹੇ ਹਨ।.
ਸਟੈਂਡਰਡ ਐਮਐਲ ਲਈ
ਕੁਝ ਅਨਸੈਕਸੀ ਨਿਯਮ ਜੋ ਕਰੀਅਰ ਨੂੰ ਬਚਾਉਂਦੇ ਹਨ:
-
ਟ੍ਰੇਨ/ਪ੍ਰਮਾਣਿਕਤਾ/ਟੈਸਟ ਰੱਖੋ (ਅਤੇ ਸਪਲਿਟ ਲਾਜਿਕ ਲਿਖੋ)
-
ਸਪਲਿਟਸ ਵਿੱਚ ਡੁਪਲੀਕੇਟਸ ਨੂੰ ਰੋਕੋ (ਉਹੀ ਉਪਭੋਗਤਾ, ਉਹੀ ਦਸਤਾਵੇਜ਼, ਉਹੀ ਉਤਪਾਦ, ਲਗਭਗ-ਡੁਪਲੀਕੇਟ)
-
ਫੀਚਰ ਲੀਕੇਜ ਲਈ ਵੇਖੋ (ਭਵਿੱਖ ਦੀ ਜਾਣਕਾਰੀ "ਮੌਜੂਦਾ" ਫੀਚਰਾਂ ਵਿੱਚ ਘੁਸਪੈਠ ਕਰ ਰਹੀ ਹੈ)
-
ਬੇਸਲਾਈਨ (ਡਮੀ ਐਸਟੀਮੇਟਰ) ਦੀ ਵਰਤੋਂ ਕਰੋ ਤਾਂ ਜੋ ਤੁਸੀਂ ਬੀਟਿੰਗ ਦਾ ਜਸ਼ਨ ਨਾ ਮਨਾਓ... ਕੁਝ ਵੀ ਨਹੀਂ [4]
ਲੀਕੇਜ ਪਰਿਭਾਸ਼ਾ (ਤੁਰੰਤ ਸੰਸਕਰਣ): ਸਿਖਲਾਈ/ਈਵਲ ਵਿੱਚ ਕੋਈ ਵੀ ਚੀਜ਼ ਜੋ ਮਾਡਲ ਨੂੰ ਉਸ ਜਾਣਕਾਰੀ ਤੱਕ ਪਹੁੰਚ ਦਿੰਦੀ ਹੈ ਜੋ ਉਸ ਕੋਲ ਫੈਸਲੇ ਦੇ ਸਮੇਂ ਨਹੀਂ ਹੋਵੇਗੀ। ਇਹ ਸਪੱਸ਼ਟ ("ਭਵਿੱਖ ਦਾ ਲੇਬਲ") ਜਾਂ ਸੂਖਮ ("ਘਟਨਾ ਤੋਂ ਬਾਅਦ ਦਾ ਟਾਈਮਸਟੈਂਪ ਬਕੇਟ") ਹੋ ਸਕਦਾ ਹੈ।
ਐਲਐਲਐਮ ਅਤੇ ਜਨਰੇਟਿਵ ਮਾਡਲਾਂ ਲਈ
ਤੁਸੀਂ ਸਿਰਫ਼ "ਇੱਕ ਮਾਡਲ" ਨਹੀਂ, ਸਗੋਂ ਇੱਕ ਪ੍ਰੋਂਪਟ-ਐਂਡ-ਨੀਤੀ ਪ੍ਰਣਾਲੀ
-
ਸੁਨਹਿਰੀ ਸੈੱਟ ਬਣਾਓ (ਛੋਟਾ, ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲਾ, ਸਥਿਰ)
-
ਹਾਲੀਆ ਅਸਲ ਨਮੂਨੇ ਸ਼ਾਮਲ ਕਰੋ (ਗੁਮਨਾਮ + ਗੋਪਨੀਯਤਾ-ਸੁਰੱਖਿਅਤ)
-
ਇੱਕ ਐਜ-ਕੇਸ ਪੈਕ : ਟਾਈਪੋਜ਼, ਸਲੈਂਗ, ਗੈਰ-ਮਿਆਰੀ ਫਾਰਮੈਟਿੰਗ, ਖਾਲੀ ਇਨਪੁਟ, ਬਹੁ-ਭਾਸ਼ਾਈ ਹੈਰਾਨੀ 🌍
ਇੱਕ ਵਿਹਾਰਕ ਚੀਜ਼ ਜੋ ਮੈਂ ਇੱਕ ਤੋਂ ਵੱਧ ਵਾਰ ਵਾਪਰਦੀ ਦੇਖੀ ਹੈ: ਇੱਕ ਟੀਮ "ਮਜ਼ਬੂਤ" ਔਫਲਾਈਨ ਸਕੋਰ ਨਾਲ ਭੇਜਦੀ ਹੈ, ਫਿਰ ਗਾਹਕ ਸਹਾਇਤਾ ਕਹਿੰਦੀ ਹੈ, "ਸ਼ਾਨਦਾਰ। ਇਹ ਭਰੋਸੇ ਨਾਲ ਇੱਕ ਵਾਕ ਨੂੰ ਗੁਆ ਰਿਹਾ ਹੈ ਜੋ ਮਾਇਨੇ ਰੱਖਦਾ ਹੈ।" ਫਿਕਸ "ਵੱਡਾ ਮਾਡਲ" ਨਹੀਂ ਸੀ। ਇਹ ਬਿਹਤਰ ਟੈਸਟ ਪ੍ਰੋਂਪਟ , ਸਪਸ਼ਟ ਰੁਬਰਿਕਸ, ਅਤੇ ਇੱਕ ਰਿਗਰੈਸ਼ਨ ਸੂਟ ਸੀ ਜਿਸਨੇ ਉਸ ਸਹੀ ਅਸਫਲਤਾ ਮੋਡ ਨੂੰ ਸਜ਼ਾ ਦਿੱਤੀ। ਸਾਦਾ। ਪ੍ਰਭਾਵਸ਼ਾਲੀ।
5) ਔਫਲਾਈਨ ਮੁਲਾਂਕਣ: ਮੈਟ੍ਰਿਕਸ ਜਿਸਦਾ ਕੁਝ ਮਤਲਬ ਹੈ 📏
ਮੈਟ੍ਰਿਕ ਠੀਕ ਹਨ। ਮੈਟ੍ਰਿਕ ਮੋਨੋਕਲਚਰ ਨਹੀਂ ਹੈ।.
ਵਰਗੀਕਰਨ (ਸਪੈਮ, ਧੋਖਾਧੜੀ, ਇਰਾਦਾ, ਟ੍ਰਾਈਏਜ)
ਸ਼ੁੱਧਤਾ ਤੋਂ ਵੱਧ ਵਰਤੋਂ।.
-
ਸ਼ੁੱਧਤਾ, ਯਾਦ, F1
-
ਥ੍ਰੈਸ਼ਹੋਲਡ ਟਿਊਨਿੰਗ (ਤੁਹਾਡੀ ਡਿਫਾਲਟ ਥ੍ਰੈਸ਼ਹੋਲਡ ਤੁਹਾਡੀਆਂ ਲਾਗਤਾਂ ਲਈ ਬਹੁਤ ਘੱਟ "ਸਹੀ" ਹੁੰਦੀ ਹੈ) [4]
-
ਪ੍ਰਤੀ ਖੰਡ ਉਲਝਣ ਮੈਟ੍ਰਿਕਸ (ਖੇਤਰ, ਡਿਵਾਈਸ ਕਿਸਮ, ਉਪਭੋਗਤਾ ਸਮੂਹ)
ਰਿਗਰੈਸ਼ਨ (ਪੂਰਵ ਅਨੁਮਾਨ, ਕੀਮਤ, ਸਕੋਰਿੰਗ)
-
MAE / RMSE (ਤੁਸੀਂ ਗਲਤੀਆਂ ਨੂੰ ਕਿਵੇਂ ਸਜ਼ਾ ਦੇਣਾ ਚਾਹੁੰਦੇ ਹੋ ਇਸ ਦੇ ਆਧਾਰ 'ਤੇ ਚੁਣੋ)
-
ਕੈਲੀਬ੍ਰੇਸ਼ਨ-ਇਸ਼ ਜਾਂਚ ਕਰਦਾ ਹੈ ਜਦੋਂ ਆਉਟਪੁੱਟ ਨੂੰ "ਸਕੋਰ" ਵਜੋਂ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ (ਕੀ ਸਕੋਰ ਅਸਲੀਅਤ ਨਾਲ ਮੇਲ ਖਾਂਦੇ ਹਨ?)
ਦਰਜਾਬੰਦੀ / ਸਿਫ਼ਾਰਸ਼ਕਰਤਾ ਸਿਸਟਮ
-
ਐਨਡੀਸੀਜੀ, ਐਮਏਪੀ, ਐਮਆਰਆਰ
-
ਪੁੱਛਗਿੱਛ ਕਿਸਮ ਅਨੁਸਾਰ ਟੁਕੜਾ (ਸਿਰ ਬਨਾਮ ਪੂਛ)
ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ
-
mAP, IoU
-
ਪ੍ਰਤੀ-ਕਲਾਸ ਪ੍ਰਦਰਸ਼ਨ (ਦੁਰਲੱਭ ਕਲਾਸਾਂ ਉਹ ਹੁੰਦੀਆਂ ਹਨ ਜਿੱਥੇ ਮਾਡਲ ਤੁਹਾਨੂੰ ਸ਼ਰਮਿੰਦਾ ਕਰਦੇ ਹਨ)
ਜਨਰੇਟਿਵ ਮਾਡਲ (LLMs)
ਇਹੀ ਉਹ ਥਾਂ ਹੈ ਜਿੱਥੇ ਲੋਕ... ਦਾਰਸ਼ਨਿਕ 😵💫 ਪ੍ਰਾਪਤ ਕਰਦੇ ਹਨ
ਵਿਹਾਰਕ ਵਿਕਲਪ ਜੋ ਅਸਲ ਟੀਮਾਂ ਵਿੱਚ ਕੰਮ ਕਰਦੇ ਹਨ:
-
ਮਨੁੱਖੀ ਮੁਲਾਂਕਣ (ਸਭ ਤੋਂ ਵਧੀਆ ਸਿਗਨਲ, ਸਭ ਤੋਂ ਹੌਲੀ ਲੂਪ)
-
ਜੋੜੇ ਅਨੁਸਾਰ ਤਰਜੀਹ / ਜਿੱਤ-ਦਰ (ਏ ਬਨਾਮ ਬੀ, ਸੰਪੂਰਨ ਸਕੋਰਿੰਗ ਨਾਲੋਂ ਸੌਖਾ ਹੈ)
-
ਆਟੋਮੇਟਿਡ ਟੈਕਸਟ ਮੈਟ੍ਰਿਕਸ (ਕੁਝ ਕੰਮਾਂ ਲਈ ਸੌਖਾ, ਦੂਜਿਆਂ ਲਈ ਗੁੰਮਰਾਹਕੁੰਨ)
-
ਕਾਰਜ-ਅਧਾਰਤ ਜਾਂਚਾਂ: “ਕੀ ਇਸਨੇ ਸਹੀ ਖੇਤਰ ਕੱਢੇ?” “ਕੀ ਇਸਨੇ ਨੀਤੀ ਦੀ ਪਾਲਣਾ ਕੀਤੀ?” “ਕੀ ਇਸਨੇ ਲੋੜ ਪੈਣ 'ਤੇ ਸਰੋਤਾਂ ਦਾ ਹਵਾਲਾ ਦਿੱਤਾ?”
ਜੇਕਰ ਤੁਸੀਂ ਇੱਕ ਢਾਂਚਾਗਤ "ਮਲਟੀ-ਮੈਟ੍ਰਿਕ, ਕਈ-ਦ੍ਰਿਸ਼ਟੀਕੋਣ" ਸੰਦਰਭ ਬਿੰਦੂ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ HELM ਇੱਕ ਚੰਗਾ ਐਂਕਰ ਹੈ: ਇਹ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਮੁਲਾਂਕਣ ਨੂੰ ਸ਼ੁੱਧਤਾ ਤੋਂ ਪਰੇ ਕੈਲੀਬ੍ਰੇਸ਼ਨ, ਮਜ਼ਬੂਤੀ, ਪੱਖਪਾਤ/ਜ਼ਹਿਰੀਲੇਪਣ, ਅਤੇ ਕੁਸ਼ਲਤਾ ਵਪਾਰ-ਆਫ [5] ਵਰਗੀਆਂ ਚੀਜ਼ਾਂ ਵਿੱਚ ਧੱਕਦਾ ਹੈ।.
ਥੋੜ੍ਹਾ ਜਿਹਾ ਵਿਛੋੜਾ: ਲਿਖਣ ਦੀ ਗੁਣਵੱਤਾ ਲਈ ਸਵੈਚਾਲਿਤ ਮੈਟ੍ਰਿਕਸ ਕਈ ਵਾਰ ਇੱਕ ਸੈਂਡਵਿਚ ਨੂੰ ਤੋਲ ਕੇ ਇਸਦਾ ਨਿਰਣਾ ਕਰਨ ਵਰਗਾ ਮਹਿਸੂਸ ਹੁੰਦਾ ਹੈ। ਇਹ ਕੁਝ ਵੀ ਨਹੀਂ ਹੈ, ਪਰ... ਆਓ 🥪
6) ਮਜ਼ਬੂਤੀ ਟੈਸਟਿੰਗ: ਇਸਨੂੰ ਥੋੜ੍ਹਾ ਜਿਹਾ ਪਸੀਨਾ ਲਿਆਓ 🥵🧪
ਜੇਕਰ ਤੁਹਾਡਾ ਮਾਡਲ ਸਿਰਫ਼ ਸਾਫ਼-ਸੁਥਰੇ ਇਨਪੁਟਸ 'ਤੇ ਕੰਮ ਕਰਦਾ ਹੈ, ਤਾਂ ਇਹ ਅਸਲ ਵਿੱਚ ਇੱਕ ਕੱਚ ਦਾ ਫੁੱਲਦਾਨ ਹੈ। ਸੁੰਦਰ, ਨਾਜ਼ੁਕ, ਮਹਿੰਗਾ।.
ਟੈਸਟ:
-
ਸ਼ੋਰ: ਟਾਈਪਿੰਗ ਦੀਆਂ ਗਲਤੀਆਂ, ਗੁੰਮ ਮੁੱਲ, ਗੈਰ-ਮਿਆਰੀ ਯੂਨੀਕੋਡ, ਫਾਰਮੈਟਿੰਗ ਗਲਤੀਆਂ
-
ਵੰਡ ਤਬਦੀਲੀ: ਨਵੀਆਂ ਉਤਪਾਦ ਸ਼੍ਰੇਣੀਆਂ, ਨਵੀਂ ਭਾਸ਼ਾ, ਨਵੇਂ ਸੈਂਸਰ
-
ਅਤਿਅੰਤ ਮੁੱਲ: ਸੀਮਾ ਤੋਂ ਬਾਹਰ ਦੇ ਨੰਬਰ, ਵਿਸ਼ਾਲ ਪੇਲੋਡ, ਖਾਲੀ ਤਾਰਾਂ
-
"ਵਿਰੋਧੀ-ਭਾਵਨਾ" ਇਨਪੁਟ ਜੋ ਤੁਹਾਡੇ ਸਿਖਲਾਈ ਸੈੱਟ ਵਰਗੇ ਨਹੀਂ ਲੱਗਦੇ ਪਰ ਉਪਭੋਗਤਾਵਾਂ ਵਰਗੇ ਲੱਗਦੇ ਹਨ
LLM ਲਈ, ਸ਼ਾਮਲ ਕਰੋ:
-
ਤੁਰੰਤ ਟੀਕਾ ਲਗਾਉਣ ਦੀਆਂ ਕੋਸ਼ਿਸ਼ਾਂ (ਉਪਭੋਗਤਾ ਸਮੱਗਰੀ ਦੇ ਅੰਦਰ ਲੁਕੀਆਂ ਹਦਾਇਤਾਂ)
-
"ਪਿਛਲੀਆਂ ਹਦਾਇਤਾਂ ਨੂੰ ਅਣਡਿੱਠ ਕਰੋ" ਪੈਟਰਨਾਂ
-
ਟੂਲ-ਵਰਤੋਂ ਵਾਲੇ ਕਿਨਾਰੇ ਦੇ ਮਾਮਲੇ (ਮਾੜੇ URL, ਟਾਈਮਆਉਟ, ਅੰਸ਼ਕ ਆਉਟਪੁੱਟ)
ਮਜ਼ਬੂਤੀ ਉਨ੍ਹਾਂ ਭਰੋਸੇਯੋਗਤਾ ਦੇ ਗੁਣਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ ਜੋ ਘਟਨਾਵਾਂ ਹੋਣ ਤੱਕ ਅਮੂਰਤ ਜਾਪਦੀ ਹੈ। ਫਿਰ ਇਹ... ਬਹੁਤ ਹੀ ਠੋਸ [1] ਬਣ ਜਾਂਦੀ ਹੈ।.
7) ਪੱਖਪਾਤ, ਨਿਰਪੱਖਤਾ, ਅਤੇ ਇਹ ਕਿਸ ਲਈ ਕੰਮ ਕਰਦਾ ਹੈ ⚖️
ਇੱਕ ਮਾਡਲ ਸਮੁੱਚੇ ਤੌਰ 'ਤੇ "ਸਹੀ" ਹੋ ਸਕਦਾ ਹੈ ਜਦੋਂ ਕਿ ਖਾਸ ਸਮੂਹਾਂ ਲਈ ਲਗਾਤਾਰ ਮਾੜਾ ਹੁੰਦਾ ਹੈ। ਇਹ ਕੋਈ ਛੋਟਾ ਬੱਗ ਨਹੀਂ ਹੈ। ਇਹ ਇੱਕ ਉਤਪਾਦ ਅਤੇ ਵਿਸ਼ਵਾਸ ਦੀ ਸਮੱਸਿਆ ਹੈ।.
ਵਿਹਾਰਕ ਕਦਮ:
-
ਅਰਥਪੂਰਨ ਹਿੱਸਿਆਂ ਦੁਆਰਾ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰੋ (ਕਾਨੂੰਨੀ/ਨੈਤਿਕ ਤੌਰ 'ਤੇ ਮਾਪਣ ਲਈ ਢੁਕਵਾਂ)
-
ਸਮੂਹਾਂ ਵਿੱਚ ਗਲਤੀ ਦਰਾਂ ਅਤੇ ਕੈਲੀਬ੍ਰੇਸ਼ਨ ਦੀ ਤੁਲਨਾ ਕਰੋ।
-
ਪ੍ਰੌਕਸੀ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ (ਜ਼ਿਪ ਕੋਡ, ਡਿਵਾਈਸ ਕਿਸਮ, ਭਾਸ਼ਾ) ਲਈ ਟੈਸਟ ਕਰੋ ਜੋ ਸੰਵੇਦਨਸ਼ੀਲ ਗੁਣਾਂ ਨੂੰ ਏਨਕੋਡ ਕਰ ਸਕਦੀਆਂ ਹਨ।
ਜੇਕਰ ਤੁਸੀਂ ਇਸਨੂੰ ਕਿਤੇ ਦਸਤਾਵੇਜ਼ੀ ਰੂਪ ਨਹੀਂ ਦੇ ਰਹੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਅਸਲ ਵਿੱਚ ਭਵਿੱਖ ਨੂੰ ਕਹਿ ਰਹੇ ਹੋ - ਤੁਹਾਨੂੰ ਬਿਨਾਂ ਨਕਸ਼ੇ ਦੇ ਇੱਕ ਟਰੱਸਟ ਸੰਕਟ ਨੂੰ ਡੀਬੱਗ ਕਰਨ ਲਈ। ਮਾਡਲ ਕਾਰਡ ਇਸਨੂੰ ਰੱਖਣ ਲਈ ਇੱਕ ਠੋਸ ਜਗ੍ਹਾ ਹਨ [2], ਅਤੇ NIST ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਫਰੇਮਿੰਗ ਤੁਹਾਨੂੰ ਇੱਕ ਮਜ਼ਬੂਤ ਚੈੱਕਲਿਸਟ ਦਿੰਦੀ ਹੈ ਕਿ "ਚੰਗੇ" ਵਿੱਚ ਕੀ ਸ਼ਾਮਲ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ [1]।.
8) ਸੁਰੱਖਿਆ ਅਤੇ ਸੁਰੱਖਿਆ ਜਾਂਚ (ਖਾਸ ਕਰਕੇ LLM ਲਈ) 🛡️
ਜੇਕਰ ਤੁਹਾਡਾ ਮਾਡਲ ਸਮੱਗਰੀ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ, ਤਾਂ ਤੁਸੀਂ ਸ਼ੁੱਧਤਾ ਤੋਂ ਵੱਧ ਜਾਂਚ ਕਰ ਰਹੇ ਹੋ। ਤੁਸੀਂ ਵਿਵਹਾਰ ਦੀ ਜਾਂਚ ਕਰ ਰਹੇ ਹੋ।.
ਇਹਨਾਂ ਲਈ ਟੈਸਟ ਸ਼ਾਮਲ ਕਰੋ:
-
ਸਮੱਗਰੀ ਤਿਆਰ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਨਹੀਂ (ਨੀਤੀ ਦੀਆਂ ਉਲੰਘਣਾਵਾਂ)
-
ਗੋਪਨੀਯਤਾ ਲੀਕ ਹੋਣਾ (ਕੀ ਇਹ ਰਾਜ਼ਾਂ ਦੀ ਗੂੰਜ ਹੈ?)
-
ਉੱਚ-ਦਾਅ ਵਾਲੇ ਖੇਤਰਾਂ ਵਿੱਚ ਭਰਮ
-
ਬਹੁਤ ਜ਼ਿਆਦਾ ਇਨਕਾਰ (ਮਾਡਲ ਆਮ ਬੇਨਤੀਆਂ ਤੋਂ ਇਨਕਾਰ ਕਰਦਾ ਹੈ)
-
ਜ਼ਹਿਰੀਲੇਪਣ ਅਤੇ ਪਰੇਸ਼ਾਨੀ ਦੇ ਨਤੀਜੇ
-
ਪ੍ਰੋਂਪਟ ਇੰਜੈਕਸ਼ਨ ਦੁਆਰਾ ਡੇਟਾ ਐਕਸਫਿਲਟਰੇਸ਼ਨ ਦੀਆਂ ਕੋਸ਼ਿਸ਼ਾਂ
ਇੱਕ ਜ਼ਮੀਨੀ ਪਹੁੰਚ ਇਹ ਹੈ: ਨੀਤੀ ਨਿਯਮਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ → ਟੈਸਟ ਪ੍ਰੋਂਪਟ ਬਣਾਓ → ਮਨੁੱਖੀ + ਸਵੈਚਾਲਿਤ ਜਾਂਚਾਂ ਨਾਲ ਸਕੋਰ ਆਉਟਪੁੱਟ → ਹਰ ਵਾਰ ਜਦੋਂ ਕੁਝ ਵੀ ਬਦਲਦਾ ਹੈ ਤਾਂ ਇਸਨੂੰ ਚਲਾਓ। ਉਹ "ਹਰ ਵਾਰ" ਹਿੱਸਾ ਕਿਰਾਇਆ ਹੈ।.
ਇਹ ਜੀਵਨਚੱਕਰ ਜੋਖਮ ਮਾਨਸਿਕਤਾ ਵਿੱਚ ਚੰਗੀ ਤਰ੍ਹਾਂ ਫਿੱਟ ਬੈਠਦਾ ਹੈ: ਸ਼ਾਸਨ ਕਰੋ, ਸੰਦਰਭ ਦਾ ਨਕਸ਼ਾ ਬਣਾਓ, ਮਾਪੋ, ਪ੍ਰਬੰਧ ਕਰੋ, ਦੁਹਰਾਓ [1]।.
9) ਔਨਲਾਈਨ ਟੈਸਟਿੰਗ: ਸਟੇਜਡ ਰੋਲਆਉਟ (ਜਿੱਥੇ ਸੱਚ ਰਹਿੰਦਾ ਹੈ) 🚀
ਔਫਲਾਈਨ ਟੈਸਟ ਜ਼ਰੂਰੀ ਹਨ। ਔਨਲਾਈਨ ਐਕਸਪੋਜਰ ਉਹ ਥਾਂ ਹੈ ਜਿੱਥੇ ਅਸਲੀਅਤ ਚਿੱਕੜ ਵਾਲੇ ਜੁੱਤੇ ਪਾ ਕੇ ਦਿਖਾਈ ਦਿੰਦੀ ਹੈ।.
ਤੁਹਾਨੂੰ ਫੈਂਸੀ ਹੋਣ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ। ਤੁਹਾਨੂੰ ਸਿਰਫ਼ ਅਨੁਸ਼ਾਸਿਤ ਹੋਣ ਦੀ ਲੋੜ ਹੈ:
-
ਸ਼ੈਡੋ ਮੋਡ ਵਿੱਚ ਚਲਾਓ (ਮਾਡਲ ਚੱਲਦਾ ਹੈ, ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਨਹੀਂ ਕਰਦਾ)
-
ਹੌਲੀ-ਹੌਲੀ ਰੋਲਆਊਟ (ਪਹਿਲਾਂ ਘੱਟ ਟ੍ਰੈਫਿਕ, ਜੇਕਰ ਠੀਕ ਹੋਵੇ ਤਾਂ ਫੈਲਾਓ)
-
ਨਤੀਜਿਆਂ ਅਤੇ ਘਟਨਾਵਾਂ ਨੂੰ ਟਰੈਕ ਕਰੋ (ਸ਼ਿਕਾਇਤਾਂ, ਵਾਧਾ, ਨੀਤੀ ਅਸਫਲਤਾਵਾਂ)
ਭਾਵੇਂ ਤੁਸੀਂ ਤੁਰੰਤ ਲੇਬਲ ਪ੍ਰਾਪਤ ਨਹੀਂ ਕਰ ਸਕਦੇ, ਤੁਸੀਂ ਪ੍ਰੌਕਸੀ ਸਿਗਨਲਾਂ ਅਤੇ ਕਾਰਜਸ਼ੀਲ ਸਿਹਤ (ਲੇਟੈਂਸੀ, ਅਸਫਲਤਾ ਦਰਾਂ, ਲਾਗਤ) ਦੀ ਨਿਗਰਾਨੀ ਕਰ ਸਕਦੇ ਹੋ। ਮੁੱਖ ਨੁਕਤਾ: ਤੁਸੀਂ ਆਪਣੇ ਪੂਰੇ ਉਪਭੋਗਤਾ ਅਧਾਰ [1] ਤੋਂ ਪਹਿਲਾਂ
10) ਤੈਨਾਤੀ ਤੋਂ ਬਾਅਦ ਨਿਗਰਾਨੀ: ਵਹਿਣਾ, ਸੜਨਾ, ਅਤੇ ਸ਼ਾਂਤ ਅਸਫਲਤਾ 📉👀
ਜਿਸ ਮਾਡਲ ਦੀ ਤੁਸੀਂ ਜਾਂਚ ਕੀਤੀ ਹੈ ਉਹ ਉਹ ਮਾਡਲ ਨਹੀਂ ਹੈ ਜਿਸਦੇ ਨਾਲ ਤੁਸੀਂ ਜੀਉਂਦੇ ਹੋ। ਡੇਟਾ ਬਦਲਦਾ ਹੈ। ਉਪਭੋਗਤਾ ਬਦਲਦੇ ਹਨ। ਦੁਨੀਆ ਬਦਲਦੀ ਹੈ। ਪਾਈਪਲਾਈਨ ਸਵੇਰੇ 2 ਵਜੇ ਟੁੱਟ ਜਾਂਦੀ ਹੈ। ਤੁਸੀਂ ਜਾਣਦੇ ਹੋ ਕਿ ਇਹ ਕਿਵੇਂ ਹੈ..
ਮਾਨੀਟਰ:
-
ਇਨਪੁੱਟ ਡੇਟਾ ਡ੍ਰਿਫਟ (ਸਕੀਮ ਵਿੱਚ ਬਦਲਾਅ, ਗੁੰਮ ਹੋਣਾ, ਵੰਡ ਵਿੱਚ ਬਦਲਾਅ)
-
ਆਉਟਪੁੱਟ ਡ੍ਰਿਫਟ (ਕਲਾਸ ਬੈਲੇਂਸ ਸ਼ਿਫਟ, ਸਕੋਰ ਸ਼ਿਫਟ)
-
ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰੌਕਸੀਆਂ (ਕਿਉਂਕਿ ਲੇਬਲ ਦੇਰੀ ਅਸਲ ਹਨ)
-
ਫੀਡਬੈਕ ਸਿਗਨਲ (ਥੰਬਸ ਡਾਊਨ, ਰੀ-ਐਡਿਟ, ਐਸਕੇਲੇਸ਼ਨ)
-
ਸੈਗਮੈਂਟ-ਪੱਧਰ ਦੇ ਰਿਗਰੈਸ਼ਨ (ਚੁੱਪ ਕਾਤਲ)
ਅਤੇ ਚੇਤਾਵਨੀ ਦੀਆਂ ਹੱਦਾਂ ਸੈੱਟ ਕਰੋ ਜੋ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹਿੱਲਣ ਵਾਲੀਆਂ ਨਾ ਹੋਣ। ਇੱਕ ਮਾਨੀਟਰ ਜੋ ਲਗਾਤਾਰ ਚੀਕਦਾ ਰਹਿੰਦਾ ਹੈ, ਉਸਨੂੰ ਅਣਡਿੱਠਾ ਕਰ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ - ਜਿਵੇਂ ਕਿਸੇ ਸ਼ਹਿਰ ਵਿੱਚ ਕਾਰ ਅਲਾਰਮ।.
ਜੇਕਰ ਤੁਸੀਂ ਭਰੋਸੇਯੋਗਤਾ ਦੀ ਪਰਵਾਹ ਕਰਦੇ ਹੋ ਤਾਂ ਇਹ "ਮਾਨੀਟਰ + ਸਮੇਂ ਦੇ ਨਾਲ ਸੁਧਾਰ" ਲੂਪ ਵਿਕਲਪਿਕ ਨਹੀਂ ਹੈ [1]।.
11) ਇੱਕ ਵਿਹਾਰਕ ਵਰਕਫਲੋ ਜਿਸਦੀ ਤੁਸੀਂ ਨਕਲ ਕਰ ਸਕਦੇ ਹੋ 🧩
ਇੱਥੇ ਇੱਕ ਸਧਾਰਨ ਲੂਪ ਹੈ ਜੋ ਸਕੇਲ ਕਰਦਾ ਹੈ:
-
ਸਫਲਤਾ + ਅਸਫਲਤਾ ਮੋਡ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ (ਲਾਗਤ/ਲੇਟੈਂਸੀ/ਸੁਰੱਖਿਆ ਸਮੇਤ) [1]
-
ਡੇਟਾਸੈੱਟ ਬਣਾਓ:
-
ਸੁਨਹਿਰੀ ਸੈੱਟ
-
ਐਜ-ਕੇਸ ਪੈਕ
-
ਹਾਲੀਆ ਅਸਲ ਨਮੂਨੇ (ਗੋਪਨੀਯਤਾ-ਸੁਰੱਖਿਅਤ)
-
-
ਮੈਟ੍ਰਿਕਸ ਚੁਣੋ:
-
ਟਾਸਕ ਮੈਟ੍ਰਿਕਸ (F1, MAE, ਜਿੱਤ-ਦਰ) [4][5]
-
ਸੁਰੱਖਿਆ ਮੈਟ੍ਰਿਕਸ (ਪਾਲਿਸੀ ਪਾਸ ਦਰ) [1][5]
-
ਕਾਰਜਸ਼ੀਲ ਮਾਪਦੰਡ (ਲੇਟੈਂਸੀ, ਲਾਗਤ)
-
-
ਇੱਕ ਮੁਲਾਂਕਣ ਹਾਰਨੈੱਸ ਬਣਾਓ (ਹਰੇਕ ਮਾਡਲ/ਪ੍ਰੌਮਪਟ ਤਬਦੀਲੀ 'ਤੇ ਚੱਲਦਾ ਹੈ) [4][5]
-
ਤਣਾਅ ਟੈਸਟ + ਵਿਰੋਧੀ-ਭਾਵ ਟੈਸਟ ਸ਼ਾਮਲ ਕਰੋ [1][5]
-
ਇੱਕ ਨਮੂਨੇ ਲਈ ਮਨੁੱਖੀ ਸਮੀਖਿਆ (ਖਾਸ ਕਰਕੇ LLM ਆਉਟਪੁੱਟ ਲਈ) [5]
-
ਸ਼ੈਡੋ ਰਾਹੀਂ ਭੇਜੋ + ਸਟੇਜਡ ਰੋਲਆਊਟ [1]
-
ਨਿਗਰਾਨੀ + ਸੁਚੇਤ + ਅਨੁਸ਼ਾਸਨ ਨਾਲ ਮੁੜ ਸਿਖਲਾਈ [1]
-
ਦਸਤਾਵੇਜ਼ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇੱਕ ਮਾਡਲ-ਕਾਰਡ ਸ਼ੈਲੀ ਦੀ ਲਿਖਤ ਹੁੰਦੀ ਹੈ [2][3]
ਸਿਖਲਾਈ ਬਹੁਤ ਹੀ ਸ਼ਾਨਦਾਰ ਹੈ। ਟੈਸਟਿੰਗ ਕਿਰਾਏ 'ਤੇ ਦੇਣ ਵਾਲੀ ਹੈ।.
12) ਸਮਾਪਤੀ ਨੋਟਸ + ਤੇਜ਼ ਸੰਖੇਪ 🧠✨
AI ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਬਾਰੇ ਕੁਝ ਗੱਲਾਂ ਯਾਦ ਹਨ :
-
ਪ੍ਰਤੀਨਿਧੀ ਟੈਸਟ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰੋ ਅਤੇ ਲੀਕੇਜ ਤੋਂ ਬਚੋ [4]
-
ਅਸਲ ਨਤੀਜਿਆਂ ਨਾਲ ਜੁੜੇ ਕਈ ਮੈਟ੍ਰਿਕਸ ਚੁਣੋ
-
LLM ਲਈ, ਮਨੁੱਖੀ ਸਮੀਖਿਆ + ਜਿੱਤ-ਦਰ ਸ਼ੈਲੀ ਤੁਲਨਾਵਾਂ ' [5]
-
ਟੈਸਟ ਮਜ਼ਬੂਤੀ - ਅਸਾਧਾਰਨ ਇਨਪੁਟ ਭੇਸ ਵਿੱਚ ਆਮ ਇਨਪੁਟ ਹੁੰਦੇ ਹਨ [1]
-
ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਰੋਲ ਆਊਟ ਕਰੋ ਅਤੇ ਨਿਗਰਾਨੀ ਕਰੋ, ਕਿਉਂਕਿ ਮਾਡਲ ਡ੍ਰਿਫਟ ਹੁੰਦੇ ਹਨ ਅਤੇ ਪਾਈਪਲਾਈਨਾਂ ਟੁੱਟ ਜਾਂਦੀਆਂ ਹਨ [1]
-
ਤੁਸੀਂ ਕੀ ਕੀਤਾ ਅਤੇ ਕੀ ਨਹੀਂ ਟੈਸਟ ਕੀਤਾ, ਉਸਦਾ ਦਸਤਾਵੇਜ਼ ਬਣਾਓ (ਬੇਆਰਾਮਦਾਇਕ ਪਰ ਸ਼ਕਤੀਸ਼ਾਲੀ) [2][3]
ਟੈਸਟਿੰਗ ਸਿਰਫ਼ "ਇਹ ਸਾਬਤ ਕਰਨਾ ਨਹੀਂ ਹੈ ਕਿ ਇਹ ਕੰਮ ਕਰਦਾ ਹੈ।" ਇਹ "ਆਪਣੇ ਉਪਭੋਗਤਾਵਾਂ ਦੇ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਪਤਾ ਲਗਾਉਣਾ ਹੈ ਕਿ ਇਹ ਕਿਵੇਂ ਅਸਫਲ ਹੁੰਦਾ ਹੈ।" ਅਤੇ ਹਾਂ, ਇਹ ਘੱਟ ਸੈਕਸੀ ਹੈ - ਪਰ ਇਹ ਉਹ ਹਿੱਸਾ ਹੈ ਜੋ ਤੁਹਾਡੇ ਸਿਸਟਮ ਨੂੰ ਖੜ੍ਹਾ ਰੱਖਦਾ ਹੈ ਜਦੋਂ ਚੀਜ਼ਾਂ ਡਗਮਗਾ ਜਾਂਦੀਆਂ ਹਨ... 🧱🙂
ਅਕਸਰ ਪੁੱਛੇ ਜਾਂਦੇ ਸਵਾਲ
AI ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਦਾ ਸਭ ਤੋਂ ਵਧੀਆ ਤਰੀਕਾ ਤਾਂ ਜੋ ਇਹ ਅਸਲ ਉਪਭੋਗਤਾ ਜ਼ਰੂਰਤਾਂ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੋਵੇ
"ਚੰਗਾ" ਨੂੰ ਅਸਲ ਉਪਭੋਗਤਾ ਅਤੇ ਮਾਡਲ ਦੁਆਰਾ ਸਮਰਥਤ ਫੈਸਲੇ ਦੇ ਰੂਪ ਵਿੱਚ ਪਰਿਭਾਸ਼ਿਤ ਕਰਕੇ ਸ਼ੁਰੂ ਕਰੋ, ਨਾ ਕਿ ਸਿਰਫ਼ ਇੱਕ ਲੀਡਰਬੋਰਡ ਮੈਟ੍ਰਿਕ ਦੇ ਰੂਪ ਵਿੱਚ। ਸਭ ਤੋਂ ਵੱਧ ਲਾਗਤ ਵਾਲੇ ਅਸਫਲਤਾ ਮੋਡਾਂ (ਗਲਤ ਸਕਾਰਾਤਮਕ ਬਨਾਮ ਗਲਤ ਨਕਾਰਾਤਮਕ) ਦੀ ਪਛਾਣ ਕਰੋ ਅਤੇ ਲੇਟੈਂਸੀ, ਲਾਗਤ, ਗੋਪਨੀਯਤਾ ਅਤੇ ਵਿਆਖਿਆਯੋਗਤਾ ਵਰਗੀਆਂ ਸਖ਼ਤ ਪਾਬੰਦੀਆਂ ਨੂੰ ਸਪੈਲ ਕਰੋ। ਫਿਰ ਮੈਟ੍ਰਿਕਸ ਅਤੇ ਟੈਸਟ ਕੇਸ ਚੁਣੋ ਜੋ ਉਹਨਾਂ ਨਤੀਜਿਆਂ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। ਇਹ ਤੁਹਾਨੂੰ ਇੱਕ "ਬਹੁਤ ਵਧੀਆ ਮੈਟ੍ਰਿਕ" ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਤੋਂ ਰੋਕਦਾ ਹੈ ਜੋ ਕਦੇ ਵੀ ਇੱਕ ਬਿਹਤਰ ਉਤਪਾਦ ਵਿੱਚ ਅਨੁਵਾਦ ਨਹੀਂ ਕਰਦਾ।.
ਮੁਲਾਂਕਣ ਮਾਪਦੰਡ ਚੁਣਨ ਤੋਂ ਪਹਿਲਾਂ ਸਫਲਤਾ ਦੇ ਮਾਪਦੰਡਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨਾ
ਲਿਖੋ ਕਿ ਉਪਭੋਗਤਾ ਕੌਣ ਹੈ, ਮਾਡਲ ਕਿਸ ਫੈਸਲੇ ਦਾ ਸਮਰਥਨ ਕਰਨ ਲਈ ਹੈ, ਅਤੇ ਉਤਪਾਦਨ ਵਿੱਚ "ਸਭ ਤੋਂ ਮਾੜੀ ਅਸਫਲਤਾ" ਕਿਵੇਂ ਦਿਖਾਈ ਦਿੰਦੀ ਹੈ। ਸਵੀਕਾਰਯੋਗ ਲੇਟੈਂਸੀ ਅਤੇ ਪ੍ਰਤੀ ਬੇਨਤੀ ਲਾਗਤ ਵਰਗੀਆਂ ਸੰਚਾਲਨ ਪਾਬੰਦੀਆਂ, ਨਾਲ ਹੀ ਗੋਪਨੀਯਤਾ ਨਿਯਮਾਂ ਅਤੇ ਸੁਰੱਖਿਆ ਨੀਤੀਆਂ ਵਰਗੀਆਂ ਸ਼ਾਸਨ ਲੋੜਾਂ ਸ਼ਾਮਲ ਕਰੋ। ਇੱਕ ਵਾਰ ਜਦੋਂ ਇਹ ਸਪੱਸ਼ਟ ਹੋ ਜਾਂਦੇ ਹਨ, ਤਾਂ ਮੈਟ੍ਰਿਕਸ ਸਹੀ ਚੀਜ਼ ਨੂੰ ਮਾਪਣ ਦਾ ਇੱਕ ਤਰੀਕਾ ਬਣ ਜਾਂਦੇ ਹਨ। ਉਸ ਫਰੇਮਿੰਗ ਤੋਂ ਬਿਨਾਂ, ਟੀਮਾਂ ਜੋ ਵੀ ਮਾਪਣਾ ਆਸਾਨ ਹੈ ਉਸਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਵੱਲ ਵਧਦੀਆਂ ਹਨ।.
ਮਾਡਲ ਮੁਲਾਂਕਣ ਵਿੱਚ ਡੇਟਾ ਲੀਕ ਹੋਣ ਅਤੇ ਅਚਾਨਕ ਧੋਖਾਧੜੀ ਨੂੰ ਰੋਕਣਾ
ਟ੍ਰੇਨ/ਪ੍ਰਮਾਣਿਕਤਾ/ਟੈਸਟ ਸਪਲਿਟਸ ਨੂੰ ਸਥਿਰ ਰੱਖੋ ਅਤੇ ਸਪਲਿਟ ਲਾਜਿਕ ਨੂੰ ਦਸਤਾਵੇਜ਼ੀ ਰੂਪ ਦਿਓ ਤਾਂ ਜੋ ਨਤੀਜੇ ਦੁਬਾਰਾ ਪੈਦਾ ਹੋਣ ਯੋਗ ਰਹਿਣ। ਸਪਲਿਟਸ (ਇੱਕੋ ਉਪਭੋਗਤਾ, ਦਸਤਾਵੇਜ਼, ਉਤਪਾਦ, ਜਾਂ ਦੁਹਰਾਏ ਗਏ ਪੈਟਰਨਾਂ) ਵਿੱਚ ਡੁਪਲੀਕੇਟ ਅਤੇ ਲਗਭਗ-ਡੁਪਲੀਕੇਟ ਨੂੰ ਸਰਗਰਮੀ ਨਾਲ ਬਲੌਕ ਕਰੋ। ਵਿਸ਼ੇਸ਼ਤਾ ਲੀਕੇਜ ਲਈ ਵੇਖੋ ਜਿੱਥੇ "ਭਵਿੱਖ" ਜਾਣਕਾਰੀ ਟਾਈਮਸਟੈਂਪਾਂ ਜਾਂ ਘਟਨਾ ਤੋਂ ਬਾਅਦ ਦੇ ਖੇਤਰਾਂ ਰਾਹੀਂ ਇਨਪੁਟਸ ਵਿੱਚ ਖਿਸਕ ਜਾਂਦੀ ਹੈ। ਇੱਕ ਮਜ਼ਬੂਤ ਬੇਸਲਾਈਨ (ਡਮੀ ਅਨੁਮਾਨਕ ਵੀ) ਤੁਹਾਨੂੰ ਉਦੋਂ ਧਿਆਨ ਦੇਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ ਜਦੋਂ ਤੁਸੀਂ ਸ਼ੋਰ ਦਾ ਜਸ਼ਨ ਮਨਾ ਰਹੇ ਹੋ।.
ਇੱਕ ਮੁਲਾਂਕਣ ਹਾਰਨੇਸ ਵਿੱਚ ਕੀ ਸ਼ਾਮਲ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਤਾਂ ਜੋ ਟੈਸਟ ਬਦਲਾਵਾਂ ਵਿੱਚ ਦੁਹਰਾਉਣ ਯੋਗ ਰਹਿਣ
ਇੱਕ ਪ੍ਰੈਕਟੀਕਲ ਹਾਰਨੇਸ ਹਰੇਕ ਮਾਡਲ, ਪ੍ਰੋਂਪਟ, ਜਾਂ ਨੀਤੀ ਤਬਦੀਲੀ 'ਤੇ ਇੱਕੋ ਜਿਹੇ ਡੇਟਾਸੈੱਟ ਅਤੇ ਸਕੋਰਿੰਗ ਨਿਯਮਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਤੁਲਨਾਤਮਕ ਟੈਸਟਾਂ ਨੂੰ ਦੁਬਾਰਾ ਚਲਾਉਂਦਾ ਹੈ। ਇਸ ਵਿੱਚ ਆਮ ਤੌਰ 'ਤੇ ਇੱਕ ਰਿਗਰੈਸ਼ਨ ਸੂਟ, ਸਪਸ਼ਟ ਮੈਟ੍ਰਿਕਸ ਡੈਸ਼ਬੋਰਡ, ਅਤੇ ਟਰੇਸੇਬਿਲਟੀ ਲਈ ਸਟੋਰ ਕੀਤੇ ਸੰਰਚਨਾ ਅਤੇ ਕਲਾਕ੍ਰਿਤੀਆਂ ਸ਼ਾਮਲ ਹੁੰਦੀਆਂ ਹਨ। LLM ਸਿਸਟਮਾਂ ਲਈ, ਇਸਨੂੰ ਪ੍ਰੋਂਪਟਾਂ ਦੇ ਇੱਕ ਸਥਿਰ "ਸੁਨਹਿਰੀ ਸੈੱਟ" ਦੇ ਨਾਲ-ਨਾਲ ਇੱਕ ਐਜ-ਕੇਸ ਪੈਕ ਦੀ ਵੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਟੀਚਾ "ਬਟਨ ਦਬਾਓ → ਤੁਲਨਾਤਮਕ ਨਤੀਜੇ" ਹੈ, ਨਾ ਕਿ "ਨੋਟਬੁੱਕ ਨੂੰ ਦੁਬਾਰਾ ਚਲਾਓ ਅਤੇ ਪ੍ਰਾਰਥਨਾ ਕਰੋ"।
ਸ਼ੁੱਧਤਾ ਤੋਂ ਪਰੇ AI ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਲਈ ਮੈਟ੍ਰਿਕਸ
ਕਈ ਮੈਟ੍ਰਿਕਸ ਦੀ ਵਰਤੋਂ ਕਰੋ, ਕਿਉਂਕਿ ਇੱਕ ਸਿੰਗਲ ਨੰਬਰ ਮਹੱਤਵਪੂਰਨ ਟ੍ਰੇਡ-ਆਫਸ ਨੂੰ ਛੁਪਾ ਸਕਦਾ ਹੈ। ਵਰਗੀਕਰਨ ਲਈ, ਸ਼ੁੱਧਤਾ/ਰੀਕਾਲ/F1 ਨੂੰ ਥ੍ਰੈਸ਼ਹੋਲਡ ਟਿਊਨਿੰਗ ਅਤੇ ਸੈਗਮੈਂਟ ਦੁਆਰਾ ਉਲਝਣ ਮੈਟ੍ਰਿਕਸ ਨਾਲ ਜੋੜੋ। ਰਿਗਰੈਸ਼ਨ ਲਈ, ਤੁਸੀਂ ਗਲਤੀਆਂ ਨੂੰ ਕਿਵੇਂ ਸਜ਼ਾ ਦੇਣਾ ਚਾਹੁੰਦੇ ਹੋ ਇਸ ਦੇ ਆਧਾਰ 'ਤੇ MAE ਜਾਂ RMSE ਚੁਣੋ, ਅਤੇ ਜਦੋਂ ਆਉਟਪੁੱਟ ਸਕੋਰਾਂ ਵਾਂਗ ਕੰਮ ਕਰਦੇ ਹਨ ਤਾਂ ਕੈਲੀਬ੍ਰੇਸ਼ਨ-ਸ਼ੈਲੀ ਜਾਂਚਾਂ ਸ਼ਾਮਲ ਕਰੋ। ਰੈਂਕਿੰਗ ਲਈ, ਅਸਮਾਨ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਫੜਨ ਲਈ NDCG/MAP/MRR ਅਤੇ ਸਲਾਈਸ ਬਾਈ ਹੈੱਡ ਬਨਾਮ ਟੇਲ ਪੁੱਛਗਿੱਛਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ।.
ਜਦੋਂ ਆਟੋਮੇਟਿਡ ਮੈਟ੍ਰਿਕਸ ਘੱਟ ਜਾਂਦੇ ਹਨ ਤਾਂ LLM ਆਉਟਪੁੱਟ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ
ਇਸਨੂੰ ਸਿਰਫ਼ ਟੈਕਸਟ ਸਮਾਨਤਾ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਇੱਕ ਪ੍ਰੋਂਪਟ-ਐਂਡ-ਨੀਤੀ ਪ੍ਰਣਾਲੀ ਅਤੇ ਸਕੋਰ ਵਿਵਹਾਰ ਵਜੋਂ ਸਮਝੋ। ਬਹੁਤ ਸਾਰੀਆਂ ਟੀਮਾਂ ਮਨੁੱਖੀ ਮੁਲਾਂਕਣ ਨੂੰ ਜੋੜਾ-ਵਾਰ ਤਰਜੀਹ (A/B ਜਿੱਤ-ਦਰ) ਨਾਲ ਜੋੜਦੀਆਂ ਹਨ, ਨਾਲ ਹੀ "ਕੀ ਇਸਨੇ ਸਹੀ ਖੇਤਰਾਂ ਨੂੰ ਕੱਢਿਆ" ਜਾਂ "ਕੀ ਇਸਨੇ ਨੀਤੀ ਦੀ ਪਾਲਣਾ ਕੀਤੀ" ਵਰਗੇ ਕਾਰਜ-ਅਧਾਰਿਤ ਜਾਂਚਾਂ ਨੂੰ ਵੀ ਜੋੜਦੀਆਂ ਹਨ। ਆਟੋਮੇਟਿਡ ਟੈਕਸਟ ਮੈਟ੍ਰਿਕਸ ਤੰਗ ਮਾਮਲਿਆਂ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ, ਪਰ ਉਹ ਅਕਸਰ ਉਸ ਚੀਜ਼ ਨੂੰ ਯਾਦ ਨਹੀਂ ਕਰਦੇ ਜਿਸਦੀ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਪਰਵਾਹ ਹੈ। ਸਪੱਸ਼ਟ ਰੁਬਰਿਕਸ ਅਤੇ ਇੱਕ ਰਿਗਰੈਸ਼ਨ ਸੂਟ ਆਮ ਤੌਰ 'ਤੇ ਇੱਕ ਸਿੰਗਲ ਸਕੋਰ ਨਾਲੋਂ ਵੱਧ ਮਾਇਨੇ ਰੱਖਦੇ ਹਨ।.
ਸ਼ੋਰ ਵਾਲੇ ਇਨਪੁਟਸ 'ਤੇ ਮਾਡਲ ਟੁੱਟ ਨਾ ਜਾਵੇ, ਇਸ ਲਈ ਮਜ਼ਬੂਤੀ ਟੈਸਟ ਚਲਾਏ ਜਾਣਗੇ।
ਟਾਈਪੋਜ਼, ਗੁੰਮ ਮੁੱਲ, ਅਜੀਬ ਫਾਰਮੈਟਿੰਗ, ਅਤੇ ਗੈਰ-ਮਿਆਰੀ ਯੂਨੀਕੋਡ ਨਾਲ ਮਾਡਲ ਦੀ ਤਣਾਅ-ਜਾਂਚ ਕਰੋ, ਕਿਉਂਕਿ ਅਸਲ ਉਪਭੋਗਤਾ ਘੱਟ ਹੀ ਸਾਫ਼-ਸੁਥਰੇ ਹੁੰਦੇ ਹਨ। ਨਵੀਆਂ ਸ਼੍ਰੇਣੀਆਂ, ਸਲੈਂਗ, ਸੈਂਸਰ, ਜਾਂ ਭਾਸ਼ਾ ਪੈਟਰਨ ਵਰਗੇ ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨ ਸ਼ਿਫਟ ਕੇਸ ਸ਼ਾਮਲ ਕਰੋ। ਸਤ੍ਹਾ ਦੇ ਭੁਰਭੁਰਾ ਵਿਵਹਾਰ ਲਈ ਅਤਿਅੰਤ ਮੁੱਲ (ਖਾਲੀ ਸਤਰ, ਵੱਡੇ ਪੇਲੋਡ, ਰੇਂਜ ਤੋਂ ਬਾਹਰ ਨੰਬਰ) ਸ਼ਾਮਲ ਕਰੋ। LLM ਲਈ, ਪ੍ਰੋਂਪਟ ਇੰਜੈਕਸ਼ਨ ਪੈਟਰਨ ਅਤੇ ਟਾਈਮਆਉਟ ਜਾਂ ਅੰਸ਼ਕ ਆਉਟਪੁੱਟ ਵਰਗੇ ਟੂਲ-ਵਰਤੋਂ ਅਸਫਲਤਾਵਾਂ ਦੀ ਵੀ ਜਾਂਚ ਕਰੋ।.
ਸਿਧਾਂਤ ਵਿੱਚ ਗੁਆਚੇ ਬਿਨਾਂ ਪੱਖਪਾਤ ਅਤੇ ਨਿਰਪੱਖਤਾ ਦੇ ਮੁੱਦਿਆਂ ਦੀ ਜਾਂਚ ਕਰਨਾ
ਅਰਥਪੂਰਨ ਟੁਕੜਿਆਂ 'ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰੋ ਅਤੇ ਸਮੂਹਾਂ ਵਿੱਚ ਗਲਤੀ ਦਰਾਂ ਅਤੇ ਕੈਲੀਬ੍ਰੇਸ਼ਨ ਦੀ ਤੁਲਨਾ ਕਰੋ ਜਿੱਥੇ ਇਹ ਕਾਨੂੰਨੀ ਅਤੇ ਨੈਤਿਕ ਤੌਰ 'ਤੇ ਮਾਪਣ ਲਈ ਢੁਕਵਾਂ ਹੈ। ਪ੍ਰੌਕਸੀ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ (ਜਿਵੇਂ ਕਿ ਜ਼ਿਪ ਕੋਡ, ਡਿਵਾਈਸ ਕਿਸਮ, ਜਾਂ ਭਾਸ਼ਾ) ਦੀ ਭਾਲ ਕਰੋ ਜੋ ਸੰਵੇਦਨਸ਼ੀਲ ਗੁਣਾਂ ਨੂੰ ਅਸਿੱਧੇ ਤੌਰ 'ਤੇ ਏਨਕੋਡ ਕਰ ਸਕਦੀਆਂ ਹਨ। ਇੱਕ ਮਾਡਲ "ਸਮੁੱਚੇ ਤੌਰ 'ਤੇ ਸਹੀ" ਦਿਖਾਈ ਦੇ ਸਕਦਾ ਹੈ ਜਦੋਂ ਕਿ ਖਾਸ ਸਮੂਹਾਂ ਲਈ ਲਗਾਤਾਰ ਅਸਫਲ ਹੋ ਰਿਹਾ ਹੈ। ਦਸਤਾਵੇਜ਼ ਬਣਾਓ ਕਿ ਤੁਸੀਂ ਕੀ ਮਾਪਿਆ ਅਤੇ ਕੀ ਨਹੀਂ ਕੀਤਾ, ਤਾਂ ਜੋ ਭਵਿੱਖ ਵਿੱਚ ਬਦਲਾਅ ਚੁੱਪਚਾਪ ਰਿਗਰੈਸ਼ਨ ਨੂੰ ਦੁਬਾਰਾ ਪੇਸ਼ ਨਾ ਕਰਨ।.
ਜਨਰੇਟਿਵ ਏਆਈ ਅਤੇ ਐਲਐਲਐਮ ਸਿਸਟਮਾਂ ਲਈ ਸੁਰੱਖਿਆ ਅਤੇ ਸੁਰੱਖਿਆ ਟੈਸਟ ਸ਼ਾਮਲ ਕੀਤੇ ਜਾਣਗੇ
ਅਸਵੀਕਾਰਿਤ ਸਮੱਗਰੀ ਉਤਪਾਦਨ, ਗੋਪਨੀਯਤਾ ਲੀਕੇਜ, ਉੱਚ-ਦਾਅ ਵਾਲੇ ਡੋਮੇਨਾਂ ਵਿੱਚ ਭਰਮ, ਅਤੇ ਓਵਰ-ਰਿਫਿਊਜ਼ਲ ਲਈ ਟੈਸਟ ਜਿੱਥੇ ਮਾਡਲ ਆਮ ਬੇਨਤੀਆਂ ਨੂੰ ਬਲੌਕ ਕਰਦਾ ਹੈ। ਪ੍ਰੋਂਪਟ ਇੰਜੈਕਸ਼ਨ ਅਤੇ ਡੇਟਾ ਐਕਸਫਿਲਟਰੇਸ਼ਨ ਕੋਸ਼ਿਸ਼ਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰੋ, ਖਾਸ ਕਰਕੇ ਜਦੋਂ ਸਿਸਟਮ ਟੂਲਸ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਜਾਂ ਸਮੱਗਰੀ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। ਇੱਕ ਆਧਾਰਿਤ ਵਰਕਫਲੋ ਹੈ: ਨੀਤੀ ਨਿਯਮਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ, ਇੱਕ ਟੈਸਟ ਪ੍ਰੋਂਪਟ ਸੈੱਟ ਬਣਾਓ, ਮਨੁੱਖੀ ਪਲੱਸ ਆਟੋਮੇਟਿਡ ਜਾਂਚਾਂ ਨਾਲ ਸਕੋਰ ਕਰੋ, ਅਤੇ ਜਦੋਂ ਵੀ ਪ੍ਰੋਂਪਟ, ਡੇਟਾ, ਜਾਂ ਨੀਤੀਆਂ ਬਦਲਦੀਆਂ ਹਨ ਤਾਂ ਇਸਨੂੰ ਦੁਬਾਰਾ ਚਲਾਓ। ਇਕਸਾਰਤਾ ਉਹ ਕਿਰਾਇਆ ਹੈ ਜੋ ਤੁਸੀਂ ਅਦਾ ਕਰਦੇ ਹੋ।.
ਡ੍ਰਿਫਟ ਅਤੇ ਘਟਨਾਵਾਂ ਨੂੰ ਫੜਨ ਲਈ ਲਾਂਚ ਤੋਂ ਬਾਅਦ AI ਮਾਡਲਾਂ ਨੂੰ ਰੋਲ ਆਊਟ ਕਰਨਾ ਅਤੇ ਨਿਗਰਾਨੀ ਕਰਨਾ
ਆਪਣੇ ਪੂਰੇ ਉਪਭੋਗਤਾ ਅਧਾਰ ਤੋਂ ਪਹਿਲਾਂ ਅਸਫਲਤਾਵਾਂ ਦਾ ਪਤਾ ਲਗਾਉਣ ਲਈ ਸ਼ੈਡੋ ਮੋਡ ਅਤੇ ਹੌਲੀ-ਹੌਲੀ ਟ੍ਰੈਫਿਕ ਰੈਂਪ ਵਰਗੇ ਸਟੇਜਡ ਰੋਲਆਉਟ ਪੈਟਰਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ। ਇਨਪੁਟ ਡ੍ਰਿਫਟ (ਸਕੀਮਾ ਬਦਲਾਅ, ਗੁੰਮ ਹੋਣਾ, ਵੰਡ ਸ਼ਿਫਟ) ਅਤੇ ਆਉਟਪੁੱਟ ਡ੍ਰਿਫਟ (ਸਕੋਰ ਸ਼ਿਫਟ, ਕਲਾਸ ਬੈਲੇਂਸ ਸ਼ਿਫਟ), ਨਾਲ ਹੀ ਲੇਟੈਂਸੀ ਅਤੇ ਲਾਗਤ ਵਰਗੀ ਕਾਰਜਸ਼ੀਲ ਸਿਹਤ ਦੀ ਨਿਗਰਾਨੀ ਕਰੋ। ਫੀਡਬੈਕ ਸਿਗਨਲਾਂ ਜਿਵੇਂ ਕਿ ਸੰਪਾਦਨ, ਵਾਧਾ, ਅਤੇ ਸ਼ਿਕਾਇਤਾਂ ਨੂੰ ਟਰੈਕ ਕਰੋ, ਅਤੇ ਸੈਗਮੈਂਟ-ਪੱਧਰ ਦੇ ਰਿਗਰੈਸ਼ਨ ਨੂੰ ਦੇਖੋ। ਜਦੋਂ ਕੁਝ ਵੀ ਬਦਲਦਾ ਹੈ, ਤਾਂ ਉਹੀ ਹਾਰਨੈੱਸ ਦੁਬਾਰਾ ਚਲਾਓ ਅਤੇ ਲਗਾਤਾਰ ਨਿਗਰਾਨੀ ਕਰਦੇ ਰਹੋ।.
ਹਵਾਲੇ
[1] NIST - ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਰਿਸਕ ਮੈਨੇਜਮੈਂਟ ਫਰੇਮਵਰਕ (AI RMF 1.0) (PDF)
[2] ਮਿਸ਼ੇਲ ਅਤੇ ਹੋਰ - "ਮਾਡਲ ਰਿਪੋਰਟਿੰਗ ਲਈ ਮਾਡਲ ਕਾਰਡ" (arXiv:1810.03993)
[3] ਗੇਬਰੂ ਅਤੇ ਹੋਰ - "ਡੇਟਾਸੈਟਾਂ ਲਈ ਡੇਟਾਸ਼ੀਟਾਂ" (arXiv:1803.09010)
[4] scikit-learn - "ਮਾਡਲ ਚੋਣ ਅਤੇ ਮੁਲਾਂਕਣ" ਦਸਤਾਵੇਜ਼
[5] ਲਿਆਂਗ ਅਤੇ ਹੋਰ - "ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦਾ ਸੰਪੂਰਨ ਮੁਲਾਂਕਣ" (arXiv:2211.09110)