ਇਹ ਗਾਈਡ AI ਮਾਡਲਾਂ ਨੂੰ ਇੱਕ ਵਿਹਾਰਕ, ਦੁਹਰਾਉਣਯੋਗ ਤਰੀਕੇ ਨਾਲ ਕਿਵੇਂ ਟੈਸਟ ਕਰਨਾ ਹੈ - ਕਲਾਸਿਕ ML (ਵਰਗੀਕਰਣ/ਰਿਗਰੈਸ਼ਨ), ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ, ਅਤੇ ਆਧੁਨਿਕ ਜਨਰੇਟਿਵ ਮਾਡਲਾਂ (LLMs) ਨੂੰ ਕਵਰ ਕਰਦੀ ਹੈ, ਬਾਰੇ ਦੱਸਦੀ ਹੈ। ਚੈੱਕਲਿਸਟਾਂ, ਕੁਝ ਹਲਕੇ ਰੌਲੇ-ਰੱਪੇ, ਅਤੇ ਉਹ ਹਿੱਸੇ ਜਿਨ੍ਹਾਂ ਨੂੰ ਲੋਕ ਉਦੋਂ ਤੱਕ ਛੱਡ ਦਿੰਦੇ ਹਨ ਜਦੋਂ ਤੱਕ ਉਹ ਵਾਪਸ ਨਹੀਂ ਆਉਂਦੇ।
ਇਸ ਤੋਂ ਬਾਅਦ ਤੁਸੀਂ ਜੋ ਲੇਖ ਪੜ੍ਹਨਾ ਪਸੰਦ ਕਰ ਸਕਦੇ ਹੋ:
🔗 ਏਆਈ ਨੈਤਿਕਤਾ ਕੀ ਹੈ?
ਜ਼ਿੰਮੇਵਾਰ AI ਡਿਜ਼ਾਈਨ, ਵਰਤੋਂ ਅਤੇ ਸ਼ਾਸਨ ਨੂੰ ਸੇਧ ਦੇਣ ਵਾਲੇ ਸਿਧਾਂਤਾਂ ਦੀ ਪੜਚੋਲ ਕਰੋ।.
🔗 ਏਆਈ ਪੱਖਪਾਤ ਕੀ ਹੈ?
ਜਾਣੋ ਕਿ ਪੱਖਪਾਤੀ ਡੇਟਾ AI ਫੈਸਲਿਆਂ ਅਤੇ ਨਤੀਜਿਆਂ ਨੂੰ ਕਿਵੇਂ ਵਿਗਾੜਦਾ ਹੈ।.
🔗 ਏਆਈ ਸਕੇਲੇਬਿਲਟੀ ਕੀ ਹੈ?
ਪ੍ਰਦਰਸ਼ਨ, ਲਾਗਤ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਲਈ AI ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਸਕੇਲਿੰਗ ਕਰਨਾ ਸਮਝੋ।.
🔗 ਏਆਈ ਕੀ ਹੈ?
ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ, ਕਿਸਮਾਂ ਅਤੇ ਅਸਲ-ਸੰਸਾਰ ਵਰਤੋਂ ਦੀ ਇੱਕ ਸਪਸ਼ਟ ਸੰਖੇਪ ਜਾਣਕਾਰੀ।.
1) "ਚੰਗੇ" ਦੀ ਬੇਢੰਗੀ ਪਰਿਭਾਸ਼ਾ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕਰੋ
ਮੈਟ੍ਰਿਕਸ ਤੋਂ ਪਹਿਲਾਂ, ਡੈਸ਼ਬੋਰਡ ਤੋਂ ਪਹਿਲਾਂ, ਕਿਸੇ ਵੀ ਬੈਂਚਮਾਰਕ ਫਲੈਕਸਿੰਗ ਤੋਂ ਪਹਿਲਾਂ - ਫੈਸਲਾ ਕਰੋ ਕਿ ਸਫਲਤਾ ਕਿਵੇਂ ਦਿਖਾਈ ਦਿੰਦੀ ਹੈ।.
ਸਪੱਸ਼ਟ ਕਰੋ:
-
ਯੂਜ਼ਰ: ਅੰਦਰੂਨੀ ਵਿਸ਼ਲੇਸ਼ਕ, ਗਾਹਕ, ਡਾਕਟਰ, ਡਰਾਈਵਰ, ਸ਼ਾਮ 4 ਵਜੇ ਇੱਕ ਥੱਕਿਆ ਹੋਇਆ ਸਹਾਇਤਾ ਏਜੰਟ...
-
ਫੈਸਲਾ: ਕਰਜ਼ਾ ਮਨਜ਼ੂਰ ਕਰੋ, ਧੋਖਾਧੜੀ ਨੂੰ ਫਲੈਗ ਕਰੋ, ਸਮੱਗਰੀ ਸੁਝਾਓ, ਨੋਟਸ ਦਾ ਸਾਰ ਦਿਓ
-
ਅਸਫਲਤਾਵਾਂ ਜੋ ਸਭ ਤੋਂ ਵੱਧ ਮਾਇਨੇ ਰੱਖਦੀਆਂ ਹਨ:
-
ਝੂਠੇ ਸਕਾਰਾਤਮਕ (ਤੰਗ ਕਰਨ ਵਾਲੇ) ਬਨਾਮ ਝੂਠੇ ਨਕਾਰਾਤਮਕ (ਖਤਰਨਾਕ)
-
-
ਪਾਬੰਦੀਆਂ: ਲੇਟੈਂਸੀ, ਪ੍ਰਤੀ ਬੇਨਤੀ ਲਾਗਤ, ਗੋਪਨੀਯਤਾ ਨਿਯਮ, ਵਿਆਖਿਆਯੋਗਤਾ ਲੋੜਾਂ, ਪਹੁੰਚਯੋਗਤਾ
ਇਹ ਉਹ ਹਿੱਸਾ ਹੈ ਜਿੱਥੇ ਟੀਮਾਂ "ਅਰਥਪੂਰਨ ਨਤੀਜੇ" ਦੀ ਬਜਾਏ "ਸੁੰਦਰ ਮੈਟ੍ਰਿਕ" ਲਈ ਅਨੁਕੂਲਤਾ ਵੱਲ ਵਧਦੀਆਂ ਹਨ। ਇਹ ਬਹੁਤ ਵਾਰ ਹੁੰਦਾ ਹੈ। ਜਿਵੇਂ... ਬਹੁਤ ਕੁਝ।.
ਇਸ ਜੋਖਮ-ਜਾਗਰੂਕ (ਅਤੇ ਵਾਈਬਸ-ਅਧਾਰਿਤ ਨਹੀਂ) ਰੱਖਣ ਦਾ ਇੱਕ ਠੋਸ ਤਰੀਕਾ ਹੈ ਭਰੋਸੇਯੋਗਤਾ ਅਤੇ ਜੀਵਨਚੱਕਰ ਜੋਖਮ ਪ੍ਰਬੰਧਨ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਟੈਸਟਿੰਗ ਨੂੰ ਫਰੇਮ ਕਰਨਾ, ਜਿਵੇਂ ਕਿ NIST AI ਜੋਖਮ ਪ੍ਰਬੰਧਨ ਫਰੇਮਵਰਕ (AI RMF 1.0) [1] ਵਿੱਚ ਕਰਦਾ ਹੈ।

2) “AI ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕਿਵੇਂ ਕਰੀਏ” ਦਾ ਇੱਕ ਚੰਗਾ ਸੰਸਕਰਣ ਕੀ ਬਣਾਉਂਦਾ ਹੈ ✅
ਇੱਕ ਠੋਸ ਜਾਂਚ ਪਹੁੰਚ ਵਿੱਚ ਕੁਝ ਗੈਰ-ਗੱਲਬਾਤਯੋਗ ਹਨ:
-
ਪ੍ਰਤੀਨਿਧੀ ਡੇਟਾ (ਸਿਰਫ ਸਾਫ਼ ਪ੍ਰਯੋਗਸ਼ਾਲਾ ਡੇਟਾ ਹੀ ਨਹੀਂ)
-
ਸਾਫ਼ ਸਪਲਿਟਸ (ਇਸ ਬਾਰੇ ਇੱਕ ਸਕਿੰਟ ਵਿੱਚ ਹੋਰ)
-
ਬੇਸਲਾਈਨ (ਸਧਾਰਨ ਮਾਡਲ ਜਿਨ੍ਹਾਂ ਨੂੰ ਤੁਹਾਨੂੰ ਚਾਹੀਦਾ ਹੈ - ਨਕਲੀ ਅਨੁਮਾਨਕ ਇੱਕ ਕਾਰਨ ਕਰਕੇ ਮੌਜੂਦ ਹਨ [4])
-
ਕਈ ਮਾਪਦੰਡ (ਕਿਉਂਕਿ ਇੱਕ ਨੰਬਰ ਤੁਹਾਡੇ ਸਾਹਮਣੇ, ਨਿਮਰਤਾ ਨਾਲ, ਤੁਹਾਡੇ ਸਾਹਮਣੇ ਝੂਠ ਬੋਲਦਾ ਹੈ)
-
ਤਣਾਅ ਦੇ ਟੈਸਟ (ਕਿਨਾਰੇ ਦੇ ਮਾਮਲੇ, ਅਸਾਧਾਰਨ ਇਨਪੁਟ, ਵਿਰੋਧੀ-ਵਰਗੇ ਦ੍ਰਿਸ਼)
-
ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਲੂਪਸ (ਖਾਸ ਕਰਕੇ ਜਨਰੇਟਿਵ ਮਾਡਲਾਂ ਲਈ)
-
ਲਾਂਚ ਤੋਂ ਬਾਅਦ ਨਿਗਰਾਨੀ (ਕਿਉਂਕਿ ਦੁਨੀਆ ਬਦਲਦੀ ਹੈ, ਪਾਈਪਲਾਈਨਾਂ ਟੁੱਟਦੀਆਂ ਹਨ, ਅਤੇ ਉਪਭੋਗਤਾ... ਰਚਨਾਤਮਕ ਹੁੰਦੇ ਹਨ [1])
ਇਸ ਤੋਂ ਇਲਾਵਾ: ਇੱਕ ਚੰਗੇ ਤਰੀਕੇ ਵਿੱਚ ਇਹ ਦਸਤਾਵੇਜ਼ੀਕਰਨ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ ਕਿ ਤੁਸੀਂ ਕੀ ਟੈਸਟ ਕੀਤਾ, ਤੁਸੀਂ ਕੀ ਨਹੀਂ ਕੀਤਾ, ਅਤੇ ਤੁਸੀਂ ਕਿਸ ਬਾਰੇ ਘਬਰਾਉਂਦੇ ਹੋ। ਉਹ "ਮੈਂ ਕਿਸ ਬਾਰੇ ਘਬਰਾਉਂਦਾ ਹਾਂ" ਭਾਗ ਅਜੀਬ ਲੱਗਦਾ ਹੈ - ਅਤੇ ਇਹ ਉਹ ਥਾਂ ਵੀ ਹੈ ਜਿੱਥੇ ਵਿਸ਼ਵਾਸ ਇਕੱਠਾ ਹੋਣਾ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ।.
ਦੋ ਦਸਤਾਵੇਜ਼ੀ ਪੈਟਰਨ ਜੋ ਟੀਮਾਂ ਨੂੰ ਲਗਾਤਾਰ ਸਪੱਸ਼ਟ ਰਹਿਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ:
-
ਮਾਡਲ ਕਾਰਡ (ਮਾਡਲ ਕਿਸ ਲਈ ਹੈ, ਇਸਦਾ ਮੁਲਾਂਕਣ ਕਿਵੇਂ ਕੀਤਾ ਗਿਆ, ਇਹ ਕਿੱਥੇ ਅਸਫਲ ਹੁੰਦਾ ਹੈ) [2]
-
ਡੇਟਾਸੈਟਾਂ ਲਈ ਡੇਟਾਸ਼ੀਟਾਂ (ਡੇਟਾ ਕੀ ਹੈ, ਇਸਨੂੰ ਕਿਵੇਂ ਇਕੱਠਾ ਕੀਤਾ ਗਿਆ ਸੀ, ਇਸਨੂੰ ਕਿਸ ਲਈ ਵਰਤਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ/ਕਿਸ ਲਈ ਨਹੀਂ ਵਰਤਿਆ ਜਾਣਾ ਚਾਹੀਦਾ) [3]
3) ਔਜ਼ਾਰ ਦੀ ਅਸਲੀਅਤ: ਲੋਕ ਅਭਿਆਸ ਵਿੱਚ ਕੀ ਵਰਤਦੇ ਹਨ 🧰
ਔਜ਼ਾਰ ਵਿਕਲਪਿਕ ਹਨ। ਚੰਗੀਆਂ ਮੁਲਾਂਕਣ ਆਦਤਾਂ ਨਹੀਂ ਹਨ।.
ਜੇਕਰ ਤੁਸੀਂ ਇੱਕ ਵਿਹਾਰਕ ਸੈੱਟਅੱਪ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਜ਼ਿਆਦਾਤਰ ਟੀਮਾਂ ਤਿੰਨ ਬਾਲਟੀਆਂ ਨਾਲ ਖਤਮ ਹੁੰਦੀਆਂ ਹਨ:
-
ਪ੍ਰਯੋਗ ਟਰੈਕਿੰਗ (ਰਨ, ਕੌਂਫਿਗ, ਆਰਟੀਫੈਕਟ)
-
ਮੁਲਾਂਕਣ ਹਾਰਨੈੱਸ (ਦੁਹਰਾਓਣਯੋਗ ਔਫਲਾਈਨ ਟੈਸਟ + ਰਿਗਰੈਸ਼ਨ ਸੂਟ)
-
ਨਿਗਰਾਨੀ (ਡ੍ਰਾਈਫਟ-ਇਸ਼ ਸਿਗਨਲ, ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰੌਕਸੀ, ਘਟਨਾ ਚੇਤਾਵਨੀਆਂ)
ਉਦਾਹਰਨਾਂ ਜੋ ਤੁਸੀਂ ਆਮ ਤੌਰ 'ਤੇ ਬਹੁਤ ਦੇਖੋਗੇ (ਐਂਡੋਰਸਮੈਂਟ ਨਹੀਂ, ਅਤੇ ਹਾਂ - ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ/ਕੀਮਤ ਤਬਦੀਲੀ): MLflow, ਵਜ਼ਨ ਅਤੇ ਪੱਖਪਾਤ, ਵੱਡੀਆਂ ਉਮੀਦਾਂ, ਸਪੱਸ਼ਟ ਤੌਰ 'ਤੇ, Deepchecks, OpenAI Evals, TruLens, LangSmith।.
ਜੇਕਰ ਤੁਸੀਂ ਇਸ ਭਾਗ ਵਿੱਚੋਂ ਵਿਚਾਰ ਇੱਕ ਦੁਹਰਾਉਣਯੋਗ ਈਵਲ ਹਾਰਨੇਸ ਬਣਾਓ । ਤੁਸੀਂ "ਬਟਨ ਦਬਾਓ → ਤੁਲਨਾਤਮਕ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰੋ" ਚਾਹੁੰਦੇ ਹੋ, ਨਾ ਕਿ "ਨੋਟਬੁੱਕ ਦੁਬਾਰਾ ਚਲਾਓ ਅਤੇ ਪ੍ਰਾਰਥਨਾ ਕਰੋ"।
4) ਸਹੀ ਟੈਸਟ ਸੈੱਟ ਬਣਾਓ (ਅਤੇ ਡਾਟਾ ਲੀਕ ਹੋਣਾ ਬੰਦ ਕਰੋ) 🚧
ਬਹੁਤ ਸਾਰੇ "ਸ਼ਾਨਦਾਰ" ਮਾਡਲ ਗਲਤੀ ਨਾਲ ਧੋਖਾ ਕਰ ਰਹੇ ਹਨ।.
ਸਟੈਂਡਰਡ ਐਮਐਲ ਲਈ
ਕੁਝ ਅਨਸੈਕਸੀ ਨਿਯਮ ਜੋ ਕਰੀਅਰ ਨੂੰ ਬਚਾਉਂਦੇ ਹਨ:
-
ਟ੍ਰੇਨ/ਪ੍ਰਮਾਣਿਕਤਾ/ਟੈਸਟ ਰੱਖੋ (ਅਤੇ ਸਪਲਿਟ ਲਾਜਿਕ ਲਿਖੋ)
-
ਸਪਲਿਟਸ ਵਿੱਚ ਡੁਪਲੀਕੇਟਸ ਨੂੰ ਰੋਕੋ (ਉਹੀ ਉਪਭੋਗਤਾ, ਉਹੀ ਦਸਤਾਵੇਜ਼, ਉਹੀ ਉਤਪਾਦ, ਲਗਭਗ-ਡੁਪਲੀਕੇਟ)
-
ਫੀਚਰ ਲੀਕੇਜ ਲਈ ਵੇਖੋ (ਭਵਿੱਖ ਦੀ ਜਾਣਕਾਰੀ "ਮੌਜੂਦਾ" ਫੀਚਰਾਂ ਵਿੱਚ ਘੁਸਪੈਠ ਕਰ ਰਹੀ ਹੈ)
-
ਬੇਸਲਾਈਨ (ਡਮੀ ਐਸਟੀਮੇਟਰ) ਦੀ ਵਰਤੋਂ ਕਰੋ ਤਾਂ ਜੋ ਤੁਸੀਂ ਬੀਟਿੰਗ ਦਾ ਜਸ਼ਨ ਨਾ ਮਨਾਓ... ਕੁਝ ਵੀ ਨਹੀਂ [4]
ਲੀਕੇਜ ਪਰਿਭਾਸ਼ਾ (ਤੁਰੰਤ ਸੰਸਕਰਣ): ਸਿਖਲਾਈ/ਈਵਲ ਵਿੱਚ ਕੋਈ ਵੀ ਚੀਜ਼ ਜੋ ਮਾਡਲ ਨੂੰ ਉਸ ਜਾਣਕਾਰੀ ਤੱਕ ਪਹੁੰਚ ਦਿੰਦੀ ਹੈ ਜੋ ਉਸ ਕੋਲ ਫੈਸਲੇ ਦੇ ਸਮੇਂ ਨਹੀਂ ਹੋਵੇਗੀ। ਇਹ ਸਪੱਸ਼ਟ ("ਭਵਿੱਖ ਦਾ ਲੇਬਲ") ਜਾਂ ਸੂਖਮ ("ਘਟਨਾ ਤੋਂ ਬਾਅਦ ਦਾ ਟਾਈਮਸਟੈਂਪ ਬਕੇਟ") ਹੋ ਸਕਦਾ ਹੈ।
ਐਲਐਲਐਮ ਅਤੇ ਜਨਰੇਟਿਵ ਮਾਡਲਾਂ ਲਈ
ਤੁਸੀਂ ਸਿਰਫ਼ "ਇੱਕ ਮਾਡਲ" ਨਹੀਂ, ਸਗੋਂ ਇੱਕ ਪ੍ਰੋਂਪਟ-ਐਂਡ-ਨੀਤੀ ਪ੍ਰਣਾਲੀ
-
ਸੁਨਹਿਰੀ ਸੈੱਟ ਬਣਾਓ (ਛੋਟਾ, ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲਾ, ਸਥਿਰ)
-
ਹਾਲੀਆ ਅਸਲ ਨਮੂਨੇ ਸ਼ਾਮਲ ਕਰੋ (ਗੁਮਨਾਮ + ਗੋਪਨੀਯਤਾ-ਸੁਰੱਖਿਅਤ)
-
ਇੱਕ ਐਜ-ਕੇਸ ਪੈਕ : ਟਾਈਪੋਜ਼, ਸਲੈਂਗ, ਗੈਰ-ਮਿਆਰੀ ਫਾਰਮੈਟਿੰਗ, ਖਾਲੀ ਇਨਪੁਟ, ਬਹੁ-ਭਾਸ਼ਾਈ ਹੈਰਾਨੀ 🌍
ਇੱਕ ਵਿਹਾਰਕ ਚੀਜ਼ ਜੋ ਮੈਂ ਇੱਕ ਤੋਂ ਵੱਧ ਵਾਰ ਵਾਪਰਦੀ ਦੇਖੀ ਹੈ: ਇੱਕ ਟੀਮ "ਮਜ਼ਬੂਤ" ਔਫਲਾਈਨ ਸਕੋਰ ਨਾਲ ਭੇਜਦੀ ਹੈ, ਫਿਰ ਗਾਹਕ ਸਹਾਇਤਾ ਕਹਿੰਦੀ ਹੈ, "ਸ਼ਾਨਦਾਰ। ਇਹ ਭਰੋਸੇ ਨਾਲ ਇੱਕ ਵਾਕ ਨੂੰ ਗੁਆ ਰਿਹਾ ਹੈ ਜੋ ਮਾਇਨੇ ਰੱਖਦਾ ਹੈ।" ਫਿਕਸ "ਵੱਡਾ ਮਾਡਲ" ਨਹੀਂ ਸੀ। ਇਹ ਬਿਹਤਰ ਟੈਸਟ ਪ੍ਰੋਂਪਟ , ਸਪਸ਼ਟ ਰੁਬਰਿਕਸ, ਅਤੇ ਇੱਕ ਰਿਗਰੈਸ਼ਨ ਸੂਟ ਸੀ ਜਿਸਨੇ ਉਸ ਸਹੀ ਅਸਫਲਤਾ ਮੋਡ ਨੂੰ ਸਜ਼ਾ ਦਿੱਤੀ। ਸਾਦਾ। ਪ੍ਰਭਾਵਸ਼ਾਲੀ।
5) ਔਫਲਾਈਨ ਮੁਲਾਂਕਣ: ਮੈਟ੍ਰਿਕਸ ਜਿਸਦਾ ਕੁਝ ਮਤਲਬ ਹੈ 📏
ਮੈਟ੍ਰਿਕ ਠੀਕ ਹਨ। ਮੈਟ੍ਰਿਕ ਮੋਨੋਕਲਚਰ ਨਹੀਂ ਹੈ।.
ਵਰਗੀਕਰਨ (ਸਪੈਮ, ਧੋਖਾਧੜੀ, ਇਰਾਦਾ, ਟ੍ਰਾਈਏਜ)
ਸ਼ੁੱਧਤਾ ਤੋਂ ਵੱਧ ਵਰਤੋਂ।.
-
ਸ਼ੁੱਧਤਾ, ਯਾਦ, F1
-
ਥ੍ਰੈਸ਼ਹੋਲਡ ਟਿਊਨਿੰਗ (ਤੁਹਾਡੀ ਡਿਫਾਲਟ ਥ੍ਰੈਸ਼ਹੋਲਡ ਤੁਹਾਡੀਆਂ ਲਾਗਤਾਂ ਲਈ ਬਹੁਤ ਘੱਟ "ਸਹੀ" ਹੁੰਦੀ ਹੈ) [4]
-
ਪ੍ਰਤੀ ਖੰਡ ਉਲਝਣ ਮੈਟ੍ਰਿਕਸ (ਖੇਤਰ, ਡਿਵਾਈਸ ਕਿਸਮ, ਉਪਭੋਗਤਾ ਸਮੂਹ)
ਰਿਗਰੈਸ਼ਨ (ਪੂਰਵ ਅਨੁਮਾਨ, ਕੀਮਤ, ਸਕੋਰਿੰਗ)
-
MAE / RMSE (ਤੁਸੀਂ ਗਲਤੀਆਂ ਨੂੰ ਕਿਵੇਂ ਸਜ਼ਾ ਦੇਣਾ ਚਾਹੁੰਦੇ ਹੋ ਇਸ ਦੇ ਆਧਾਰ 'ਤੇ ਚੁਣੋ)
-
ਕੈਲੀਬ੍ਰੇਸ਼ਨ-ਇਸ਼ ਜਾਂਚ ਕਰਦਾ ਹੈ ਜਦੋਂ ਆਉਟਪੁੱਟ ਨੂੰ "ਸਕੋਰ" ਵਜੋਂ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ (ਕੀ ਸਕੋਰ ਅਸਲੀਅਤ ਨਾਲ ਮੇਲ ਖਾਂਦੇ ਹਨ?)
ਦਰਜਾਬੰਦੀ / ਸਿਫ਼ਾਰਸ਼ਕਰਤਾ ਸਿਸਟਮ
-
ਐਨਡੀਸੀਜੀ, ਐਮਏਪੀ, ਐਮਆਰਆਰ
-
ਪੁੱਛਗਿੱਛ ਕਿਸਮ ਅਨੁਸਾਰ ਟੁਕੜਾ (ਸਿਰ ਬਨਾਮ ਪੂਛ)
ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ
-
mAP, IoU
-
ਪ੍ਰਤੀ-ਕਲਾਸ ਪ੍ਰਦਰਸ਼ਨ (ਦੁਰਲੱਭ ਕਲਾਸਾਂ ਉਹ ਹੁੰਦੀਆਂ ਹਨ ਜਿੱਥੇ ਮਾਡਲ ਤੁਹਾਨੂੰ ਸ਼ਰਮਿੰਦਾ ਕਰਦੇ ਹਨ)
ਜਨਰੇਟਿਵ ਮਾਡਲ (LLMs)
ਇਹੀ ਉਹ ਥਾਂ ਹੈ ਜਿੱਥੇ ਲੋਕ... ਦਾਰਸ਼ਨਿਕ 😵💫 ਪ੍ਰਾਪਤ ਕਰਦੇ ਹਨ
ਵਿਹਾਰਕ ਵਿਕਲਪ ਜੋ ਅਸਲ ਟੀਮਾਂ ਵਿੱਚ ਕੰਮ ਕਰਦੇ ਹਨ:
-
ਮਨੁੱਖੀ ਮੁਲਾਂਕਣ (ਸਭ ਤੋਂ ਵਧੀਆ ਸਿਗਨਲ, ਸਭ ਤੋਂ ਹੌਲੀ ਲੂਪ)
-
ਜੋੜੇ ਅਨੁਸਾਰ ਤਰਜੀਹ / ਜਿੱਤ-ਦਰ (ਏ ਬਨਾਮ ਬੀ, ਸੰਪੂਰਨ ਸਕੋਰਿੰਗ ਨਾਲੋਂ ਸੌਖਾ ਹੈ)
-
ਆਟੋਮੇਟਿਡ ਟੈਕਸਟ ਮੈਟ੍ਰਿਕਸ (ਕੁਝ ਕੰਮਾਂ ਲਈ ਸੌਖਾ, ਦੂਜਿਆਂ ਲਈ ਗੁੰਮਰਾਹਕੁੰਨ)
-
ਕਾਰਜ-ਅਧਾਰਤ ਜਾਂਚਾਂ: “ਕੀ ਇਸਨੇ ਸਹੀ ਖੇਤਰ ਕੱਢੇ?” “ਕੀ ਇਸਨੇ ਨੀਤੀ ਦੀ ਪਾਲਣਾ ਕੀਤੀ?” “ਕੀ ਇਸਨੇ ਲੋੜ ਪੈਣ 'ਤੇ ਸਰੋਤਾਂ ਦਾ ਹਵਾਲਾ ਦਿੱਤਾ?”
ਜੇਕਰ ਤੁਸੀਂ ਇੱਕ ਢਾਂਚਾਗਤ "ਮਲਟੀ-ਮੈਟ੍ਰਿਕ, ਕਈ-ਦ੍ਰਿਸ਼ਟੀਕੋਣ" ਸੰਦਰਭ ਬਿੰਦੂ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ HELM ਇੱਕ ਚੰਗਾ ਐਂਕਰ ਹੈ: ਇਹ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਮੁਲਾਂਕਣ ਨੂੰ ਸ਼ੁੱਧਤਾ ਤੋਂ ਪਰੇ ਕੈਲੀਬ੍ਰੇਸ਼ਨ, ਮਜ਼ਬੂਤੀ, ਪੱਖਪਾਤ/ਜ਼ਹਿਰੀਲੇਪਣ, ਅਤੇ ਕੁਸ਼ਲਤਾ ਵਪਾਰ-ਆਫ [5] ਵਰਗੀਆਂ ਚੀਜ਼ਾਂ ਵਿੱਚ ਧੱਕਦਾ ਹੈ।.
ਥੋੜ੍ਹਾ ਜਿਹਾ ਵਿਛੋੜਾ: ਲਿਖਣ ਦੀ ਗੁਣਵੱਤਾ ਲਈ ਸਵੈਚਾਲਿਤ ਮੈਟ੍ਰਿਕਸ ਕਈ ਵਾਰ ਇੱਕ ਸੈਂਡਵਿਚ ਨੂੰ ਤੋਲ ਕੇ ਇਸਦਾ ਨਿਰਣਾ ਕਰਨ ਵਰਗਾ ਮਹਿਸੂਸ ਹੁੰਦਾ ਹੈ। ਇਹ ਕੁਝ ਵੀ ਨਹੀਂ ਹੈ, ਪਰ... ਆਓ 🥪
6) ਮਜ਼ਬੂਤੀ ਟੈਸਟਿੰਗ: ਇਸਨੂੰ ਥੋੜ੍ਹਾ ਜਿਹਾ ਪਸੀਨਾ ਲਿਆਓ 🥵🧪
ਜੇਕਰ ਤੁਹਾਡਾ ਮਾਡਲ ਸਿਰਫ਼ ਸਾਫ਼-ਸੁਥਰੇ ਇਨਪੁਟਸ 'ਤੇ ਕੰਮ ਕਰਦਾ ਹੈ, ਤਾਂ ਇਹ ਅਸਲ ਵਿੱਚ ਇੱਕ ਕੱਚ ਦਾ ਫੁੱਲਦਾਨ ਹੈ। ਸੁੰਦਰ, ਨਾਜ਼ੁਕ, ਮਹਿੰਗਾ।.
ਟੈਸਟ:
-
ਸ਼ੋਰ: ਟਾਈਪਿੰਗ ਦੀਆਂ ਗਲਤੀਆਂ, ਗੁੰਮ ਮੁੱਲ, ਗੈਰ-ਮਿਆਰੀ ਯੂਨੀਕੋਡ, ਫਾਰਮੈਟਿੰਗ ਗਲਤੀਆਂ
-
ਵੰਡ ਤਬਦੀਲੀ: ਨਵੀਆਂ ਉਤਪਾਦ ਸ਼੍ਰੇਣੀਆਂ, ਨਵੀਂ ਭਾਸ਼ਾ, ਨਵੇਂ ਸੈਂਸਰ
-
ਅਤਿਅੰਤ ਮੁੱਲ: ਸੀਮਾ ਤੋਂ ਬਾਹਰ ਦੇ ਨੰਬਰ, ਵਿਸ਼ਾਲ ਪੇਲੋਡ, ਖਾਲੀ ਤਾਰਾਂ
-
"ਵਿਰੋਧੀ-ਭਾਵਨਾ" ਇਨਪੁਟ ਜੋ ਤੁਹਾਡੇ ਸਿਖਲਾਈ ਸੈੱਟ ਵਰਗੇ ਨਹੀਂ ਲੱਗਦੇ ਪਰ ਉਪਭੋਗਤਾਵਾਂ ਵਰਗੇ ਲੱਗਦੇ ਹਨ
LLM ਲਈ, ਸ਼ਾਮਲ ਕਰੋ:
-
ਤੁਰੰਤ ਟੀਕਾ ਲਗਾਉਣ ਦੀਆਂ ਕੋਸ਼ਿਸ਼ਾਂ (ਉਪਭੋਗਤਾ ਸਮੱਗਰੀ ਦੇ ਅੰਦਰ ਲੁਕੀਆਂ ਹਦਾਇਤਾਂ)
-
"ਪਿਛਲੀਆਂ ਹਦਾਇਤਾਂ ਨੂੰ ਅਣਡਿੱਠ ਕਰੋ" ਪੈਟਰਨਾਂ
-
ਟੂਲ-ਵਰਤੋਂ ਵਾਲੇ ਕਿਨਾਰੇ ਦੇ ਮਾਮਲੇ (ਮਾੜੇ URL, ਟਾਈਮਆਉਟ, ਅੰਸ਼ਕ ਆਉਟਪੁੱਟ)
ਮਜ਼ਬੂਤੀ ਉਨ੍ਹਾਂ ਭਰੋਸੇਯੋਗਤਾ ਦੇ ਗੁਣਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ ਜੋ ਘਟਨਾਵਾਂ ਹੋਣ ਤੱਕ ਅਮੂਰਤ ਜਾਪਦੀ ਹੈ। ਫਿਰ ਇਹ... ਬਹੁਤ ਹੀ ਠੋਸ [1] ਬਣ ਜਾਂਦੀ ਹੈ।.
7) ਪੱਖਪਾਤ, ਨਿਰਪੱਖਤਾ, ਅਤੇ ਇਹ ਕਿਸ ਲਈ ਕੰਮ ਕਰਦਾ ਹੈ ⚖️
ਇੱਕ ਮਾਡਲ ਸਮੁੱਚੇ ਤੌਰ 'ਤੇ "ਸਹੀ" ਹੋ ਸਕਦਾ ਹੈ ਜਦੋਂ ਕਿ ਖਾਸ ਸਮੂਹਾਂ ਲਈ ਲਗਾਤਾਰ ਮਾੜਾ ਹੁੰਦਾ ਹੈ। ਇਹ ਕੋਈ ਛੋਟਾ ਬੱਗ ਨਹੀਂ ਹੈ। ਇਹ ਇੱਕ ਉਤਪਾਦ ਅਤੇ ਵਿਸ਼ਵਾਸ ਦੀ ਸਮੱਸਿਆ ਹੈ।.
ਵਿਹਾਰਕ ਕਦਮ:
-
ਅਰਥਪੂਰਨ ਹਿੱਸਿਆਂ ਦੁਆਰਾ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰੋ (ਕਾਨੂੰਨੀ/ਨੈਤਿਕ ਤੌਰ 'ਤੇ ਮਾਪਣ ਲਈ ਢੁਕਵਾਂ)
-
ਸਮੂਹਾਂ ਵਿੱਚ ਗਲਤੀ ਦਰਾਂ ਅਤੇ ਕੈਲੀਬ੍ਰੇਸ਼ਨ ਦੀ ਤੁਲਨਾ ਕਰੋ।
-
ਪ੍ਰੌਕਸੀ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ (ਜ਼ਿਪ ਕੋਡ, ਡਿਵਾਈਸ ਕਿਸਮ, ਭਾਸ਼ਾ) ਲਈ ਟੈਸਟ ਕਰੋ ਜੋ ਸੰਵੇਦਨਸ਼ੀਲ ਗੁਣਾਂ ਨੂੰ ਏਨਕੋਡ ਕਰ ਸਕਦੀਆਂ ਹਨ।
ਜੇਕਰ ਤੁਸੀਂ ਇਸਨੂੰ ਕਿਤੇ ਦਸਤਾਵੇਜ਼ੀ ਰੂਪ ਨਹੀਂ ਦੇ ਰਹੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਅਸਲ ਵਿੱਚ ਭਵਿੱਖ ਨੂੰ ਕਹਿ ਰਹੇ ਹੋ - ਤੁਹਾਨੂੰ ਬਿਨਾਂ ਨਕਸ਼ੇ ਦੇ ਇੱਕ ਟਰੱਸਟ ਸੰਕਟ ਨੂੰ ਡੀਬੱਗ ਕਰਨ ਲਈ। ਮਾਡਲ ਕਾਰਡ ਇਸਨੂੰ ਰੱਖਣ ਲਈ ਇੱਕ ਠੋਸ ਜਗ੍ਹਾ ਹਨ [2], ਅਤੇ NIST ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਫਰੇਮਿੰਗ ਤੁਹਾਨੂੰ ਇੱਕ ਮਜ਼ਬੂਤ ਚੈੱਕਲਿਸਟ ਦਿੰਦੀ ਹੈ ਕਿ "ਚੰਗੇ" ਵਿੱਚ ਕੀ ਸ਼ਾਮਲ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ [1]।.
8) ਸੁਰੱਖਿਆ ਅਤੇ ਸੁਰੱਖਿਆ ਜਾਂਚ (ਖਾਸ ਕਰਕੇ LLM ਲਈ) 🛡️
ਜੇਕਰ ਤੁਹਾਡਾ ਮਾਡਲ ਸਮੱਗਰੀ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ, ਤਾਂ ਤੁਸੀਂ ਸ਼ੁੱਧਤਾ ਤੋਂ ਵੱਧ ਜਾਂਚ ਕਰ ਰਹੇ ਹੋ। ਤੁਸੀਂ ਵਿਵਹਾਰ ਦੀ ਜਾਂਚ ਕਰ ਰਹੇ ਹੋ।.
ਇਹਨਾਂ ਲਈ ਟੈਸਟ ਸ਼ਾਮਲ ਕਰੋ:
-
ਸਮੱਗਰੀ ਤਿਆਰ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਨਹੀਂ (ਨੀਤੀ ਦੀਆਂ ਉਲੰਘਣਾਵਾਂ)
-
ਗੋਪਨੀਯਤਾ ਲੀਕ ਹੋਣਾ (ਕੀ ਇਹ ਰਾਜ਼ਾਂ ਦੀ ਗੂੰਜ ਹੈ?)
-
ਉੱਚ-ਦਾਅ ਵਾਲੇ ਖੇਤਰਾਂ ਵਿੱਚ ਭਰਮ
-
ਬਹੁਤ ਜ਼ਿਆਦਾ ਇਨਕਾਰ (ਮਾਡਲ ਆਮ ਬੇਨਤੀਆਂ ਤੋਂ ਇਨਕਾਰ ਕਰਦਾ ਹੈ)
-
ਜ਼ਹਿਰੀਲੇਪਣ ਅਤੇ ਪਰੇਸ਼ਾਨੀ ਦੇ ਨਤੀਜੇ
-
ਪ੍ਰੋਂਪਟ ਇੰਜੈਕਸ਼ਨ ਦੁਆਰਾ ਡੇਟਾ ਐਕਸਫਿਲਟਰੇਸ਼ਨ ਦੀਆਂ ਕੋਸ਼ਿਸ਼ਾਂ
ਇੱਕ ਜ਼ਮੀਨੀ ਪਹੁੰਚ ਇਹ ਹੈ: ਨੀਤੀ ਨਿਯਮਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ → ਟੈਸਟ ਪ੍ਰੋਂਪਟ ਬਣਾਓ → ਮਨੁੱਖੀ + ਸਵੈਚਾਲਿਤ ਜਾਂਚਾਂ ਨਾਲ ਸਕੋਰ ਆਉਟਪੁੱਟ → ਹਰ ਵਾਰ ਜਦੋਂ ਕੁਝ ਵੀ ਬਦਲਦਾ ਹੈ ਤਾਂ ਇਸਨੂੰ ਚਲਾਓ। ਉਹ "ਹਰ ਵਾਰ" ਹਿੱਸਾ ਕਿਰਾਇਆ ਹੈ।.
ਇਹ ਜੀਵਨਚੱਕਰ ਜੋਖਮ ਮਾਨਸਿਕਤਾ ਵਿੱਚ ਚੰਗੀ ਤਰ੍ਹਾਂ ਫਿੱਟ ਬੈਠਦਾ ਹੈ: ਸ਼ਾਸਨ ਕਰੋ, ਸੰਦਰਭ ਦਾ ਨਕਸ਼ਾ ਬਣਾਓ, ਮਾਪੋ, ਪ੍ਰਬੰਧ ਕਰੋ, ਦੁਹਰਾਓ [1]।.
9) ਔਨਲਾਈਨ ਟੈਸਟਿੰਗ: ਸਟੇਜਡ ਰੋਲਆਉਟ (ਜਿੱਥੇ ਸੱਚ ਰਹਿੰਦਾ ਹੈ) 🚀
ਔਫਲਾਈਨ ਟੈਸਟ ਜ਼ਰੂਰੀ ਹਨ। ਔਨਲਾਈਨ ਐਕਸਪੋਜਰ ਉਹ ਥਾਂ ਹੈ ਜਿੱਥੇ ਅਸਲੀਅਤ ਚਿੱਕੜ ਵਾਲੇ ਜੁੱਤੇ ਪਾ ਕੇ ਦਿਖਾਈ ਦਿੰਦੀ ਹੈ।.
ਤੁਹਾਨੂੰ ਫੈਂਸੀ ਹੋਣ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ। ਤੁਹਾਨੂੰ ਸਿਰਫ਼ ਅਨੁਸ਼ਾਸਿਤ ਹੋਣ ਦੀ ਲੋੜ ਹੈ:
-
ਸ਼ੈਡੋ ਮੋਡ ਵਿੱਚ ਚਲਾਓ (ਮਾਡਲ ਚੱਲਦਾ ਹੈ, ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਨਹੀਂ ਕਰਦਾ)
-
ਹੌਲੀ-ਹੌਲੀ ਰੋਲਆਊਟ (ਪਹਿਲਾਂ ਘੱਟ ਟ੍ਰੈਫਿਕ, ਜੇਕਰ ਠੀਕ ਹੋਵੇ ਤਾਂ ਫੈਲਾਓ)
-
ਨਤੀਜਿਆਂ ਅਤੇ ਘਟਨਾਵਾਂ ਨੂੰ ਟਰੈਕ ਕਰੋ (ਸ਼ਿਕਾਇਤਾਂ, ਵਾਧਾ, ਨੀਤੀ ਅਸਫਲਤਾਵਾਂ)
ਭਾਵੇਂ ਤੁਸੀਂ ਤੁਰੰਤ ਲੇਬਲ ਪ੍ਰਾਪਤ ਨਹੀਂ ਕਰ ਸਕਦੇ, ਤੁਸੀਂ ਪ੍ਰੌਕਸੀ ਸਿਗਨਲਾਂ ਅਤੇ ਕਾਰਜਸ਼ੀਲ ਸਿਹਤ (ਲੇਟੈਂਸੀ, ਅਸਫਲਤਾ ਦਰਾਂ, ਲਾਗਤ) ਦੀ ਨਿਗਰਾਨੀ ਕਰ ਸਕਦੇ ਹੋ। ਮੁੱਖ ਨੁਕਤਾ: ਤੁਸੀਂ ਆਪਣੇ ਪੂਰੇ ਉਪਭੋਗਤਾ ਅਧਾਰ [1] ਤੋਂ ਪਹਿਲਾਂ
10) ਤੈਨਾਤੀ ਤੋਂ ਬਾਅਦ ਨਿਗਰਾਨੀ: ਵਹਿਣਾ, ਸੜਨਾ, ਅਤੇ ਸ਼ਾਂਤ ਅਸਫਲਤਾ 📉👀
ਜਿਸ ਮਾਡਲ ਦੀ ਤੁਸੀਂ ਜਾਂਚ ਕੀਤੀ ਹੈ ਉਹ ਉਹ ਮਾਡਲ ਨਹੀਂ ਹੈ ਜਿਸਦੇ ਨਾਲ ਤੁਸੀਂ ਜੀਉਂਦੇ ਹੋ। ਡੇਟਾ ਬਦਲਦਾ ਹੈ। ਉਪਭੋਗਤਾ ਬਦਲਦੇ ਹਨ। ਦੁਨੀਆ ਬਦਲਦੀ ਹੈ। ਪਾਈਪਲਾਈਨ ਸਵੇਰੇ 2 ਵਜੇ ਟੁੱਟ ਜਾਂਦੀ ਹੈ। ਤੁਸੀਂ ਜਾਣਦੇ ਹੋ ਕਿ ਇਹ ਕਿਵੇਂ ਹੈ..
ਮਾਨੀਟਰ:
-
ਇਨਪੁੱਟ ਡੇਟਾ ਡ੍ਰਿਫਟ (ਸਕੀਮ ਵਿੱਚ ਬਦਲਾਅ, ਗੁੰਮ ਹੋਣਾ, ਵੰਡ ਵਿੱਚ ਬਦਲਾਅ)
-
ਆਉਟਪੁੱਟ ਡ੍ਰਿਫਟ (ਕਲਾਸ ਬੈਲੇਂਸ ਸ਼ਿਫਟ, ਸਕੋਰ ਸ਼ਿਫਟ)
-
ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰੌਕਸੀਆਂ (ਕਿਉਂਕਿ ਲੇਬਲ ਦੇਰੀ ਅਸਲ ਹਨ)
-
ਫੀਡਬੈਕ ਸਿਗਨਲ (ਥੰਬਸ ਡਾਊਨ, ਰੀ-ਐਡਿਟ, ਐਸਕੇਲੇਸ਼ਨ)
-
ਸੈਗਮੈਂਟ-ਪੱਧਰ ਦੇ ਰਿਗਰੈਸ਼ਨ (ਚੁੱਪ ਕਾਤਲ)
ਅਤੇ ਚੇਤਾਵਨੀ ਦੀਆਂ ਹੱਦਾਂ ਸੈੱਟ ਕਰੋ ਜੋ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹਿੱਲਣ ਵਾਲੀਆਂ ਨਾ ਹੋਣ। ਇੱਕ ਮਾਨੀਟਰ ਜੋ ਲਗਾਤਾਰ ਚੀਕਦਾ ਰਹਿੰਦਾ ਹੈ, ਉਸਨੂੰ ਅਣਡਿੱਠਾ ਕਰ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ - ਜਿਵੇਂ ਕਿਸੇ ਸ਼ਹਿਰ ਵਿੱਚ ਕਾਰ ਅਲਾਰਮ।.
ਜੇਕਰ ਤੁਸੀਂ ਭਰੋਸੇਯੋਗਤਾ ਦੀ ਪਰਵਾਹ ਕਰਦੇ ਹੋ ਤਾਂ ਇਹ "ਮਾਨੀਟਰ + ਸਮੇਂ ਦੇ ਨਾਲ ਸੁਧਾਰ" ਲੂਪ ਵਿਕਲਪਿਕ ਨਹੀਂ ਹੈ [1]।.
11) ਇੱਕ ਵਿਹਾਰਕ ਵਰਕਫਲੋ ਜਿਸਦੀ ਤੁਸੀਂ ਨਕਲ ਕਰ ਸਕਦੇ ਹੋ 🧩
ਇੱਥੇ ਇੱਕ ਸਧਾਰਨ ਲੂਪ ਹੈ ਜੋ ਸਕੇਲ ਕਰਦਾ ਹੈ:
-
ਸਫਲਤਾ + ਅਸਫਲਤਾ ਮੋਡ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ (ਲਾਗਤ/ਲੇਟੈਂਸੀ/ਸੁਰੱਖਿਆ ਸਮੇਤ) [1]
-
ਡੇਟਾਸੈੱਟ ਬਣਾਓ:
-
ਸੁਨਹਿਰੀ ਸੈੱਟ
-
ਐਜ-ਕੇਸ ਪੈਕ
-
ਹਾਲੀਆ ਅਸਲ ਨਮੂਨੇ (ਗੋਪਨੀਯਤਾ-ਸੁਰੱਖਿਅਤ)
-
-
ਮੈਟ੍ਰਿਕਸ ਚੁਣੋ:
-
ਟਾਸਕ ਮੈਟ੍ਰਿਕਸ (F1, MAE, ਜਿੱਤ-ਦਰ) [4][5]
-
ਸੁਰੱਖਿਆ ਮੈਟ੍ਰਿਕਸ (ਪਾਲਿਸੀ ਪਾਸ ਦਰ) [1][5]
-
ਕਾਰਜਸ਼ੀਲ ਮਾਪਦੰਡ (ਲੇਟੈਂਸੀ, ਲਾਗਤ)
-
-
ਇੱਕ ਮੁਲਾਂਕਣ ਹਾਰਨੈੱਸ ਬਣਾਓ (ਹਰੇਕ ਮਾਡਲ/ਪ੍ਰੌਮਪਟ ਤਬਦੀਲੀ 'ਤੇ ਚੱਲਦਾ ਹੈ) [4][5]
-
ਤਣਾਅ ਟੈਸਟ + ਵਿਰੋਧੀ-ਭਾਵ ਟੈਸਟ ਸ਼ਾਮਲ ਕਰੋ [1][5]
-
ਇੱਕ ਨਮੂਨੇ ਲਈ ਮਨੁੱਖੀ ਸਮੀਖਿਆ (ਖਾਸ ਕਰਕੇ LLM ਆਉਟਪੁੱਟ ਲਈ) [5]
-
ਸ਼ੈਡੋ ਰਾਹੀਂ ਭੇਜੋ + ਸਟੇਜਡ ਰੋਲਆਊਟ [1]
-
ਨਿਗਰਾਨੀ + ਸੁਚੇਤ + ਅਨੁਸ਼ਾਸਨ ਨਾਲ ਮੁੜ ਸਿਖਲਾਈ [1]
-
ਦਸਤਾਵੇਜ਼ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇੱਕ ਮਾਡਲ-ਕਾਰਡ ਸ਼ੈਲੀ ਦੀ ਲਿਖਤ ਹੁੰਦੀ ਹੈ [2][3]
ਸਿਖਲਾਈ ਬਹੁਤ ਹੀ ਸ਼ਾਨਦਾਰ ਹੈ। ਟੈਸਟਿੰਗ ਕਿਰਾਏ 'ਤੇ ਦੇਣ ਵਾਲੀ ਹੈ।.
12) ਸਮਾਪਤੀ ਨੋਟਸ + ਤੇਜ਼ ਸੰਖੇਪ 🧠✨
AI ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਬਾਰੇ ਕੁਝ ਗੱਲਾਂ ਯਾਦ ਹਨ :
-
ਪ੍ਰਤੀਨਿਧੀ ਟੈਸਟ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰੋ ਅਤੇ ਲੀਕੇਜ ਤੋਂ ਬਚੋ [4]
-
ਅਸਲ ਨਤੀਜਿਆਂ ਨਾਲ ਜੁੜੇ ਕਈ ਮੈਟ੍ਰਿਕਸ ਚੁਣੋ
-
LLM ਲਈ, ਮਨੁੱਖੀ ਸਮੀਖਿਆ + ਜਿੱਤ-ਦਰ ਸ਼ੈਲੀ ਤੁਲਨਾਵਾਂ ' [5]
-
ਟੈਸਟ ਮਜ਼ਬੂਤੀ - ਅਸਾਧਾਰਨ ਇਨਪੁਟ ਭੇਸ ਵਿੱਚ ਆਮ ਇਨਪੁਟ ਹੁੰਦੇ ਹਨ [1]
-
ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਰੋਲ ਆਊਟ ਕਰੋ ਅਤੇ ਨਿਗਰਾਨੀ ਕਰੋ, ਕਿਉਂਕਿ ਮਾਡਲ ਡ੍ਰਿਫਟ ਹੁੰਦੇ ਹਨ ਅਤੇ ਪਾਈਪਲਾਈਨਾਂ ਟੁੱਟ ਜਾਂਦੀਆਂ ਹਨ [1]
-
ਤੁਸੀਂ ਕੀ ਕੀਤਾ ਅਤੇ ਕੀ ਨਹੀਂ ਟੈਸਟ ਕੀਤਾ, ਉਸਦਾ ਦਸਤਾਵੇਜ਼ ਬਣਾਓ (ਬੇਆਰਾਮਦਾਇਕ ਪਰ ਸ਼ਕਤੀਸ਼ਾਲੀ) [2][3]
ਟੈਸਟਿੰਗ ਸਿਰਫ਼ "ਇਹ ਸਾਬਤ ਕਰਨਾ ਨਹੀਂ ਹੈ ਕਿ ਇਹ ਕੰਮ ਕਰਦਾ ਹੈ।" ਇਹ "ਆਪਣੇ ਉਪਭੋਗਤਾਵਾਂ ਦੇ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਪਤਾ ਲਗਾਉਣਾ ਹੈ ਕਿ ਇਹ ਕਿਵੇਂ ਅਸਫਲ ਹੁੰਦਾ ਹੈ।" ਅਤੇ ਹਾਂ, ਇਹ ਘੱਟ ਸੈਕਸੀ ਹੈ - ਪਰ ਇਹ ਉਹ ਹਿੱਸਾ ਹੈ ਜੋ ਤੁਹਾਡੇ ਸਿਸਟਮ ਨੂੰ ਖੜ੍ਹਾ ਰੱਖਦਾ ਹੈ ਜਦੋਂ ਚੀਜ਼ਾਂ ਡਗਮਗਾ ਜਾਂਦੀਆਂ ਹਨ... 🧱🙂
ਹਵਾਲੇ
[1] NIST - ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਰਿਸਕ ਮੈਨੇਜਮੈਂਟ ਫਰੇਮਵਰਕ (AI RMF 1.0) (PDF)
[2] ਮਿਸ਼ੇਲ ਅਤੇ ਹੋਰ - "ਮਾਡਲ ਰਿਪੋਰਟਿੰਗ ਲਈ ਮਾਡਲ ਕਾਰਡ" (arXiv:1810.03993)
[3] ਗੇਬਰੂ ਅਤੇ ਹੋਰ - "ਡੇਟਾਸੈਟਾਂ ਲਈ ਡੇਟਾਸ਼ੀਟਾਂ" (arXiv:1803.09010)
[4] scikit-learn - "ਮਾਡਲ ਚੋਣ ਅਤੇ ਮੁਲਾਂਕਣ" ਦਸਤਾਵੇਜ਼
[5] ਲਿਆਂਗ ਅਤੇ ਹੋਰ - "ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦਾ ਸੰਪੂਰਨ ਮੁਲਾਂਕਣ" (arXiv:2211.09110)