ਛੋਟਾ ਜਵਾਬ: ਇੱਕ AI ਮਾਡਲ ਨੂੰ ਤੈਨਾਤ ਕਰਨ ਦਾ ਮਤਲਬ ਹੈ ਇੱਕ ਸਰਵਿੰਗ ਪੈਟਰਨ (ਰੀਅਲ-ਟਾਈਮ, ਬੈਚ, ਸਟ੍ਰੀਮਿੰਗ, ਜਾਂ ਐਜ) ਚੁਣਨਾ, ਫਿਰ ਪੂਰੇ ਮਾਰਗ ਨੂੰ ਦੁਬਾਰਾ ਪੈਦਾ ਕਰਨ ਯੋਗ, ਦੇਖਣਯੋਗ, ਸੁਰੱਖਿਅਤ ਅਤੇ ਉਲਟਾਉਣਾ। ਜਦੋਂ ਤੁਸੀਂ ਉਤਪਾਦਨ ਵਰਗੇ ਪੇਲੋਡਾਂ 'ਤੇ ਹਰ ਚੀਜ਼ ਦਾ ਸੰਸਕਰਣ ਕਰਦੇ ਹੋ ਅਤੇ ਬੈਂਚਮਾਰਕ p95/p99 ਲੇਟੈਂਸੀ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਜ਼ਿਆਦਾਤਰ "ਮੇਰੇ ਲੈਪਟਾਪ 'ਤੇ ਕੰਮ" ਅਸਫਲਤਾਵਾਂ ਨੂੰ ਛੱਡ ਦਿੰਦੇ ਹੋ।
ਮੁੱਖ ਗੱਲਾਂ:
ਡਿਪਲਾਇਮੈਂਟ ਪੈਟਰਨ: ਟੂਲਸ ਨਾਲ ਜੁੜਨ ਤੋਂ ਪਹਿਲਾਂ ਰੀਅਲ-ਟਾਈਮ, ਬੈਚ, ਸਟ੍ਰੀਮਿੰਗ, ਜਾਂ ਐਜ ਚੁਣੋ।
ਪ੍ਰਜਨਨਯੋਗਤਾ: ਡ੍ਰਿਫਟ ਨੂੰ ਰੋਕਣ ਲਈ ਮਾਡਲ, ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ, ਕੋਡ ਅਤੇ ਵਾਤਾਵਰਣ ਦਾ ਸੰਸਕਰਣ ਕਰੋ।
ਨਿਰੀਖਣਯੋਗਤਾ: ਲੇਟੈਂਸੀ ਟੇਲਾਂ, ਗਲਤੀਆਂ, ਸੰਤ੍ਰਿਪਤਾ, ਅਤੇ ਡੇਟਾ ਜਾਂ ਆਉਟਪੁੱਟ ਵੰਡਾਂ ਦੀ ਨਿਰੰਤਰ ਨਿਗਰਾਨੀ ਕਰੋ।
ਸੁਰੱਖਿਅਤ ਰੋਲਆਉਟ: ਆਟੋਮੈਟਿਕ ਰੋਲਬੈਕ ਥ੍ਰੈਸ਼ਹੋਲਡ ਦੇ ਨਾਲ ਕੈਨਰੀ, ਨੀਲਾ-ਹਰਾ, ਜਾਂ ਸ਼ੈਡੋ ਟੈਸਟਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰੋ।
ਸੁਰੱਖਿਆ ਅਤੇ ਗੋਪਨੀਯਤਾ: ਪ੍ਰਮਾਣੀਕਰਨ, ਦਰ ਸੀਮਾਵਾਂ, ਅਤੇ ਗੁਪਤ ਪ੍ਰਬੰਧਨ ਲਾਗੂ ਕਰੋ, ਅਤੇ ਲੌਗਾਂ ਵਿੱਚ PII ਨੂੰ ਘੱਟ ਤੋਂ ਘੱਟ ਕਰੋ।

ਇਸ ਤੋਂ ਬਾਅਦ ਤੁਸੀਂ ਜੋ ਲੇਖ ਪੜ੍ਹਨਾ ਪਸੰਦ ਕਰ ਸਕਦੇ ਹੋ:
🔗 ਏਆਈ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਕਿਵੇਂ ਮਾਪਣਾ ਹੈ
ਭਰੋਸੇਯੋਗ AI ਨਤੀਜਿਆਂ ਲਈ ਮੈਟ੍ਰਿਕਸ, ਬੈਂਚਮਾਰਕ ਅਤੇ ਅਸਲ-ਸੰਸਾਰ ਜਾਂਚਾਂ ਸਿੱਖੋ।.
🔗 ਏਆਈ ਨਾਲ ਕੰਮਾਂ ਨੂੰ ਸਵੈਚਾਲਿਤ ਕਿਵੇਂ ਕਰੀਏ
ਪ੍ਰੋਂਪਟ, ਟੂਲਸ ਅਤੇ ਏਕੀਕਰਣ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਦੁਹਰਾਉਣ ਵਾਲੇ ਕੰਮ ਨੂੰ ਵਰਕਫਲੋ ਵਿੱਚ ਬਦਲੋ।.
🔗 ਏਆਈ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕਿਵੇਂ ਕਰੀਏ
ਮਾਡਲਾਂ ਦੀ ਨਿਰਪੱਖਤਾ ਨਾਲ ਤੁਲਨਾ ਕਰਨ ਲਈ ਡਿਜ਼ਾਈਨ ਮੁਲਾਂਕਣ, ਡੇਟਾਸੈੱਟ ਅਤੇ ਸਕੋਰਿੰਗ।.
🔗 ਏਆਈ ਨਾਲ ਕਿਵੇਂ ਗੱਲ ਕਰੀਏ
ਬਿਹਤਰ ਸਵਾਲ ਪੁੱਛੋ, ਸੰਦਰਭ ਸੈੱਟ ਕਰੋ, ਅਤੇ ਤੇਜ਼ੀ ਨਾਲ ਸਪਸ਼ਟ ਜਵਾਬ ਪ੍ਰਾਪਤ ਕਰੋ।.
1) "ਤੈਨਾਤੀ" ਦਾ ਅਸਲ ਅਰਥ ਕੀ ਹੈ (ਅਤੇ ਇਹ ਸਿਰਫ਼ ਇੱਕ API ਕਿਉਂ ਨਹੀਂ ਹੈ) 🧩
ਜਦੋਂ ਲੋਕ ਕਹਿੰਦੇ ਹਨ "ਮਾਡਲ ਨੂੰ ਤੈਨਾਤ ਕਰੋ," ਤਾਂ ਉਹਨਾਂ ਦਾ ਮਤਲਬ ਇਹਨਾਂ ਵਿੱਚੋਂ ਕੋਈ ਵੀ ਹੋ ਸਕਦਾ ਹੈ:
-
ਇੱਕ ਐਂਡਪੁਆਇੰਟ ਨੂੰ ਐਕਸਪੋਜ਼ ਕਰੋ ਤਾਂ ਜੋ ਇੱਕ ਐਪ ਰੀਅਲ ਟਾਈਮ ਵਿੱਚ ਇਨਫਰੈਂਸ ਕਾਲ ਕਰ ਸਕੇ ( ਵਰਟੈਕਸ ਏਆਈ: ਇੱਕ ਮਾਡਲ ਨੂੰ ਇੱਕ ਐਂਡਪੁਆਇੰਟ ਵਿੱਚ ਡਿਪਲਾਇ ਕਰੋ , ਐਮਾਜ਼ਾਨ ਸੇਜਮੇਕਰ: ਰੀਅਲ-ਟਾਈਮ ਇਨਫਰੈਂਸ )
-
ਡੇਟਾਬੇਸ ਵਿੱਚ ਪੂਰਵ-ਅਨੁਮਾਨਾਂ ਨੂੰ ਅਪਡੇਟ ਕਰਨ ਲਈ ਹਰ ਰਾਤ ਬੈਚ ਸਕੋਰਿੰਗ ਚਲਾਓ Amazon SageMaker Batch Transform )
-
ਸਟ੍ਰੀਮ ਅਨੁਮਾਨ (ਘਟਨਾਵਾਂ ਲਗਾਤਾਰ ਆਉਂਦੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ, ਭਵਿੱਖਬਾਣੀਆਂ ਲਗਾਤਾਰ ਹੁੰਦੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ) ( ਕਲਾਉਡ ਡੇਟਾਫਲੋ: ਬਿਲਕੁਲ ਇੱਕ ਵਾਰ ਬਨਾਮ ਘੱਟੋ ਘੱਟ ਇੱਕ ਵਾਰ , ਕਲਾਉਡ ਡੇਟਾਫਲੋ ਸਟ੍ਰੀਮਿੰਗ ਮੋਡ )
-
ਐਜ ਡਿਪਲਾਇਮੈਂਟ (ਫੋਨ, ਬ੍ਰਾਊਜ਼ਰ, ਏਮਬੈਡਡ ਡਿਵਾਈਸ, ਜਾਂ "ਫੈਕਟਰੀ ਵਿੱਚ ਉਹ ਛੋਟਾ ਜਿਹਾ ਬਾਕਸ") ( LiterRT ਔਨ-ਡਿਵਾਈਸ ਇਨਫਰੈਂਸ , LiterRT ਸੰਖੇਪ ਜਾਣਕਾਰੀ )
-
ਅੰਦਰੂਨੀ ਟੂਲ ਤੈਨਾਤੀ (ਵਿਸ਼ਲੇਸ਼ਕ-ਮੁਖੀ UI, ਨੋਟਬੁੱਕ, ਜਾਂ ਸ਼ਡਿਊਲਡ ਸਕ੍ਰਿਪਟਾਂ)
ਇਸ ਲਈ ਤੈਨਾਤੀ ਘੱਟ "ਮਾਡਲ ਨੂੰ ਪਹੁੰਚਯੋਗ ਬਣਾਓ" ਅਤੇ ਵਧੇਰੇ ਇਸ ਤਰ੍ਹਾਂ ਹੈ:
-
ਪੈਕੇਜਿੰਗ + ਸਰਵਿੰਗ + ਸਕੇਲਿੰਗ + ਨਿਗਰਾਨੀ + ਸ਼ਾਸਨ + ਰੋਲਬੈਕ ( ਨੀਲਾ-ਹਰਾ ਤੈਨਾਤੀ )
ਇਹ ਇੱਕ ਰੈਸਟੋਰੈਂਟ ਖੋਲ੍ਹਣ ਵਰਗਾ ਹੈ। ਇੱਕ ਵਧੀਆ ਪਕਵਾਨ ਬਣਾਉਣਾ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਯਕੀਨਨ। ਪਰ ਤੁਹਾਨੂੰ ਅਜੇ ਵੀ ਇਮਾਰਤ, ਸਟਾਫ, ਰੈਫ੍ਰਿਜਰੇਸ਼ਨ, ਮੀਨੂ, ਸਪਲਾਈ ਚੇਨ, ਅਤੇ ਵਾਕ-ਇਨ ਫ੍ਰੀਜ਼ਰ ਵਿੱਚ ਰੋਏ ਬਿਨਾਂ ਰਾਤ ਦੇ ਖਾਣੇ ਦੀ ਭੀੜ ਨੂੰ ਸੰਭਾਲਣ ਦਾ ਇੱਕ ਤਰੀਕਾ ਚਾਹੀਦਾ ਹੈ। ਇਹ ਇੱਕ ਸੰਪੂਰਨ ਰੂਪਕ ਨਹੀਂ ਹੈ... ਪਰ ਤੁਸੀਂ ਇਹ ਸਮਝਦੇ ਹੋ। 🍝
2) “AI ਮਾਡਲਾਂ ਨੂੰ ਕਿਵੇਂ ਤੈਨਾਤ ਕਰਨਾ ਹੈ” ਦਾ ਇੱਕ ਚੰਗਾ ਸੰਸਕਰਣ ਕੀ ਬਣਾਉਂਦਾ ਹੈ ✅
ਇੱਕ "ਚੰਗੀ ਤੈਨਾਤੀ" ਸਭ ਤੋਂ ਵਧੀਆ ਤਰੀਕੇ ਨਾਲ ਬੋਰਿੰਗ ਹੁੰਦੀ ਹੈ। ਇਹ ਦਬਾਅ ਹੇਠ ਅਨੁਮਾਨਤ ਤੌਰ 'ਤੇ ਵਿਵਹਾਰ ਕਰਦਾ ਹੈ, ਅਤੇ ਜਦੋਂ ਇਹ ਨਹੀਂ ਹੁੰਦਾ, ਤਾਂ ਤੁਸੀਂ ਇਸਦਾ ਜਲਦੀ ਨਿਦਾਨ ਕਰ ਸਕਦੇ ਹੋ।.
ਇੱਥੇ "ਚੰਗਾ" ਆਮ ਤੌਰ 'ਤੇ ਇਸ ਤਰ੍ਹਾਂ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ:
-
ਰੀਪ੍ਰੋਡਿਊਸੇਬਲ ਬਿਲਡਸ
ਇੱਕੋ ਕੋਡ + ਇੱਕੋ ਨਿਰਭਰਤਾ = ਇੱਕੋ ਵਿਵਹਾਰ। ਕੋਈ ਡਰਾਉਣਾ "ਮੇਰੇ ਲੈਪਟਾਪ 'ਤੇ ਕੰਮ ਨਹੀਂ ਕਰਦਾ" ਵਾਈਬਸ 👻 ( ਡੌਕਰ: ਕੰਟੇਨਰ ਕੀ ਹੁੰਦਾ ਹੈ? ) -
ਸਾਫ਼ ਇੰਟਰਫੇਸ ਕੰਟਰੈਕਟ
ਇਨਪੁੱਟ, ਆਉਟਪੁੱਟ, ਸਕੀਮਾ, ਅਤੇ ਐਜ ਕੇਸ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤੇ ਗਏ ਹਨ। 2am 'ਤੇ ਕੋਈ ਹੈਰਾਨੀ ਵਾਲੀਆਂ ਕਿਸਮਾਂ ਨਹੀਂ। ( OpenAPI: OpenAPI ਕੀ ਹੈ? , JSON ਸਕੀਮਾ ) -
ਅਸਲੀਅਤ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਪ੍ਰਦਰਸ਼ਨ।
ਉਤਪਾਦਨ ਵਰਗੇ ਹਾਰਡਵੇਅਰ ਅਤੇ ਯਥਾਰਥਵਾਦੀ ਪੇਲੋਡਾਂ 'ਤੇ ਮਾਪੀ ਗਈ ਲੇਟੈਂਸੀ ਅਤੇ ਥਰੂਪੁੱਟ। -
ਦੰਦਾਂ ਨਾਲ ਨਿਗਰਾਨੀ
ਮੈਟ੍ਰਿਕਸ, ਲੌਗਸ, ਟਰੇਸ, ਅਤੇ ਡ੍ਰਿਫਟ ਜਾਂਚਾਂ ਜੋ ਕਾਰਵਾਈ ਨੂੰ ਚਾਲੂ ਕਰਦੀਆਂ ਹਨ (ਸਿਰਫ ਡੈਸ਼ਬੋਰਡ ਹੀ ਨਹੀਂ ਜੋ ਕੋਈ ਨਹੀਂ ਖੋਲ੍ਹਦਾ)। ( SRE ਕਿਤਾਬ: ਵੰਡੇ ਗਏ ਸਿਸਟਮਾਂ ਦੀ ਨਿਗਰਾਨੀ ) -
ਸੁਰੱਖਿਅਤ ਰੋਲਆਉਟ ਰਣਨੀਤੀ
ਕੈਨਰੀ ਜਾਂ ਨੀਲਾ-ਹਰਾ, ਆਸਾਨ ਰੋਲਬੈਕ, ਵਰਜਨਿੰਗ ਜਿਸ ਲਈ ਪ੍ਰਾਰਥਨਾ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ। ( ਕੈਨਰੀ ਰਿਲੀਜ਼ , ਨੀਲਾ-ਹਰਾ ਤੈਨਾਤੀ ) -
ਲਾਗਤ ਜਾਗਰੂਕਤਾ
"ਤੇਜ਼" ਉਦੋਂ ਤੱਕ ਬਹੁਤ ਵਧੀਆ ਹੈ ਜਦੋਂ ਤੱਕ ਬਿੱਲ ਫ਼ੋਨ ਨੰਬਰ ਵਰਗਾ ਨਹੀਂ ਲੱਗਦਾ 📞💸 -
ਸੁਰੱਖਿਆ ਅਤੇ ਗੋਪਨੀਯਤਾ
ਸੀਕਰੇਟਸ ਮੈਨੇਜਮੈਂਟ, ਐਕਸੈਸ ਕੰਟਰੋਲ, ਪੀਆਈਆਈ ਹੈਂਡਲਿੰਗ, ਆਡੀਟੈਬਿਲਟੀ ਵਿੱਚ ਬੇਕ ਕੀਤੀ ਗਈ ਹੈ। ( ਕੁਬਰਨੇਟਸ ਸੀਕਰੇਟਸ , ਐਨਆਈਐਸਟੀ ਐਸਪੀ 800-122 )
ਜੇਕਰ ਤੁਸੀਂ ਇਹ ਲਗਾਤਾਰ ਕਰ ਸਕਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਜ਼ਿਆਦਾਤਰ ਟੀਮਾਂ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਅੱਗੇ ਹੋ। ਇਮਾਨਦਾਰ ਬਣੋ।.
3) ਸਹੀ ਤੈਨਾਤੀ ਪੈਟਰਨ ਚੁਣੋ (ਟੂਲ ਚੁਣਨ ਤੋਂ ਪਹਿਲਾਂ) 🧠
ਰੀਅਲ-ਟਾਈਮ API ਅਨੁਮਾਨ ⚡
ਸਭ ਤੋਂ ਵਧੀਆ ਜਦੋਂ:
-
ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਤੁਰੰਤ ਨਤੀਜਿਆਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ (ਸਿਫ਼ਾਰਸ਼ਾਂ, ਧੋਖਾਧੜੀ ਜਾਂਚ, ਚੈਟ, ਨਿੱਜੀਕਰਨ)
-
ਬੇਨਤੀ ਦੌਰਾਨ ਫੈਸਲੇ ਜ਼ਰੂਰ ਹੋਣੇ ਚਾਹੀਦੇ ਹਨ
ਸਾਵਧਾਨੀਆਂ:
-
p99 ਲੇਟੈਂਸੀ ਔਸਤ ਨਾਲੋਂ ਵੱਧ ਮਾਇਨੇ ਰੱਖਦੀ ਹੈ ( ਦ ਟੇਲ ਐਟ ਸਕੇਲ , SRE ਬੁੱਕ: ਮਾਨੀਟਰਿੰਗ ਡਿਸਟ੍ਰੀਬਿਊਟਡ ਸਿਸਟਮ )
-
ਆਟੋਸਕੇਲਿੰਗ ਨੂੰ ਧਿਆਨ ਨਾਲ ਟਿਊਨਿੰਗ ਦੀ ਲੋੜ ਹੈ ( ਕੁਬਰਨੇਟਸ ਹਰੀਜ਼ੋਂਟਲ ਪੋਡ ਆਟੋਸਕੇਲਿੰਗ )
-
ਕੋਲਡ ਸਟਾਰਟ ਡਰਾਉਣੇ ਹੋ ਸਕਦੇ ਹਨ... ਜਿਵੇਂ ਇੱਕ ਬਿੱਲੀ ਮੇਜ਼ ਤੋਂ ਗਲਾਸ ਧੱਕ ਰਹੀ ਹੈ ( AWS ਲੈਂਬਡਾ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਵਾਤਾਵਰਣ ਜੀਵਨ ਚੱਕਰ )
ਬੈਚ ਸਕੋਰਿੰਗ 📦
ਸਭ ਤੋਂ ਵਧੀਆ ਜਦੋਂ:
-
ਭਵਿੱਖਬਾਣੀਆਂ ਵਿੱਚ ਦੇਰੀ ਹੋ ਸਕਦੀ ਹੈ (ਰਾਤੋ ਰਾਤ ਜੋਖਮ ਸਕੋਰਿੰਗ, ਚਰਨ ਭਵਿੱਖਬਾਣੀ, ETL ਸੰਸ਼ੋਧਨ) ( ਐਮਾਜ਼ਾਨ ਸੇਜਮੇਕਰ ਬੈਚ ਟ੍ਰਾਂਸਫਾਰਮ )
-
ਤੁਸੀਂ ਲਾਗਤ ਕੁਸ਼ਲਤਾ ਅਤੇ ਸਰਲ ਓਪਰੇਸ਼ਨ ਚਾਹੁੰਦੇ ਹੋ
ਸਾਵਧਾਨੀਆਂ:
-
ਡਾਟਾ ਤਾਜ਼ਗੀ ਅਤੇ ਬੈਕਫਿਲ
-
ਸਿਖਲਾਈ ਦੇ ਨਾਲ ਵਿਸ਼ੇਸ਼ਤਾ ਤਰਕ ਨੂੰ ਇਕਸਾਰ ਰੱਖਣਾ
ਸਟ੍ਰੀਮਿੰਗ ਅਨੁਮਾਨ 🌊
ਸਭ ਤੋਂ ਵਧੀਆ ਜਦੋਂ:
-
ਤੁਸੀਂ ਘਟਨਾਵਾਂ ਨੂੰ ਲਗਾਤਾਰ ਪ੍ਰਕਿਰਿਆ ਕਰਦੇ ਹੋ (IoT, ਕਲਿੱਕਸਟ੍ਰੀਮ, ਨਿਗਰਾਨੀ ਪ੍ਰਣਾਲੀਆਂ)
-
ਤੁਸੀਂ ਸਖ਼ਤ ਬੇਨਤੀ-ਜਵਾਬ ਤੋਂ ਬਿਨਾਂ ਲਗਭਗ ਅਸਲ-ਸਮੇਂ ਦੇ ਫੈਸਲੇ ਚਾਹੁੰਦੇ ਹੋ
ਸਾਵਧਾਨੀਆਂ:
-
ਬਿਲਕੁਲ-ਇੱਕ ਵਾਰ ਬਨਾਮ ਘੱਟੋ-ਘੱਟ-ਇੱਕ ਵਾਰ ਅਰਥ ਸ਼ਾਸਤਰ ( ਕਲਾਉਡ ਡੇਟਾਫਲੋ: ਬਿਲਕੁਲ-ਇੱਕ ਵਾਰ ਬਨਾਮ ਘੱਟੋ-ਘੱਟ-ਇੱਕ ਵਾਰ )
-
ਰਾਜ ਪ੍ਰਬੰਧਨ, ਦੁਬਾਰਾ ਕੋਸ਼ਿਸ਼ਾਂ, ਅਜੀਬ ਡੁਪਲੀਕੇਟ
ਐਜ ਡਿਪਲਾਇਮੈਂਟ 📱
ਸਭ ਤੋਂ ਵਧੀਆ ਜਦੋਂ:
-
ਨੈੱਟਵਰਕ ਨਿਰਭਰਤਾ ਤੋਂ ਬਿਨਾਂ ਘੱਟ ਲੇਟੈਂਸੀ ( LiterRT ਔਨ-ਡਿਵਾਈਸ ਇਨਫਰੈਂਸ )
-
ਗੋਪਨੀਯਤਾ ਪਾਬੰਦੀਆਂ
-
ਆਫ਼ਲਾਈਨ ਵਾਤਾਵਰਣ
ਸਾਵਧਾਨੀਆਂ:
-
ਮਾਡਲ ਦਾ ਆਕਾਰ, ਬੈਟਰੀ, ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ, ਹਾਰਡਵੇਅਰ ਫ੍ਰੈਗਮੈਂਟੇਸ਼ਨ ( ਸਿਖਲਾਈ ਤੋਂ ਬਾਅਦ ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ (ਟੈਂਸਰਫਲੋ ਮਾਡਲ ਓਪਟੀਮਾਈਜੇਸ਼ਨ) )
-
ਅੱਪਡੇਟ ਔਖੇ ਹਨ (ਤੁਸੀਂ ਜੰਗਲੀ ਵਿੱਚ 30 ਸੰਸਕਰਣ ਨਹੀਂ ਚਾਹੁੰਦੇ...)
ਪਹਿਲਾਂ ਪੈਟਰਨ ਚੁਣੋ, ਫਿਰ ਸਟੈਕ ਚੁਣੋ। ਨਹੀਂ ਤਾਂ ਤੁਸੀਂ ਇੱਕ ਵਰਗਾਕਾਰ ਮਾਡਲ ਨੂੰ ਗੋਲ ਰਨਟਾਈਮ ਵਿੱਚ ਮਜਬੂਰ ਕਰੋਗੇ। ਜਾਂ ਇਸ ਤਰ੍ਹਾਂ ਦੀ ਕੋਈ ਚੀਜ਼। 😬
4) ਮਾਡਲ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਪੈਕ ਕਰਨਾ ਕਿ ਇਹ ਉਤਪਾਦਨ ਦੇ ਸੰਪਰਕ ਵਿੱਚ ਨਾ ਰਹੇ 📦🧯
ਇਹ ਉਹ ਥਾਂ ਹੈ ਜਿੱਥੇ ਜ਼ਿਆਦਾਤਰ "ਆਸਾਨ ਤੈਨਾਤੀਆਂ" ਚੁੱਪਚਾਪ ਖਤਮ ਹੋ ਜਾਂਦੀਆਂ ਹਨ।.
ਵਰਜਨ ਸਭ ਕੁਝ (ਹਾਂ, ਸਭ ਕੁਝ)
-
ਮਾਡਲ ਆਰਟੀਫੈਕਟ (ਵਜ਼ਨ, ਗ੍ਰਾਫ਼, ਟੋਕਨਾਈਜ਼ਰ, ਲੇਬਲ ਨਕਸ਼ੇ)
-
ਵਿਸ਼ੇਸ਼ਤਾ ਤਰਕ (ਰੂਪਾਂਤਰਣ, ਸਧਾਰਣਕਰਨ, ਏਨਕੋਡਰ)
-
ਅਨੁਮਾਨ ਕੋਡ (ਪ੍ਰੋਸੈਸਿੰਗ ਤੋਂ ਪਹਿਲਾਂ/ਬਾਅਦ)
-
ਵਾਤਾਵਰਣ (ਪਾਈਥਨ, CUDA, ਸਿਸਟਮ ਲਿਬਸ)
ਇੱਕ ਸਧਾਰਨ ਪਹੁੰਚ ਜੋ ਕੰਮ ਕਰਦੀ ਹੈ:
-
ਮਾਡਲ ਨੂੰ ਇੱਕ ਰਿਲੀਜ਼ ਆਰਟੀਫੈਕਟ ਵਾਂਗ ਸਮਝੋ
-
ਇਸਨੂੰ ਇੱਕ ਵਰਜ਼ਨ ਟੈਗ ਨਾਲ ਸਟੋਰ ਕਰੋ
-
ਇੱਕ ਮਾਡਲ ਕਾਰਡ-ਇਸ਼ ਮੈਟਾਡੇਟਾ ਫਾਈਲ ਦੀ ਲੋੜ ਹੈ: ਸਕੀਮਾ, ਮੈਟ੍ਰਿਕਸ, ਸਿਖਲਾਈ ਡੇਟਾ ਸਨੈਪਸ਼ਾਟ ਨੋਟਸ, ਜਾਣੀਆਂ-ਪਛਾਣੀਆਂ ਸੀਮਾਵਾਂ ( ਮਾਡਲ ਰਿਪੋਰਟਿੰਗ ਲਈ ਮਾਡਲ ਕਾਰਡ )
ਡੱਬੇ ਮਦਦ ਕਰਦੇ ਹਨ, ਪਰ ਉਨ੍ਹਾਂ ਦੀ ਪੂਜਾ ਨਾ ਕਰੋ 🐳
ਕੰਟੇਨਰ ਬਹੁਤ ਵਧੀਆ ਹਨ ਕਿਉਂਕਿ ਉਹ:
-
ਫ੍ਰੀਜ਼ ਡਿਪੈਂਡੈਂਸੀਜ਼ ( ਡੌਕਰ: ਕੰਟੇਨਰ ਕੀ ਹੁੰਦਾ ਹੈ? )
-
ਬਿਲਡਾਂ ਨੂੰ ਮਿਆਰੀ ਬਣਾਓ
-
ਤੈਨਾਤੀ ਟੀਚਿਆਂ ਨੂੰ ਸਰਲ ਬਣਾਓ
ਪਰ ਤੁਹਾਨੂੰ ਅਜੇ ਵੀ ਪ੍ਰਬੰਧਨ ਕਰਨ ਦੀ ਲੋੜ ਹੈ:
-
ਬੇਸ ਚਿੱਤਰ ਅੱਪਡੇਟ
-
GPU ਡਰਾਈਵਰ ਅਨੁਕੂਲਤਾ
-
ਸੁਰੱਖਿਆ ਸਕੈਨਿੰਗ
-
ਚਿੱਤਰ ਦਾ ਆਕਾਰ (ਕਿਸੇ ਨੂੰ ਵੀ 9GB "ਹੈਲੋ ਵਰਲਡ" ਪਸੰਦ ਨਹੀਂ ਹੈ) ( ਡੌਕਰ ਬਿਲਡ ਬੈਸਟ ਪ੍ਰੈਕਟਿਸ )
ਇੰਟਰਫੇਸ ਨੂੰ ਮਿਆਰੀ ਬਣਾਓ
ਆਪਣਾ ਇਨਪੁਟ/ਆਉਟਪੁੱਟ ਫਾਰਮੈਟ ਜਲਦੀ ਤੈਅ ਕਰੋ:
-
ਸਾਦਗੀ ਲਈ JSON (ਹੌਲੀ, ਪਰ ਦੋਸਤਾਨਾ) ( JSON ਸਕੀਮਾ )
-
ਪ੍ਰਦਰਸ਼ਨ ਲਈ ਪ੍ਰੋਟੋਬਫ ( ਪ੍ਰੋਟੋਕਾਲ ਬਫਰ ਸੰਖੇਪ ਜਾਣਕਾਰੀ )
-
ਚਿੱਤਰਾਂ/ਆਡੀਓ ਲਈ ਫਾਈਲ-ਅਧਾਰਿਤ ਪੇਲੋਡ (ਪਲੱਸ ਮੈਟਾਡੇਟਾ)
ਅਤੇ ਕਿਰਪਾ ਕਰਕੇ ਇਨਪੁਟਸ ਨੂੰ ਪ੍ਰਮਾਣਿਤ ਕਰੋ। ਅਵੈਧ ਇਨਪੁਟਸ "ਇਹ ਬਕਵਾਸ ਕਿਉਂ ਵਾਪਸ ਕਰ ਰਿਹਾ ਹੈ" ਟਿਕਟਾਂ ਦਾ ਮੁੱਖ ਕਾਰਨ ਹਨ। ( OpenAPI: OpenAPI ਕੀ ਹੈ? , JSON ਸਕੀਮਾ )
5) ਸੇਵਾ ਵਿਕਲਪ - "ਸਧਾਰਨ API" ਤੋਂ ਪੂਰੇ ਮਾਡਲ ਸਰਵਰਾਂ ਤੱਕ 🧰
ਦੋ ਆਮ ਰਸਤੇ ਹਨ:
ਵਿਕਲਪ A: ਐਪ ਸਰਵਰ + ਇਨਫਰੈਂਸ ਕੋਡ (ਫਾਸਟਏਪੀਆਈ-ਸ਼ੈਲੀ ਪਹੁੰਚ) 🧪
ਤੁਸੀਂ ਇੱਕ API ਲਿਖਦੇ ਹੋ ਜੋ ਮਾਡਲ ਨੂੰ ਲੋਡ ਕਰਦਾ ਹੈ ਅਤੇ ਭਵਿੱਖਬਾਣੀਆਂ ਵਾਪਸ ਕਰਦਾ ਹੈ। ( FastAPI )
ਫ਼ਾਇਦੇ:
-
ਅਨੁਕੂਲਿਤ ਕਰਨ ਲਈ ਆਸਾਨ
-
ਸਰਲ ਮਾਡਲਾਂ ਜਾਂ ਸ਼ੁਰੂਆਤੀ-ਪੜਾਅ ਦੇ ਉਤਪਾਦਾਂ ਲਈ ਵਧੀਆ
-
ਸਿੱਧਾ ਪ੍ਰਮਾਣੀਕਰਨ, ਰੂਟਿੰਗ, ਅਤੇ ਏਕੀਕਰਨ
ਨੁਕਸਾਨ:
-
ਤੁਹਾਡੇ ਕੋਲ ਪ੍ਰਦਰਸ਼ਨ ਟਿਊਨਿੰਗ (ਬੈਚਿੰਗ, ਥ੍ਰੈਡਿੰਗ, GPU ਉਪਯੋਗਤਾ) ਹੈ।
-
ਤੁਸੀਂ ਕੁਝ ਪਹੀਏ ਦੁਬਾਰਾ ਲੱਭੋਗੇ, ਸ਼ਾਇਦ ਪਹਿਲਾਂ ਬੁਰੀ ਤਰ੍ਹਾਂ
ਵਿਕਲਪ ਬੀ: ਮਾਡਲ ਸਰਵਰ (ਟਾਰਚਸਰਵ / ਟ੍ਰਾਈਟਨ-ਸ਼ੈਲੀ ਦਾ ਤਰੀਕਾ) 🏎️
ਵਿਸ਼ੇਸ਼ ਸਰਵਰ ਜੋ ਸੰਭਾਲਦੇ ਹਨ:
-
ਬੈਚਿੰਗ ( ਟ੍ਰਾਈਟਨ: ਡਾਇਨਾਮਿਕ ਬੈਚਿੰਗ ਅਤੇ ਸਮਕਾਲੀ ਮਾਡਲ ਐਗਜ਼ੀਕਿਊਸ਼ਨ )
-
ਸਮਕਾਲੀ ( ਟ੍ਰਾਈਟਨ: ਸਮਕਾਲੀ ਮਾਡਲ ਐਗਜ਼ੀਕਿਊਸ਼ਨ )
-
ਕਈ ਮਾਡਲ
-
GPU ਕੁਸ਼ਲਤਾ
-
ਮਿਆਰੀ ਅੰਤਮ ਬਿੰਦੂ ( ਟਾਰਚਸਰਵ ਡੌਕਸ , ਟ੍ਰਾਈਟਨ ਇਨਫਰੈਂਸ ਸਰਵਰ ਡੌਕਸ )
ਫ਼ਾਇਦੇ:
-
ਬਾਕਸ ਤੋਂ ਬਾਹਰ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਪੈਟਰਨ
-
ਸੇਵਾ ਅਤੇ ਕਾਰੋਬਾਰੀ ਤਰਕ ਵਿਚਕਾਰ ਸਾਫ਼-ਸੁਥਰਾ ਵਿਛੋੜਾ
ਨੁਕਸਾਨ:
-
ਵਾਧੂ ਕਾਰਜਸ਼ੀਲ ਗੁੰਝਲਤਾ
-
ਸੰਰਚਨਾ ਮਹਿਸੂਸ ਹੋ ਸਕਦੀ ਹੈ... ਅਜੀਬ ਜਿਹੀ, ਜਿਵੇਂ ਸ਼ਾਵਰ ਦੇ ਤਾਪਮਾਨ ਨੂੰ ਐਡਜਸਟ ਕਰਨਾ
ਇੱਕ ਹਾਈਬ੍ਰਿਡ ਪੈਟਰਨ ਬਹੁਤ ਆਮ ਹੈ:
-
ਅਨੁਮਾਨ ਲਈ ਮਾਡਲ ਸਰਵਰ ( ਟ੍ਰਾਈਟਨ: ਡਾਇਨਾਮਿਕ ਬੈਚਿੰਗ )
-
ਪ੍ਰਮਾਣੀਕਰਨ, ਬੇਨਤੀ ਆਕਾਰ, ਕਾਰੋਬਾਰੀ ਨਿਯਮ, ਅਤੇ ਦਰ ਸੀਮਾ ਲਈ ਥਿਨ API ਗੇਟਵੇ ( API ਗੇਟਵੇ ਥ੍ਰੋਟਲਿੰਗ )
6) ਤੁਲਨਾ ਸਾਰਣੀ - ਤੈਨਾਤ ਕਰਨ ਦੇ ਪ੍ਰਸਿੱਧ ਤਰੀਕੇ (ਇਮਾਨਦਾਰ ਵਾਈਬਸ ਦੇ ਨਾਲ) 📊😌
AI ਮਾਡਲਾਂ ਨੂੰ ਕਿਵੇਂ ਤੈਨਾਤ ਕਰਨਾ ਹੈ ਦਾ ਪਤਾ ਲਗਾਉਣ ਵੇਲੇ ਵਰਤਦੇ ਹਨ ।
| ਔਜ਼ਾਰ / ਪਹੁੰਚ | ਦਰਸ਼ਕ | ਕੀਮਤ | ਇਹ ਕਿਉਂ ਕੰਮ ਕਰਦਾ ਹੈ |
|---|---|---|---|
| ਡੌਕਰ + ਫਾਸਟਏਪੀਆਈ (ਜਾਂ ਸਮਾਨ) | ਛੋਟੀਆਂ ਟੀਮਾਂ, ਸਟਾਰਟਅੱਪਸ | ਫ੍ਰੀ-ਇਸ਼ | ਸਰਲ, ਲਚਕਦਾਰ, ਭੇਜਣ ਲਈ ਤੇਜ਼ - ਤੁਸੀਂ ਹਰ ਸਕੇਲਿੰਗ ਸਮੱਸਿਆ ਨੂੰ "ਮਹਿਸੂਸ" ਕਰੋਗੇ ( ਡੌਕਰ , ਫਾਸਟਏਪੀਆਈ ) |
| ਕੁਬਰਨੇਟਸ (DIY) | ਪਲੇਟਫਾਰਮ ਟੀਮਾਂ | ਬੁਨਿਆਦੀ ਢਾਂਚੇ 'ਤੇ ਨਿਰਭਰ | ਕੰਟਰੋਲ + ਸਕੇਲੇਬਿਲਟੀ... ਨਾਲ ਹੀ, ਬਹੁਤ ਸਾਰੇ ਨੌਬ, ਜਿਨ੍ਹਾਂ ਵਿੱਚੋਂ ਕੁਝ ਸਰਾਪਿਤ ਹਨ ( ਕੁਬਰਨੇਟਸ ਐਚਪੀਏ ) |
| ਪ੍ਰਬੰਧਿਤ ML ਪਲੇਟਫਾਰਮ (ਕਲਾਊਡ ML ਸੇਵਾ) | ਉਹ ਟੀਮਾਂ ਜੋ ਘੱਟ ਓਪਸ ਚਾਹੁੰਦੀਆਂ ਹਨ | ਜਿਵੇਂ ਮਰਜ਼ੀ ਭੁਗਤਾਨ ਕਰੋ | ਬਿਲਟ-ਇਨ ਡਿਪਲਾਇਮੈਂਟ ਵਰਕਫਲੋ, ਨਿਗਰਾਨੀ ਹੁੱਕ - ਕਈ ਵਾਰ ਹਮੇਸ਼ਾ-ਚਾਲੂ ਐਂਡਪੁਆਇੰਟਸ ਲਈ ਮਹਿੰਗੇ ਹੁੰਦੇ ਹਨ ( ਵਰਟੈਕਸ ਏਆਈ ਡਿਪਲਾਇਮੈਂਟ , ਸੇਜਮੇਕਰ ਰੀਅਲ-ਟਾਈਮ ਇਨਫਰੈਂਸ ) |
| ਸਰਵਰ ਰਹਿਤ ਫੰਕਸ਼ਨ (ਹਲਕੇ ਅਨੁਮਾਨ ਲਈ) | ਇਵੈਂਟ-ਸੰਚਾਲਿਤ ਐਪਾਂ | ਪ੍ਰਤੀ ਵਰਤੋਂ ਭੁਗਤਾਨ ਕਰੋ | ਸਪਾਈਕ ਟ੍ਰੈਫਿਕ ਲਈ ਬਹੁਤ ਵਧੀਆ - ਪਰ ਕੋਲਡ ਸਟਾਰਟ ਅਤੇ ਮਾਡਲ ਦਾ ਆਕਾਰ ਤੁਹਾਡਾ ਦਿਨ ਬਰਬਾਦ ਕਰ ਸਕਦਾ ਹੈ 😬 ( AWS Lambda ਕੋਲਡ ਸਟਾਰਟ ) |
| NVIDIA ਟ੍ਰਾਈਟਨ ਇਨਫਰੈਂਸ ਸਰਵਰ | ਪ੍ਰਦਰਸ਼ਨ-ਕੇਂਦ੍ਰਿਤ ਟੀਮਾਂ | ਮੁਫ਼ਤ ਸਾਫਟਵੇਅਰ, ਬੁਨਿਆਦੀ ਢਾਂਚਾ ਲਾਗਤ | ਸ਼ਾਨਦਾਰ GPU ਉਪਯੋਗਤਾ, ਬੈਚਿੰਗ, ਮਲਟੀ-ਮਾਡਲ - ਕੌਂਫਿਗ ਲਈ ਸਬਰ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ( ਟ੍ਰਾਈਟਨ: ਡਾਇਨਾਮਿਕ ਬੈਚਿੰਗ ) |
| ਟਾਰਚਸਰਵ | ਪਾਈਟੋਰਚ-ਭਾਰੀ ਟੀਮਾਂ | ਮੁਫ਼ਤ ਸਾਫਟਵੇਅਰ | ਵਧੀਆ ਡਿਫਾਲਟ ਸਰਵਿੰਗ ਪੈਟਰਨ - ਉੱਚ ਪੈਮਾਨੇ ਲਈ ਟਿਊਨਿੰਗ ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ ( TorchServe ਦਸਤਾਵੇਜ਼ ) |
| ਬੈਂਟੋਐਮਐਲ (ਪੈਕੇਜਿੰਗ + ਸਰਵਿੰਗ) | ਐਮਐਲ ਇੰਜੀਨੀਅਰ | ਮੁਫ਼ਤ ਕੋਰ, ਵਾਧੂ ਵੱਖ-ਵੱਖ ਹੁੰਦੇ ਹਨ | ਨਿਰਵਿਘਨ ਪੈਕੇਜਿੰਗ, ਵਧੀਆ ਡਿਵੈਲਪਰ ਅਨੁਭਵ - ਤੁਹਾਨੂੰ ਅਜੇ ਵੀ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਦੇ ਵਿਕਲਪਾਂ ਦੀ ਲੋੜ ਹੈ ( ਤੈਨਾਤੀ ਲਈ BentoML ਪੈਕੇਜਿੰਗ ) |
| ਰੇ ਸਰਵ | ਵੰਡੇ ਹੋਏ ਸਿਸਟਮ ਲੋਕੋ | ਬੁਨਿਆਦੀ ਢਾਂਚੇ 'ਤੇ ਨਿਰਭਰ | ਖਿਤਿਜੀ ਤੌਰ 'ਤੇ ਸਕੇਲ, ਪਾਈਪਲਾਈਨਾਂ ਲਈ ਵਧੀਆ - ਛੋਟੇ ਪ੍ਰੋਜੈਕਟਾਂ ਲਈ "ਵੱਡਾ" ਮਹਿਸੂਸ ਹੁੰਦਾ ਹੈ ( ਰੇ ਸਰਵ ਡੌਕਸ ) |
ਟੇਬਲ ਨੋਟ: "ਫ੍ਰੀ-ਇਸ਼" ਅਸਲ ਜ਼ਿੰਦਗੀ ਦੀ ਸ਼ਬਦਾਵਲੀ ਹੈ। ਕਿਉਂਕਿ ਇਹ ਕਦੇ ਵੀ ਮੁਫਤ ਨਹੀਂ ਹੁੰਦੀ। ਹਮੇਸ਼ਾ ਕਿਤੇ ਨਾ ਕਿਤੇ ਬਿੱਲ ਹੁੰਦਾ ਹੈ, ਭਾਵੇਂ ਇਹ ਤੁਹਾਡੀ ਨੀਂਦ ਹੀ ਕਿਉਂ ਨਾ ਹੋਵੇ। 😴
7) ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਸਕੇਲਿੰਗ - ਲੇਟੈਂਸੀ, ਥਰੂਪੁੱਟ, ਅਤੇ ਸੱਚਾਈ 🏁
ਪ੍ਰਦਰਸ਼ਨ ਟਿਊਨਿੰਗ ਉਹ ਥਾਂ ਹੈ ਜਿੱਥੇ ਤੈਨਾਤੀ ਇੱਕ ਕਲਾ ਬਣ ਜਾਂਦੀ ਹੈ। ਟੀਚਾ "ਤੇਜ਼" ਨਹੀਂ ਹੈ। ਟੀਚਾ ਲਗਾਤਾਰ ਕਾਫ਼ੀ ਤੇਜ਼ ।
ਮੁੱਖ ਮਾਪਦੰਡ ਜੋ ਮਾਇਨੇ ਰੱਖਦੇ ਹਨ
-
p50 ਲੇਟੈਂਸੀ : ਆਮ ਉਪਭੋਗਤਾ ਅਨੁਭਵ
-
p95 / p99 ਲੇਟੈਂਸੀ : ਗੁੱਸੇ ਨੂੰ ਭੜਕਾਉਣ ਵਾਲੀ ਪੂਛ ( ਦ ਟੇਲ ਐਟ ਸਕੇਲ , SRE ਕਿਤਾਬ: ਮਾਨੀਟਰਿੰਗ ਡਿਸਟ੍ਰੀਬਿਊਟਡ ਸਿਸਟਮ )
-
ਥਰੂਪੁੱਟ : ਪ੍ਰਤੀ ਸਕਿੰਟ ਬੇਨਤੀਆਂ (ਜਾਂ ਜਨਰੇਟਿਵ ਮਾਡਲਾਂ ਲਈ ਪ੍ਰਤੀ ਸਕਿੰਟ ਟੋਕਨ)
-
ਗਲਤੀ ਦਰ : ਸਪੱਸ਼ਟ ਹੈ, ਪਰ ਫਿਰ ਵੀ ਕਈ ਵਾਰ ਅਣਡਿੱਠਾ ਕੀਤਾ ਜਾਂਦਾ ਹੈ
-
ਸਰੋਤ ਉਪਯੋਗਤਾ : CPU, GPU, ਮੈਮੋਰੀ, VRAM ( SRE ਕਿਤਾਬ: ਵੰਡੇ ਗਏ ਸਿਸਟਮਾਂ ਦੀ ਨਿਗਰਾਨੀ )
ਖਿੱਚਣ ਲਈ ਆਮ ਲੀਵਰ
-
ਬੈਚਿੰਗ
GPU ਵਰਤੋਂ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਨ ਲਈ ਬੇਨਤੀਆਂ ਨੂੰ ਜੋੜੋ। ਥਰੂਪੁੱਟ ਲਈ ਵਧੀਆ, ਜੇਕਰ ਤੁਸੀਂ ਇਸਨੂੰ ਜ਼ਿਆਦਾ ਕਰਦੇ ਹੋ ਤਾਂ ਲੇਟੈਂਸੀ ਨੂੰ ਨੁਕਸਾਨ ਪਹੁੰਚਾ ਸਕਦਾ ਹੈ। ( ਟ੍ਰਾਈਟਨ: ਡਾਇਨਾਮਿਕ ਬੈਚਿੰਗ ) -
ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ
ਘੱਟ ਸ਼ੁੱਧਤਾ (ਜਿਵੇਂ ਕਿ INT8) ਅਨੁਮਾਨ ਨੂੰ ਤੇਜ਼ ਕਰ ਸਕਦੀ ਹੈ ਅਤੇ ਯਾਦਦਾਸ਼ਤ ਨੂੰ ਘਟਾ ਸਕਦੀ ਹੈ। ਸ਼ੁੱਧਤਾ ਨੂੰ ਥੋੜ੍ਹਾ ਘਟਾ ਸਕਦੀ ਹੈ। ਕਈ ਵਾਰ ਨਹੀਂ, ਹੈਰਾਨੀ ਦੀ ਗੱਲ ਹੈ। ( ਸਿਖਲਾਈ ਤੋਂ ਬਾਅਦ ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ ) -
ਸੰਕਲਨ / ਅਨੁਕੂਲਤਾ
ONNX ਨਿਰਯਾਤ, ਗ੍ਰਾਫ ਆਪਟੀਮਾਈਜ਼ਰ, TensorRT ਵਰਗੇ ਪ੍ਰਵਾਹ। ਸ਼ਕਤੀਸ਼ਾਲੀ, ਪਰ ਡੀਬੱਗਿੰਗ ਮਸਾਲੇਦਾਰ ਹੋ ਸਕਦੀ ਹੈ 🌶️ ( ONNX , ONNX ਰਨਟਾਈਮ ਮਾਡਲ ਅਨੁਕੂਲਤਾ ) -
ਕੈਸ਼ਿੰਗ
ਜੇਕਰ ਇਨਪੁਟ ਦੁਹਰਾਉਂਦੇ ਹਨ (ਜਾਂ ਤੁਸੀਂ ਏਮਬੈਡਿੰਗਾਂ ਨੂੰ ਕੈਸ਼ ਕਰ ਸਕਦੇ ਹੋ), ਤਾਂ ਤੁਸੀਂ ਬਹੁਤ ਕੁਝ ਬਚਾ ਸਕਦੇ ਹੋ। -
CPU/GPU ਉਪਯੋਗਤਾ, ਕਤਾਰ ਡੂੰਘਾਈ, ਜਾਂ ਬੇਨਤੀ ਦਰ 'ਤੇ ਆਟੋਸਕੇਲਿੰਗ Kubernetes HPA )
ਇੱਕ ਅਜੀਬ-ਪਰ ਸੱਚੀ ਸਲਾਹ: ਉਤਪਾਦਨ ਵਰਗੇ ਪੇਲੋਡ ਆਕਾਰਾਂ ਨਾਲ ਮਾਪੋ। ਛੋਟੇ ਟੈਸਟ ਪੇਲੋਡ ਤੁਹਾਡੇ ਨਾਲ ਝੂਠ ਬੋਲਦੇ ਹਨ। ਉਹ ਨਿਮਰਤਾ ਨਾਲ ਮੁਸਕਰਾਉਂਦੇ ਹਨ ਅਤੇ ਫਿਰ ਬਾਅਦ ਵਿੱਚ ਤੁਹਾਨੂੰ ਧੋਖਾ ਦਿੰਦੇ ਹਨ।.
8) ਨਿਗਰਾਨੀ ਅਤੇ ਨਿਰੀਖਣਯੋਗਤਾ - ਅੰਨ੍ਹੇ ਨਾ ਹੋਵੋ 👀📈
ਮਾਡਲ ਨਿਗਰਾਨੀ ਸਿਰਫ਼ ਅਪਟਾਈਮ ਨਿਗਰਾਨੀ ਨਹੀਂ ਹੈ। ਤੁਸੀਂ ਜਾਣਨਾ ਚਾਹੁੰਦੇ ਹੋ ਕਿ ਕੀ:
-
ਸੇਵਾ ਸਿਹਤਮੰਦ ਹੈ।
-
ਮਾਡਲ ਵਿਵਹਾਰ ਕਰ ਰਿਹਾ ਹੈ।
-
ਡਾਟਾ ਘੁੰਮ ਰਿਹਾ ਹੈ।
-
ਭਵਿੱਖਬਾਣੀਆਂ ਘੱਟ ਭਰੋਸੇਯੋਗ ਹੁੰਦੀਆਂ ਜਾ ਰਹੀਆਂ ਹਨ ( ਵਰਟੈਕਸ ਏਆਈ ਮਾਡਲ ਮਾਨੀਟਰਿੰਗ ਸੰਖੇਪ ਜਾਣਕਾਰੀ , ਐਮਾਜ਼ਾਨ ਸੇਜਮੇਕਰ ਮਾਡਲ ਮਾਨੀਟਰ )
ਕੀ ਨਿਗਰਾਨੀ ਕਰਨੀ ਹੈ (ਘੱਟੋ-ਘੱਟ ਵਿਵਹਾਰਕ ਸੈੱਟ)
ਸੇਵਾ ਸਿਹਤ
-
ਬੇਨਤੀ ਗਿਣਤੀ, ਗਲਤੀ ਦਰ, ਲੇਟੈਂਸੀ ਵੰਡ ( SRE ਕਿਤਾਬ: ਵੰਡ ਪ੍ਰਣਾਲੀਆਂ ਦੀ ਨਿਗਰਾਨੀ )
-
ਸੰਤ੍ਰਿਪਤਾ (CPU/GPU/ਮੈਮੋਰੀ)
-
ਕਤਾਰ ਦੀ ਲੰਬਾਈ ਅਤੇ ਕਤਾਰ ਵਿੱਚ ਸਮਾਂ
ਮਾਡਲ ਵਿਵਹਾਰ
-
ਇਨਪੁੱਟ ਵਿਸ਼ੇਸ਼ਤਾ ਵੰਡ (ਮੂਲ ਅੰਕੜੇ)
-
ਏਮਬੈਡਿੰਗ ਨਿਯਮ (ਏਮਬੈਡਿੰਗ ਮਾਡਲਾਂ ਲਈ)
-
ਆਉਟਪੁੱਟ ਵੰਡ (ਵਿਸ਼ਵਾਸ, ਕਲਾਸ ਮਿਸ਼ਰਣ, ਸਕੋਰ ਰੇਂਜ)
-
ਇਨਪੁਟਸ 'ਤੇ ਅਸੰਗਤੀ ਦਾ ਪਤਾ ਲਗਾਉਣਾ (ਕੂੜਾ ਅੰਦਰ, ਕੂੜਾ ਬਾਹਰ)
ਡੇਟਾ ਡ੍ਰਿਫਟ ਅਤੇ ਸੰਕਲਪ ਡ੍ਰਿਫਟ
-
ਡ੍ਰਿਫਟ ਅਲਰਟ ਕਾਰਵਾਈਯੋਗ ਹੋਣੇ ਚਾਹੀਦੇ ਹਨ ( ਵਰਟੈਕਸ ਏਆਈ: ਮਾਨੀਟਰ ਫੀਚਰ ਸਕਿਊ ਐਂਡ ਡ੍ਰਿਫਟ , ਐਮਾਜ਼ਾਨ ਸੇਜਮੇਕਰ ਮਾਡਲ ਮਾਨੀਟਰ )
-
ਚੇਤਾਵਨੀ ਸਪੈਮ ਤੋਂ ਬਚੋ - ਇਹ ਲੋਕਾਂ ਨੂੰ ਹਰ ਚੀਜ਼ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਨਾ ਸਿਖਾਉਂਦਾ ਹੈ
ਲੌਗਿੰਗ, ਪਰ "ਸਭ ਕੁਝ ਹਮੇਸ਼ਾ ਲਈ ਲੌਗ ਕਰੋ" ਪਹੁੰਚ ਨਹੀਂ 🪵
ਲਾਗ:
-
ਬੇਨਤੀ ਆਈਡੀ
-
ਮਾਡਲ ਵਰਜ਼ਨ
-
ਸਕੀਮਾ ਪ੍ਰਮਾਣਿਕਤਾ ਨਤੀਜੇ ( OpenAPI: OpenAPI ਕੀ ਹੈ? )
-
ਘੱਟੋ-ਘੱਟ ਢਾਂਚਾਗਤ ਪੇਲੋਡ ਮੈਟਾਡੇਟਾ (raw PII ਨਹੀਂ) ( NIST SP 800-122 )
ਗੋਪਨੀਯਤਾ ਪ੍ਰਤੀ ਸਾਵਧਾਨ ਰਹੋ। ਤੁਸੀਂ ਨਹੀਂ ਚਾਹੁੰਦੇ ਕਿ ਤੁਹਾਡੇ ਲੌਗ ਤੁਹਾਡਾ ਡੇਟਾ ਲੀਕ ਬਣਨ। ( NIST SP 800-122 )
9) CI/CD ਅਤੇ ਰੋਲਆਉਟ ਰਣਨੀਤੀਆਂ - ਮਾਡਲਾਂ ਨੂੰ ਅਸਲ ਰਿਲੀਜ਼ਾਂ ਵਾਂਗ ਸਮਝੋ 🧱🚦
ਜੇਕਰ ਤੁਸੀਂ ਭਰੋਸੇਯੋਗ ਤੈਨਾਤੀਆਂ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਇੱਕ ਪਾਈਪਲਾਈਨ ਬਣਾਓ। ਭਾਵੇਂ ਇੱਕ ਸਧਾਰਨ ਹੀ ਕਿਉਂ ਨਾ ਹੋਵੇ।.
ਇੱਕ ਠੋਸ ਵਹਾਅ
-
ਪ੍ਰੀਪ੍ਰੋਸੈਸਿੰਗ ਅਤੇ ਪੋਸਟਪ੍ਰੋਸੈਸਿੰਗ ਲਈ ਯੂਨਿਟ ਟੈਸਟ
-
ਇੱਕ ਜਾਣੇ-ਪਛਾਣੇ ਇਨਪੁਟ-ਆਉਟਪੁੱਟ "ਗੋਲਡਨ ਸੈੱਟ" ਨਾਲ ਏਕੀਕਰਨ ਟੈਸਟ
-
ਲੋਡ ਟੈਸਟ ਬੇਸਲਾਈਨ (ਹਲਕਾ ਵੀ ਹੋਵੇ)
-
ਬਿਲਡ ਆਰਟੀਫੈਕਟ (ਕੰਟੇਨਰ + ਮਾਡਲ) ( ਡੌਕਰ ਬਿਲਡ ਬੈਸਟ ਪ੍ਰੈਕਟਿਸ )
-
ਸਟੇਜਿੰਗ ਵਿੱਚ ਤੈਨਾਤ ਕਰੋ
-
ਕੈਨਰੀ ਰੀਲੀਜ਼ ਟ੍ਰੈਫਿਕ ਦੇ ਇੱਕ ਛੋਟੇ ਜਿਹੇ ਟੁਕੜੇ ਲਈ ( ਕੈਨਰੀ ਰੀਲੀਜ਼ )
-
ਹੌਲੀ-ਹੌਲੀ ਵਧੋ
-
ਕੁੰਜੀ ਥ੍ਰੈਸ਼ਹੋਲਡ 'ਤੇ ਆਟੋਮੈਟਿਕ ਰੋਲਬੈਕ ( ਨੀਲਾ-ਹਰਾ ਤੈਨਾਤੀ )
ਰੋਲਆਉਟ ਪੈਟਰਨ ਜੋ ਤੁਹਾਡੀ ਸਮਝਦਾਰੀ ਨੂੰ ਬਚਾਉਂਦੇ ਹਨ
-
ਕੈਨਰੀ : ਪਹਿਲਾਂ 1-5% ਟ੍ਰੈਫਿਕ ਲਈ ਜਾਰੀ ਕਰੋ ( ਕੈਨਰੀ ਰਿਲੀਜ਼ )
-
ਨੀਲਾ-ਹਰਾ : ਪੁਰਾਣੇ ਦੇ ਨਾਲ-ਨਾਲ ਨਵਾਂ ਸੰਸਕਰਣ ਚਲਾਓ, ਤਿਆਰ ਹੋਣ 'ਤੇ ਪਲਟ ਦਿਓ ( ਨੀਲਾ-ਹਰਾ ਤੈਨਾਤੀ )
-
ਸ਼ੈਡੋ ਟੈਸਟਿੰਗ : ਨਵੇਂ ਮਾਡਲ ਨੂੰ ਅਸਲ ਟ੍ਰੈਫਿਕ ਭੇਜੋ ਪਰ ਨਤੀਜਿਆਂ ਦੀ ਵਰਤੋਂ ਨਾ ਕਰੋ (ਮੁਲਾਂਕਣ ਲਈ ਵਧੀਆ) ( ਮਾਈਕ੍ਰੋਸਾਫਟ: ਸ਼ੈਡੋ ਟੈਸਟਿੰਗ )
ਅਤੇ ਆਪਣੇ ਅੰਤਮ ਬਿੰਦੂਆਂ ਜਾਂ ਰੂਟ ਨੂੰ ਮਾਡਲ ਸੰਸਕਰਣ ਦੁਆਰਾ ਸੰਸਕਰਣ ਕਰੋ। ਭਵਿੱਖ ਵਿੱਚ ਤੁਸੀਂ ਤੁਹਾਡਾ ਧੰਨਵਾਦ ਕਰੋਗੇ। ਵਰਤਮਾਨ ਵਿੱਚ ਤੁਸੀਂ ਵੀ ਤੁਹਾਡਾ ਧੰਨਵਾਦ ਕਰੋਗੇ, ਪਰ ਚੁੱਪਚਾਪ।.
10) ਸੁਰੱਖਿਆ, ਨਿੱਜਤਾ, ਅਤੇ "ਕਿਰਪਾ ਕਰਕੇ ਚੀਜ਼ਾਂ ਲੀਕ ਨਾ ਕਰੋ" 🔐🙃
ਸੁਰੱਖਿਆ ਵਾਲੇ ਅਕਸਰ ਦੇਰ ਨਾਲ ਪਹੁੰਚਦੇ ਹਨ, ਜਿਵੇਂ ਕੋਈ ਬਿਨ ਬੁਲਾਏ ਮਹਿਮਾਨ ਹੋਵੇ। ਬਿਹਤਰ ਹੈ ਕਿ ਤੁਸੀਂ ਉਸਨੂੰ ਜਲਦੀ ਬੁਲਾਓ।.
ਵਿਹਾਰਕ ਚੈੱਕਲਿਸਟ
-
ਪ੍ਰਮਾਣਿਕਤਾ ਅਤੇ ਅਧਿਕਾਰ (ਮਾਡਲ ਨੂੰ ਕੌਣ ਕਾਲ ਕਰ ਸਕਦਾ ਹੈ?)
-
ਦਰ ਸੀਮਾ (ਦੁਰਵਰਤੋਂ ਅਤੇ ਦੁਰਘਟਨਾ ਵਾਲੇ ਤੂਫਾਨਾਂ ਤੋਂ ਬਚਾਅ) ( API ਗੇਟਵੇ ਥ੍ਰੋਟਲਿੰਗ )
-
ਭੇਦ ਪ੍ਰਬੰਧਨ (ਕੋਡ ਵਿੱਚ ਕੋਈ ਕੁੰਜੀਆਂ ਨਹੀਂ, ਸੰਰਚਨਾ ਫਾਈਲਾਂ ਵਿੱਚ ਵੀ ਕੋਈ ਕੁੰਜੀਆਂ ਨਹੀਂ...) ( AWS ਭੇਦ ਪ੍ਰਬੰਧਕ , ਕੁਬਰਨੇਟਸ ਭੇਦ )
-
ਨੈੱਟਵਰਕ ਕੰਟਰੋਲ (ਪ੍ਰਾਈਵੇਟ ਸਬਨੈੱਟ, ਸਰਵਿਸ-ਟੂ-ਸਰਵਿਸ ਨੀਤੀਆਂ)
-
ਆਡਿਟ ਲੌਗ (ਖਾਸ ਕਰਕੇ ਸੰਵੇਦਨਸ਼ੀਲ ਭਵਿੱਖਬਾਣੀਆਂ ਲਈ)
-
ਡਾਟਾ ਘੱਟੋ-ਘੱਟ ਕਰਨਾ (ਸਿਰਫ਼ ਉਹੀ ਸਟੋਰ ਕਰੋ ਜੋ ਤੁਹਾਨੂੰ ਚਾਹੀਦਾ ਹੈ) ( NIST SP 800-122 )
ਜੇਕਰ ਮਾਡਲ ਨਿੱਜੀ ਡੇਟਾ ਨੂੰ ਛੂੰਹਦਾ ਹੈ:
-
ਰੀਡੈਕਟ ਜਾਂ ਹੈਸ਼ ਪਛਾਣਕਰਤਾ
-
ਕੱਚੇ ਪੇਲੋਡਾਂ ਨੂੰ ਲੌਗ ਕਰਨ ਤੋਂ ਬਚੋ ( NIST SP 800-122 )
-
ਧਾਰਨ ਨਿਯਮਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ
-
ਦਸਤਾਵੇਜ਼ ਡੇਟਾ ਪ੍ਰਵਾਹ (ਬੋਰਿੰਗ, ਪਰ ਸੁਰੱਖਿਆਤਮਕ)
ਨਾਲ ਹੀ, ਪ੍ਰੋਂਪਟ ਇੰਜੈਕਸ਼ਨ ਅਤੇ ਆਉਟਪੁੱਟ ਦੁਰਵਰਤੋਂ ਜਨਰੇਟਿਵ ਮਾਡਲਾਂ ਲਈ ਮਾਇਨੇ ਰੱਖ ਸਕਦੇ ਹਨ। ਸ਼ਾਮਲ ਕਰੋ: ( LLM ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ OWASP ਸਿਖਰਲੇ 10 , OWASP: ਪ੍ਰੋਂਪਟ ਇੰਜੈਕਸ਼ਨ )
-
ਇਨਪੁਟ ਸੈਨੀਟਾਈਜ਼ੇਸ਼ਨ ਨਿਯਮ
-
ਜਿੱਥੇ ਢੁਕਵਾਂ ਹੋਵੇ, ਆਉਟਪੁੱਟ ਫਿਲਟਰਿੰਗ
-
ਟੂਲ ਕਾਲਿੰਗ ਜਾਂ ਡੇਟਾਬੇਸ ਕਾਰਵਾਈਆਂ ਲਈ ਗਾਰਡਰੇਲ
ਕੋਈ ਵੀ ਸਿਸਟਮ ਸੰਪੂਰਨ ਨਹੀਂ ਹੁੰਦਾ, ਪਰ ਤੁਸੀਂ ਇਸਨੂੰ ਘੱਟ ਨਾਜ਼ੁਕ ਬਣਾ ਸਕਦੇ ਹੋ।.
11) ਆਮ ਜਾਲ (ਜਿਨ੍ਹਾਂ ਨੂੰ ਆਮ ਜਾਲ ਵੀ ਕਿਹਾ ਜਾਂਦਾ ਹੈ) 🪤
ਇੱਥੇ ਕਲਾਸਿਕ ਹਨ:
-
ਸਿਖਲਾਈ-ਸੇਵਾ ਸਕਿਊ
ਪ੍ਰੀਪ੍ਰੋਸੈਸਿੰਗ ਸਿਖਲਾਈ ਅਤੇ ਉਤਪਾਦਨ ਵਿੱਚ ਵੱਖਰਾ ਹੁੰਦਾ ਹੈ। ਅਚਾਨਕ ਸ਼ੁੱਧਤਾ ਘੱਟ ਜਾਂਦੀ ਹੈ ਅਤੇ ਕੋਈ ਨਹੀਂ ਜਾਣਦਾ ਕਿ ਕਿਉਂ। ( ਟੈਂਸਰਫਲੋ ਡੇਟਾ ਵੈਲੀਡੇਸ਼ਨ: ਸਿਖਲਾਈ-ਸੇਵਾ ਸਕਿਊ ਦਾ ਪਤਾ ਲਗਾਓ ) -
ਕੋਈ ਸਕੀਮਾ ਪ੍ਰਮਾਣਿਕਤਾ ਨਹੀਂ
ਇੱਕ ਅੱਪਸਟ੍ਰੀਮ ਤਬਦੀਲੀ ਸਭ ਕੁਝ ਤੋੜ ਦਿੰਦੀ ਹੈ। ਹਮੇਸ਼ਾ ਉੱਚੀ ਆਵਾਜ਼ ਵਿੱਚ ਵੀ ਨਹੀਂ... ( JSON ਸਕੀਮਾ , OpenAPI: OpenAPI ਕੀ ਹੈ? ) -
ਜਦੋਂ ਉਪਭੋਗਤਾ ਗੁੱਸੇ ਵਿੱਚ ਹੁੰਦੇ ਹਨ ਤਾਂ ਟੇਲ ਲੇਟੈਂਸੀ p99 ਨੂੰ ਅਣਡਿੱਠ ਕਰਨਾ ਹੀ ਦ ਟੇਲ ਐਟ ਸਕੇਲ ) -
ਲਾਗਤ ਨੂੰ ਭੁੱਲ ਜਾਣਾ
ਤੁਹਾਡੇ ਘਰ ਦੀ ਹਰ ਲਾਈਟ ਨੂੰ ਜਗਦਾ ਰੱਖਣ ਵਾਂਗ ਹੈ, ਪਰ ਲਾਈਟ ਬਲਬ ਪੈਸੇ ਨਾਲ ਬਣੇ ਹੁੰਦੇ ਹਨ। -
ਕੋਈ ਵਾਪਸੀ ਯੋਜਨਾ ਨਹੀਂ
"ਅਸੀਂ ਬਸ ਦੁਬਾਰਾ ਤਾਇਨਾਤ ਕਰਾਂਗੇ" ਕੋਈ ਯੋਜਨਾ ਨਹੀਂ ਹੈ। ਇਹ ਉਮੀਦ ਹੈ ਕਿ ਇੱਕ ਖਾਈ ਕੋਟ ਪਹਿਨੀ ਜਾਵੇ। ( ਨੀਲਾ-ਹਰਾ ਤੈਨਾਤੀ ) -
ਸਿਰਫ਼ ਅਪਟਾਈਮ ਨਿਗਰਾਨੀ
ਜਦੋਂ ਮਾਡਲ ਗਲਤ ਹੋਵੇ ਤਾਂ ਸੇਵਾ ਚਾਲੂ ਹੋ ਸਕਦੀ ਹੈ। ਇਹ ਸ਼ਾਇਦ ਹੋਰ ਵੀ ਮਾੜਾ ਹੈ। ( ਵਰਟੈਕਸ ਏਆਈ: ਮਾਨੀਟਰ ਫੀਚਰ ਸਕਿਊ ਐਂਡ ਡ੍ਰਿਫਟ , ਐਮਾਜ਼ਾਨ ਸੇਜਮੇਕਰ ਮਾਡਲ ਮਾਨੀਟਰ )
ਜੇ ਤੁਸੀਂ ਇਹ ਪੜ੍ਹ ਰਹੇ ਹੋ ਅਤੇ ਸੋਚ ਰਹੇ ਹੋ ਕਿ "ਹਾਂ, ਅਸੀਂ ਉਨ੍ਹਾਂ ਵਿੱਚੋਂ ਦੋ ਕਰਦੇ ਹਾਂ," ਤਾਂ ਕਲੱਬ ਵਿੱਚ ਤੁਹਾਡਾ ਸਵਾਗਤ ਹੈ। ਕਲੱਬ ਵਿੱਚ ਸਨੈਕਸ ਅਤੇ ਹਲਕਾ ਤਣਾਅ ਹੈ। 🍪
12) ਸੰਖੇਪ - ਆਪਣਾ ਦਿਮਾਗ ਗੁਆਏ ਬਿਨਾਂ AI ਮਾਡਲਾਂ ਨੂੰ ਕਿਵੇਂ ਤੈਨਾਤ ਕਰਨਾ ਹੈ 😄✅
ਡਿਪਲਾਇੰਗ ਉਹ ਥਾਂ ਹੈ ਜਿੱਥੇ AI ਇੱਕ ਅਸਲੀ ਉਤਪਾਦ ਬਣ ਜਾਂਦਾ ਹੈ। ਇਹ ਗਲੈਮਰਸ ਨਹੀਂ ਹੈ, ਪਰ ਇਹ ਉਹ ਥਾਂ ਹੈ ਜਿੱਥੇ ਵਿਸ਼ਵਾਸ ਕਮਾਇਆ ਜਾਂਦਾ ਹੈ।.
ਜਲਦੀ ਸੰਖੇਪ ਜਾਣਕਾਰੀ
-
ਪਹਿਲਾਂ ਆਪਣਾ ਡਿਪਲਾਇਮੈਂਟ ਪੈਟਰਨ ਤੈਅ ਕਰੋ (ਰੀਅਲ-ਟਾਈਮ, ਬੈਚ, ਸਟ੍ਰੀਮਿੰਗ, ਐਜ) 🧭 ( ਐਮਾਜ਼ਾਨ ਸੇਜਮੇਕਰ ਬੈਚ ਟ੍ਰਾਂਸਫਾਰਮ , ਕਲਾਉਡ ਡੇਟਾਫਲੋ ਸਟ੍ਰੀਮਿੰਗ ਮੋਡ , ਲਿਟਰਆਰਟੀ ਔਨ-ਡਿਵਾਈਸ ਇਨਫਰੈਂਸ )
-
ਪ੍ਰਜਨਨਯੋਗਤਾ ਲਈ ਪੈਕੇਜ (ਸਭ ਕੁਝ ਵਰਜਨ ਕਰੋ, ਜ਼ਿੰਮੇਵਾਰੀ ਨਾਲ ਕੰਟੇਨਰਾਈਜ਼ ਕਰੋ) 📦 ( ਡੌਕਰ ਕੰਟੇਨਰ )
-
ਪ੍ਰਦਰਸ਼ਨ ਲੋੜਾਂ ਦੇ ਆਧਾਰ 'ਤੇ ਸੇਵਾ ਰਣਨੀਤੀ ਚੁਣੋ (ਸਧਾਰਨ API ਬਨਾਮ ਮਾਡਲ ਸਰਵਰ) 🧰 ( FastAPI , Triton: ਡਾਇਨਾਮਿਕ ਬੈਚਿੰਗ )
-
p95/p99 ਲੇਟੈਂਸੀ ਨੂੰ ਮਾਪੋ, ਸਿਰਫ਼ ਔਸਤ ਹੀ ਨਹੀਂ 🏁 ( ਪੈਮਾਨੇ 'ਤੇ ਪੂਛ )
-
ਸੇਵਾ ਸਿਹਤ ਅਤੇ ਮਾਡਲ ਵਿਵਹਾਰ ਲਈ ਨਿਗਰਾਨੀ ਸ਼ਾਮਲ ਕਰੋ 👀 ( SRE ਕਿਤਾਬ: ਵੰਡੇ ਗਏ ਸਿਸਟਮਾਂ ਦੀ ਨਿਗਰਾਨੀ , ਵਰਟੈਕਸ AI ਮਾਡਲ ਨਿਗਰਾਨੀ )
-
ਕੈਨਰੀ ਜਾਂ ਨੀਲੇ-ਹਰੇ ਨਾਲ ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਰੋਲ ਆਊਟ ਕਰੋ, ਅਤੇ ਵਾਪਸੀ ਨੂੰ ਆਸਾਨ ਰੱਖੋ 🚦 ( ਕੈਨਰੀ ਰਿਲੀਜ਼ , ਨੀਲਾ-ਹਰਾ ਤੈਨਾਤੀ )
-
ਪਹਿਲੇ ਦਿਨ ਤੋਂ ਹੀ ਸੁਰੱਖਿਆ ਅਤੇ ਨਿੱਜਤਾ ਵਿੱਚ ਰਹੋ 🔐 ( AWS ਸੀਕਰੇਟਸ ਮੈਨੇਜਰ , NIST SP 800-122 )
-
ਇਸਨੂੰ ਬੋਰਿੰਗ, ਅਨੁਮਾਨਯੋਗ, ਅਤੇ ਦਸਤਾਵੇਜ਼ੀ ਰੱਖੋ - ਬੋਰਿੰਗ ਸੁੰਦਰ ਹੈ 😌
ਅਤੇ ਹਾਂ, AI ਮਾਡਲਾਂ ਨੂੰ ਕਿਵੇਂ ਤੈਨਾਤ ਕਰਨਾ ਹੈ ਪਹਿਲਾਂ ਤਾਂ ਇਹ ਬਲਦੀ ਹੋਈ ਗੇਂਦਬਾਜ਼ੀ ਗੇਂਦਾਂ ਨੂੰ ਜਗਲ ਕਰਨ ਵਰਗਾ ਮਹਿਸੂਸ ਹੋ ਸਕਦਾ ਹੈ। ਪਰ ਇੱਕ ਵਾਰ ਜਦੋਂ ਤੁਹਾਡੀ ਪਾਈਪਲਾਈਨ ਸਥਿਰ ਹੋ ਜਾਂਦੀ ਹੈ, ਤਾਂ ਇਹ ਅਜੀਬ ਸੰਤੁਸ਼ਟੀਜਨਕ ਹੋ ਜਾਂਦੀ ਹੈ। ਜਿਵੇਂ ਕਿ ਅੰਤ ਵਿੱਚ ਇੱਕ ਬੇਤਰਤੀਬ ਦਰਾਜ਼ ਨੂੰ ਸੰਗਠਿਤ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ... ਸਿਰਫ਼ ਦਰਾਜ਼ ਹੀ ਉਤਪਾਦਨ ਟ੍ਰੈਫਿਕ ਹੈ। 🔥🎳
ਅਕਸਰ ਪੁੱਛੇ ਜਾਂਦੇ ਸਵਾਲ
ਉਤਪਾਦਨ ਵਿੱਚ ਇੱਕ AI ਮਾਡਲ ਨੂੰ ਤੈਨਾਤ ਕਰਨ ਦਾ ਕੀ ਅਰਥ ਹੈ?
ਇੱਕ AI ਮਾਡਲ ਨੂੰ ਤੈਨਾਤ ਕਰਨ ਵਿੱਚ ਆਮ ਤੌਰ 'ਤੇ ਇੱਕ ਪੂਰਵ-ਅਨੁਮਾਨ API ਨੂੰ ਉਜਾਗਰ ਕਰਨ ਤੋਂ ਕਿਤੇ ਜ਼ਿਆਦਾ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ। ਅਭਿਆਸ ਵਿੱਚ, ਇਸ ਵਿੱਚ ਮਾਡਲ ਅਤੇ ਇਸਦੀ ਨਿਰਭਰਤਾਵਾਂ ਨੂੰ ਪੈਕ ਕਰਨਾ, ਇੱਕ ਸਰਵਿੰਗ ਪੈਟਰਨ (ਰੀਅਲ-ਟਾਈਮ, ਬੈਚ, ਸਟ੍ਰੀਮਿੰਗ, ਜਾਂ ਐਜ) ਚੁਣਨਾ, ਭਰੋਸੇਯੋਗਤਾ ਨਾਲ ਸਕੇਲਿੰਗ ਕਰਨਾ, ਸਿਹਤ ਅਤੇ ਡ੍ਰਿਫਟ ਦੀ ਨਿਗਰਾਨੀ ਕਰਨਾ, ਅਤੇ ਸੁਰੱਖਿਅਤ ਰੋਲਆਉਟ ਅਤੇ ਰੋਲਬੈਕ ਮਾਰਗ ਸਥਾਪਤ ਕਰਨਾ ਸ਼ਾਮਲ ਹੈ। ਇੱਕ ਠੋਸ ਤੈਨਾਤੀ ਲੋਡ ਦੇ ਹੇਠਾਂ ਅਨੁਮਾਨਤ ਤੌਰ 'ਤੇ ਸਥਿਰ ਰਹਿੰਦੀ ਹੈ ਅਤੇ ਜਦੋਂ ਕੁਝ ਗਲਤ ਹੋ ਜਾਂਦਾ ਹੈ ਤਾਂ ਨਿਦਾਨਯੋਗ ਰਹਿੰਦੀ ਹੈ।.
ਰੀਅਲ-ਟਾਈਮ, ਬੈਚ, ਸਟ੍ਰੀਮਿੰਗ, ਜਾਂ ਐਜ ਡਿਪਲਾਇਮੈਂਟ ਵਿੱਚੋਂ ਕਿਵੇਂ ਚੋਣ ਕਰੀਏ
ਪੂਰਵ-ਅਨੁਮਾਨਾਂ ਦੀ ਕਦੋਂ ਲੋੜ ਹੁੰਦੀ ਹੈ ਅਤੇ ਤੁਸੀਂ ਕਿਹੜੀਆਂ ਪਾਬੰਦੀਆਂ ਦੇ ਅਧੀਨ ਕੰਮ ਕਰਦੇ ਹੋ, ਇਸ ਦੇ ਆਧਾਰ 'ਤੇ ਤੈਨਾਤੀ ਪੈਟਰਨ ਚੁਣੋ। ਰੀਅਲ-ਟਾਈਮ API ਇੰਟਰਐਕਟਿਵ ਅਨੁਭਵਾਂ ਵਿੱਚ ਫਿੱਟ ਬੈਠਦੇ ਹਨ ਜਿੱਥੇ ਲੇਟੈਂਸੀ ਮਾਇਨੇ ਰੱਖਦੀ ਹੈ। ਬੈਚ ਸਕੋਰਿੰਗ ਸਭ ਤੋਂ ਵਧੀਆ ਕੰਮ ਕਰਦੀ ਹੈ ਜਦੋਂ ਦੇਰੀ ਸਵੀਕਾਰਯੋਗ ਹੁੰਦੀ ਹੈ ਅਤੇ ਲਾਗਤ ਕੁਸ਼ਲਤਾ ਅਗਵਾਈ ਕਰਦੀ ਹੈ। ਸਟ੍ਰੀਮਿੰਗ ਨਿਰੰਤਰ ਇਵੈਂਟ ਪ੍ਰੋਸੈਸਿੰਗ ਦੇ ਅਨੁਕੂਲ ਹੁੰਦੀ ਹੈ, ਖਾਸ ਕਰਕੇ ਜਦੋਂ ਡਿਲੀਵਰੀ ਅਰਥ ਸ਼ਾਸਤਰ ਕੰਡਿਆਲੇ ਹੋ ਜਾਂਦੇ ਹਨ। ਐਜ ਡਿਪਲਾਇਮੈਂਟ ਔਫਲਾਈਨ ਓਪਰੇਸ਼ਨ, ਗੋਪਨੀਯਤਾ, ਜਾਂ ਅਤਿ-ਘੱਟ-ਲੇਟੈਂਸੀ ਜ਼ਰੂਰਤਾਂ ਲਈ ਆਦਰਸ਼ ਹੈ, ਹਾਲਾਂਕਿ ਅੱਪਡੇਟ ਅਤੇ ਹਾਰਡਵੇਅਰ ਪਰਿਵਰਤਨ ਦਾ ਪ੍ਰਬੰਧਨ ਕਰਨਾ ਔਖਾ ਹੋ ਜਾਂਦਾ ਹੈ।.
"ਮੇਰੇ ਲੈਪਟਾਪ 'ਤੇ ਕੰਮ ਕਰਦਾ ਹੈ" ਤੈਨਾਤੀ ਅਸਫਲਤਾਵਾਂ ਤੋਂ ਬਚਣ ਲਈ ਕਿਹੜਾ ਸੰਸਕਰਣ ਕਰਨਾ ਹੈ
ਵਰਜਨ ਸਿਰਫ਼ ਮਾਡਲ ਵਜ਼ਨ ਤੋਂ ਵੱਧ ਹੈ। ਆਮ ਤੌਰ 'ਤੇ, ਤੁਸੀਂ ਇੱਕ ਵਰਜਨ ਵਾਲਾ ਮਾਡਲ ਆਰਟੀਫੈਕਟ (ਟੋਕਨਾਈਜ਼ਰ ਜਾਂ ਲੇਬਲ ਮੈਪਸ ਸਮੇਤ), ਪ੍ਰੀਪ੍ਰੋਸੈਸਿੰਗ ਅਤੇ ਫੀਚਰ ਲਾਜਿਕ, ਇਨਫਰੈਂਸ ਕੋਡ, ਅਤੇ ਪੂਰਾ ਰਨਟਾਈਮ ਵਾਤਾਵਰਣ (ਪਾਈਥਨ/CUDA/ਸਿਸਟਮ ਲਾਇਬ੍ਰੇਰੀਆਂ) ਚਾਹੁੰਦੇ ਹੋਵੋਗੇ। ਮਾਡਲ ਨੂੰ ਟੈਗ ਕੀਤੇ ਸੰਸਕਰਣਾਂ ਅਤੇ ਹਲਕੇ ਮੈਟਾਡੇਟਾ ਦੇ ਨਾਲ ਇੱਕ ਰੀਲੀਜ਼ ਆਰਟੀਫੈਕਟ ਵਜੋਂ ਵਰਤੋ ਜੋ ਸਕੀਮਾ ਉਮੀਦਾਂ, ਮੁਲਾਂਕਣ ਨੋਟਸ ਅਤੇ ਜਾਣੀਆਂ-ਪਛਾਣੀਆਂ ਸੀਮਾਵਾਂ ਦਾ ਵਰਣਨ ਕਰਦਾ ਹੈ।.
ਕੀ ਇੱਕ ਸਧਾਰਨ FastAPI-ਸ਼ੈਲੀ ਸੇਵਾ ਨਾਲ ਤੈਨਾਤ ਕਰਨਾ ਹੈ ਜਾਂ ਇੱਕ ਸਮਰਪਿਤ ਮਾਡਲ ਸਰਵਰ ਨਾਲ
ਇੱਕ ਸਧਾਰਨ ਐਪ ਸਰਵਰ (ਇੱਕ FastAPI-ਸ਼ੈਲੀ ਦਾ ਤਰੀਕਾ) ਸ਼ੁਰੂਆਤੀ ਉਤਪਾਦਾਂ ਜਾਂ ਸਿੱਧੇ ਮਾਡਲਾਂ ਲਈ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ ਕਿਉਂਕਿ ਤੁਸੀਂ ਰੂਟਿੰਗ, ਪ੍ਰਮਾਣੀਕਰਨ ਅਤੇ ਏਕੀਕਰਨ 'ਤੇ ਨਿਯੰਤਰਣ ਰੱਖਦੇ ਹੋ। ਇੱਕ ਮਾਡਲ ਸਰਵਰ (TorchServe ਜਾਂ NVIDIA Triton-ਸ਼ੈਲੀ) ਬਾਕਸ ਤੋਂ ਬਾਹਰ ਮਜ਼ਬੂਤ ਬੈਚਿੰਗ, ਸਮਕਾਲੀਨਤਾ ਅਤੇ GPU ਕੁਸ਼ਲਤਾ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦਾ ਹੈ। ਬਹੁਤ ਸਾਰੀਆਂ ਟੀਮਾਂ ਇੱਕ ਹਾਈਬ੍ਰਿਡ 'ਤੇ ਉਤਰਦੀਆਂ ਹਨ: ਅਨੁਮਾਨ ਲਈ ਇੱਕ ਮਾਡਲ ਸਰਵਰ ਅਤੇ ਪ੍ਰਮਾਣੀਕਰਨ, ਬੇਨਤੀ ਆਕਾਰ ਦੇਣ ਅਤੇ ਦਰ ਸੀਮਾਵਾਂ ਲਈ ਇੱਕ ਪਤਲੀ API ਪਰਤ।.
ਸ਼ੁੱਧਤਾ ਨੂੰ ਤੋੜੇ ਬਿਨਾਂ ਲੇਟੈਂਸੀ ਅਤੇ ਥਰੂਪੁੱਟ ਨੂੰ ਕਿਵੇਂ ਬਿਹਤਰ ਬਣਾਇਆ ਜਾਵੇ
ਯਥਾਰਥਵਾਦੀ ਪੇਲੋਡਾਂ ਨਾਲ ਉਤਪਾਦਨ-ਵਰਗੇ ਹਾਰਡਵੇਅਰ 'ਤੇ p95/p99 ਲੇਟੈਂਸੀ ਨੂੰ ਮਾਪ ਕੇ ਸ਼ੁਰੂਆਤ ਕਰੋ, ਕਿਉਂਕਿ ਛੋਟੇ ਟੈਸਟ ਗੁੰਮਰਾਹ ਕਰ ਸਕਦੇ ਹਨ। ਆਮ ਲੀਵਰਾਂ ਵਿੱਚ ਬੈਚਿੰਗ (ਬਿਹਤਰ ਥਰੂਪੁੱਟ, ਸੰਭਾਵੀ ਤੌਰ 'ਤੇ ਮਾੜੀ ਲੇਟੈਂਸੀ), ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ (ਛੋਟਾ ਅਤੇ ਤੇਜ਼, ਕਈ ਵਾਰ ਮਾਮੂਲੀ ਸ਼ੁੱਧਤਾ ਵਪਾਰ-ਆਫ ਦੇ ਨਾਲ), ਸੰਕਲਨ ਅਤੇ ਅਨੁਕੂਲਤਾ ਪ੍ਰਵਾਹ (ONNX/TensorRT-ਵਰਗੇ), ਅਤੇ ਵਾਰ-ਵਾਰ ਇਨਪੁਟਸ ਜਾਂ ਏਮਬੈਡਿੰਗ ਕੈਸ਼ਿੰਗ ਸ਼ਾਮਲ ਹਨ। ਕਤਾਰ ਡੂੰਘਾਈ ਦੇ ਅਧਾਰ ਤੇ ਆਟੋਸਕੇਲਿੰਗ ਟੇਲ ਲੇਟੈਂਸੀ ਨੂੰ ਉੱਪਰ ਵੱਲ ਵਧਣ ਤੋਂ ਵੀ ਰੋਕ ਸਕਦੀ ਹੈ।.
"ਅੰਤ ਬਿੰਦੂ ਉੱਪਰ ਹੈ" ਤੋਂ ਪਰੇ ਕਿਹੜੀ ਨਿਗਰਾਨੀ ਦੀ ਲੋੜ ਹੈ?
ਅਪਟਾਈਮ ਕਾਫ਼ੀ ਨਹੀਂ ਹੈ, ਕਿਉਂਕਿ ਇੱਕ ਸੇਵਾ ਸਿਹਤਮੰਦ ਦਿਖਾਈ ਦੇ ਸਕਦੀ ਹੈ ਜਦੋਂ ਕਿ ਭਵਿੱਖਬਾਣੀ ਗੁਣਵੱਤਾ ਘੱਟ ਜਾਂਦੀ ਹੈ। ਘੱਟੋ-ਘੱਟ, ਬੇਨਤੀ ਵਾਲੀਅਮ, ਗਲਤੀ ਦਰ, ਅਤੇ ਲੇਟੈਂਸੀ ਵੰਡਾਂ ਦੀ ਨਿਗਰਾਨੀ ਕਰੋ, ਨਾਲ ਹੀ CPU/GPU/ਮੈਮੋਰੀ ਅਤੇ ਕਤਾਰ ਸਮਾਂ ਵਰਗੇ ਸੰਤ੍ਰਿਪਤਾ ਸਿਗਨਲਾਂ ਦੀ ਵੀ ਨਿਗਰਾਨੀ ਕਰੋ। ਮਾਡਲ ਵਿਵਹਾਰ ਲਈ, ਬੁਨਿਆਦੀ ਅਸੰਗਤ ਸਿਗਨਲਾਂ ਦੇ ਨਾਲ ਇਨਪੁਟ ਅਤੇ ਆਉਟਪੁੱਟ ਵੰਡਾਂ ਨੂੰ ਟਰੈਕ ਕਰੋ। ਡ੍ਰਿਫਟ ਜਾਂਚਾਂ ਸ਼ਾਮਲ ਕਰੋ ਜੋ ਸ਼ੋਰ ਅਲਰਟ ਦੀ ਬਜਾਏ ਕਾਰਵਾਈ ਨੂੰ ਚਾਲੂ ਕਰਦੀਆਂ ਹਨ, ਅਤੇ ਲੌਗ ਬੇਨਤੀ ਆਈਡੀ, ਮਾਡਲ ਸੰਸਕਰਣ, ਅਤੇ ਸਕੀਮਾ ਪ੍ਰਮਾਣਿਕਤਾ ਨਤੀਜੇ।.
ਨਵੇਂ ਮਾਡਲ ਸੰਸਕਰਣਾਂ ਨੂੰ ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਕਿਵੇਂ ਰੋਲ ਆਊਟ ਕਰਨਾ ਹੈ ਅਤੇ ਤੇਜ਼ੀ ਨਾਲ ਕਿਵੇਂ ਠੀਕ ਕਰਨਾ ਹੈ
ਮਾਡਲਾਂ ਨੂੰ ਪੂਰੇ ਰੀਲੀਜ਼ਾਂ ਵਾਂਗ ਸਮਝੋ, ਇੱਕ CI/CD ਪਾਈਪਲਾਈਨ ਦੇ ਨਾਲ ਜੋ ਪ੍ਰੀਪ੍ਰੋਸੈਸਿੰਗ ਅਤੇ ਪੋਸਟਪ੍ਰੋਸੈਸਿੰਗ ਦੀ ਜਾਂਚ ਕਰਦੀ ਹੈ, ਇੱਕ "ਗੋਲਡਨ ਸੈੱਟ" ਦੇ ਵਿਰੁੱਧ ਏਕੀਕਰਣ ਜਾਂਚ ਚਲਾਉਂਦੀ ਹੈ, ਅਤੇ ਇੱਕ ਲੋਡ ਬੇਸਲਾਈਨ ਸਥਾਪਤ ਕਰਦੀ ਹੈ। ਰੋਲਆਉਟ ਲਈ, ਕੈਨਰੀ ਰੈਂਪ ਟ੍ਰੈਫਿਕ ਨੂੰ ਹੌਲੀ-ਹੌਲੀ ਜਾਰੀ ਕਰਦੀ ਹੈ, ਜਦੋਂ ਕਿ ਨੀਲਾ-ਹਰਾ ਤੁਰੰਤ ਫਾਲਬੈਕ ਲਈ ਇੱਕ ਪੁਰਾਣੇ ਸੰਸਕਰਣ ਨੂੰ ਲਾਈਵ ਰੱਖਦਾ ਹੈ। ਸ਼ੈਡੋ ਟੈਸਟਿੰਗ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕੀਤੇ ਬਿਨਾਂ ਅਸਲ ਟ੍ਰੈਫਿਕ 'ਤੇ ਇੱਕ ਨਵੇਂ ਮਾਡਲ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ। ਰੋਲਬੈਕ ਇੱਕ ਪਹਿਲੀ ਸ਼੍ਰੇਣੀ ਦੀ ਵਿਧੀ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ, ਬਾਅਦ ਵਿੱਚ ਸੋਚੀ ਨਹੀਂ।.
ਏਆਈ ਮਾਡਲਾਂ ਨੂੰ ਤੈਨਾਤ ਕਰਨਾ ਸਿੱਖਣ ਵੇਲੇ ਸਭ ਤੋਂ ਆਮ ਮੁਸ਼ਕਲਾਂ
ਸਿਖਲਾਈ-ਸੇਵਾ ਕਰਨ ਵਾਲਾ ਸਕਿਊ ਕਲਾਸਿਕ ਮਾਮਲਾ ਹੈ: ਪ੍ਰੀਪ੍ਰੋਸੈਸਿੰਗ ਸਿਖਲਾਈ ਅਤੇ ਉਤਪਾਦਨ ਵਿਚਕਾਰ ਵੱਖਰਾ ਹੁੰਦਾ ਹੈ, ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ ਚੁੱਪਚਾਪ ਘਟਦਾ ਹੈ। ਇੱਕ ਹੋਰ ਅਕਸਰ ਮੁੱਦਾ ਸਕੀਮਾ ਪ੍ਰਮਾਣਿਕਤਾ ਦੀ ਘਾਟ ਹੈ, ਜਿੱਥੇ ਇੱਕ ਅੱਪਸਟ੍ਰੀਮ ਤਬਦੀਲੀ ਸੂਖਮ ਤਰੀਕਿਆਂ ਨਾਲ ਇਨਪੁਟਸ ਨੂੰ ਤੋੜਦੀ ਹੈ। ਟੀਮਾਂ ਟੇਲ ਲੇਟੈਂਸੀ ਨੂੰ ਵੀ ਘੱਟ ਸਮਝਦੀਆਂ ਹਨ ਅਤੇ ਔਸਤ 'ਤੇ ਜ਼ਿਆਦਾ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੀਆਂ ਹਨ, ਲਾਗਤ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਦੀਆਂ ਹਨ (ਵਿਹਲੇ GPU ਤੇਜ਼ੀ ਨਾਲ ਜੋੜਦੇ ਹਨ), ਅਤੇ ਰੋਲਬੈਕ ਯੋਜਨਾਬੰਦੀ ਨੂੰ ਛੱਡ ਦਿੰਦੀਆਂ ਹਨ। ਸਿਰਫ਼ ਅੱਪਟਾਈਮ ਦੀ ਨਿਗਰਾਨੀ ਕਰਨਾ ਖਾਸ ਤੌਰ 'ਤੇ ਜੋਖਮ ਭਰਿਆ ਹੁੰਦਾ ਹੈ, ਕਿਉਂਕਿ "ਉੱਪਰ ਪਰ ਗਲਤ" ਹੇਠਾਂ ਨਾਲੋਂ ਵੀ ਮਾੜਾ ਹੋ ਸਕਦਾ ਹੈ।.
ਹਵਾਲੇ
-
ਐਮਾਜ਼ਾਨ ਵੈੱਬ ਸਰਵਿਸਿਜ਼ (AWS) - ਐਮਾਜ਼ਾਨ ਸੇਜਮੇਕਰ: ਰੀਅਲ-ਟਾਈਮ ਇਨਫਰੈਂਸ - docs.aws.amazon.com
-
ਐਮਾਜ਼ਾਨ ਵੈੱਬ ਸਰਵਿਸਿਜ਼ (AWS) - ਐਮਾਜ਼ਾਨ ਸੇਜਮੇਕਰ ਬੈਚ ਟ੍ਰਾਂਸਫਾਰਮ - docs.aws.amazon.com
-
ਐਮਾਜ਼ਾਨ ਵੈੱਬ ਸਰਵਿਸਿਜ਼ (AWS) - ਐਮਾਜ਼ਾਨ ਸੇਜਮੇਕਰ ਮਾਡਲ ਮਾਨੀਟਰ - docs.aws.amazon.com
-
ਐਮਾਜ਼ਾਨ ਵੈੱਬ ਸੇਵਾਵਾਂ (AWS) - API ਗੇਟਵੇ ਬੇਨਤੀ ਥ੍ਰੋਟਲਿੰਗ - docs.aws.amazon.com
-
ਐਮਾਜ਼ਾਨ ਵੈੱਬ ਸਰਵਿਸਿਜ਼ (AWS) - AWS ਸੀਕਰੇਟਸ ਮੈਨੇਜਰ: ਜਾਣ-ਪਛਾਣ - docs.aws.amazon.com
-
ਐਮਾਜ਼ਾਨ ਵੈੱਬ ਸਰਵਿਸਿਜ਼ (AWS) - AWS ਲੈਂਬਡਾ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਵਾਤਾਵਰਣ ਜੀਵਨ ਚੱਕਰ - docs.aws.amazon.com
-
ਗੂਗਲ ਕਲਾਉਡ - ਵਰਟੈਕਸ ਏਆਈ: ਇੱਕ ਮਾਡਲ ਨੂੰ ਇੱਕ ਐਂਡਪੁਆਇੰਟ ਤੇ ਤੈਨਾਤ ਕਰੋ - docs.cloud.google.com
-
ਗੂਗਲ ਕਲਾਉਡ - ਵਰਟੈਕਸ ਏਆਈ ਮਾਡਲ ਨਿਗਰਾਨੀ ਸੰਖੇਪ ਜਾਣਕਾਰੀ - docs.cloud.google.com
-
ਗੂਗਲ ਕਲਾਉਡ - ਵਰਟੈਕਸ ਏਆਈ: ਫੀਚਰ ਸਕਿਊ ਅਤੇ ਡ੍ਰਿਫਟ ਦੀ ਨਿਗਰਾਨੀ ਕਰੋ - docs.cloud.google.com
-
ਗੂਗਲ ਕਲਾਉਡ ਬਲੌਗ - ਡੇਟਾਫਲੋ: ਬਿਲਕੁਲ ਇੱਕ ਵਾਰ ਬਨਾਮ ਘੱਟੋ ਘੱਟ ਇੱਕ ਵਾਰ ਸਟ੍ਰੀਮਿੰਗ ਮੋਡ - cloud.google.com
-
ਗੂਗਲ ਕਲਾਉਡ - ਕਲਾਉਡ ਡੇਟਾਫਲੋ ਸਟ੍ਰੀਮਿੰਗ ਮੋਡ - docs.cloud.google.com
-
ਗੂਗਲ ਐਸਆਰਈ ਬੁੱਕ - ਡਿਸਟ੍ਰੀਬਿਊਟਡ ਸਿਸਟਮ ਦੀ ਨਿਗਰਾਨੀ - sre.google
-
ਗੂਗਲ ਰਿਸਰਚ - ਸਕੇਲ 'ਤੇ ਪੂਛ - research.google
-
LiteRT (Google AI) - LiteRT ਸੰਖੇਪ ਜਾਣਕਾਰੀ - ai.google.dev
-
LiteRT (Google AI) - LiteRT ਔਨ-ਡਿਵਾਈਸ ਅਨੁਮਾਨ - ai.google.dev
-
ਡੌਕਰ - ਕੰਟੇਨਰ ਕੀ ਹੁੰਦਾ ਹੈ? - docs.docker.com
-
ਡੌਕਰ - ਡੌਕਰ ਬਿਲਡ ਬੈਸਟ ਪ੍ਰੈਕਟਿਸ - docs.docker.com
-
ਕੁਬਰਨੇਟਸ - ਕੁਬਰਨੇਟਸ ਸੀਕਰੇਟਸ - kubernetes.io
-
ਕੁਬਰਨੇਟਸ - ਹਰੀਜ਼ੋਂਟਲ ਪੋਡ ਆਟੋਸਕੇਲਿੰਗ - kubernetes.io
-
ਮਾਰਟਿਨ ਫਾਉਲਰ - ਕੈਨਰੀ ਰਿਲੀਜ਼ - martinfowler.com
-
ਮਾਰਟਿਨ ਫਾਉਲਰ - ਨੀਲਾ-ਹਰਾ ਤੈਨਾਤੀ - martinfowler.com
-
ਓਪਨਏਪੀਆਈ ਪਹਿਲ - ਓਪਨਏਪੀਆਈ ਕੀ ਹੈ? - openapis.org
-
JSON ਸਕੀਮਾ - (ਸਾਈਟ ਦਾ ਹਵਾਲਾ ਦਿੱਤਾ ਗਿਆ) - json-schema.org
-
ਪ੍ਰੋਟੋਕੋਲ ਬਫਰ - ਪ੍ਰੋਟੋਕੋਲ ਬਫਰ ਸੰਖੇਪ ਜਾਣਕਾਰੀ - protobuf.dev
-
ਫਾਸਟਏਪੀਆਈ - (ਸਾਈਟ ਦਾ ਹਵਾਲਾ ਦਿੱਤਾ ਗਿਆ) - fastapi.tiangolo.com
-
NVIDIA - ਟ੍ਰਾਈਟਨ: ਡਾਇਨਾਮਿਕ ਬੈਚਿੰਗ ਅਤੇ ਸਮਕਾਲੀ ਮਾਡਲ ਐਗਜ਼ੀਕਿਊਸ਼ਨ - docs.nvidia.com
-
ਐਨਵੀਆਈਡੀਆ - ਟ੍ਰਾਈਟਨ: ਸਮਕਾਲੀ ਮਾਡਲ ਐਗਜ਼ੀਕਿਊਸ਼ਨ - docs.nvidia.com
-
NVIDIA - ਟ੍ਰਾਈਟਨ ਇਨਫਰੈਂਸ ਸਰਵਰ ਡੌਕਸ - docs.nvidia.com
-
ਪਾਈਟੋਰਚ - ਟੌਰਚਸਰਵ ਡੌਕਸ - docs.pytorch.org
-
BentoML - ਤੈਨਾਤੀ ਲਈ ਪੈਕੇਜਿੰਗ - docs.bentoml.com
-
ਰੇ - ਰੇ ਸਰਵ ਡੌਕਸ - docs.ray.io
-
ਟੈਂਸਰਫਲੋ - ਸਿਖਲਾਈ ਤੋਂ ਬਾਅਦ ਦੀ ਮਾਤਰਾ (ਟੈਂਸਰਫਲੋ ਮਾਡਲ ਔਪਟੀਮਾਈਜੇਸ਼ਨ) - tensorflow.org
-
ਟੈਂਸਰਫਲੋ - ਟੈਂਸਰਫਲੋ ਡੇਟਾ ਵੈਲੀਡੇਸ਼ਨ: ਟ੍ਰੇਨਿੰਗ-ਸਰਵਿੰਗ ਸਕਿਊ ਦਾ ਪਤਾ ਲਗਾਓ - tensorflow.org
-
ONNX - (ਸਾਈਟ ਦਾ ਹਵਾਲਾ ਦਿੱਤਾ ਗਿਆ) - onnx.ai
-
ONNX ਰਨਟਾਈਮ - ਮਾਡਲ ਅਨੁਕੂਲਤਾਵਾਂ - onnxruntime.ai
-
NIST (ਨੈਸ਼ਨਲ ਇੰਸਟੀਚਿਊਟ ਆਫ਼ ਸਟੈਂਡਰਡਜ਼ ਐਂਡ ਟੈਕਨਾਲੋਜੀ) - NIST SP 800-122 - csrc.nist.gov
-
arXiv - ਮਾਡਲ ਰਿਪੋਰਟਿੰਗ ਲਈ ਮਾਡਲ ਕਾਰਡ - arxiv.org
-
ਮਾਈਕ੍ਰੋਸਾਫਟ - ਸ਼ੈਡੋ ਟੈਸਟਿੰਗ - microsoft.github.io
-
OWASP - LLM ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ OWASP ਸਿਖਰਲੇ 10 - owasp.org
-
OWASP GenAI ਸੁਰੱਖਿਆ ਪ੍ਰੋਜੈਕਟ - OWASP: ਪ੍ਰੋਂਪਟ ਇੰਜੈਕਸ਼ਨ - genai.owasp.org