AI(artificial intelligence)

Что это

AI(artificial intelligence) - это система, которая способна воспринимать свою среду и принимать меры, чтобы максимизировать шансы на успешное достижение своих целей, а также интерпретировать и анализировать данные таким образом, чтобы они обучались и адаптировались по мере развития.

ML(machine learning)

ML - класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение за счёт применения решений множества сходных задач.

Supervised Learning - самый частый способ машинного обучение также называется A -> B(Input -> Output).

Deep learning

Deep learning - реализация ML похожая на структуру мозга с названием Artificial neural networks.

Data Science

Data Science - это наука о методах анализа данных и извлечения из них ценной информации, знаний. Они определяют какие данные и как должны быть использованы.

Виды данных

Structured - number, boolean...
Unstructured - images, audio, text...

Key steps of a machine learning project

Collect data
Train model - iterate many times until good enough.
Deploy model - maintain, update model.

Key steps of a data science project

Collect data
Analyze data - iterate many times until good insights.
Suggest hypotheses/actions - deploy changes, re-analyze new data periodically

Due diligence on project

Technical diligence

Can AI system meet desired performance.
How much data is needed.
Engineering timeline.

Business diligence

Lower costs.
Increase revenue.
Launch new product or business.

Machine learning frameworks

TensorFlow
PyTorch
Keras
MXNet
CNTK
Caffe
PaddlePaddle
Scikit-learn
R
Weka

Расположение серверов

Cloud - облачные сервера.
On-premises - сервера на стороне клиентов.
Edge - размещение на устройствах. Без серверов. Автомобиль, телефон и тд.

Computer Vision

Image classification/Object recognition - распознавание объекта. В него входит Face recognition - распознавание лица.
Object detection - присутствует ли объекты. Пример: обвести в прямоугольники найденные объекты.
Image segmentation - когда мы уже знаем объекты на картинке, мы можем отнести каждый пиксель к объекту или нет.
Tracking - отслеживание объекта на видео.

Natural Language Processing

Text classification
- Email -> Spam/Non-Spam
- Product description -> Product category
- "The food was food -> 5 stars"
Information retrieval
Name entity recognition
Machine translation

Speech

Speech recognition
Trigger word/wakeword detection
Speaker ID
Speech synthesis(text-to-speech, TTS)

Supervised learning

Supervised learning - способ машинного обучения, в ходе которого испытуемая система принудительно обучается с помощью примеров «стимул-реакция».

Unsupervised learning

Unsupervised learning - способ машинного обучения, при котором испытуемая система спонтанно обучается выполнять поставленную задачу без вмешательства со стороны экспериментатора. Нахождение каких либо интересных наблюдений. Когда мы не задаем что нам нужно в output B, и хотим чтобы AI сам нашел что-то интересное.

Transfer learning

Transfer learning - когда умение в чем-то помогает понимать новое. Пример: умение распознавать кружки, поможет распознавать вазы.

Reinforcement learning

Reinforcement learning - метод обучения, когда ты позволяешь делать что угодно, но хвалишь за успешные действия. Пример: машина может ехать куда угодно, но ее хвалят если она приехала на нужное место быстрее и ругают после аварий.

GANs (Generative Adversarial Network)

GANs - создание чего-либо нового на основе других данных. Пример: из 2-х фото сделать новое похожее на оба примера.

Generative AI(GenAi)

Это тип искусственного интеллекта, который создает новый контент на основе того, что он узнал из существующего контента..
Процесс обучения на основе существующего контента называется training и приводит к созданию statistical model.
При получении подсказки GenAI использует эту статистическую модель, чтобы предсказать, каким может быть ожидаемый ответ, и это генерирует новый контент.

Может генерировать

text
image
audio
synthetic data

Hullucinations

The model is not trained on enough data
The model is trained on noisy of dirty data
The model is not given enough context
The model is not given enough constraints

Large language models - can be pre-trained and then fine-tuned for specific purposes.

Large language models(LLM)

Large language models - один из видов Generative AI. Могут быть предварительно обучены, а затем точно настроены для конкретных целей.

Text classification
Question answering
Document summarization
Text generation

Lagre

Large training dataset
Large number of parameters

General purpose

Commonality of human languages
Resource restriction

Pre-trained and fine-tuned

Commonality of human languages
Resource restriction

LLM Development vs Tradition Development

LLM Development(using pre-trained APIs)

NO ML expertise needed
NO training examples
NO need to train a model
Thinks about prompt design

Traditional Development

YES ML expertise needed
YES training examples
YES need to train a model
YES compute time + hardware
Thinks about minimizing a loss function

3 main kinds of LLM

Generic(Raw) Language Models - предугадывание след. слова основано на языке из обученных данных.
Instruction tuned - предугадывание ответа через инструкции из входных данных.
Dialog tuned - использует диалог для предугадывания следующего ответа.