🌟 Marco-o1: модель рассуждений от Alibaba.
🌟 Marco-o1: модель рассуждений от Alibaba.
Marco-o1 – LLM, файнтюн-версия Qwen2-7B-Instruct для решения сложных задач, требующих рассуждений. В создании модели использовались методики Chain-of-Thought (CoT), поиска по дереву Монте-Карло (MCTS) и уникальные стратегии регулирования действий при рассуждении.
Marco-o1 обучалась на 3 датасетах: отфильтрованный набор данных Open-O1 CoT, синтетический набор Marco-o1 CoT и собственный набор инструкций Marco.
В модели реализованы 2 стратегии действий: "шаг как действие" и "мини-шаг как действие" (32 или 64 токена соответственно). Мини-шаг как действие обеспечивает более детальное исследование пространства решений.
В Marco-o1 был внедрен механизм рефлексии, который побуждает модель переосмысливать свои рассуждения, что улучшает результаты инференса, особенно в сложных составных задачах.
Модель оценивалась на наборах данных MGSM (английский и китайский). Результаты показали, что Marco-o1 превосходит Qwen2-7B-Instruct и демонстрирует улучшение точности на 6,17% для английского набора данных и 5,60% для китайского. Модель превзошла Google Translate в задачах языкового перевода, особенно при переводе разговорных выражений.
В ближайших планах:
🟠Обучаются версии модели вознаграждения за результат (ORM) и вознаграждения за процесс (PRM).
🟠Reinforcement Learning: обучение с подкреплением для совершенствования рассуждений.
▶️Установка и локальный инференс:
# Clone the repository
git clone https://github.com/AIDC-AI/Marco-o1
# Change to the Macaw-LLM directory
cd Marco-o1
# Install required packages
pip install -r requirements.txt
# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("AIDC-AI/Marco-o1")
model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Marco-o1")
# Run Inference
./src/talk_with_model.py
📌Лицензирование: Apache 2.0 License.
🟡Модель
🟡Версии GGUF
🟡Arxiv
🟡Датасет
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #CoT #Alibaba #MarcoO1
Marco-o1 – LLM, файнтюн-версия Qwen2-7B-Instruct для решения сложных задач, требующих рассуждений. В создании модели использовались методики Chain-of-Thought (CoT), поиска по дереву Монте-Карло (MCTS) и уникальные стратегии регулирования действий при рассуждении.
Marco-o1 обучалась на 3 датасетах: отфильтрованный набор данных Open-O1 CoT, синтетический набор Marco-o1 CoT и собственный набор инструкций Marco.
В модели реализованы 2 стратегии действий: "шаг как действие" и "мини-шаг как действие" (32 или 64 токена соответственно). Мини-шаг как действие обеспечивает более детальное исследование пространства решений.
В Marco-o1 был внедрен механизм рефлексии, который побуждает модель переосмысливать свои рассуждения, что улучшает результаты инференса, особенно в сложных составных задачах.
Модель оценивалась на наборах данных MGSM (английский и китайский). Результаты показали, что Marco-o1 превосходит Qwen2-7B-Instruct и демонстрирует улучшение точности на 6,17% для английского набора данных и 5,60% для китайского. Модель превзошла Google Translate в задачах языкового перевода, особенно при переводе разговорных выражений.
В ближайших планах:
🟠Обучаются версии модели вознаграждения за результат (ORM) и вознаграждения за процесс (PRM).
🟠Reinforcement Learning: обучение с подкреплением для совершенствования рассуждений.
▶️Установка и локальный инференс:
# Clone the repository
git clone https://github.com/AIDC-AI/Marco-o1
# Change to the Macaw-LLM directory
cd Marco-o1
# Install required packages
pip install -r requirements.txt
# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("AIDC-AI/Marco-o1")
model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Marco-o1")
# Run Inference
./src/talk_with_model.py
📌Лицензирование: Apache 2.0 License.
🟡Модель
🟡Версии GGUF
🟡Arxiv
🟡Датасет
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #CoT #Alibaba #MarcoO1
Канал источник:@ai_machinelearning_big_data