Как работает vcsurf
Итак, пришло время рассказать, что может vcsurf и как устроен сервис.
1. Работа с pdf. Когда юзер загружает свой дек для анализа, нужно достать из него весь текст для последующей работы. Это делается с помощью файнтюненой модели на layout + ocr tesseract.
2. Классификация В бэке сервиса есть большое количество моделей, которые помогают определять потенциальные параметры стартапа по его описанию. Модели здесь debertav2 и v3, обучены с нуля на выбранных мной датасетах с достаточно широкими доменами + тюн на деки 1к+ стартапов
3. Работа с текстом дека. Здесь самое сложное. Нужно почистить текст после ocr и не потерять никаких важных деталей. Пока опущу момент как делать это быстро и без заметных потерь. Есть модель саммаризации после этого этапа, лежит на everinfer.ai.
4. Векторные бд. С помощью поиска по ним (насобирал очень много постов и текстов) создается контекст для последующей обработки с помощью LLM конкретно под каждый дек. Работает на удивление приятно, очень быстро можно получить инфу по конкурентам, рынку и тд. Есть парсинг в реальном времени, но пока на него не ориентируюсь, слишком затратно, но иногда очень ценно по данным.
Некоторые моменты я пропустил или специально не рассказал, поскольку сейчас активно тестирую и перебираю варианты
Лендинг (подробное описание фичей) - hi.vcapp.one
Еще кстати у нас закрытая бета, записываться здесь @air_korolev в формате “я занимаюсь X, хочу попробовать vcsurf для Y”
Скоро будет лаунч на продактхант для юзеров, готовьтесь)
Итак, пришло время рассказать, что может vcsurf и как устроен сервис.
1. Работа с pdf. Когда юзер загружает свой дек для анализа, нужно достать из него весь текст для последующей работы. Это делается с помощью файнтюненой модели на layout + ocr tesseract.
2. Классификация В бэке сервиса есть большое количество моделей, которые помогают определять потенциальные параметры стартапа по его описанию. Модели здесь debertav2 и v3, обучены с нуля на выбранных мной датасетах с достаточно широкими доменами + тюн на деки 1к+ стартапов
3. Работа с текстом дека. Здесь самое сложное. Нужно почистить текст после ocr и не потерять никаких важных деталей. Пока опущу момент как делать это быстро и без заметных потерь. Есть модель саммаризации после этого этапа, лежит на everinfer.ai.
4. Векторные бд. С помощью поиска по ним (насобирал очень много постов и текстов) создается контекст для последующей обработки с помощью LLM конкретно под каждый дек. Работает на удивление приятно, очень быстро можно получить инфу по конкурентам, рынку и тд. Есть парсинг в реальном времени, но пока на него не ориентируюсь, слишком затратно, но иногда очень ценно по данным.
Некоторые моменты я пропустил или специально не рассказал, поскольку сейчас активно тестирую и перебираю варианты
Лендинг (подробное описание фичей) - hi.vcapp.one
Еще кстати у нас закрытая бета, записываться здесь @air_korolev в формате “я занимаюсь X, хочу попробовать vcsurf для Y”
Скоро будет лаунч на продактхант для юзеров, готовьтесь)