HRM

Uitkomstgerichte ggz gaat ‘never nooit niet’ aan risicoselectie doen

De vier ggz-aanbieders die zich binnen het samenwerkingsverband Volante sterk maken voor betere uitkomstregistratie in de sector zullen “never nooit niet” overgaan tot risicoselectie. Dit zegt de onlangs teruggetreden Volante-voorzitter Ernst Klunder in reactie op de plannen van verzekeraar Menzis voor uitkomstfinanciering op Qruxx.nl.

Menzis presenteerde eerder deze maand plannen voor resultaatgerichte vergoeding van de behandeling van angststoornissen en depressie, waarop een storm van kritiek opstak. Volgens de critici leidt een dergelijke aanpak tot verschraling, bezuinigingen en risicoselectie, omdat aanbieders door financiële prikkels verleid dan wel gedwongen zouden worden om ‘moeilijke’ cliënten te mijden.  

Positief

Klunder, tot zijn overstap naar de organisatie voor gehandicaptenzorg ’s Heeren Loo op 1 oktober bestuursvoorzitter van ggz-aanbieder Dimence, is het niet met de kritiek eens. “Het Menzis-verhaal speelde toen ik op vakantie was en het stokje als Volante-voorzitter net had overgedragen, maar mijn handen jeukten”, blikt Klunder terug op Qruxx.nl. “Wij hebben ons als Volante-instellingen positief uitgesproken over de Menzis-plannen. Voorafgaand aan de publicatie hebben wij met Menzis gesproken en zelfs input kunnen leveren. Zij zijn als zorgverzekeraar op zoek naar eenzelfde duiding van de vraag die ons als aanbieders bezig houdt, namelijk: wat is waardevolle zorg? De discussie die met name via social media volgde ging al snel eenzijdig over bezuinigingen en risicoselectie. Dat is jammer, want daarmee doen we die zoektocht onrecht aan.”

Gevraagd naar het gevaar van risico-selectie reageert Klunder stellig. “Ik kan je garanderen dat de Volante-instellingen never nooit niet zullen overgaan tot risicoselectie. Als je er zoals Dimence al sinds 1470 voor de lichtste en zwaarste gevallen bent, dan blijft dat voorlopig wel zo.”

Zoekproces

Klunder is er juist van overtuigd dat een meer uitkomstgerichte aanpak waarin uitkomsten van zorg onderling worden uitgewisseld en consequent worden gebruikt om te leren, de zorg juist kan verbeteren. Voorwaarde is wel dat bestuurders en managers een concept als value based healthcare niet dwingend opleggen. “Als je VBHC neerzet als een soort religie die je rücksichtslos moet volgen, dan gaat dat weerstand oproepen. Wij zien het meer als een organisch zoekproces; hoe kunnen we dingen vinden die van waarde zijn voor patiënten en die inzetten om de behandelrelatie te optimaliseren en zo toegevoegde waarde te leveren. Als je dat goed doet, kan het professionele handelingsruimte vergroten en ervoor zorgen dat er meer tijd en aandacht komt voor de dingen die er toe doen. Daarmee is het ook een oplossing voor heel veel gezeur en gedoe waar we afgelopen jaren mee geconfronteerd zijn geweest.”

Lees het volledige interview met Ernst Klunder op Qruxx.nl

27 Reacties

om een reactie achter te laten

Evelien van der vinne

13 september 2018

Complimenten Ernst, dat is precies de houding die nodig is! Experimenteren vraagt om vertrouwen en eerlijke spelregels. Hiermee schep je een goede randvoorwaarde voor het laten slagen van dit nieuw type contract, bij minder goede uitkomsten kan juist onderzocht worden hoe te coorigeren voor mensen met ernstige problematiek. De zoektocht naar de juiste correctiefactoren zal niet gemakkelijk zijn maar maak jij op deze manier mogelijk! Tevens kan verder diepgaand onderzoek worden gedaan naar waarom uitkomsten minder hoog scoren (zonder ruis van positieve selectie), wat input geeft voor verbetering van zorg: ook een pluspunt! Op naar steeds betere uitkomsten voor patient!!!

Jim van Os

13 september 2018

Ik denk toch echt dat het beter was geweest om eerst even na te denken in hoeverre verschillen in een getal, te weten de delta T van Stichting Benchmark GGZ, die landelijk wordt verzameld a raison van 30 miljoen euro directe en indirecte kosten per jaar, kunnen worden geduid als verschillen in kwaliteit van behandeling. Iemand met verstand van zaken, zoals de kernhoogleraren psychiatrie die hierover schreven in 2012, hadden de initiatiefnemers kunnen vertellen dat verschillen in delta T tussen aanbieders slechts voor 5% zijn terug te voeren op verschillen in behandelaars. En dat die a priori irrelevante 5% in de enorme ruis van meetfout, patiënt-factoren en populatie achtergrond sociaaleconomische gezondheidsverschillen, niet uit de data is te destilleren. Met andere woorden: vroeger of later gaat uitkomen (als het echt niet langer ontkend kan worden en men de feiten echt onder ogen moet gaan zien) dat er sinds 2011 ongeveer 200 miljoen euro is weggegooid. En wie gaat daar verantwoordelijkheid voor nemen? Transparantie? Zinvol? Zuinig? Goede planning & control? Goed management? Ik weet het niet. Hoor graag van Ernst, Menzis en VWS waar ik verkeerd zit. Dank. Jim van Os, hoogleraar psychiatrische epidemiologie en publieke GGZ, lid KNAW (dat vermeld ik vanwege de wetenschappelijke credentials).

Harold van Garderen

14 september 2018

Het mooi is dat jullie alledrie gelijk hebben. De houding, de zoektocht en de manier van “meten” moeten bij elkaar passen. Dat was het eerste wat wij leerden bij chemie: vertrouw nooit op je meetinstrumenten tenzij je ze zelf gebouwd hebt. Dan weet je hoe onbetrouwbaar het ding is. Die kritische houding mist in Nederland vaak. Dat moet anders.

@GGZopmaat

14 september 2018

‘Wij zien het meer als een organisch zoekproces; hoe kunnen we dingen vinden die van waarde zijn voor patiënten en die inzetten om de behandelrelatie te optimaliseren en zo toegevoegde waarde te leveren. Als je dat goed doet, kan het professionele handelingsruimte vergroten en ervoor zorgen dat er meer tijd en aandacht komt voor de dingen die er toe doen.’ schrijft bedrijfseconoom Ernst Klunder.
Bedoelt hij hiermee dat de GGZ-aanbieder vanuit een professionele nabijheid zich meer kan richten op de hulpvraag van de patiënt? Kan dat gemeten worden met een ROM?
Voor de vrijgevestigde psychologen in de eerste lijn is dit al lang geen zoekproces meer. Zij behandelen al tientallen jaren cliënten met lichte en matige angsten en depressies. Dat doen zij sneller, beter en goedkoper dan de collega’s in de Gespecialiseerde GGZ die nu een peperduur ‘organisch zoekproces’ moeten volgen binnen een GGZ-cultuur die gericht is op standaardisatie en etikettering. Dat zal ze niet lukken… never, nooit, niet!

Frank Conijn — www.gezondezorg.org

14 september 2018

@Jim van Os — Ik vraag me af of u het over hetzelfde heeft. Het Menzis/Volante-experiment meet de klachtenafname (ik neem aan middels een van de grondig gevalideerde depressiemeetinstrumenten die in het wetenschappelijke effectonderzoek al jarenlang gebruikt worden, zonder dat daar iemand ooit bezwaar tegen gemaakt heeft) en de cliënttevredenheid. Is dat hetzelfde als de delta T van de Stichting Benchmark GGZ? Het zou me verbazen.

Jan Alberts

14 september 2018

Het was tenenkrommend maar is onderhand zelfs pijnlijk om te zien hoe de believers de statistische fundamenten die een betrouwbare vergelijking moet ondersteunen keihard negeren. Om vervolgens onzin te gaan bedrijven in de veronderstelling dat ze 'wat meten'.

Jim van Os

14 september 2018

Beste Frank Conijn, in antwoord op uw vraag: dat is precies waar ik het over heb en ja, het zou u en een heleboel andere mensen blijkbaar verbazen, maar een heleboel andere mensen ook weer niet. Onder andere de Algemene Rekenkamer, die in 2017 concludeerde dat de methode met "grondig gevalideerde" instrumenten van SBG (de woorden "wetenschappelijk gevalideerd" worden links en rechts neergezet in deze discussie zonder dat men toelicht wat men daarmee bedoelt en of het wel passend is in deze context) data oplevert die voor het doeleinde van benchmarken en/of inkopen onvolledig, onbetrouwbaar en onvergelijkbaar zijn. Ik besef dat uw verbazing waarschijnlijk oprecht is, maar aan de andere kant illustratief voor de stand van zaken bij verzekeraars, bestuurders en politici: geen besef dat het ROM-GGZ project misschien een reflectie is van de spreekwoordelijke kleren van de keizer. Mijns inziens is het tijd om de ogen te openen en beter vroeger dan later. Ik en mijn collega's vragen al jaren of we de SBG data kunnen onderzoeken op validiteit voor gebruik bij bijvoorbeeld "resultaat"bekostiging, maar worden al even zo lang met allerlei onheuse argumenten op een afstand gehouden. In de huidige tijd van Open Science is dit niet te verdedigen en worden gangbare waarden in de wetenschap met de voeten getreden. Als zelfs het ministerie van VWS, waar zeer verstandige mensen het rapport van de Algemene Rekenkamer hebben gelezen en de wetenschappelijke en statistische argumenten zouden moeten kunnen begrijpen, Menzis enthousiast steunt in iets wat inherent niet kan, kan men niet helpen zich af te vragen of rationele argumenten überhaupt nog welkom zijn in het verlangen om de markt maar zijn werk te laten doen, one way or the other - blijkbaar.

Frank Conijn — www.gezondezorg.org

15 september 2018

@Jim van Os — Zoals ik uw betogen op deze pagina lees verdedigt u drie stellingen:
A. Het effect van een behandeling in de GGZ is niet te meten.
B. De meet- en dataverwerkingsmethodiek á la de Stichting Benchmark GGZ (SBG) is dezelfde als in het Menzis/Volante-experiment.
C. Het verschil in effectiviteit tussen de verschillende GGZ-behandelaars is niet groter dan 5%.

Dat mag u uiteraard, maar het zijn wel drie verschillende zaken, waar een duidelijk onderscheid tussen gemaakt moet worden. Ik loop ze daarom alle drie afzonderlijk langs.

A. Het effect van een behandeling in de GGZ is niet te meten.
FC: Ik zou niet weten waarom niet. Er zijn wel degelijk grondig gevalideerde depressiemeetinstrumenten. Bijvoorbeeld de volgens mij meest gebruikte, de Beck Depression Inventory II, bleek in een review (van reviews) goed tot zeer goed te hebben gescoord in de validatiestudies (1).

In de klinische praktijk moet daarbij wel gecorrigeerd worden voor confounders, want i.t.t. in de wetenschappelijke setting wordt daarin niet gerandomizeerd.

Ik zou, als ik zelf GGZ-behandelaar zou zijn, willen dat op zijn minst gecorrigeerd wordt voor:
* leeftijd;
* geslacht;
* arbeidsstatus (werk/werkloos/langdurig werkloos/vrijwillig werkloos);
* opleidingsniveau;
* beheersing van het Nederlands of Engels door de cliënt (kunnen communiceren met de behandelaar);
* de mate waarin de cultuur en waarden & normen van de patiënt overeen met de algemeen Nederlandse (= etnisch-culturele verschillen);
* alcoholgebruik;
* drugsgebruik.

Maar dat is heel goed mogelijk. En het (niet corrigeren voor het) derde en vierde punt waren de hoofdbezwaren van de Algemene Rekenkamer (AR) tegen de SBG-methodiek (2).

Waarbij opgemerkt dat de AR ook schrijft: "Wij bevelen de minister van VWS aan om veldpartijen aan te moedigen te experimenten met nieuwe contractvormen en de lessen die hieruit volgen te gebruiken bij de verdere ontwikkeling van de bekostiging." Welnu, dat is precies wat Menzis en Volante doen.

B. De meet- en dataverwerkingsmethode á la de methode van de Stichting Benchmark GGZ (SBG) is dezelfde als in het Menzis/Volante-experiment.
FC: Enerzijds zou dat zou me toch verbazen, anderzijds zou dat kunnen.

Waarom me dat toch zou verbazen is dat in de SBG-methodiek verschillende meetinstrumenten door elkaar gebruikt worden. [Dat is een slechte zaak, omdat de T-score-omrekenformule om tot een uniforme schaal te komen niet goed bleek te zijn (3).] Ik ga er vanuit dat in het Menzis/Volante-experiment één meetinstrument gebruikt wordt. (Als dat niet zo is, heeft u een (uitvoerings)punt.)

Waarom het toch zou kunnen, is omdat de AR impliciet schrijft dat in de SBG-methodiek niet gecorrigeerd wordt voor (zaken als) arbeidsstatus en opleidingsniveau. En ik heb nog niets gelezen over dat in het experiment daarvoor wel gecorrigeerd wordt. Maar dat is dus heel mogelijk om te doen. Dus daar zie ik wel een mogelijke fatale uitvoeringsfout, maar geen principieel bezwaar tegen het experiment. Die lijkt u wel te hebben.

C. Het verschil in effectiviteit tussen de verschillende GGZ-behandelaars is niet groter dan 5%.
FC: Als dat zo is, dan zal, met zo nodig de voorgaand beschreven verbeteringen geïmplementeerd, dat toch ook blijken uit het experiment? En dan is zelfs uw wens om de SBG-methodiek te onderzoeken op validiteit toch in vervulling gegaan?

Tot slot wil ik nog even opmerken dat de draak van een data-aanleversysteem dat de SBG — onbegrijpelijkerwijs — heeft ontworpen hier los van staat. Zelfs al begrijp ik wel heel goed dat dat systeem, evenals de bestuurlijk vermogensarme budgettering middels de omzetplafonds, heel veel irritatie en weerstand gewekt hebben bij GGZ-behandelaars.

Het gaat hier om de principiële vraag of uitkomstfinanciering mogelijk en goed is, of niet. Ik denk van wel, op een manier die voor GGZ-behandelaars eerlijk en goed werkbaar is.


Referenties:
1. https://academic.oup.com/occmed/article/66/2/174/2750566
2. https://www.rekenkamer.nl/publicaties/rapporten/2017/01/26/bekostiging-van-de-curatieve-geestelijke-gezondheid
3. De Beurs E, Barendregt M, Flens G, et al. Vooruitgang in de behandeling meten — Een vergelijking van vragenlijsten voor zelfrapportage. Maandblad voor de Geestelijke Volksgezondheid 2012,67:259-264.

Voor mijn achtergrond, zie https://gezondezorg.org/colofon. Ik heb geen enkele verbintenis met Menzis of Volante.

Van den Berg

16 september 2018

Mensen met een persisterend Foramen ovale hebben significant andere serotonine huishouding vóór en na sluiten ervan. De kwaliteit van leven verbetert significant na sluiten ervan. Een veilige methode bestaat hiervoor, zeker vergeleken met veel medicatie in de GGZ( met bijwerkingen als obesitas, QT tijd verlenging diabetes etc). Welke interventiecardioloog is geïnteresseerd in depressie, Adhd , spastische darm etc ????????????# leve specialismen eilanden en Fte’s in de zorgsector . Ceterum censeo Foramen ovale esse occludem..

Jim van Os

16 september 2018

Ik dank de heer Conijn dat hij de moeite neemt om inhoudelijk te reageren. Het is ook niet zonder risico, want uit zijn woorden kan gedestilleerd worden dat hij, overigens met alle respect en nogmaals met dank voor überhaupt inhoudelijk hier op in te gaan, niet begrijpt waar het over gaat.

De discussie gaat immers niet over het aantonen van effect van behandelingen, en of dat al dan niet zou kunnen, maar over het meten van het differentiële effect van behandelaars op dat behandelresultaat – en in hoeverre zo’n differentieel effect uit de delta T van SBG gedestilleerd zou kunnen worden.

Ik leg het Conijn, en naar ik hoop de bestuurders, verzekeraars en VWS-ambtenaren die meelezen, graag nog een keer uit. Mensen die naar de GGZ gaan knappen symptomatisch op – en de delta T zal daar zeker mee correleren, voor zover de aanzienlijke meetfout dat toelaat. Maar hier gaat het niet om – het gaat er om dat Menzis beweert de delta T (of welke gestandaardiseerde uitkomstmaat van welk meetinstrument om welke GGZ-uitkomst dan ook in kaart te brengen – ook dáár gaat het niet om) te kunnen gebruiken om aan te tonen dat sommige behandelaars ‘beter’ zijn dan anderen. Op dat gegeven wil Menzis een resultaatvergoeding toepassen.

Alleen hoe dat statistisch zou moeten is onduidelijk, want we weten uit de literatuur dat verschillen in symptoomuitkomsten maar voor een miniem gedeelte zijn terug te voeren op verschillen tussen behandelaars (1). Dat is ook logisch, want in de Nederlandse GGZ passen mensen met een opleiding van 4 tot 8 jaar lege artis evidence-based behandelingen toe. Mensen knappen daar dan ook van op. Met andere woorden: de belangrijkste factor die het korte termijn beloop (want over het lange termijn beloop hebben we het niet, dat is een heel ander verhaal, waar ROM nog minder relevant is) van psychische klachten in de GGZ beïnvloedt is…..het ondergaan van een lege artis behandeling. Het ligt in de GGZ helemaal niet voor de hand dat de ene hoogopgeleide behandelaar eenzelfde evidence-based behandeling systematisch effectiever uitvoert dan een ander – waar het om gaat is dat er een “klik” is tussen een bepaalde behandelaar en een bepaalde patiënt, want om de behandeling te laten slagen is een relatie tussen de twee nodig. Die klik is niet te voorspellen, en behandelaars zien in de praktijk een mix van mensen met wie het meer of minder klikt.

Dit is dan ook de reden dat verschillen in delta T tussen aanbieders maar in zeer geringe mate zijn terug te voeren op verschillen tussen behandelaars. Waar ze wel op terug te voeren zijn, weten we uit onderzoek (1), zijn patiëntfactoren, ziektefactoren, sociaal-economische regionale factoren, een zeer aanzienlijke meetfout, toeval, tijd en vooral: onbekende factoren.

Conijn stelt voor een hele reeks aan confounders mee te nemen in de mix maar vergeet dat het op het niveau van verzamelen van ROM-data onmogelijk is om betrouwbaar dit soort factoren mee te nemen. Wie gaat al die factoren betrouwbaar verzamelen? In de praktijk heeft SBG, met een beetje geluk, leeftijd, geslacht en postcode als een proxy voor SES. Volstrekt ontoereikend. Het is in de praktijk dan ook niet mogelijk om adequate case-mix correcties toe te passen met als gevolg dat verschillen in uitkomsten allereerst moeten worden geduid als verschillen in ongemeten sociaal-economische gezondheidsfactoren tussen patiënten, want daarvan weten we uit de literatuur dat ze meer bijdragen aan de verschillen in delta T dan verschillen tussen uniform hoog opgeleide behandelaars die lege artis evidence-based behandelingen toepassen (2).

En hier ligt het probleem: de verschillen in delta T scores (of, nogmaals, welke gestandaardiseerde uitkomstmaat van welk meetinstrument om welke GGZ-uitkomst dan ook in kaart te brengen) zijn statistisch niet betrouwbaar terug te voeren op geringe en irrelevante verschillen tussen behandelaars, maar zijn eerder een vertaling van sociaal-economische gezondheidsverschillen tussen patiënten en regio's, ziektefactoren en allerlei ongemeten en onbekende factoren. En een resultaatvergoeding toepassen op basis van patiëntfactoren of onbekende factoren wil echt niemand.

Ik zeg het maar snel weer: wij willen niet alleen afkraken. Want er is een alternatief dat voorziet in een valide kwaliteitskader voor de GGZ op basis van een population mental health managementsysteem dat gebruik maakt van bestaande data en voorziet in een rechtvaardige verdeling van publieke middelen volgens het public health principe van (i) zo goed mogelijke zorg voor zoveel mogelijk mensen en (ii) goede afstemming tussen intensiteit van zorgbehoefte en intensiteit van zorgconsumptie (3). Dit systeem wordt momenteel gepilot in de gemeente Nieuwegein samen met alle GGZ-aanbieders, huisartsen en de gemeente. Wij nodigen verzekeraars, VWS en andere partijen uit om de geringe investering die nodig is om dit landelijk te valideren en uit te rollen, mogelijk te maken. Dan kunnen we dit hele gedoe achter ons laten en gaan sturen op resultaat en kostenbeheersing.

Oh ja – en wij hebben geen financiële belangen. De population mental health managementproducten die wij ontwikkelen aan de universiteit stellen wij gratis ter beschikking.

Referenties
1. van Os J, Guloksuz S, Vijn TW, Hafkenscheid A, Delespaul P. The diagnosis-evidence-based group-level symptom-reduction model as the organizing principle for mental health care: time for change? World Psychiatry. 2018;in press.
2. Braithwaite RS. Risk Adjustment for Quality Measures Is Neither Binary nor Mandatory. JAMA. 2018;319(20):2077-8.
3. Van Os J, Delespaul P. Een Valide Kwaliteitskader Voor De GGZ: Van Benchmark-ROM Aan De Achterkant Naar Regionale Regie en Co-creatie Aan De Voorkant. Tijdschrift voor Psychiatrie. 2018;60:96-104.

Patient

16 september 2018

Frank Conijn: die gevalideerde meetinstrumenten meten dat naar mijn mening in de context van wetenschappelijk onderzoek, bij mensen die daarmee hebben ingestemd.

Je geeft aan oa te willen corrigeren voor alcohol- en drugsgebruik.
Maar daar zit al wel een groot probleem. Voor zover ik weet is lang niet iedereen er zomaar aan toe om gebruik betrouwbaar aan te geven of bespreekbaar te maken, zeker niet in de context van eerste, lichte behandeling. Dus hoe ga je betrouwbare cijfers krijgen op een manier die de patient en de behandelrelatie niet schaadt?

(Je kunt natuurlijk extra druk leggen op de patient om daarover niet te liegen, en dan weet je dat er een aantal mensen weg zullen gaan omdat ze zich daar niet veilig bij voelen. Goed voor de statistieken, maar slecht voor de mensen die dan weer in hun eentje moeten worstelen.)

Frank Conijn — www.gezondezorg.org

17 september 2018

@Jim van Os — Dat ik het niet zou begrijpen komt mede doordat ik nogal eens moeite heb om uw betogen te doorgronden; iets meer 'to the point' zou ik prettig vinden. Maar volgens mij valt het met dat begrijpen wel mee, want ik lees uw laatste betoog als een uitvoerige verdediging van de stelling dat het verschil in effectiviteit tussen de verschillende GGZ-behandelaars niet groter is dan 5%. Zoals ik samenvattend al eerder stelde.

Ik me graag laten overtuigen daarvan, maar dan moet het wetenschappelijke bewijs wel sterk zijn. Daarvoor moeten er volgens de Cochrane-normen minstens twee hoogkwalitatieve RCT's zijn gedaan. Dus met een onderzoeksopzet dat een grote groep patiënten gerandomizeerd wordt toegewezen aan diverse behandelaars. Net als dat twee of meer medicijnen met elkaar vergeleken worden.

Ik zal niet het uiterste van u vragen, dus één RCT volstaat voor nu, maar ben wel benieuwd of uw eigen artikel waar u naar verwijst (ref. nr. 1) zo'n RCT is? En als het dat is, heb ik nog belangrijk punt, maar voor de overzichtelijkheid van deze discussie wacht ik eerst even het antwoord op deze vraag af.

@Patient — Op zich valide punten. En punten waar ik deels wel antwoord op heb (ik behandel het punt van alcohol- en drugsgebruik als confounders op mijn site), maar ook weer vanwege de overzichtelijkheid van deze discussie en het veel grotere gewicht van het bovenstaande punt moet ik ze voor nu even parkeren.

Jim van Os

17 september 2018

Dank voor de verdere reactie. Dat vijf procent van de variatie in het behandeleffect kan worden toegeschreven aan verschillen tussen behandelaars is niet een behandelvraag die je in een RCT kunt toetsen. Maar het is wel een grootheid die je in een secundaire analyse van trialdata kunt berekenen - en dat is dan ook vaak gedaan. Sterker, er bestaat een uitgebreide literatuur over onder de noemer "Decomposing Treatment Effect Variation". Een recent artikel bijvoorbeeld is hier te vinden: https://bit.ly/2xsSQei.

Het probleem is dus dat dingen die heel gewoon en breed bekend zijn bij de ene groep, totaal onbekend zijn bij de andere. En als je iets zeer complex als resultaatvergoeding wil opzetten en je betrekt daar niet de mensen bij die verstand hebben van cruciale aspecten die zoiets kunnen maken of breken, het mislukt.

En dat is dus gebeurd bij de poging tot resultaatvergoeding in de GGZ.

Frank Conijn — www.gezondezorg.org

17 september 2018

@Jim van Os — Deze reactie is een'long read' omdat ik veel punten heb. Ik heb die punten toch zoveel mogelijk 'to the point' proberen te houden.

De variatie in behandelaarsgebonden effectiviteit kun je niet met een RCT onderzoeken, maar is wel een grootheid die je in een secundaire analyse van de data van een RCT kunt berekenen? Dat klinkt zó onlogisch dat ik u graag de gelegenheid geef om die stelling te herzien. Zo niet, dan schrik ik er van dat u hem poneert. Want het enige dat volgens Bartjens nodig is, is om de secundaire analyse de primaire te maken.

Ik heb de samenvatting van het artikel waar u naar linkt gelezen, maar het lijkt mij alleen maar een voorstel voor een iets andere statistische manier van trialdataverwerking. In de samenvatting wordt geen enkele melding gemaakt van dat slechts 5% van de behandeluitkomstvariatie is toe te schrijven aan de behandelaar.

En ik heb gezocht in PubMed op "Decomposing Treatment Effect Variation", met en zonder aanhalingstekens, maar krijg daarmee maar vijf andere artikelen. Die geen van allen de 5%-stelling zelfs maar noemen.

Het door u gelinkte artikel zet in principe wel vraagtekens bij de gebruikswaarde van RCT's. En ik geloof zelfs dat de punten van de auteurs valide zijn. Maar niet wegend. Anders gezegd: ze hebben op zich gelijk, maar in de praktijk maakt het voor de betere RCT's weinig uit.

In de betere RCT's namelijk, worden de bekende confounders toch nog gemeten (ondanks de randomisatie), en waar nodig wordt ervoor gecorrigeerd. (En om voor 'non-compliance' te corrigeren bestaat al heel lang een analysetechniek: de 'per-protocol analysis' versus de 'intention-to-treat analysis'.)

Naar mijn mening heeft u dus niet aan de 'burden of proof' voldaan t.a.v. de 5%-stelling.

T.a.v. uitkomstfinanciering en VBHC in hun algemeenheid zou ik nog het volgende willen zeggen. Er dient daarvoor — ook — aan de volgende twee voorwaarden voldaan te worden:

1. Des te groter de variatie in het natuurlijke verloop van een aandoening, des te groter de gemonitorde patiëntengroep moet zijn voordat er conclusies mogen worden verbonden aan de uitkomstdata. Zo zou het heel goed kunnen zijn dat t.a.v. van bijv. multiple sclerose, met zijn relatief lage prevalentie en regelmatig sterk wisselende natuurlijke verloop, er nooit genoeg data voorhanden zullen zijn om er conclusies t.a.v. één behandelaar aan te kunnen verbinden. Tegen die tijd is die neuroloog wellicht allang al met pensioen en moet je opnieuw beginnen met zijn/haar opvolger.

2. De vraag of aan de uitkomstdata financiële consequenties zouden moeten worden verbonden zou ook moeten afhangen van de impact van de aandoening plus de (on)omkeerbaarheid van behandelresultaten. Een 5% hogere overlevingskans is wel relevant, 5% meer sessies nodig hebben voor hetzelfde resultaat niet. Zelfs 10% zou ik dan nog niet relevant vinden. 15% zou ik het minimum vinden, en dan nog over langere tijd. En dan nog zou men als zorginkoper altijd eerst met de zorgaanbieder om de tafel moeten.

Ik meld dit om duidelijk te maken dat (ook) voor mij redelijkheid en billijkheid altijd de leidende principes dienen te zijn. Maar ik denk nog steeds dat uitkomstmeting heel nuttig kan zijn.

U schrijft: "En als je iets zeer complex als resultaatvergoeding wil opzetten en je betrekt daar niet de mensen bij die verstand hebben van cruciale aspecten die zoiets kunnen maken of breken, [dan] mislukt [het]." Maar het punt is natuurlijk: wie zijn dat dan, die mensen?

In het Bestuurlijk Akkoord Medisch-Specialistische Zorg 2019-2022, dat is onderschreven door o.a. de Nederlandse Vereniging van Ziekenhuizen (NVZ), de Nederlandse Federatie van Universitair Medische Centra (NFU) en de Federatie Medisch Specialisten (FMS), staat o.a.:

[quote]
Partijen onderschrijven de ambitie dat in 2022 voor ruim 50% van de ziektelast de uitkomsten van zorg die er voor de patiënt toe doen inzichtelijk zijn en deze te gebruiken zijn voor:
i) Het bevorderen en ondersteunen van het lerend vermogen van zorgprofessionals (artsen, verpleegkundigen en verzorgenden) en instellingen door benchmarking.
ii) Het verstrekken van keuze-informatie voor patiënten.
iii) Zorginkoop die aansluit bij de behoeften van de patiënt.
[/quote]

Zouden de NVZ, de NFU en de FMS er alledrie geen verstand van hebben en u wel?

Er zou het nodige mis kunnen zijn in de SBG-methodiek, daar kan ik behalve het data-aanleversysteem maar beperkt over oordelen. Maar dat wil naar mijn mening niet zeggen dat het principe van uitkomstmeting niet nuttig kan zijn.

Frank Conijn — www.gezondezorg.org

17 september 2018

PS: In mijn tweede reactie gaf ik een rijtje confounders waarvoor m.i. gecorrigeerd zou moeten worden in de GGZ. In dat rijtje had pathologie-ernst bij behandelingsaanvang natuurlijk niet mogen ontbreken. Ik maakte de denkfout dat het experiment zich beperkt tot milde depressie, maar daarbinnen kan natuurlijk ook nog de nodige variatie bestaan.

Stephen Leijten

18 september 2018

Frank Conijn, het is echt pijnlijk om deze discussie te volgen. Als je ergens heel weinig van af weet kun je niet maar lukraak blijven schieten. Graag eerst beter beslagen ten ijs komen. Tip: de eerste meta-analyse over therapist effects (waar je niets over kon vinden) dateert van 1991, probeer die eerst maar te vinden (Ik help je: Meta?Analysis of Therapist Effects in Psychotherapy Outcome Studies, eerste auteur Paul-Christoph). Sinds die tijd nog ongeveer 1000 artikelen hierover die je niet kon vinden? Ik denk dat die 5% een overschatting is, overigens. In RCT's kan het therapist effect 5-10% zijn, in de alledaagse GGZ zal dat veel en veel minder zijn. Graag geen reactie op deze mail tot je weet waar je over praat.

Frank Conijn — www.gezondezorg.org

18 september 2018

@Stephen Leijten — Uw verwijzing, te vinden op https://goo.gl/z2Hfyk (niet in PubMed), is een meta-analyse van de factoren die de gevonden effectiviteitsverschillen tussen therapeuten kunnen verklaren: "In a meta-analysis, we examined factors that could account for the differences in therapist efficacy evidenced in psychotherapy outcome studies." Dat is iets heel anders, en de samenvatting meldt niets over dat de onderzochte verschillen maar 5-10% zouden zijn.

Wat me ook zou verbazen, want waarom zou je een meta-analyse gaan doen van zulke kleine verschillen? U stelt dat er daarna nog 1000 artikelen over zijn verschenen, maar kunt geen latere review daarvan refereren? Ik moet die artikelen zelf vinden (zoekzin?) en een review ervan gaan doen?

De NVZ, NFU en FMS onderschrijven de waarde van uitkomstmeting, gaan zelfs al zo ver dat er een koppeling gemaakt wordt met zorginkoop. De curatieve GGZ, althans een aantal mensen daarin, willen daar niet aan meedoen en beroepen zich op wetenschappelijk bewijs dat de interbehandelaarsverschillen verwaarloosbaar klein zijn. Dan ligt de bewijslast bij u. Inclusief behoorlijke verwijzingen naar dat bewijs.

Daarbij schrijft u: "In RCT's kan het therapist effect 5-10% zijn, in de alledaagse GGZ zal dat veel en veel minder zijn." Hoe weet u dat? Het was toch niet te meten?

Verder schrijf u dat u het echt pijnlijk vindt om de discussie te lezen, maar dan heb ik helaas (nog) slecht(er) nieuws voor u. Een systematische review 2012 van de uitkomstbepalende factoren in psychotherapie (https://goo.gl/9vQKYX) vond juist het tegenovergestelde van wat u beweert: "Results: Two consistent positive predictors of symptom change were identified: pre-treatment symptom severity and patient-rated therapeutic alliance."

(Voor een uitleg van het laatste voor de niet-onderlegde lezer: zie https://goo.gl/AwUzBA. Ik vat dat maar even samen als een persoonlijkheid van de behandelaar waar de patiënt zijn/haar problemen aan toevertrouwt.) Het betreft weliswaar een review van 'borderline personality disorder', maar is er reden om aan te nemen dat het bij depressiebehandeling anders zou zijn?

Een orthopeed kan een afstandelijk figuur zijn (dus slechte 'alliance'). Als zijn diagnosestelling en behandeling goed zijn, zal hij nog steeds goede resultaten boeken t.a.v. het pathologieverloop. In de psychotherapie is dat kennelijk niet het geval, en dat zou ook heel logisch zijn.

Tot slot zou het u sieren als u in het vervolg wat minder snel overgaat tot denigrerende uitingen, en mensen hier vousvoyeert.

Stephen Leijten

19 september 2018

Sorry maar dat is echt onzin weer, praten we wel over hetzelfde? Therapist effects worden consistent geschat op 5-10% in de zeer uitgebreide literatuur die hier over aanwezig is. Ik citeer uit Berglar et al, 2013:

Baldwin and Imel (2013) summarized the available empirical evidence from studies on
therapists’ effects to date and concluded that the bulk of the research literature shows that
some therapists are more effective than others. They assume that approximately 5% to 7% of
the outcome variance in therapies might be due to the therapist. Baldwin and Imel consider that a certain difference in therapists’ effects between efficacy studies (5% of the outcome variance) and naturalistic/effectiveness studies (7% of the outcome variance)
may be due to the highly structured therapist activity in randomized controlled trial studies,
which increases the homogeneity of therapists and lessens their individuality, creativity,
and spontaneity. Wampold and Brown (2005) discuss the crucial role of statistical analysis
in fnding a proper average value to assign to the variability attributable to therapists. They
assume that if therapists were treated as random and the appropriate statistical model used,
about 8% of the variability of outcomes could be attributed to them. Compared to the
minor infuence of the treatment concept itself (see role of treatment adherence below),
the personality of the therapist should be considered as a variable of major importance in
psychotherapy. It is assumed that it should be most important that a therapist carries out the
therapeutic approach in a skilful fashion (Shaw et al., 1999).

En... in dirty data als die van SBG, is het gedeelte van de variantie door het therapist effect natuurlijk niet goed te schatten.

Als deze hele discussie ergens voor goed is geweest, is het wel het blootleggen van ignorance.

19 september 2018

@Stephan Leijten: De vraag is natuurlijk ook of in SBG-achtige data het behandelaarseffect überhaupt kan worden vastgesteld. Immers, SBG heeft gegevens op het niveau van de instelling, maar of daaronder nog interpreteerbare niveaus zijn, data-analytisch gezien, van vestiging, afdeling binnen vestiging, zorglijn binnen afdeling en uiteindelijk behandelaar binnen zorglijn is zeer onwaarschijnlijk. In ieder geval is in de SBG dataset NIET aanwezig een variabele die de behandelaar identificeert aan wie de delta-T kan worden toegeschreven. Het beste wat dus in een multilevel model kan worden becijferd is het random effect van instelling of misschien vestiging binnen de instelling. Maar wat je daarmee doet is het behandelaarseffect middelen over een veel grotere eenheid waar misschien honderden behandelaars werken. Een resultaatvergoeding wordt daarmee onmogelijk omdat er geen niveau is waaraan je het resultaat kan toeschrijven in het model.

Stephen Leijten

19 september 2018

Ja eens - ik begrijp nu waarom SBG de data verborgen houdt...

Jim van Os

19 september 2018

@Stephen en @Anoniem: Het klopt inderdaad dat het random effect van behandelaar niet geschat kan worden omdat de behandelaar niet bekend is (dit zou alleen kunnen met BSN van behandelaar, en dat gaat zelfs zorgverzekeraars te ver).

Wat dus geschat kan worden is het random effect van instelling, maar dit is geen stabiele variabele, gezien het feit dat er reglematig fusies en defusies zijn. Met andere woorden: het beste wat men kan schatten is of er verschillen zijn in delta-T tussen Arkin, Parnassia, GGZE en Lentis die op meer berusten dan
toeval.

Maar zo er een random instellingseffect te vinden is (ik betwijfel het want in zo'n vergelijking tussen mega-instellingen wordt alle verschil op microniveau weggemiddeld) blijft dit natuurlijk totaal oninterpreteerbaar vanwege ongemeten en onbekende factoren.

Vraag is of VWS en verzekeraars hiervan wakker liggen - een cynicus zou kunnen denken dat ze gewoon een getal willen hebben om kostenbeheersing toe te kunnen passen, en dat het hun niet uitmaakt of zo'n getal überhaupt iets zegt.

Aan ons dus om dit uit te leggen aan onafhankelijke mensen die werken in de zorg en onafhankelijke gebruikers van de zorg, want die hebben een heel ander belang: echte kwaliteitsinstrumenten.

Frank Conijn — www.gezondezorg.org

20 september 2018

@Stephen Leijten — Ik lees maar weer even over de premature, hatelijke conclusies heen. Ja, qua principes hebben we het over hetzelfde. Waarom niet? Qua cijfers hebben we het wellicht niet over hetzelfde. Maar dhr. Van Os en u stellen dat is aangetoond dat het verschil in therapeut maar 5-10% uitmaakt.

Dat blijkt nu echter slechts gebaseerd op 'empirical evidence'; uw quote stelt dat zelf (zie ook verder t.a.v. Baldwin en Imel). Terwijl voor het afschrijven van het hele principe van uitkomstgebaseerd kwaliteits- of kosteneffectiviteitsmanagement veel méér nodig is: sterk wetenschappelijk bewijs. Dat, ik stelde het al eerder, volgens de Cochrane-criteria moet bestaan uit twee hoogkwalitatieve RCT's met vergelijkbare resultaten, zonder dat zo'n zelfde RCT op het tegendeel uitkwam. Aan die bewijslast is bij lange na niet voldaan.

Wellicht moeten zulke RCT's maar eens opgezet worden. En wellicht moet het Menzis/Volante-experiment omgezet worden in zo'n RCT.

@Jim van Os — Dat het niet mogelijk is om een verschil in (kosten)effectiviteit toe te schrijven aan individuele therapeuten als die niet zijn geïdentificeerd zijn is een wagenwijd open deur. Die identificatie is natuurlijk essentieel. En wellicht ook nodig, want Imel en Baldwin et al (ja, diezelfde) vonden bij onderzoek nog meer verschillen tussen therapeuten dan alleen 'alliance': "Differences in therapist-level adherence ratings were substantial"; zie https://goo.gl/YrXRJb.

U impliceert dat verschillen tussen instelling(svestigingen) niet gevonden zullen worden omdat de therapeuten die erin werken (met al hun individuele verschillen...) die instelling(svestiging)sverschillen zullen wegmiddelen. Maar dan gaat u voorbij aan methodiekverschillen die er per instelling(svestiging) kunnen zijn. En binnen de beperkte looptijd van een RCT zullen fusies en opsplitsingen te overzien zijn. Bovendien zijn die geen probleem als de gehanteerde methodieken in de instelling(svestiging)en dezelfde blijven.

U schreef in uw derde reactie: "(of) de variatie in het behandeleffect kan worden toegeschreven aan verschillen tussen behandelaars is niet een (...)vraag die je in een RCT kunt toetsen." Ik meen vrij zeker te weten van wel.

Er is echter een objectieve en zeer kundige scheidsrechter in deze: de wetenschappelijke afdeling van de Vereniging voor Epidemiologie. Ik stel voor dat we die de volgende vraag voorleggen: "Kun je de interbehandelaarseffectiviteit en de interinstellings(vestigings)effectiviteit onderzoeken middels RCT's?"

Wat vindt u daarvan?

Gerard Vos

21 september 2018

@S. Leijten en @J. van Os: SBG heeft inderdaad alleen de AGB-code van de instelling, staat op hun website. Ik als consument ben gewoon op zoek naar een fijne therapeut, maar kan in de praktijk slechts kiezen uit de 'delta-T' van Lentis of GGNet. Dat is natuurlijk helemaal geen keuze, zoals u terecht stelt, zeker als ik weet dat enig verschil in delta-T meer te maken heeft met verschillen tussen de patiënten die bij Lentis en GGNet komen dan verschillen tussen behandelaars die bij Lentis en GGNet werken. Het is m.i. te triest voor woorden dat hier 30 miljoen per jaar aan wordt uitgegeven.

Patient

21 september 2018

@Frank Conijn, ik heb geprobeerd te vinden wat er op uw site staat over de moeilijkheden van het zowel betrouwbaar als niet-invasief meten van alcohol of drugsgebruik. Maar ik kan niet vinden waar er op het probleem wordt ingegaan?

Jim van Os

21 september 2018

@Gerard: mooi gesteld, mag ik die frase gebruiken?

Gerard Vos

22 september 2018

Graag, ik merk de stem van de kritische patiënt compleet wordt genegeerd in het SBG verhaal.

Frank Conijn — www.gezondezorg.org

23 september 2018

@Jim van Os — Er staat nog een vraag aan u open, gesteld in mijn reactie direct boven de eerste van Gerard Vos.

@Patient — Zie https://gezondezorg.org/ziektelastmeting.php#ontbrekend > Ad 2. Dat betreft weliswaar een ander instrument (en er komt een aparte versie voor de GGZ aan i.v.m. de buikomvang- en rokenvragen), maar het principe van het alcohol- en drugsgebruik is ook (of beter gezegd: juist) van toepassing op de curatieve GGZ.

Top